mgr R.O.G. schrieb:
nullPtr schrieb:
@SV3N Der Artikel sollte klarer unterscheiden. Im ersten Paragraph werden von ExaFLOPS und weiter unten von PetaFLOPS gesprochen. Dabei sind zwei ziemlich verschiedene Größen gemeint: NVidia spricht von FP16-FLOPS. Die Top500 nutzt FP64-FLOPS als Metrik.
@mgr R.O.G. @nullPtr @SV3N
Man sollte das noch genauer spezifizieren, es sind nämlich auch nicht
beliebige FP16 Ops, die NVIDIA hier referenziert!
Bei 14k A100 kommt man Richtung 10 ExaFlops nur mit
TF16, das sind die TensorFloat FP16 Ops und selbst dann auch nur
mit Sparsity, ohne Sparsity wären wir bei der halben Leistung (und die Regel in der Praxis ist eher, dass die Masse an Berechnungen nicht sparse sind).
Außerdem steht im NVIDIA Whitepaper zum A100 ganz klar:
Peak rates are based on GPU Boost Clock
Es müssten in einem Lastszenario also alle 14k A100 parallel boosten und das über einen langen Zeitraum, damit die volle Leistung auch wirklich dauerhaft für KI-Experimente zur Verfügung steht.
Wenngleich die Leistung trotzdem brachial ist, so kann ich zumindest von Volta & Turing aus der Praxis berichten: die tatsächliche Performance liegt bei KI-Experimenten
deutlich unter dem Peak. Das liegt alleine schon daran, dass die Peak-Leistung nur die theoretisch
möglichen Ops misst. In der Praxis hängt das aber natürlich sehr stark an Daten-Input, Netzwerkgeschwindigkeit, konkreter Simulation (gibt es überhaupt genug Ops, die gerade derart parallelisiert werden können?) usw.
Die A100 TensorCores beschleunigen TF16 ja so stark, weil
ein TensorCore 256 FP16 FMA (fused multipy add) Ops pro Takt berechnen kann, was effektiv in einer 8x4x8 MixedPrecision Matrix mündet. Was aber, wenn ein Rechenschritt im KI-Modell >256 FMA Ops benötigt und/oder mehr als 8x4x8. Das passiert in der Praxis durchaus und dann passiert das gleiche wie bei Parallelisierung auf CPUs -> nicht alle TensorCores können 100% ausgelastet werden und manche idle'n auch mal, weil sie auf die Ergebnisse von anderen warten, die mehr als 1 Takt für die Berechnung brauchen.