Bericht Nvidia Hopper: H100 treibt KI-Supercomputer im ExaFLOPS-Zeitalter an

konkretor schrieb:
Hier mal noch etwas information am Rande. Wer waren den diese Persönlichkeiten
Nicht zu vergessen Dennis Hopper, hier in Nvidia-Lederjacke. ;-)

dennis-hopper-in-lederjacke.jpg
 
  • Gefällt mir
Reaktionen: Col. Jessep, mkay87, Celinna und eine weitere Person
Recharging schrieb:
Immer wieder und weiterhin verrückt, welche Kracher da nachgeschoben werden.
Technik von vor nicht mal 5 Jahren wirkt einfach schon komplett überholt bei solchen Angaben und noch viel verrückter, in weiteren 5 wird auch Hopper nur noch ein müdes Lächeln sein.

Spannende Zeiten!
naja das ist ja früher viel extremer gewesen, als die Komplexität (Transistormenge) alle 2 Jahre verdoppelt wurde, während seit einigen Jahren solche Steigerungen nicht mehr drin sind. Ok Hopper legt wieder ordentlich einen drauf, aber trotzdem war das früher extremer
 
[Stride]Sodele. Mit NVME hat man z.b so Kisten mit Multiport im Einsatz um HA storage zu bekommen.

http://www.genstor.com/productdetailshgst/51

Mit HDD und SAS hat man eher so was wie das hier mit JBODs

https://wiki.osnexus.com/index.php?title=HA_Cluster_Setup_(JBODs)
Und hier noch zwei nette Bilder die zeigen das man bei PCIe auch noch PCIe Switche dazwischen packen kann, wenn die auch Failover können. Was einigeauch wirklich können


https://www.google.com/amp/s/kknews.cc/digital/oegnkzq.amp

Mit PCIe lassen sich da recht tiefe HA Verbünde mit viel Redundanz basteln wenn man will.

Ich hoffe das reicht für ein grundlegendes Verständnis worum es dabei geht. Alles weitere kann man sich dann im Detail im Netz anschauen.

Wenn man sich so HA Lösungen beschafft, geht es dann aber auch um SLAs, wartbarkeit und vor allem elektrikal Design. Ist durchaus schön passiert, das ein sterbende PSU mehr gekillt halt weil die Sachen keine galvanische Trennung bzw entsprechende Schutzschaltungen hatten.

Daher sind JBODsauch durchaus interessant, weil man dann die Server vom storage einfach per Glasfaser trennen kann. Server gehen doch öfters mal Hops als die JBODs
Ergänzung ()

@nlr das vesprochene Update
[/stride]
Das war wohl der falsche Thread... -_-
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Maggolos und nlr
Danach werden KI Pcs ggf wieder analog ;)
 
  • Gefällt mir
Reaktionen: Onkel Föhn und PHuV
[wege]mini schrieb:
Auch das, habe ich viel zu häufig gesungen. (ich mag eigentlich keine Kunst)
So subversiv, dass fast schon Kunst ist. Oder kann das weg?

Sry, für Offtopic. Aber ob KI das bald auch kann? Mit Hopper oder erst viel später? Dann kann man die Menschheit vielleicht auch abschaffen, wenn schon Computer Kultur schaffen.
 
Der letzten Schritt vor Quantenrechnern?
 
Bin ehrlich gesagt nicht ganz so drin in der Materie, aber kann es schon sein, FP64 "lediglich" 60 TFLOPS hat ?
Alle anderen Ergebnisse halbieren sich bei Verdoppelung.
Und was ist der Unterschied zwischen FP16 und TF32 ?



H100
vs. A100
FP84.000 TFLOPS6x
FP162.000 TFLOPS3x
TF321.000 TFLOPS3x
FP6460 TFLOPS3x

MfG Föhn.
 
Artikel-Update: Im Nachgang der GTC-2022-Keynote hat Nvidia das Whitepaper zur neuen Hopper-Architektur veröffentlicht. Neben tieferen Einblicken in die Architektur liefert es auch die im Vorfeld nicht veröffentlichten Eckdaten des Vollausbaus der GH100-GPU und der ersten zwei am Markt verfügbaren Varianten: Der H100 SXM5 als SXM5-Modul für HPC-Systeme und der H100 PCIe für PCIe-5.0-Steckkarten wie Nvidias H100 CNX.

Die Hopper-GPU GH100 im Vollausbau

Mit 814 mm² ist die Hopper-GPU GH100 kleiner als beide Vorgänger, obwohl sie mit 80 Mrd. Transistoren viermal so viele Transistoren wie GV100 und 48 Prozent mehr Transistoren als GA100 beinhaltet.

[Bilder: Zum Betrachten bitte den Artikel aufrufen.]

Der Chip setzt sich aus 8 GPU Processing Clusters (GPCs) zusammen, die jeweils 9 Texture
Processing Clusters (TPCs) mit jeweils 2 Streaming Multiprocessors (SMs) umfassen. Ein SM von Hopper bietet 128 Cuda-Kerne (FP32) – bei GA100 waren es 64. In Summe kommt der GH100 damit auf 18.432 FP32-Cuda-Kerne, 125 Prozent mehr als GA100. Nur zwei der TPCs sind in der Lage Grafik auszugeben, der Rest ist einzig und allein auf Compute-Tasks ausgelegt.

[Tabelle: Zum Betrachten bitte den Artikel aufrufen.]

Nvidia nutzt auch GH100 nicht voll aus

Wie den GA100 nutzt Nvidia auch den GH100 (vorerst) nicht im Vollausbau. Vom GA100 auf den kommerziell genutzten A100 hatte Nvidia rund 18 Prozent der Ausführungseinheiten deaktiviert. Beim GH100 hängt der Verschnitt vom Produkt ab, auf dem er landet.

H100 SXM5 mit 132 Streaming Multiprocessors

Beim H100 SXM5 für das SXM5-Modul bleiben alle 8 GPCs aktiv, aber es werden über den Chip verteilt 12 von 144 oder 8 Prozent Streaming Multiprocessors deaktiviert. Anlog fällt die Anzahl der Cuda- und Tensor-Kerne. Der H100 SXM5 ist also näher dran am GH100 als es der A100 am GA100 war.

Wie bei Ampere nutzt Nvidia darüber hinaus nur fünf Sechstel der Speichercontroller, denn mit nur fünf von sechs aktiven HBM3-Stacks bleiben zwei der zwölf 512-Bit-Controller inaktiv. Über 5.120 Bit ergeben sich mit HBM3e trotzdem über 3 TB/s Speicherbandbreite. Das Modul wird mit bis zu 700 Watt TDP beworben.

H100 PCIe mit 114 Streaming Multiprocessor

Für den H100 PCIe für PCI-Express-5.0-Steckkarten nutzt Nvidia ein deutlich beschnittenere Ausbaustufe, die mit 14.592 Cuda-Cores und 456 Tensor-Cores ganze 20 Prozent weniger Ausführungseinheiten als GH100 bietet. Nvidia behält es sich dabei vor sowohl einen ganzen GPC als auch lediglich einzelne TPCs oder SMs abzuschalten – je nachdem, wo die Defekte im Chip liegen.

Auch der H100 PCIe nutzt nur zehn 512-Bit-Speichercontroller, verfügt darüber hinaus aber über eine weitere Anpassung gegenüber der maximalen Fähigkeit des GH100: H100 PCIe setzt auf HBM2e statt HBM3, was die maximale Bandbreite am selben Bus von „über 3 TB/s“ auf „über 2 TB/s“ senkt – in diesem Punkt gleicht H100 PCIe der HBM2e-Ausbaustufe des A100 mit 80 GB Speicher. Die TDP der PCIe-Steckkarte beträgt 350 Watt.

[Bilder: Zum Betrachten bitte den Artikel aufrufen.]
 
  • Gefällt mir
Reaktionen: dipity, konkretor, PietVanOwl und eine weitere Person
  • Gefällt mir
Reaktionen: Onkel Föhn
rechenleistung sieht für bestimmte Bereiche sehr gut aus. das ding ist gebaut für KI und andere Workflows in der Richtung. Größte FP Operationen sind nicht so beeindruckend aber hier liefern ja wohl AMD und Intel in zukunft^^
 
Hui, das Bild der SM ist interessant und lässt für Ada sogar eventuell einige Vermutungen zu.

NVIDIA verkleinert die Datenpfade von 64 auf 32 - AMD Ging bei RDNA von 16 auf 32 hoch - und führt dazu auch noch entsprechende Logik mit L0i für jeden Datenpfad ein.

Auch ein Schritt, den AMD gegangen ist. Sollte NVIDIA Hopper als Grundlage nehmen und anpassen für ADA, dann könnte NVIDIA einige Probleme, die Ampere hat lösen.

Na mal abwarten.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Colindo
Dann sollte die RTX 3060 ja bald für 299€ zu bekommen sein (die guten Karten, nicht dieser Single-Fan Abfall). Obwohl mir eine RTX 3050 für 199€ auch ausreichen würde, da ich nicht mehr Power als die einer GTX 1660 Super benötige. 😅
 
Hey, ich finde da muss man sich Effizienzsteigerung schon selbst gut einreden bei 700Watt
 
  • Gefällt mir
Reaktionen: Onkel Föhn und oem111
OR4LIFE schrieb:
Die letzten paar Jahre geht die Entwicklung so extrem schnell! Das ist schon gigantisch :)
Damals zur Zeit von der 8800 gtx zur nächsten gen, waren die Sprünge eher so mäh aber jetzt ist es einfach nur der Wahnsinn!
Gefühlt bekommt man alle zwei Generationen einfach die doppelte Leistung. Jetzt nur noch am stromhunger basteln :)
bis zur 8800 hat man a er nicht nur jede 2. sondern jede Gen eine Verdoppelung gehabt, und der Verbrauch hielt sich in Grenzen
Ergänzung ()

AppZ schrieb:
Effizienz und Leistungsaufnahme haben nichts miteinander zu tun.
Natürlich: Effizienz= Leistung/Leistungsaufnahme
 
  • Gefällt mir
Reaktionen: Onkel Föhn
Was ein Monster ... seit Volta die Transistoren vervierfacht und trotzdem gleich groß o0.
Nun ja bin mal gespannt ob es hier Vergleiche zur MI200 Architektur geben wird. Das würde mich ehrlich gesagt echt interessieren, scheint NVIDIA hier die Tensor Cores in das Rampenlicht zu rücken, während AMD die Vektor Leistung zum Vorgänger mehr als verdoppelt haben will.
Wird bestimmt beides seine Anwendung finden.

Einfach wahnsinn, wieviel Rechenleistung der Menschheit zur Verfügung steht und wie enorm der Bedarf ist.
 
  • Gefällt mir
Reaktionen: Colindo und LamaMitHut
DennisK. schrieb:
Wirklich unglaublich was mittlerweile machbar ist, spannend was mit so viel Rechenleistung bald möglich ist
Wenn ich mir Mal anschaue, was aktuell gemacht wird: Strom und Ressourcen verschwenden für imaginäre Währungen... Dann sehe ich da keine goldige Zukunft
 
  • Gefällt mir
Reaktionen: Onkel Föhn
Recharging schrieb:
Technik von vor nicht mal 5 Jahren wirkt einfach schon komplett überholt bei solchen Angaben und noch viel verrückter, in weiteren 5 wird auch Hopper nur noch ein müdes Lächeln sein.

Spannende Zeiten!
Das war eigentlich schon immer so im Computerzeitalter, früher sogar noch viel extremer.
 
  • Gefällt mir
Reaktionen: Onkel Föhn, Skysnake und Recharging
Zurück
Oben