News Green500 Supercomputer: Nvidias GH200 setzt deutschen JEDI auf den Effizienz-Thron

Freiheraus schrieb:
Erstaunlich, dass GraceHopper nicht sonderlich effizient hochskaliert werden kann, dass sind alles relativ langsame Systeme, mit denen Nvidia anführt. Sobald ein (Grace)Hopper unter den ersten Zehn der Top500 wie Apls aus der Schweiz (Platz 6) ist, reicht es nicht mal mehr für die Top10 in den Green500.

Die uralte MI250X kann dagegen schnell/stark hochskaliert und effizient gleichzeitig offenbar deutlich besser.

Diese Schlussfolgerungen geben die Daten aber nicht her.

Alps (Green #14 / Top #6) schafft es nicht in die Top10 richtig, ist halt "nur" auf Rang 14 von 500, und dazu kommt noch Venado(Green #8 / Top #11) - sind doch beides sehr effiziente und hoch skalierte Systeme.

Es gibt generell kein System welches in beiden Listen die Top10 erreichen würde, am nächsten dran ist allerdings Venado mit seinen GH200, die Systeme auf #7/#9 der Green500 mit MI250X sind weit schwächer als Venado.

Einzig Alps wird in Effizienz und Leistung, was diesen speziellen Benchmark angeht, von Frontier und Lumi geschlagen, das reicht wohl kaum für eine Verallgemeinerung.

MichaG schrieb:
Hier kann man die komplette Liste als Excel-Tabelle runterladen
Man kann die ganze Liste auch direkt im Web aufrufen (dafür brauchts auch keinen Login):
https://top500.org/lists/green500/list/2024/06/
https://top500.org/lists/top500/list/2024/06/
Ergänzung ()

JoeDoe2018 schrieb:
Gegenüber den Systemen aus dem Jahr 22 ist die Leistung pro Watt doch gerade mal 10% besser geworden, das haut mich jetzt gerade nicht vom Hocker.
Der Punkt ist halt dass GraceHopper auch nicht mit dem Ziel entwickelt wurde in dem für die Green500 verwendeten Benchmark zu brillieren - bekanntlich haben die aber ein Anwendungsfeld bei dem sie ziemlich überlegen sind und wegen dem sie weggehen wie warme Semmeln.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Haldi
"JEDI"?

Ich: "Hello there!" :D
 
Abudinka schrieb:
Wie lässt sich eigentlich dieser GFLOPS/Watt wert im Privaten einordnen? welche Größenordnung erreichen das (halbwegs) aktuelle PC's
Schwierig, weil Consumersysteme meistens massiv beschnitten sind in ihrer FP64-Leistung.

Wenn wir bei AMD schauen, hat eine MI250X 47.87 TFLOPS FP32, und ebenso viel FP64-Leistung bei 500W TDP, die ist halt maximal optimiert auf diesen Einsatzzweck. Die Workstationkarte W7900 schafft satte 61.32 TFLOPS FP32, aber nur 1.916 TFLOPS FP64 bei 295W TDP - ein Verhältnis von 1:32. Damit ist sie immer noch deutlich schneller als die RTX 4090...

In FP32 rennen PC-Grafikkarten also auch in Sachen Effizienz Kreise um das, was in Supercomputern läuft, aber in FP64 dreht sich das sehr schnell.
 
  • Gefällt mir
Reaktionen: Abudinka
Draco Nobilis schrieb:
Bin gespannt wann der Robotik-Hype los geht. Das wäre die Chance für DE einzusteigen (für Automobil-Hersteller)
Warum warten wir dann darauf statt ihn mit entsprechender Industriepolitik selbst loszutreten? Unser Anteil Menschen im Arbeitsfähigen alter nimmt ab also warum nicht Automatisierung fördern?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Draco Nobilis
MichaG schrieb:
Platz 14, also auch sehr effizient. Hier kann man die komplette Liste als Excel-Tabelle runterladen: https://top500.org/lists/green500/2024/06/
Ahhh... bin vorhin irgendwo an einem Login festgehangen
Danke.

Magellan schrieb:
Man kann die ganze Liste auch direkt im Web aufrufen (dafür brauchts auch keinen Login):
https://top500.org/lists/green500/list/2024/06/
https://top500.org/lists/top500/list/2024/06/
Praktisch.
Aber das sieht man auf den ersten blick nur die simplen Infos, erst wenn man drauf clickt kann man alles nachlesen.


ListRankSystemVendorTotal CoresAccelerator/Co-Processor CoresRmax (PFlop/s)Rpeak (PFlop/s)Power (kW)Energy Efficiency [GFlops/Watts]
06/202471HPE Cray EX254n, NVIDIA Grace 72C 3.1GHz, NVIDIA GH200 Superchip, Slingshot-11HPE81,60052’80015.4722.11240.2964.38
06/20246HPE Cray EX254n, NVIDIA Grace 72C 3.1GHz, NVIDIA GH200 Superchip, Slingshot-11HPE1,305,600844’800270.00353.755,194.0051.98
BTW, auch steht da 72 Cores wobei bei CSCS 64 Cores steht....
Das verwendete System: HPE Cray EX254n gibt da auch kaum weiter auskunft.. Laut nVidia sollten es aber 72 sein.
Serve the Home hat ein Blade mit 8 drin gesehen...
https://www.servethehome.com/8x-nvi...s-arm-in-a-blade-hpe-cray-ex254n-at-gtc-2024/

Wenn man die 1305600-844800 rechnet erhält man 460800 CPU Cores /72 = 6400 Sockets.
Für preAlps wären dass dann 400 Sockets.
 
  • Gefällt mir
Reaktionen: MichaG
Hakubaku schrieb:
Ich hoffe, dass derartige Infrastruktur etwas weiter unter der Erde liegt. Nicht nur um sie im Betrieb gut kühlen zu können, sondern auch, damit diese nicht in einem zukünftigen Konflikt vom Feind ohne großen Aufwand einfach kaputt gebombt werden kann.

Ich denke mal der Standort wurde nach den Kriterien des BSI gewählt:
https://www.bsi.bund.de/dok/RZ-Standortkriterien
 
Icke-ffm schrieb:
richtig das die besser sind sollte nur logisch sein, die MI300 werden das sicher auch.
mal schauen was am Ende wirklich davon überbleibt
Bei den 3 MI300 Systemen in der Top 500 wurde keine Werte zur elektrischen Leistung übermittelt und somit konnte keine Effizinz bestimmt werden. Man plant wohl El Capitan nicht die Show zu stehlen.
 
  • Gefällt mir
Reaktionen: Icke-ffm
AlphaKaninchen schrieb:
Unser Anteil Menschen im Arbeitsfähigen alter nimmt ab also warum nicht Automatisierung fördern?
Weil dadurch Arbeitsplätze für die man kein Studium, Techniker oder Meister (bzw. Bachelor äquivalenten Abschluss im Allgemeinen) braucht wegfallen würden und das in Teilen der Bevölkerung sehr unbeliebt wäre. Teils gibt es ja sogar Regulierungen die aktiv menschliche Arbeitskräfte forcieren.

Zumal man dafür auch a) Geld ausgeben müsste (Religion der schwarzen Null, entgegen der meisten Ökonomen und dem Rest der EU) und b) mittelfristig dafür erstmal Personal von anderen Wirtschaftszweigen abwerben müsste (wo natürlich Lobbyverbände stark gegen sind)
 
  • Gefällt mir
Reaktionen: AlphaKaninchen
Magellan schrieb:
Es gibt generell kein System welches in beiden Listen die Top10 erreichen würde, am nächsten dran ist allerdings Venado mit seinen GH200, die Systeme auf #7/#9 der Green500 mit MI250X sind weit schwächer als Venado.
eben, das hat AMD besser hinbekommen, Frontier war im Nov noch Platz 8 in der Green, und ist auch heute noch Platz 13 besser wie Alps
Magellan schrieb:
Es gibt generell kein System welches in beiden Listen die Top10 erreichen würde, am nächsten dran ist allerdings Venado mit seinen GH200, die Systeme auf #7/#9 der Green500 mit MI250X sind weit schwächer als Venado.
na ich weis nicht Platz 13/1 Frontier vs Venado 8/11 sieht in meinen augen besser aus.

Magellan schrieb:
Der Punkt ist halt dass GraceHopper auch nicht mit dem Ziel entwickelt wurde in dem für die Green500 verwendeten Benchmark zu brillieren
wenn Du damit recht hast ist das ein definitiver Fehler von Nvidia, da die Stromkosten in den letzten 2 Jahren eben ein Kostenfaktor geworden sind, laufende Kosten sind wichtiger wie die anschaffungskosten
 
Icke-ffm schrieb:
eben, das hat AMD besser hinbekommen, Frontier war im Nov noch Platz 8 in der Green, und ist auch heute noch Platz 13 besser wie Alps

Was interessieren denn Platznummern aus alten Listen? Stand jetzt gibt es kein System das in beiden Listen in den Top10 ist, weder von Nvidia, noch von AMD.

Icke-ffm schrieb:
na ich weis nicht Platz 13/1 Frontier vs Venado 8/11 sieht in meinen augen besser aus.

Du kannst doch nicht Platznummern der zwei unterschiedlichen Listen gegeneinander aufrechnen, Frontier ist das stärkste System, Venado ist effizienter alles andere ist willkürliche Kaffeesatzleserei.


Icke-ffm schrieb:
wenn Du damit recht hast ist das ein definitiver Fehler von Nvidia, da die Stromkosten in den letzten 2 Jahren eben ein Kostenfaktor geworden sind, laufende Kosten sind wichtiger wie die anschaffungskosten
Du hast mich falsch verstanden. Bei der Top500/Green500 geht es um die Leistung im Linpack Benchmark in FP64, was für viele wissenschaftliche Anwendungen die relevanteste Operation darstellt - für AI Training sind aktuell aber vor allem FP4 und FP8 relevant, viel einfachere Operationen, davon aber Unmengen.
H100 und B200 spielen ihre Stärken dort erst richtig aus, sie sind dort am effizientesten wo es der Markt verlangt, nicht dort wo es für die Green500 Liste relevant wäre.
 
ETI1120 schrieb:
Bei den 3 MI300 Systemen in der Top 500 wurde keine Werte zur elektrischen Leistung übermittelt und somit konnte keine Effizinz bestimmt werden.
Es sieht ja danach aus, dass das erste Teile der drei Supercomouter sind, die da gerade gebaut werden. Das bedeutet üblicherweise, dass die Infrastruktur des Clusters schon steht (also Kühlung etc), aber nur ein Bruchteil wirklich Rechenleistung liefert. In dem Zustand wäre eine Effizienzberechnung noch wenig aussagekräftig und würde vermutlich relativ miserabel ausgehen, da viel "drumherum" eben auch so schon Strom verbraucht.
Ergänzung ()

Magellan schrieb:
Was interessieren denn Platznummern aus alten Listen? Stand jetzt gibt es kein System das in beiden Listen in den Top10 ist, weder von Nvidia, noch von AMD.
Was halt viel damit zu tun hat, dass wir gerade einen Generationswechsel sehen. Kleine Cluster sind schneller aufzubauen, übernehmen daher auch erstmal die Green500. Das wird sich wieder ändern, wenn sowas wie El Capitan fertig gestellt wird, der dürfte in beiden wieder Top10 sein, so wie Frontier ursprünglich auch.
 
  • Gefällt mir
Reaktionen: Icke-ffm und Magellan
Magellan schrieb:
Du kannst doch nicht Platznummern der zwei unterschiedlichen Listen gegeneinander aufrechnen, Frontier ist das stärkste System, Venado ist effizienter alles andere ist willkürliche Kaffeesatzleserei.
Quatsch Platz2 der Green ist das selbe System wie Venado, nur eben in klein aber ~10Gflops/watt besser ebenso wie Frontier je grösser das system desto ineffizienter wird es, das ist nun mal fakt.
Magellan schrieb:
H100 und B200 spielen ihre Stärken dort erst richtig aus, sie sind dort am effizientesten wo es der Markt verlangt, nicht dort wo es für die Green500 Liste relevant wäre.
Das ist eine Unterstellung, wer sagt das sie dort Effizient sind ? MI250 kann gar kein FP4, MI300 ist noch nicht getestet. klar ist Nvidia in AI die führende kraft, aber gerade dort weil aktuell 99% in der Cloud oder Forschung ist effizient nun mal wichtiger wie die Anschaffungskosten.
stefan92x schrieb:
In dem Zustand wäre eine Effizienzberechnung noch wenig aussagekräftig und würde vermutlich relativ miserabel ausgehen, da viel "drumherum" eben auch so schon Strom verbraucht.
Jaein, ein Teilsystem zu testen ist sicherlich auch ohne grosse Probleme ohne den Rest möglich, so das Strom und Kühlung des gesamt systems von nöten sind, das war es nur bei Urora, da ist aber auch schon das halbe System gelaufen, und das ist auch mit 87% alles andere wie effizient.
vermute vielmehr das die Software einfach noch nicht Optimal ist, da Fehlt AMD eben das ökosystem rund rum, Epyc ird ohl inzwischen gut out of the box Laufen aber MI 250 & 300 sind doch sehr unterschiedlich und wohl auch nur bedingt Kompatibel
 
Icke-ffm schrieb:
Das ist eine Unterstellung, wer sagt das sie dort Effizient sind ?
Na so ziemlich jeder Bericht zu dem Thema, denkst du denn die überschütten Nvidia alle zum Spaß mit Geld um möglichst viele Karten zu bekommen?
Neben der Peak Leistung ist gerade die Effizienz beim AI Training und Betrieb entscheidend da die Unterhaltskosten der entsprechenden Anlagen enorm sind, das sind auch die 2 Kernpunkte die Nvidia selbst bei Blackwell nochmal gegenüber Hopper bewirbt.
 
Icke-ffm schrieb:
Jaein, ein Teilsystem zu testen ist sicherlich auch ohne grosse Probleme ohne den Rest möglich, so das Strom und Kühlung des gesamt systems von nöten sind
Jaein trifft es gut... Wir wissen ja eben auch nicht, wie viel schon läuft oder gerade im Inbetriebnahmevorgang ist, und ich kann mir gut vorstellen, dass man da jetzt für einen Linpack-Lauf auch nicht die sonstigen Arbeiten eingestellt hat, sondern dass das so nebenbei als "Rack-Abnahmetest" gemacht wurde. Es wäre sicher möglich, alle anderen Teile des Systems runterzufahren, aber wofür? Es würde einem keine echte zusätzliche Erkenntnis bringen.
Icke-ffm schrieb:
vermute vielmehr das die Software einfach noch nicht Optimal ist, da Fehlt AMD eben das ökosystem rund rum
Optimal ist es wohl noch nicht, aber doch schon ordentlich. Wir können da das Verhältnis Rmax/Rpeak als Indikator verwenden, wie effizient die Software die Hardware tatsächlich nutzen kann. Da liegen diese MI300A-Systeme alle drei bei einer Angabe von 19,65/32,10=0,61
Frontier liegt bei 1206/1715=0,70
Aurora liegt bei 1012/1980=0,51

Man liegt damit also zwischen dem eigenen Flaggschiff und dem Intel-Flaggschiff.
Icke-ffm schrieb:
Epyc ird ohl inzwischen gut out of the box Laufen aber MI 250 & 300 sind doch sehr unterschiedlich und wohl auch nur bedingt Kompatibel
Also genau genommen ist der Unterschied zwischen MI250 und MI300A ja, dass letztere gar keinen Epyc mehr braucht. Da ist die Angabe in der Top500 Liste auch ein bisschen obskur, da ja eben gar keine extra Epyc-CPU verbaut ist, sondern die MI300A gleichzeitig die CPU und den Beschleuniger enthält. Wahrscheinlich kommen die damit in ihrer Darstellung nicht so richtig klar.
 
Magellan schrieb:
Na so ziemlich jeder Bericht zu dem Thema, denkst du denn die überschütten Nvidia alle zum Spaß mit Geld um möglichst viele Karten zu bekommen?
Das hat aber nicht wirklich was mit Effizienz zu tun, sondern schlicht mit der Leistung, es gibt eben aktuell nichts was nur annähernd die Leistung bringt die für AI benötigt wird.
stefan92x schrieb:
Man liegt damit also zwischen dem eigenen Flaggschiff und dem Intel-Flaggschiff.
gut getroffen, aber Du glaubst nicht wirklich das sich ein Hersteller mit weniger Effizienz wie beim vorgänger begügt ? und Intel gilt es bei den Supercomputern nicht mehr zu schlagen, die sind das schon seit Milan, nun geht es nur darum Intel hinter sich zu lassen und Nvidia zu schlagen.
stefan92x schrieb:
Wahrscheinlich kommen die damit in ihrer Darstellung nicht so richtig klar.
Richtig, und da hat Nvidia eben einen Vorteil GH200 ist in etwa das selbe nur ist es letztendlich nur ein Modernisierter H100 mit Arm CPU. Arm und Epyc sind in Linux bekannt H100 ebenso, nur eben der MI300 noch nicht wirklich
 
Icke-ffm schrieb:
gut getroffen, aber Du glaubst nicht wirklich das sich ein Hersteller mit weniger Effizienz wie beim vorgänger begügt ?
Es geht hierbei ja nicht um Energieeffizienz, sondern darum wie effizient die theoretische Rechenleistung tatsächlich genutzt wird. Es ist also theoretisch durchaus möglich, dass es hier auch wieder Rückschritte gibt, je nach Systemdesign. Tendenziell sind in dieser Kategorie Systeme ohne Beschleuniger übrigens auch besser aufgestellt als Designs mit Beschleuniger (Fugaku z.B. liegt ja bei 0,8). Trotzdem gehe ich auch davon aus, dass man bei El Capitan in dieser Kategorie auf ähnliche Ergebnisse abzielt wie bei Frontier, bzw durch die engere Integration sogar auch besser.

Daher kann man auch nicht so pauschal sagen, dass Intel in dieser Kategorie grundsätzlich "seit Milan geschlagen" wurde. Mare Nostrum z.B. liegt quasi gleichauf mit Frontier in dieser Metrik und nutzt Xeon Platinum 8460Y+ (Sapphire Rapids).
Ergänzung ()

Icke-ffm schrieb:
Richtig, und da hat Nvidia eben einen Vorteil GH200 ist in etwa das selbe nur ist es letztendlich nur ein Modernisierter H100 mit Arm CPU. Arm und Epyc sind in Linux bekannt H100 ebenso, nur eben der MI300 noch nicht wirklich
GH200 hat einen signifikanten Unterschied zur MI300A: Nvidia hat getrennten RAM für CPU und GPU, AMD hat shared Memory.
 
stefan92x schrieb:
Also genau genommen ist der Unterschied zwischen MI250 und MI300A ja, dass letztere gar keinen Epyc mehr braucht. Da ist die Angabe in der Top500 Liste auch ein bisschen obskur, da ja eben gar keine extra Epyc-CPU verbaut ist, sondern die MI300A gleichzeitig die CPU und den Beschleuniger enthält.
Es ist nach wie vor CPU + GPU auch wenn es im selben Sockel sitzt. Irgendwie müssen die CPU und GPU benannt werden. Ob nun Epyc passt oder nicht ist zweitrangig.
 
  • Gefällt mir
Reaktionen: Icke-ffm
Icke-ffm schrieb:
Das hat aber nicht wirklich was mit Effizienz zu tun, sondern schlicht mit der Leistung, es gibt eben aktuell nichts was nur annähernd die Leistung bringt die für AI benötigt wird.
Das ist IMO nicht der entscheidende Punkt. Alle wissen, dass AI mit Nvidia funktioniert.

Die anderen Anbieter müssen sich erst noch beweisen.
 
Zurück
Oben