News Top500 November 2024: El Capitan führt die US-Flotte mit 1,7 ExaFLOPS an

MichaG

Redakteur
Teammitglied
Registriert
Juli 2010
Beiträge
13.383
  • Gefällt mir
Reaktionen: flo.murr, TechFA, zhompster und 11 andere
Das mit dem Anteil der GPU-Beschleunigern hätte man doch auch positiver für AMD rumbringen können: Gleich 5 der Top10 sind mit AMD GPUs bestückt, nur 3x nVidia ;-)
 
  • Gefällt mir
Reaktionen: flo.murr, Col. Jessep, TechFA und eine weitere Person
Wenn ich den Artikel richtig lese, sind in den Top 500 keine neuen Systeme aus China mehr neu gelistet. Das verringert natürlich die Aussagekraft um einiges.
 
Russland ist auch nicht gelistet. Ich gehe schwer davon aus, dass auch dort einige Supercomputer rumstehen.
 
  • Gefällt mir
Reaktionen: Icke-ffm, TechFA und Simzone4
Wieviele High End Desktop PCs (meinetwegen alle mit einem AMD Ryzen 9 9950x) wären nötig um an die Rechenleistung des EL Capitan Supercomputers zu kommen?
 
  • Gefällt mir
Reaktionen: flo.murr
estros schrieb:
Wenn ich den Artikel richtig lese, sind in den Top 500 keine neuen Systeme aus China mehr neu gelistet. Das verringert natürlich die Aussagekraft um einiges.
Also die gleiche Situation wie schon seit 3 oder 4 Jahren.

China hat mit den Exportbeschränkungen klar aufgehört sich zu exponieren. Die sollten ebenfalls drei Systeme mit >1 Exaflop haben und das mit Eigwnentwicklungen. Das ist schon beeindruckend. Aber ja, die Liste verliert durch diese Politik an Aussagekraft. Aber was will man machen? Die Chinesen dazu zwingen Ergebnisse zu submittieren?

Gullveig schrieb:
Russland ist auch nicht gelistet. Ich gehe schwer davon aus, dass auch dort einige Supercomputer rumstehen.
Ja, die waren im Allgemeinen aber wohl gelistet. Das ist eigentlich schon ne recht interessante Sache. Russland hat durchaus Systeme aber das waren schon immer recht kleine Teile wegen den Exportbeschränkungen. Und im Gegensatz zu China hat Russland nie wirklich erfolgreiche Eigenentwicklungen auf den Weg gebracht.

Das kann man also überhaupt nicht vergleichen.
 
  • Gefällt mir
Reaktionen: flo.murr
INTEL und nVidia müssen mal "Gas" geben, dass sie nicht den Anschluss verpassen tun ... :rolleyes:
 
  • Gefällt mir
Reaktionen: Eller
MichaG schrieb:
Updates für Frontier und Alps

Den zweiten Platz festigt das US-System Frontier mit einem weiteren Ausbau, mit dem die Spitzenleistung von 1.206 auf 1.353 PetaFLOPS gestiegen ist. Intels Aurora bleibt unverändert bei 1.012 PetaFLOPS auf Rang drei. Intels Aurora bleibt unverändert bei 1.012 PetaFLOPS auf Rang drei.
Ich habe da gerade irgendwie VerständnisproblemeBitte helft mir mal hier!

Aurora
kam wie bekannt um buchstäblich Jahre verspätet und wurde unter extremem Zeitpunkt seinerzeit aufgebaut, um hoffentlich die Kenndaten der installierten Leistung doch noch rechtzeitig in die damalige November-Ausgabe der Top500-Wertung 2023 mit einfließen lassen zu können, was damals zeit-technisch schlicht nicht möglich war in einem so kurzem Zeitraum.

Eine vollständige Installation von Aurora ist bis dato im vollen Umfang damals erwiesenermaßen nicht möglich gewesen und man hat seinerzeit stattdessen extrapolierte Leistungsdaten von den bis dato bereits installierten Nodes ausgegeben, um überhaupt gewertet werden zu können. So weit, so schlecht.

Das hat man dann seit November 2023 emsig nachgeholt und durch die Installation der verbleibenden Node-Module die hardware-seitige Fertigstellung der Installation von Aurora mit nahezu Vollausbau der Nodes verkünden können, womit für die Juni-Ausgabe der Top500 der schnellsten Supercomputer ein Leistungssprung der nominalen Leistungsdaten stattfand (initial 585,34 PetaFLOPS zu final 1.012,00 PetaFLOPS Rmax).

@Volker schrieb im Juni in der entsprechenden Meldung (HPE & Intel: Aurora ist wenigstens der schnellste AI-Supercomputer), daß Aurora „weiterhin nur mit unter 90 Prozent der Sollkapazität“ laufe, unter Anderem:
Volker schrieb:
Für Benchmark-Durchläufe standen so nur etwas über 9.200 respektive 9.500 Blades der insgesamt über 10.600 Blades im Supercomputer zur Verfügung, was 87 respektive 89 Prozent der Gesamtleistung entspricht. Damit holt Intel/HPE/Argonne die Krone letztlich nicht, selbst beim Peak-Wert bleibt das Produkt noch unter den beworbenen 2 ExaFLOPs.
Verstehe ich jetzt nicht. Warum?!

Ich mein, wurden die letzten 10% von den damaligen 9200 respektive 9500 Blades bis zur vollen Ausbaustufe mit dann 10600 Blades seit Juni überhaupt gar nicht installiert?
Oder wurden diese installiert und man hat das seitens Intel/Argonne Laboratory bloß nicht kommuniziert?

Wo sind denn jetzt die letzten 10% mit 10.600 Blades hin? – Kann mich mal Wer schlauer machen?
Intel's Aurora müßte doch bei Vollausbau noch um etwa 10% zulegen, hängt aber seit Juni unverändert bei 1.012,00 PetaFLOPS rum. Oder habe ich bei dem Ganzen Brimborium irgendwie was übersehen?

Weil, damals schrieben Sie…
MichaG schrieb:
Da in jedem Node von Aurora 2 CPUs und 6 GPUs stecken, ergeben sich dann zusammengerechnet 872 Kerne pro Node.

Beim Top500-Eintrag werden insgesamt 4.742.808 Kerne angegeben. Umgerechnet würde das 5.439 Nodes entsprechen, was etwas mehr als der Hälfte der von Intel anvisierten 10.624 Nodes im Vollausbau entspricht.

Sofern die Leistung pro Node perfekt skaliert, würden sich bei Vollbestückung dann rund 1.143 PetaFLOPS (Rmax) respektive 2.069 PFLOPS (Rpeak) ergeben, doch ist dies nur eine Schätzung.
Hat die Schätzung damals nicht hingehauen und war zu positiv, oder ist der Rest der Blades gar nicht installiert?
 
TechFA schrieb:
Wo sind denn jetzt die letzten 10% mit 10.600 Blades hin? – Kann mich mal Wer schlauer machen?
Vielleicht wurde kein neuer Lauf gemacht und somit kein neues Ergebnis eingereicht? Kostet immerhin Geld, und viel Gewinnen kann Intel damit auch nicht mehr.
 
  • Gefällt mir
Reaktionen: Skysnake und TechFA
Du meinst, daß Argonne einfach die Idee aufgegeben hat, überhaupt noch die verbleibenden Komponenten für die komplette und initial geplante eigentliche Ausbaustufe von 10.624 Blades installieren zu lassen?

Mhm! Naja, ich sag mal so. Ist wahrscheinlich gar nicht mal so unwahrscheinlich…

Kann sein, daß die da einfach Richtung Intel/HPC/Cray für die ursprünglich geplante vollständige Aurora-Installation dankend und genervt abgewunken haben. Wegen den ständigen Verspätungen und ganzen Intel-Verschiebungen immer und immer wieder, war die Stimmung da zuletzt wirklich gereizt.

Gut möglich, daß Argonne angesichts des horrenden Stromverbrauchs und der grauenhaften elektrischen Effizienz von Aurora einfach den restlichen Ausbau abgesagt hat, weil sie da keinen Sinn mehr drin sehen.

Macht jedenfalls Sinn – Jedenfalls fehlen Aurora jetzt etwa 1.100 Blades und 100 PetaFLOPS an Leistung.


Ich denke mir gerade auch irgendwo, daß die da wohl ziemlich angefressen gewesen sein mußten, als sie AMD's haushoch überlegene Effizienzkurve von Frontier bei noch beeindruckender Leistung gesehen haben.

Bei AMD's Frontier (welcher statt Intel das erste Exascale-System war, weil Intel Aurora jahrelang nicht gebacken bekommen hat), sprechen die Fakten jedenfalls für sich und deutlich für AMD:
Frontier ist schneller und braucht für 1,353 ExaFLOPS gerade mal 24,6 MW – Intel's Aurora verbrennt stattdessen für knapp 300 PetaFLOP weniger Leistung bei 1,012 ExaFLOP fast das doppelte (38,698 MW).

Bei El Capitan jetzt mit AMD's Instinct MI300A ist das Verhältnis sogar noch brutaler:
El Capitan hat 72% mehr Leistung als Aurora, verbraucht dabei aber sogar 9 Megawatt weniger (29,6 MW)!
Ergänzung ()

Cr4y schrieb:
Kostet immerhin Geld, und viel Gewinnen kann Intel damit auch nicht mehr.
Intel hat damit keinen müden Cent gemacht, das Gegenteil ist der Fall. Horrende Kosten und nur Blamagen.

Der Auftrag war ursprünglich nur mit 200 Millionen USD dotiert. Und Intel/Cray haben wegen den ständigen jahrelangen Verzögerungen schon eine Vertragsstrafe von 600 Millionen USD kassiert, wobei Intel es irgendwie schaffte, 'nur' $299 Milllionen Strafe zu kassieren und den Rest Cray Computing auf's Auge zu drücken.

Für Intel war das Ganze Thema Aurora nicht nur eine brutale Blamage schlimmster Couleur, Intel hat auch keinen müden Cent an irgendwas verdient und mußte stattdessen selbst buchstäblich Milliarden für die Entwicklung von Sapphire Rapids und Ponte Vecchio vorschießen – Ponte Vecchio ist dann direkt mit der vertraglich 'erfolgreichen' Aurora-Auslieferung sofort eingestellt worden.

Und damaligen Gerüchten nach zu urteilen (welche sehr wahrscheinlich wahr sind), mußte sich Intel sogar verpflichten, für Aurora ein kostenfreies 'Wartungsfenster' für die nächsten 2 Jahre nach der Installation ab Zeitpunkt der Fertigstellung zu garantieren und die gesamten Unterhalts- & Wartungskosten dieses Megawatt-Ungeheuers zu übernehmen, um nicht gleich die nächste Vertragsstrafe zu kassieren und das Projekt als solches vom Argonne komplett abgeblasen zu bekommen – Wie es ausschaut, ist Intel dem Argonne Laboratory entgegen gekommen, weil sie durften weiter versuchen, Aurora endlich fertig zu stellen.

Die Ironie an der Sache: Das Argonne Laboratory hat dann in der Zwischenzeit (bis zur Fertigstellung von Aurora) ganz offiziell einen Ersatz-Supercomputer als Test-Plattform angeschafft und diesen prominent direkt vor der Nase der Intel-Techniker installiert – Kosten: $500 Millionen USD.

Die entsprechenden Anschaffungskosten wurden aus der $600 Million USD hohen Vertragsstrafe beglichen, welche Intel und Cray wegen den ganzen Vertragsverletzung und Leistungsverzug zahlen mußten, ergo hat diesen Rechner somit unmittelbar Intel und Cray Computing bezahlt bezahlen müssen.

Dieser Ersatz-Supercomputer ist Polaris, auf Basis von AMD' Epyc-CPUs und Nvidia's A100 Tensor-GPUs.
Und ironischerweise wurde Polaris, welcher überhaupt erst im August 2021 als Auftrag vergeben wurde, bereits weit vor Aurora selbst vorzeitig im August 2022 fertiggestellt.

Das ANL war also so kackendreist und hat nicht nur Intel/Cray verdient mit einer horrenden Vertragsstrafe abgestraft (welche den gesamten Auftragswert überschritt und damit Intel mit -$300 Million USD Kosten hat dastehen lassen), sie haben sogar einen zweiten Supercomputer praktisch geschenkt bekommen (Polaris) und danach noch Aurora on top, praktisch für lau.

Argonne: $200 Millionen Auftrag vergeben, $600 Millionen als Strafe 'eingenommen', Polaris im Wert von $500M bekommen (wofür Argonne nix bezahlt hat, weil aus der Strafe beglichen) und im Endeffekt Aurora im Wert von +$500M bekommen, nur um am Ende mit +$300M im Plus dazustehen und als Dankeschön für die nächsten 2 Jahre die Fixkosten für Aurora bezahlt zu bekommen.

ANL hat unterm Strich einen Rechner-Stellplatz für $600M vertickt und dafür zwei Supercomputer gekriegt!


Intel: Hat währenddessen nicht nur gar kein Geld für den Auftrag bekommen, sondern mußte Aurora für Lau übergeben, kostenfrei aufstellen und die Fixkosten für 2 Jahre übernehmen. Von den Entwicklungs- und Herstellungskosten für Sapphire Rapids und Ponte Vecchio ganz zu schweigen.

Gerade Ponte Vecchio war brutal teuer mit den ganzen Samples und die endlose Validierung von SPR und PV hat entliche Milliarden verschlungen – Das waren die Abschreibungen in der GPU-Sparte für ARC.

Für Intel was das alles bloß das nächste Multi-Milliarden schwere Total-Disaster mit fundamentaler (selbstverursachter) Reputationsschädigung, nachdem sie gearde erst das Millairdengrab Optane abgeschossen hatten…
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: peru3232, Col. Jessep, Cr4y und 4 andere
@TechFA super dargestellt, wie das alles lief. Aber ich glaube @Cr4y meinte einfach nur, dass der Rest vielleicht installiert ist, aber einfach kein neuer Testlauf gemacht wurde und kein neues Ergebnis eingereicht wurde.
 
  • Gefällt mir
Reaktionen: TechFA und Cr4y
stefan92x schrieb:
Aber ich glaube @Cr4y meinte einfach nur, dass der Rest vielleicht installiert ist, aber einfach kein neuer Testlauf gemacht wurde und kein neues Ergebnis eingereicht wurde.
Ja genau. Der Benchmark-Lauf bedeutet ja, dass der Betreiber in der Zeit nichts mit dem System machen kann und für den Aufwand will der bestimmt Geld von Intel sehen. Und Intel dürfte wenig Sinn darin sehen, dieses Geld auszugeben: Man wird weder bei der absoluten noch bei der relativen Leistung erster werden. Und die verwendeten Produkte sind so alt (und abgekündigt), die kauft jetzt auch keiner mehr, nur weil man +100irgendwasFlops mehr erreicht hat.
Ist für mich zumindest die schlüssigste Erklärung. Muss aber deswegen nicht wahr sein.
Ergänzung ()

TechFA schrieb:
Danke für die Zusammenfassung. Davon war mir einiges nicht klar. Schon spannend, wie schlecht es bei Intel läuft.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: TechFA
Zurück
Oben