El Capitan Supercomputer: AMDs Flaggschiff versenkt Intel Aurora mit 44.544 MI300A-APUs

Volker Rißka
25 Kommentare
El Capitan Supercomputer: AMDs Flaggschiff versenkt Intel Aurora mit 44.544 MI300A-APUs
Bild: HPE

Der Supercomputer El Capitan mit AMD Instinct MI300A bietet 72 % mehr Leistung als Intels Aurora, verbraucht dabei aber 9 MW weniger. Daraus ergibt sich ein mehr als doppelt so effizientes System (GFLOPs/Watt), das die insgesamt 11.039.616 „Kerne“ – nur rund eine Millionen davon sind CPU-Cores – hervorbringen.

Aus dem Stand heraus Platz 1

Aus dem Stand heraus an die Spitze ist einmal mehr eine Meisterleistung, die die Partner an diesem Projekt vollbracht haben. Und das auch nahezu im Zeitplan, wie die Beteiligten zum Pressebriefing am Sonntag witzelten. Die größten Hürden waren letztlich nämlich Genehmigungen und nicht die Hardware.

Die Cabinets von HPE mit der bereits oft genutzten Supercomputer-Netzwerk-Lösung HPE Slingshot (Version 11) schon vor einigen Monaten als erste geliefert, das ganze Netzwerk konnte damit bereits eingerichtet werden, bevor die ersten Computer-Nodes (Server mit der Rechenleistung) geliefert wurden. HPE hat zuletzt aber auch einen Lauf: Die komplette Top3 der Supercomputer wird von diesem Hersteller in ganz ähnlicher Konfiguration gestellt.

El Capitan zur Top500-Enthüllung im November 2024
El Capitan zur Top500-Enthüllung im November 2024 (Bild: HPE)

El Capitan hat drei Ableger

Dennoch ist El Capitan einzigartig. Einzigartig heißt aber nicht ganz allein, schließlich sind Platz 10, Platz 20 und Platz 49 der neuen Supercomputer Top500 November 2024 quasi die kleinen Ableger des großen Systems mit baugleicher Hardware, aber nicht ganz so hoch skaliert.

Platz 10 Tuolumne ist zum Beispiel ein offenes System, welches auch für freie Forschung verwendet werden soll, während El Capitan in einigen Monaten hinter verschlossenen Türen verschwinden wird um sich ganz der nuklearen Abschreckung der USA anzunehmen. Denn dafür wurde das System explizit gebaut und im Lawrence Livermore National Laboratory (LLNL) unter Federführung der National Nuclear Security Administration (NNSA) untergebracht.

El Capitan zur Top500-Enthüllung im November 2024 (Bild: HPE)

Rechnenspiele im Millionenstil

11.136 Nodes sind nun im Einsatz, darin wiederum insgesamt 44.544 APUs der Serie AMD Instinct MI300A (Details) verbaut – vier APUs pro Node. Der Takt der CPU-Kerne liegt bei vergleichsweise sehr niedrigen 1,8 GHz.

Von den insgesamt 11.039.616 Kernen, die in der Top500-Liste als Ergebnis gewertet wurden, entfallen 9.988.224 auf die GPUs. Ausgehend von den von AMD spezifizierten 228 CDNA3-CUs pro APU ergeben sich 43.808 aktive APUs im System, die 1.051.392 CPU-Kerne bieten, was wiederum mathematisch mit den GPU-Kernen und der gemeldeten Gesamtzahl exakt aufgeht. Aufsummiert kommt das System ferner auf über 5,4 PetaByte an Hauptspeicher. Eine APU bietet bekanntlich 128 GByte HBM3e, pro Dual-Node-Blade sind es 1.024 GByte – auch das geht bei 43.808 aktiven APUs auf.

Alle Details zu AMD Instinct MI300A und MI300X
HPE-Blades mit AMD Instinct MI300A

Am Ende stehen bei El Capitan 1,742 ExaFLOPs (Rmax) von möglichen 2,746 ExaFLOPS, die als Maximalwert (Rpeak) definiert sind. Das sind immerhin bereits 63 Prozent der Maximalleistung, die ohnehin kaum abgerufen werden kann. Die bisherige Nummer 1 Frontier, ebenfalls mit Hardware von AMD bestückt, kommt auf 66 Prozent seines Maximalwertes, 1,353 ExaFLOPs sind es inzwischen – zum Start im Jahr 2022 waren es 1,1 ExaFLOPS.

Rein von den Spezifikationen her rangiert Frontier nun bei rund 70 Prozent seines rechnerischen Maximalwerts, El Capitan zum Einstand bei rund 62 Prozent. Damit liegen beide weit vor der Nummer 3, Intels Aurora. Dieses bringt es noch immer auf 1,012 ExaFLOPs, als Maximalwert sind 1,98 ExaFLOPs definiert. Die Kluft zwischen maximaler und praktisch nutzbarer Leistung ist bei Intel damit weiterhin deutlich größer. Intels ursprünglicher Plan, einmal wieder den schnellsten Supercomputer der Welt zu stellen, sind ab heute vollends zu den Akten gelegt worden.

El Capitan zur Top500-Enthüllung im November 2024
El Capitan zur Top500-Enthüllung im November 2024 (Bild: HPE)

Nicht nur schnell, sondern auch effizient

Dabei bleibt die Effizienz der AMD-Systeme nicht auf der Strecke, im Gegenteil. Denn punkten kann das System auch mit einer vergleichsweise „geringen“ Leistungsaufnahme von 29,58 Megawatt. Damit verbraucht das System zwar 5 MW mehr als Frontier, leistet dafür aber auch etwas mehr, sodass am Ende der Effizienzwert von GFLOPs/Watt bei 58,89 für El Capitan und 54,98 für Frontier steht. Beide sind damit sehr gut aufgestellt, an die Effizienz der kleineren Instinct-Systeme sowie Grace-Hopper-Lösungen mit jenseits der 60er-Marke kommen sie aber nicht ganz heran. Beide großen AMD-Systeme sind aber mehr als doppelt so effizient wie Intel Aurora. Dieses nutzt 38,69 Megawatt für das rund eine ExaFLOP und kommt so nur auf einen Effizienzwert von 26,15. Der Betreiber erklärt, dass El Capitan am Ende sogar in der Wertung Preis/Performance ziemlich weit oben rangiere, trotz des hohen dreistelligen Millionenbetrags.

Das LLNL plant auch für die Zukunft weiter mit Supercomputern höchster Klasse. Das nächste System wird vermutlich noch einmal eine Exascale-Lösung sein, direkt von Zettascale zu sprechen sei nicht zielführend und liegt wohl noch einfach zu weit weg. Doch auch kleinere Systeme habe man im Blick, diese passen bei vielen Anwendungen einfach besser als ein riesiger Supercomputer.

Jetzt wird weiter optimiert

El Capitan wird in den kommenden Wochen und Monaten weiter optimiert, vermutlich wird dann auch noch ein Linpack-Benchmark erfolgen, der auch in die Top500-Wertung fließen kann. Dieses könnte noch einmal höhere Leistungswerte ausspucken, danach wird das System dann hinter verschlossene Türen gestellt und kommt seinen Aufgaben für die nationale Sicherheit nach.

ComputerBase hat Informationen zu diesem Artikel von HPE und Top500 unter NDA erhalten. Die einzige Vorgabe war der frühestmögliche Veröffentlichungszeitpunkt.