News El Capitan Supercomputer: AMDs Flaggschiff versenkt Intel Aurora mit 44.544 MI300A-APUs

stefan92x · 18. November 2024

monty.cantsin schrieb:
Schreibt doch nicht so einen Mist. Auf der Liste isses der Schnellste, ja. Tatsächlich aber ein Winzling. Für KI-Training werden in der Privatindustrie ganz andere Dinger installiert.

Die sind aber eben gar nicht unbedingt schneller in solchen Anwendungen. Bei HPC geht es um hohe Präzision, während die für KI-Training nicht wichtig ist. Hier wird FP64-Performance gemessen, Training ist meistens eher FP8 oder ähnlich kleines.

AlphaKaninchen · 18. November 2024

Skysnake schrieb:
Hast du dafür einen Link? Das wäre tatsächlich an mir vorbeigegangen.

https://www.servethehome.com/giagantic-amd-apu-at-sc23-meet-the-amd-mi300a-and-mi300x/

Etwas runterscrollen da ist ein Bild mit 2 MI300A auf einem Board, welches noch zwei Sockel frei hat.

UniqueSpirit · 18. November 2024

Eine wirklich beeindruckende Technologie! Und der Anwendungszweck finde ich im Gegensatz zu anderen Forenteilnehmer hier völlig ok.

Skysnake · 18. November 2024

Skysnake schrieb:
Hast du dafür einen Link? Das wäre tatsächlich an mir vorbeigegangen.

Ich beantworte meine Frage mal selbst.

https://www.amd.com/de/products/accelerators/instinct/mi300/mi300a.html

Ist tatsächlich an mir vorbei gegangen. Wobei ich sagen muss nachdem ich mir das angeschaut habe klingelt es wieder ganz ganz dunkel.

An sich sollte man so doch aber auch 4 Socket CPU Systeme bauen können. Das wäre auch ziemlich nett. Mit 512GB kann man doch einiges anfangen. Auch wenn es nicht viel RAM pro Core wäre.

stefan92x · 18. November 2024

Skysnake schrieb:
An sich sollte man so doch aber auch 4 Socket CPU Systeme bauen können. Das wäre auch ziemlich nett. Mit 512GB kann man doch einiges anfangen. Auch wenn es nicht viel RAM pro Core wäre.

Theoretisch hast du recht, aber die Frage die sich da stellt, ist wie gut sowas dann als Gesamtsystem funktioniert. Das Problem ist dann nämlich eher, wie man Daten zur CPU bekommt. Wenn man sich Zen 4 Epyc anschaut, dann gibt es da bis zu 96 Kerne und bei Dual-Socket Konfigurationen werden dazwischen 3 oder 4 IF-Links genutzt (wobei ein Link einem PCIe x16 Interface entspricht). Da hat eine Single-Socket CPU also 128 Lanes für IO, eine Dual-Socket nur noch 64 oder 80.

Bei MI300A werden 6 IF-Links genutzt (2 zu jeder anderen APU), bleiben nur noch 32 PCIe-Lanes für IO pro APU - bei nur 24 Kernen und integrierter GPU ist das aber auch völlig ausreichend. Das Verhältnis PCIe-Lanes/CPU-Kerne ist da das gleiche wie für die großen Single-Socket-Lösungen und doppelt so gut wie bei Dual-Socket-Lösungen die den maximalen Interconnect nutzen. 4x "MI300C" hätte dann aber eben nur noch 32 PCIe-Lanes für 96 Kerne, und angesichts des kleinen HBM-RAMs würde man dann sicher gerne noch über CXL nachdenken. Das dürfte einfach sehr knapp sein.

monty.cantsin · 18. November 2024

stefan92x schrieb:
Bei HPC geht es um hohe Präzision, während die für KI-Training nicht wichtig ist. Hier wird FP64-Performance gemessen, Training ist meistens eher FP8 oder ähnlich kleines.

Korrekt, aber die derzeit gebauten 100.000-200.000 GPU-Cluster, perspektivisch bis 2027 1.000.000 sind halt ne ganz andere Hausnummer. Da können die öffentlichen Winzdinger nicht mehr mithalten. Es ist ja die gleiche Hardware. Mehr GPUs = mehr Performance.

Weltenspinner · 18. November 2024

WinstonSmith101 schrieb:
Wieviele High End Desktop PCs (meinetwegen alle mit einem AMD Ryzen 9 9950x) wären nötig um an die Rechenleistung des EL Capitan Supercomputers zu kommen?

Um die Rechenleistung des El Capitan Supercomputers mit High-End-Desktop-PCs zu vergleichen, müssen wir einige Berechnungen anstellen.

El Capitan Supercomputer:
- Rechenleistung: 1,742 ExaFLOPS (1,742 * 10^18 FLOPS).
- Anzahl der Kerne: 11.039.616.
AMD Ryzen 9 9950X:
- Rechenleistung: ca. 1,2 TeraFLOPS (1,2 * 10^12 FLOPS) bei FP32.
- Anzahl der Kerne: 16 Kerne, 32 Threads.

Um die Rechenleistung des El Capitan Supercomputers zu erreichen, benötigen wir:

1,742×1018 FLOPS1,2×1012 FLOPS=1.451.666.667\frac{1,742 \times 10^{18} \text{ FLOPS}}{1,2 \times 10^{12} \text{ FLOPS}} = 1.451.666.667
Das bedeutet, dass etwa 1,45 Milliarden AMD Ryzen 9 9950X Prozessoren erforderlich wären, um die Rechenleistung des El Capitan Supercomputers zu erreichen.

So viele werden, glaube ich, gar nicht produziert.

Skysnake · 19. November 2024

stefan92x schrieb:
Theoretisch hast du recht, aber die Frage die sich da stellt, ist wie gut sowas dann als Gesamtsystem funktioniert. Das Problem ist dann nämlich eher, wie man Daten zur CPU bekommt. Wenn man sich Zen 4 Epyc anschaut, dann gibt es da bis zu 96 Kerne und bei Dual-Socket Konfigurationen werden dazwischen 3 oder 4 IF-Links genutzt (wobei ein Link einem PCIe x16 Interface entspricht). Da hat eine Single-Socket CPU also 128 Lanes für IO, eine Dual-Socket nur noch 64 oder 80.

Also grundsätzlich hast du da Recht, allerdings werden klassische HPC CPU only Systeme ohne lokalen Storage betrieben. Du hast also 1x16x für ne IB Karte und dann noch 1x für BMC und dann maximal nochmals 1x für 1G/10G Ethernet und das wars. Die Ethernet Verbindung ist da auch eher ne convenience Funktion um ne einfach Anbindung ins WAN zu haben und das Deployment einfach zu gestalten. PXE Boot über IB geht zwar auch ist aber mehr Aufwand, den man sich im Allgemeinen sparen kann da Ethernet "eh da" ist.

Die wenigen Lanes sind also an sich kein Problem. Jeder CPU nen NIC wäre sogar mehr als man normal hat.

stefan92x schrieb:
Bei MI300A werden 6 IF-Links genutzt (2 zu jeder anderen APU), bleiben nur noch 32 PCIe-Lanes für IO pro APU - bei nur 24 Kernen und integrierter GPU ist das aber auch völlig ausreichend. Das Verhältnis PCIe-Lanes/CPU-Kerne ist da das gleiche wie für die großen Single-Socket-Lösungen und doppelt so gut wie bei Dual-Socket-Lösungen die den maximalen Interconnect nutzen. 4x "MI300C" hätte dann aber eben nur noch 32 PCIe-Lanes für 96 Kerne, und angesichts des kleinen HBM-RAMs würde man dann sicher gerne noch über CXL nachdenken. Das dürfte einfach sehr knapp sein.

Ja CXL wäre durchaus interessant. Mit 32-48 PCIe Lanes hätte man da auch noch genug Platz. 4 NICs wären für CPU only absoluter Overkill.

mae · 19. November 2024

DJMadMax schrieb:
Und alles nur zur Kriegstreiberei

Ich sehe das umgekehrt. Der Kernwaffenteststopp-Vertrag ist das genialste Instrument gegen den Einsatz dieser Waffen, das es gibt. Jetzt, nach fast dreissig Jahren, kann sich keiner sicher sein, dass die Sprengkoepfe wirklich noch so gut funktionieren wie damals, noch nicht einmal die USA, die WIMRE 50 G$/Jahr dafuer aufwenden, die Funktion moeglichst sicherzustellen (und die Supercomputer sind da nur ein Posten in diesem Budget). Andererseits kann sich auch niemand sicher sein, dass sie nicht funktionieren, und daher funktioniert die gegenseitige Abschreckung noch immer. Aber sobald einer versucht, so eine Waffe einzusetzen oder erneut zu testen, und sie funktioniert nicht, steht er unbewaffnet da; also laesst er es doch lieber bleiben, und begnuegt sich mit Drohungen.

Haldi · 19. November 2024

Weltenspinner schrieb:
Das bedeutet, dass etwa 1,45 Milliarden AMD Ryzen 9 9950X Prozessoren erforderlich wären, um die Rechenleistung des El Capitan Supercomputers zu erreichen.

Thats Not how this works!
Die Hauptleistung stammt ja vom GPU teil und nicht von der CPU.
Die 7900xtx hat 1.918 TFLOPS weil sie auf 1:32 limitiert ist und nicht wie Professionellen Karten 1:2 hat, das wären sonst 30.695 TFLOPS.
um die 1.742 Exaflops zu erreichen benötigt man davon also Hardware mässig nur rund 56'700 Einheiten!

Wären das RTX 4090er die nicht auf 1:64 limitiert sind und nur mit 1.29 tflops laufen, hätten die 41.29 TFLOPS und man würde somit nur 42'200 Stück benötigen.

Ähnlich zu den 44'544 verbauten APU's.

P.S sicher das du dich nicht verrechnet hast?
Wenn ich mit 0.6Tflops für fp64 rechne komme ich auf 3Mio Stück der 9950X.

t3chn0 · 19. November 2024

Wenn ich mir das so alles angucke, muss ich wirklich sagen, dass Intel langsam wirklich ein sehr, sehr ernsthaftes Problem hat.

Hätte Intel nicht seinen guten Namen im Enterprise Segment, würde es düster aussehen.

Aus meiner Sicht muss man derzeit in allen Belangen auf AMD setzen.

AMD kann Intel jetzt wirklich Marktanteile abnehmen. Gegen Nvidia haben beide nichts auszurichten. Allerdings ist Nvidia in einem anderen Segment unterwegs.

Heute habe ich noch die Nvidia Präsentation gesehen, wie sie jetzt die AI und ML nutzen, um die Google Quantum Technologie zu verbessern. Wenn man sowas sieht, ist das wirklich brutal was da noch kommt.

Wie soll Intel dagegen anstinken?

Auch die Hyperscaler MÜSSEN auf AMD setzen, da hier der Strom der größte Kostentreiber ist.

Bei den klassischen x86 CPUs, pulverisiert AMD einfach alles derzeit. AMD dürft einen Technologie Vorsprung von ca. 2-3 Jahren haben.

Das ist schon beeindruckend, wenn man bedenkt, wie unfassbar schlecht AMD vor Ryzen war.

Mit ZEN 1 hat der Siegeszug angefangen.

Photon · 19. November 2024

Ich finde es ja höchst interessant, dass die CPU-Kerne bei nur 1,8GHz laufen. Scheint der Sweet Spot für die Effizienz zu sein, wenn es nicht darauf ankommt, möglichst viel Leistung auf einen Die zu packen, wie bei Desktop-CPUs.

Rockstar85 · 19. November 2024

DaBo87 schrieb:
Was für ein geiles Stück Technik für einen diskussionswürdigen Anwendungszweck. Aber hier gehts ja um die Technik und da kann man nur sagen: Wow.

But, can it run Crysis 😄

unspektakulaer · 19. November 2024

Tulol schrieb:
So eine Schande. Was für eine absurde verschwendung von Energie, knowhow und Rohstoffen.

Und nein, es ist nicht besser als sowas in 'echt' zu testen und umzusetzen.

Beides ist absurd denn es dient einzig und allein dem menschlichen Kleingeistertum um sich gegenseitig auf dem einzigen bewohnbaren Planeten den Gar aus zu machen.

Das ist an Stumpfsinnigkeit nicht zu überbieten.

Das sehe ich anders. Jeder technische Fortschritt ist ein Fortschritt.

Auch wenn auch ich hoffe das wir uns endlich mal darauf konzentrieren die Menschheit weiter zu bringen anstatt den unbeliebten Nachbarn maximal zu schädigen.

Aber da ist nicht die entwickelte Technik Schuld sondern Menschen!

Menschen die in überhaupt in Erwägung ziehen so etwas in echt zu testen.
SO ETWAS (Atomtest und entsprechende Simulationen) sind an stumpfsinnigkeit nicht zu überbieten, da bin ich voll bei dir.

Was wäre die Alternative? Keine "Dual-use"-Techniken entwickeln? Dann gebe es Heute weder Feuer, noch Strom, noch Messer und noch so viele andere Dinge.

Nicht die Technik ist das Problem, sondern das was wir aus ihr machen.

*Edit für bessere Verständlichkeit

Ned Flanders · 19. November 2024

Skudrinka schrieb:
Wenn sie jetzt noch GPUs könnten.. 🫣

Eigentlich zeigt die top500 überraschend eindeutig wie gut AMD GPU Beschleuniger kann, bzw wie konkurrenzfähig sie bei Systemen sind, die einem speziellen Einsatzzweck dienen und nicht öffentlich jede Art Code abspielen müssen.

AMD ist halt hauptsächlich beim Software Stack völlig hinterher. Sprich CUDA.

Ganjaware · 19. November 2024

Skudrinka schrieb:
Wenn sie jetzt noch GPUs könnten.. 🫣

https://x.com/TDaytonPM/status/1858575259097506095

"AMD Now Has More Compute On The Top500 Than Nvidia"

TechFA · 19. November 2024

Wirklich brutale Leistungsentfaltung mit so einem massiven Abstand zum Zweitplatzierten, der gar ebenso von AMD und damit aus dem selben Hause kommt. AMD hat sich damit praktisch selbst übertroffen.
Das ist mal ein Ausrufezeichen – AMD kann liefern!

Die Leistungsdaten sind schlicht episch. Gratulation an AMD und HPE für diese einzigartige Selbstkrönung!
Und selbstredend insbesondere allen beteiligten Technikern aller Seiten für die absolute Meisterleistung, das Ganze auch noch im Zeitrahmen abliefern zu können! Achso, ja – Und dem Dem LLNL Gratulation für das neue Spielzeug! Denen ist dann ja mal der Neid für die Kiste mehr als sicher, denk ich mal.

Nach solch einer phänomenalen Mega-Installation leckt sich ja wohl Jeder in der Branche die Finger…

Volker schrieb:
Aus dem Stand heraus Platz 1

Aus dem Stand heraus an die Spitze ist einmal mehr eine Meisterleistung, die die Partner an diesem Projekt vollbracht haben. Und das auch nahezu im Zeitplan, wie die Beteiligten zum Pressebriefing am Sonntag witzelten. Die größten Hürden waren letztlich nämlich Genehmigungen und nicht die Hardware.

Ja, da lief die notwendige professionelle Koordination zwischen AMD, HPE und den Beteiligten am Lawrence Livermore National Laboratory wohl wie am Schnürchen. Hut ab!

Volker schrieb:
Updates für Frontier und Alps

Den zweiten Platz festigt das US-System Frontier mit einem weiteren Ausbau, mit dem die Spitzenleistung von 1.206 auf 1.353 PetaFLOPS gestiegen ist. Intels Aurora bleibt unverändert bei 1.012 PetaFLOPS auf Rang drei.

Nur am Rande, aber doch insbesondere für AMD wirklich mehr als bemerkenswert!

Frontier's Leistungssteigerungen von initial 1.102,00 PetaFLOPS (Juni 2022) über 1.194,00 PetaFLOPS (November 2023) auf dann 1.206,00 PetaFLOPS (Juni 2024) und jetzt sogar 1.353,00 PetaFLOPS haben schon wirklich was von dem immer wieder zitierten und mitlerweile legendärem AMD FineWine™ …

Erinnert schon irgendwie an die sprichwörtliche AMD Radeon HD 7xxx Evergreen-Serie, deren spätere Leistungsentfaltungen durch die stark verbesserten Treiber ReLive/Crimson/Adrenalin und das nachträgliche Carepaket Mantle™ und später Vulkan, mit dem den HD 7xxx-Serie Grafikarten seinerzeit trotz der bereits erheblich langen Zeit im Markt noch zusätzlich lebenszeitverlängernde Infusionen verabreicht wurden.

Das sind jetzt schon nominal +22,78% Mehrleistung der seinerzeit initial projektierten Leistungsfähigkeit!
Mal eben fast ¼ Mehr an Leistung praktisch ‚im Vorbeigehen‘ mitzunehmen, zeigt daß bei AMD in der Vergangenheit oftmals brachliegende Potential zur Optimierung – Es haperte meist an der Software, während die theoretische Leistung der Hardware (die nie wirklich vollends ausgelastet war) dennoch vorhanden war.

Ich bin gespannt, ob El Capitan die selben oder ähnliche Leistungssteigerungen hinbekommt, gerade jetzt, wo der AMD-Zug des effizienten Software-Ökosystems massiv an Fahrt aufnimmt und AMD's Lösungen von den Instituten und der Industrie im Allgemeinen auch tatsächlich angenommen und genutzt werden, statt als Insel-Lösungen verschmäht/ignoriert zu werden.

Volker schrieb:
Jetzt wird weiter optimiert

El Capitan wird in den kommenden Wochen und Monaten weiter optimiert, vermutlich wird dann auch noch ein Linpack-Benchmark erfolgen, der auch in die Top500-Wertung fließen kann. Dieses könnte noch einmal höhere Leistungswerte ausspucken, danach wird das System dann hinter verschlossene Türen gestellt und kommt seinen Aufgaben für die nationale Sicherheit nach.

Weiß man denn schon, ob eventuelle zukünftige Ausbaustufen zukünftige kompatible Slot-in-Aufrüstungen von neuerlichen Eypc-Varienten (5/5c) vorsehen, welche mit höherher Kernanzahl daherkommen? Oder soll es über die Dauer der gesamten Einsatzzeit bei den 24-Kern-Varianten mit möglichen neuen Zen-Kernen bleiben?

Erlaubt die jetztige Konfiguration im thermischen und verbrauchs-elektrischen Rahmen überhaupt entsprechende Aufrüstungen mit zukünftigen kompatiblen OCP-Modulen?

DHC · 19. November 2024

Supercomputer an sich sind eine super Sache, wenn sie sinnvoll eingesetzt werden.

Was aber der eine oder andere als sinnvoll ansieht oder nicht ist halt, wie immer, ein Streitthema.

Ich sehe das ähnlich, wie @mae.

Es gibt genug Staatsführer mit entsprechenden Ambitionen.
Ich nenne da jetzt keine Namen.

Das ist ein Thema, dass es schon seit Jahrhunderten, wenn nicht sogar seit Jahrtausenden gibt.
Si vis pacem para bellum.

Man kann so viele tolle Sachen mit den ganzen Supercomputern anstellen.
Ich würde mir persönlich auch wünschen, dass sie mehr für das Allgemeinwohl der Menschheit eingesetzt werden würden.
Aber da haben so einige Regierungen halt andere Vorstellungen, was die Prioritäten angeht.

That's life.

LeeSakura · 19. November 2024

Was passiert eigentlich wenn ein Bauteil kaputt geht? Steht das gesamte System dann erst mal still oder läuft das nebenher weiter? Bei derart vielen einzelnen Bauteilen könnte das ja durchaus öfters vorkommen.

DevPandi · 19. November 2024

LeeSakura schrieb:
Steht das gesamte System dann erst mal still oder läuft das nebenher weiter?

Läuft weiter, der betroffene Node oder Cluster wird logisch getrennt, repariert und wieder zu geschaltet.

Dazu gibt es auch entsprechende Reserve-Nodes und Cluster, die einen ausgefallenen Node oder Cluster erst mal ablösen.

News El Capitan Supercomputer: AMDs Flaggschiff versenkt Intel Aurora mit 44.544 MI300A-APUs

Captain

Commander Pro

Lt. Junior Grade

Captain

Captain

Newbie

Inkubus-Support

Captain

Lt. Commander

Fleet Admiral

Fleet Admiral

Rear Admiral Pro

Admiral Pro

Cadet 4th Year

Fleet Admiral

Lt. Commander

"AMD Now Has More Compute On The Top500 Than Nvidia"​

Lieutenant

Lt. Commander

Cadet 4th Year

Mangoverputzer*in

Passend zum Thema

"AMD Now Has More Compute On The Top500 Than Nvidia"