Die sind aber eben gar nicht unbedingt schneller in solchen Anwendungen. Bei HPC geht es um hohe Präzision, während die für KI-Training nicht wichtig ist. Hier wird FP64-Performance gemessen, Training ist meistens eher FP8 oder ähnlich kleines.monty.cantsin schrieb:Schreibt doch nicht so einen Mist. Auf der Liste isses der Schnellste, ja. Tatsächlich aber ein Winzling. Für KI-Training werden in der Privatindustrie ganz andere Dinger installiert.
Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
News El Capitan Supercomputer: AMDs Flaggschiff versenkt Intel Aurora mit 44.544 MI300A-APUs
AlphaKaninchen
Commander Pro
- Registriert
- Mai 2018
- Beiträge
- 2.968
https://www.servethehome.com/giagantic-amd-apu-at-sc23-meet-the-amd-mi300a-and-mi300x/Skysnake schrieb:Hast du dafür einen Link? Das wäre tatsächlich an mir vorbeigegangen.
Etwas runterscrollen da ist ein Bild mit 2 MI300A auf einem Board, welches noch zwei Sockel frei hat.
UniqueSpirit
Lt. Junior Grade
- Registriert
- Jan. 2013
- Beiträge
- 342
Eine wirklich beeindruckende Technologie! Und der Anwendungszweck finde ich im Gegensatz zu anderen Forenteilnehmer hier völlig ok.
Ich beantworte meine Frage mal selbst.Skysnake schrieb:Hast du dafür einen Link? Das wäre tatsächlich an mir vorbeigegangen.
https://www.amd.com/de/products/accelerators/instinct/mi300/mi300a.html
Ist tatsächlich an mir vorbei gegangen. Wobei ich sagen muss nachdem ich mir das angeschaut habe klingelt es wieder ganz ganz dunkel.
An sich sollte man so doch aber auch 4 Socket CPU Systeme bauen können. Das wäre auch ziemlich nett. Mit 512GB kann man doch einiges anfangen. Auch wenn es nicht viel RAM pro Core wäre.
Theoretisch hast du recht, aber die Frage die sich da stellt, ist wie gut sowas dann als Gesamtsystem funktioniert. Das Problem ist dann nämlich eher, wie man Daten zur CPU bekommt. Wenn man sich Zen 4 Epyc anschaut, dann gibt es da bis zu 96 Kerne und bei Dual-Socket Konfigurationen werden dazwischen 3 oder 4 IF-Links genutzt (wobei ein Link einem PCIe x16 Interface entspricht). Da hat eine Single-Socket CPU also 128 Lanes für IO, eine Dual-Socket nur noch 64 oder 80.Skysnake schrieb:An sich sollte man so doch aber auch 4 Socket CPU Systeme bauen können. Das wäre auch ziemlich nett. Mit 512GB kann man doch einiges anfangen. Auch wenn es nicht viel RAM pro Core wäre.
Bei MI300A werden 6 IF-Links genutzt (2 zu jeder anderen APU), bleiben nur noch 32 PCIe-Lanes für IO pro APU - bei nur 24 Kernen und integrierter GPU ist das aber auch völlig ausreichend. Das Verhältnis PCIe-Lanes/CPU-Kerne ist da das gleiche wie für die großen Single-Socket-Lösungen und doppelt so gut wie bei Dual-Socket-Lösungen die den maximalen Interconnect nutzen. 4x "MI300C" hätte dann aber eben nur noch 32 PCIe-Lanes für 96 Kerne, und angesichts des kleinen HBM-RAMs würde man dann sicher gerne noch über CXL nachdenken. Das dürfte einfach sehr knapp sein.
monty.cantsin
Newbie
- Registriert
- Okt. 2024
- Beiträge
- 4
Korrekt, aber die derzeit gebauten 100.000-200.000 GPU-Cluster, perspektivisch bis 2027 1.000.000 sind halt ne ganz andere Hausnummer. Da können die öffentlichen Winzdinger nicht mehr mithalten. Es ist ja die gleiche Hardware. Mehr GPUs = mehr Performance.stefan92x schrieb:Bei HPC geht es um hohe Präzision, während die für KI-Training nicht wichtig ist. Hier wird FP64-Performance gemessen, Training ist meistens eher FP8 oder ähnlich kleines.
Weltenspinner
Inkubus-Support
- Registriert
- März 2009
- Beiträge
- 5.037
Um die Rechenleistung des El Capitan Supercomputers mit High-End-Desktop-PCs zu vergleichen, müssen wir einige Berechnungen anstellen.WinstonSmith101 schrieb:Wieviele High End Desktop PCs (meinetwegen alle mit einem AMD Ryzen 9 9950x) wären nötig um an die Rechenleistung des EL Capitan Supercomputers zu kommen?
- El Capitan Supercomputer:
- Rechenleistung: 1,742 ExaFLOPS (1,742 * 10^18 FLOPS).
- Anzahl der Kerne: 11.039.616.
- AMD Ryzen 9 9950X:
- Rechenleistung: ca. 1,2 TeraFLOPS (1,2 * 10^12 FLOPS) bei FP32.
- Anzahl der Kerne: 16 Kerne, 32 Threads.
1,742×1018 FLOPS1,2×1012 FLOPS=1.451.666.667\frac{1,742 \times 10^{18} \text{ FLOPS}}{1,2 \times 10^{12} \text{ FLOPS}} = 1.451.666.667
Das bedeutet, dass etwa 1,45 Milliarden AMD Ryzen 9 9950X Prozessoren erforderlich wären, um die Rechenleistung des El Capitan Supercomputers zu erreichen.
So viele werden, glaube ich, gar nicht produziert.
Also grundsätzlich hast du da Recht, allerdings werden klassische HPC CPU only Systeme ohne lokalen Storage betrieben. Du hast also 1x16x für ne IB Karte und dann noch 1x für BMC und dann maximal nochmals 1x für 1G/10G Ethernet und das wars. Die Ethernet Verbindung ist da auch eher ne convenience Funktion um ne einfach Anbindung ins WAN zu haben und das Deployment einfach zu gestalten. PXE Boot über IB geht zwar auch ist aber mehr Aufwand, den man sich im Allgemeinen sparen kann da Ethernet "eh da" ist.stefan92x schrieb:Theoretisch hast du recht, aber die Frage die sich da stellt, ist wie gut sowas dann als Gesamtsystem funktioniert. Das Problem ist dann nämlich eher, wie man Daten zur CPU bekommt. Wenn man sich Zen 4 Epyc anschaut, dann gibt es da bis zu 96 Kerne und bei Dual-Socket Konfigurationen werden dazwischen 3 oder 4 IF-Links genutzt (wobei ein Link einem PCIe x16 Interface entspricht). Da hat eine Single-Socket CPU also 128 Lanes für IO, eine Dual-Socket nur noch 64 oder 80.
Die wenigen Lanes sind also an sich kein Problem. Jeder CPU nen NIC wäre sogar mehr als man normal hat.
Ja CXL wäre durchaus interessant. Mit 32-48 PCIe Lanes hätte man da auch noch genug Platz. 4 NICs wären für CPU only absoluter Overkill.stefan92x schrieb:Bei MI300A werden 6 IF-Links genutzt (2 zu jeder anderen APU), bleiben nur noch 32 PCIe-Lanes für IO pro APU - bei nur 24 Kernen und integrierter GPU ist das aber auch völlig ausreichend. Das Verhältnis PCIe-Lanes/CPU-Kerne ist da das gleiche wie für die großen Single-Socket-Lösungen und doppelt so gut wie bei Dual-Socket-Lösungen die den maximalen Interconnect nutzen. 4x "MI300C" hätte dann aber eben nur noch 32 PCIe-Lanes für 96 Kerne, und angesichts des kleinen HBM-RAMs würde man dann sicher gerne noch über CXL nachdenken. Das dürfte einfach sehr knapp sein.
DJMadMax schrieb:Und alles nur zur Kriegstreiberei
Ich sehe das umgekehrt. Der Kernwaffenteststopp-Vertrag ist das genialste Instrument gegen den Einsatz dieser Waffen, das es gibt. Jetzt, nach fast dreissig Jahren, kann sich keiner sicher sein, dass die Sprengkoepfe wirklich noch so gut funktionieren wie damals, noch nicht einmal die USA, die WIMRE 50 G$/Jahr dafuer aufwenden, die Funktion moeglichst sicherzustellen (und die Supercomputer sind da nur ein Posten in diesem Budget). Andererseits kann sich auch niemand sicher sein, dass sie nicht funktionieren, und daher funktioniert die gegenseitige Abschreckung noch immer. Aber sobald einer versucht, so eine Waffe einzusetzen oder erneut zu testen, und sie funktioniert nicht, steht er unbewaffnet da; also laesst er es doch lieber bleiben, und begnuegt sich mit Drohungen.
Haldi
Admiral
- Registriert
- Feb. 2009
- Beiträge
- 9.860
Thats Not how this works!Weltenspinner schrieb:Das bedeutet, dass etwa 1,45 Milliarden AMD Ryzen 9 9950X Prozessoren erforderlich wären, um die Rechenleistung des El Capitan Supercomputers zu erreichen.
Die Hauptleistung stammt ja vom GPU teil und nicht von der CPU.
Die 7900xtx hat 1.918 TFLOPS weil sie auf 1:32 limitiert ist und nicht wie Professionellen Karten 1:2 hat, das wären sonst 30.695 TFLOPS.
um die 1.742 Exaflops zu erreichen benötigt man davon also Hardware mässig nur rund 56'700 Einheiten!
Wären das RTX 4090er die nicht auf 1:64 limitiert sind und nur mit 1.29 tflops laufen, hätten die 41.29 TFLOPS und man würde somit nur 42'200 Stück benötigen.
Ähnlich zu den 44'544 verbauten APU's.
P.S sicher das du dich nicht verrechnet hast?
Wenn ich mit 0.6Tflops für fp64 rechne komme ich auf 3Mio Stück der 9950X.
Zuletzt bearbeitet:
Wenn ich mir das so alles angucke, muss ich wirklich sagen, dass Intel langsam wirklich ein sehr, sehr ernsthaftes Problem hat.
Hätte Intel nicht seinen guten Namen im Enterprise Segment, würde es düster aussehen.
Aus meiner Sicht muss man derzeit in allen Belangen auf AMD setzen.
AMD kann Intel jetzt wirklich Marktanteile abnehmen. Gegen Nvidia haben beide nichts auszurichten. Allerdings ist Nvidia in einem anderen Segment unterwegs.
Heute habe ich noch die Nvidia Präsentation gesehen, wie sie jetzt die AI und ML nutzen, um die Google Quantum Technologie zu verbessern. Wenn man sowas sieht, ist das wirklich brutal was da noch kommt.
Wie soll Intel dagegen anstinken?
Auch die Hyperscaler MÜSSEN auf AMD setzen, da hier der Strom der größte Kostentreiber ist.
Bei den klassischen x86 CPUs, pulverisiert AMD einfach alles derzeit. AMD dürft einen Technologie Vorsprung von ca. 2-3 Jahren haben.
Das ist schon beeindruckend, wenn man bedenkt, wie unfassbar schlecht AMD vor Ryzen war.
Mit ZEN 1 hat der Siegeszug angefangen.
Hätte Intel nicht seinen guten Namen im Enterprise Segment, würde es düster aussehen.
Aus meiner Sicht muss man derzeit in allen Belangen auf AMD setzen.
AMD kann Intel jetzt wirklich Marktanteile abnehmen. Gegen Nvidia haben beide nichts auszurichten. Allerdings ist Nvidia in einem anderen Segment unterwegs.
Heute habe ich noch die Nvidia Präsentation gesehen, wie sie jetzt die AI und ML nutzen, um die Google Quantum Technologie zu verbessern. Wenn man sowas sieht, ist das wirklich brutal was da noch kommt.
Wie soll Intel dagegen anstinken?
Auch die Hyperscaler MÜSSEN auf AMD setzen, da hier der Strom der größte Kostentreiber ist.
Bei den klassischen x86 CPUs, pulverisiert AMD einfach alles derzeit. AMD dürft einen Technologie Vorsprung von ca. 2-3 Jahren haben.
Das ist schon beeindruckend, wenn man bedenkt, wie unfassbar schlecht AMD vor Ryzen war.
Mit ZEN 1 hat der Siegeszug angefangen.
Ich finde es ja höchst interessant, dass die CPU-Kerne bei nur 1,8GHz laufen. Scheint der Sweet Spot für die Effizienz zu sein, wenn es nicht darauf ankommt, möglichst viel Leistung auf einen Die zu packen, wie bei Desktop-CPUs.
Rockstar85
Admiral Pro
- Registriert
- Sep. 2004
- Beiträge
- 8.911
But, can it run Crysis 😄DaBo87 schrieb:Was für ein geiles Stück Technik für einen diskussionswürdigen Anwendungszweck. Aber hier gehts ja um die Technik und da kann man nur sagen: Wow.
unspektakulaer
Cadet 4th Year
- Registriert
- Juli 2015
- Beiträge
- 76
Tulol schrieb:So eine Schande. Was für eine absurde verschwendung von Energie, knowhow und Rohstoffen.
Und nein, es ist nicht besser als sowas in 'echt' zu testen und umzusetzen.
Beides ist absurd denn es dient einzig und allein dem menschlichen Kleingeistertum um sich gegenseitig auf dem einzigen bewohnbaren Planeten den Gar aus zu machen.
Das ist an Stumpfsinnigkeit nicht zu überbieten.
Das sehe ich anders. Jeder technische Fortschritt ist ein Fortschritt.
Auch wenn auch ich hoffe das wir uns endlich mal darauf konzentrieren die Menschheit weiter zu bringen anstatt den unbeliebten Nachbarn maximal zu schädigen.
Aber da ist nicht die entwickelte Technik Schuld sondern Menschen!
Menschen die in überhaupt in Erwägung ziehen so etwas in echt zu testen.
SO ETWAS (Atomtest und entsprechende Simulationen) sind an stumpfsinnigkeit nicht zu überbieten, da bin ich voll bei dir.
Was wäre die Alternative? Keine "Dual-use"-Techniken entwickeln? Dann gebe es Heute weder Feuer, noch Strom, noch Messer und noch so viele andere Dinge.
Nicht die Technik ist das Problem, sondern das was wir aus ihr machen.
*Edit für bessere Verständlichkeit
Zuletzt bearbeitet:
- Registriert
- Aug. 2004
- Beiträge
- 11.742
Eigentlich zeigt die top500 überraschend eindeutig wie gut AMD GPU Beschleuniger kann, bzw wie konkurrenzfähig sie bei Systemen sind, die einem speziellen Einsatzzweck dienen und nicht öffentlich jede Art Code abspielen müssen.Skudrinka schrieb:Wenn sie jetzt noch GPUs könnten.. 🫣
AMD ist halt hauptsächlich beim Software Stack völlig hinterher. Sprich CUDA.
Ganjaware
Lt. Commander
- Registriert
- Feb. 2012
- Beiträge
- 1.225
https://x.com/TDaytonPM/status/1858575259097506095Skudrinka schrieb:Wenn sie jetzt noch GPUs könnten.. 🫣
"AMD Now Has More Compute On The Top500 Than Nvidia"
TechFA
Lieutenant
- Registriert
- Okt. 2018
- Beiträge
- 731
Wirklich brutale Leistungsentfaltung mit so einem massiven Abstand zum Zweitplatzierten, der gar ebenso von AMD und damit aus dem selben Hause kommt. AMD hat sich damit praktisch selbst übertroffen.
Das ist mal ein Ausrufezeichen – AMD kann liefern!
Die Leistungsdaten sind schlicht episch. Gratulation an AMD und HPE für diese einzigartige Selbstkrönung!
Und selbstredend insbesondere allen beteiligten Technikern aller Seiten für die absolute Meisterleistung, das Ganze auch noch im Zeitrahmen abliefern zu können! Achso, ja – Und dem Dem LLNL Gratulation für das neue Spielzeug! Denen ist dann ja mal der Neid für die Kiste mehr als sicher, denk ich mal.
Nach solch einer phänomenalen Mega-Installation leckt sich ja wohl Jeder in der Branche die Finger…
Frontier's Leistungssteigerungen von initial 1.102,00 PetaFLOPS (Juni 2022) über 1.194,00 PetaFLOPS (November 2023) auf dann 1.206,00 PetaFLOPS (Juni 2024) und jetzt sogar 1.353,00 PetaFLOPS haben schon wirklich was von dem immer wieder zitierten und mitlerweile legendärem AMD FineWine™ …
Erinnert schon irgendwie an die sprichwörtliche AMD Radeon HD 7xxx Evergreen-Serie, deren spätere Leistungsentfaltungen durch die stark verbesserten Treiber ReLive/Crimson/Adrenalin und das nachträgliche Carepaket Mantle™ und später Vulkan, mit dem den HD 7xxx-Serie Grafikarten seinerzeit trotz der bereits erheblich langen Zeit im Markt noch zusätzlich lebenszeitverlängernde Infusionen verabreicht wurden.
Das sind jetzt schon nominal +22,78% Mehrleistung der seinerzeit initial projektierten Leistungsfähigkeit!
Mal eben fast ¼ Mehr an Leistung praktisch ‚im Vorbeigehen‘ mitzunehmen, zeigt daß bei AMD in der Vergangenheit oftmals brachliegende Potential zur Optimierung – Es haperte meist an der Software, während die theoretische Leistung der Hardware (die nie wirklich vollends ausgelastet war) dennoch vorhanden war.
Ich bin gespannt, ob El Capitan die selben oder ähnliche Leistungssteigerungen hinbekommt, gerade jetzt, wo der AMD-Zug des effizienten Software-Ökosystems massiv an Fahrt aufnimmt und AMD's Lösungen von den Instituten und der Industrie im Allgemeinen auch tatsächlich angenommen und genutzt werden, statt als Insel-Lösungen verschmäht/ignoriert zu werden.
Erlaubt die jetztige Konfiguration im thermischen und verbrauchs-elektrischen Rahmen überhaupt entsprechende Aufrüstungen mit zukünftigen kompatiblen OCP-Modulen?
Das ist mal ein Ausrufezeichen – AMD kann liefern!
Die Leistungsdaten sind schlicht episch. Gratulation an AMD und HPE für diese einzigartige Selbstkrönung!
Und selbstredend insbesondere allen beteiligten Technikern aller Seiten für die absolute Meisterleistung, das Ganze auch noch im Zeitrahmen abliefern zu können! Achso, ja – Und dem Dem LLNL Gratulation für das neue Spielzeug! Denen ist dann ja mal der Neid für die Kiste mehr als sicher, denk ich mal.
Nach solch einer phänomenalen Mega-Installation leckt sich ja wohl Jeder in der Branche die Finger…
Ja, da lief die notwendige professionelle Koordination zwischen AMD, HPE und den Beteiligten am Lawrence Livermore National Laboratory wohl wie am Schnürchen. Hut ab!Volker schrieb:Aus dem Stand heraus Platz 1
Aus dem Stand heraus an die Spitze ist einmal mehr eine Meisterleistung, die die Partner an diesem Projekt vollbracht haben. Und das auch nahezu im Zeitplan, wie die Beteiligten zum Pressebriefing am Sonntag witzelten. Die größten Hürden waren letztlich nämlich Genehmigungen und nicht die Hardware.
Nur am Rande, aber doch insbesondere für AMD wirklich mehr als bemerkenswert!Volker schrieb:Updates für Frontier und Alps
Den zweiten Platz festigt das US-System Frontier mit einem weiteren Ausbau, mit dem die Spitzenleistung von 1.206 auf 1.353 PetaFLOPS gestiegen ist. Intels Aurora bleibt unverändert bei 1.012 PetaFLOPS auf Rang drei.
Frontier's Leistungssteigerungen von initial 1.102,00 PetaFLOPS (Juni 2022) über 1.194,00 PetaFLOPS (November 2023) auf dann 1.206,00 PetaFLOPS (Juni 2024) und jetzt sogar 1.353,00 PetaFLOPS haben schon wirklich was von dem immer wieder zitierten und mitlerweile legendärem AMD FineWine™ …
Erinnert schon irgendwie an die sprichwörtliche AMD Radeon HD 7xxx Evergreen-Serie, deren spätere Leistungsentfaltungen durch die stark verbesserten Treiber ReLive/Crimson/Adrenalin und das nachträgliche Carepaket Mantle™ und später Vulkan, mit dem den HD 7xxx-Serie Grafikarten seinerzeit trotz der bereits erheblich langen Zeit im Markt noch zusätzlich lebenszeitverlängernde Infusionen verabreicht wurden.
Das sind jetzt schon nominal +22,78% Mehrleistung der seinerzeit initial projektierten Leistungsfähigkeit!
Mal eben fast ¼ Mehr an Leistung praktisch ‚im Vorbeigehen‘ mitzunehmen, zeigt daß bei AMD in der Vergangenheit oftmals brachliegende Potential zur Optimierung – Es haperte meist an der Software, während die theoretische Leistung der Hardware (die nie wirklich vollends ausgelastet war) dennoch vorhanden war.
Ich bin gespannt, ob El Capitan die selben oder ähnliche Leistungssteigerungen hinbekommt, gerade jetzt, wo der AMD-Zug des effizienten Software-Ökosystems massiv an Fahrt aufnimmt und AMD's Lösungen von den Instituten und der Industrie im Allgemeinen auch tatsächlich angenommen und genutzt werden, statt als Insel-Lösungen verschmäht/ignoriert zu werden.
Weiß man denn schon, ob eventuelle zukünftige Ausbaustufen zukünftige kompatible Slot-in-Aufrüstungen von neuerlichen Eypc-Varienten (5/5c) vorsehen, welche mit höherher Kernanzahl daherkommen? Oder soll es über die Dauer der gesamten Einsatzzeit bei den 24-Kern-Varianten mit möglichen neuen Zen-Kernen bleiben?Volker schrieb:Jetzt wird weiter optimiert
El Capitan wird in den kommenden Wochen und Monaten weiter optimiert, vermutlich wird dann auch noch ein Linpack-Benchmark erfolgen, der auch in die Top500-Wertung fließen kann. Dieses könnte noch einmal höhere Leistungswerte ausspucken, danach wird das System dann hinter verschlossene Türen gestellt und kommt seinen Aufgaben für die nationale Sicherheit nach.
Erlaubt die jetztige Konfiguration im thermischen und verbrauchs-elektrischen Rahmen überhaupt entsprechende Aufrüstungen mit zukünftigen kompatiblen OCP-Modulen?
Supercomputer an sich sind eine super Sache, wenn sie sinnvoll eingesetzt werden.
Was aber der eine oder andere als sinnvoll ansieht oder nicht ist halt, wie immer, ein Streitthema.
Ich sehe das ähnlich, wie @mae.
Es gibt genug Staatsführer mit entsprechenden Ambitionen.
Ich nenne da jetzt keine Namen.
Das ist ein Thema, dass es schon seit Jahrhunderten, wenn nicht sogar seit Jahrtausenden gibt.
Si vis pacem para bellum.
Man kann so viele tolle Sachen mit den ganzen Supercomputern anstellen.
Ich würde mir persönlich auch wünschen, dass sie mehr für das Allgemeinwohl der Menschheit eingesetzt werden würden.
Aber da haben so einige Regierungen halt andere Vorstellungen, was die Prioritäten angeht.
That's life.
Was aber der eine oder andere als sinnvoll ansieht oder nicht ist halt, wie immer, ein Streitthema.
Ich sehe das ähnlich, wie @mae.
Es gibt genug Staatsführer mit entsprechenden Ambitionen.
Ich nenne da jetzt keine Namen.
Das ist ein Thema, dass es schon seit Jahrhunderten, wenn nicht sogar seit Jahrtausenden gibt.
Si vis pacem para bellum.
Man kann so viele tolle Sachen mit den ganzen Supercomputern anstellen.
Ich würde mir persönlich auch wünschen, dass sie mehr für das Allgemeinwohl der Menschheit eingesetzt werden würden.
Aber da haben so einige Regierungen halt andere Vorstellungen, was die Prioritäten angeht.
That's life.
- Registriert
- Juli 2021
- Beiträge
- 2.857
Läuft weiter, der betroffene Node oder Cluster wird logisch getrennt, repariert und wieder zu geschaltet.LeeSakura schrieb:Steht das gesamte System dann erst mal still oder läuft das nebenher weiter?
Dazu gibt es auch entsprechende Reserve-Nodes und Cluster, die einen ausgefallenen Node oder Cluster erst mal ablösen.