Notiz Aurora-Supercomputer: Auf dem Weg zum Top500-Eintrag

Volker · 22. Juni 2023

Bereits zum ISC 2023 im Mai kündigte Intel die komplette Auslieferung der Aurora-Hardware an, nun sind alle CPUs und GPUs fest installiert – und das ist den Beteiligten erneut eine Meldung wert. Die ersten Probeläufe sehen massive Leistung, am Standort erhofft man sich Großes dadurch.

Zur Notiz: Aurora-Supercomputer: Auf dem Weg zum Top500-Eintrag

Denniss · 22. Juni 2023

Ein Platz an der Sonne, nur ein paar Jahre verspätet. Und nächstes Jahr schon wieder im Schatten .....
Mal schauen wieviel Leistung bei wieviel Leistungsaufnahme Aurora dann so erbringt.

estros · 22. Juni 2023

Das Gute ist: Für die Wissenschaftler ist es egal, auf welchem Platz ein Supercomputer ist. Hauptsache er ist für die Zeit und die nötige Rechenleistung passend dimensioniert.

Philste · 22. Juni 2023

Wird halt interessant, ob man die GPUs echt so niedrig taktet, oder ob man nachher sagt "ätsch bätsch, sind doch über 3 EFlops" und damit El Capitan gewissermaßen den Mittelfinger zeigt. Bei über 60k Ponte Vecchios sollten ja eigentlich über 3 EF rauskommen. Ich denke aber eher, dass man sie aus Energiespargründen einfach viel niedriger taktet, um die 2 EFlops effizient zu erreichen.

PegasusHunter · 22. Juni 2023

estros schrieb:
Das Gute ist: Für die Wissenschaftler ist es egal, auf welchem Platz ein Supercomputer ist. Hauptsache er ist für die Zeit und die nötige Rechenleistung passend dimensioniert.

Und zur Not gibt es noch einige Millionen User, wie mich, die mit Boinc unterstützen

Freiheraus · 22. Juni 2023

1,66-fache Leistung bei 3-facher Leistungsaufnahme gegenüber Frontier?
Lustig wie sich Intel wiederholt Vorschussloberbeeren verleiht. Die können es nicht abwarten mit dem Eigenlob. Ein Verein von öligen Narzissten.

MalWiederIch · 23. Juni 2023

Freiheraus schrieb:
1,66-fache Leistung bei 3-facher Leistungsaufnahme gegenüber Frontier?
Lustig wie sich Intel wiederholt Vorschussloberbeeren verleiht. Die können es nicht abwarten mit dem Eigenlob. Ein Verein von öligen Narzissten.

Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind. Global gesehen sind die paar Supercomputer für die Umwelt nicht relevant.

Sprich solange es kühlbar ist (was es offensichtlich ist) und Leistung bringt ist bei dem Einsatzzweck alles erreicht. Ob nun (im kleinen Maßstab) 5 Cent die Stunde Industriestrom für 1kW oder 10 Cent für 2 kW interessiert dort keinen.

andi_sco · 23. Juni 2023

MalWiederIch schrieb:
dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind

Ne, aber der Verbrauch der Kühlung ist nicht unerheblich. Die muss ebenfalls versorgt, gewartet und repariert werden.

S.Kara · 23. Juni 2023

Freiheraus schrieb:
1,66-fache Leistung bei 3-facher Leistungsaufnahme gegenüber Frontier?
Lustig wie sich Intel wiederholt Vorschussloberbeeren verleiht. Die können es nicht abwarten mit dem Eigenlob. Ein Verein von öligen Narzissten.

Was regst du dich so auf? Dass Intel gerne Werbung macht ist doch nichts neues.
Immerhin schön dass das System endlich mal fertig wird.

Was die Leistungsaufnahme angeht kann man die nicht einfach 1:1 vergleichen, kommt immer auf das Verhältnis CPUs und GPUs an und vor allem was damit gemacht werden soll. Je nach Einsatzzweck kann Aurora vielfach schneller sein als Frontier.

Haldi · 24. Juni 2023

70 Pfund schwere Blades

Oder wie die Amis jetzt sagen würden....
https://weightofstuff.com/12-things-that-weight-around-70-pounds-lbs/

MalWiederIch schrieb:
Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind.

Ehm what?
Doch? Stromverbrauch ist ein Hauptargument?

DEFCON2 · 25. Juni 2023

MalWiederIch schrieb:
Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind.

Der SuperMUC-ng braucht bis zu 3 Megawatt. Denke schon, dass Stromkosten ansatzweise relevant sind.

MalWiederIch · 25. Juni 2023

DEFCON2 schrieb:
Der SuperMUC-ng braucht bis zu 3 Megawatt. Denke schon, dass Stromkosten ansatzweise relevant sind.

Wie relevant können die Stromkosten sein, wenn du die restlichen Kosten nicht nennst bzw. nennen kannst?

Hier mal ein Vergleich:

Nvidia NGX Cloud:

37.000$ pro Monat
5,6kW max.
Bei 24 Stunden 100% Auslastung (unrealistisch) - 4032kWh pro Monat
Stromkosten (0,07$/kWh - Industriestrom) - 282,84$ pro Monat

Nein - die Stromkosten sind nicht ansatzweise relevant.
Im Fall vom schnellsten Supercomputer aktuell sind es knapp über ein ExaFlops - die Nvidia NGX Cloud bietet 1/50 davon.

Gehen wir davon aus, das Preis-/Leistung linear verlaufen und Effizienz ähnlich sind kostet der HPE Frontier;

1.85 Millionen $ im Monat
+ 14.142$ für Strom im Monat

Nochmal - die Stromkosten sind nicht relevant

Freiheraus · 25. Juni 2023

Hm, habe ich einen Denkfehler?

Frontier:
21 Megawatt müssten 21.000.000 Watt sein
Bei 24 Std. sind das 504MW/h oder 504.000kW/h x 0,07$ = 35.280$ am Tag
Im Monat über 1 Mio. Dollar für Strom.

Aurora:
60 Megawatt müssten 60.000.000 Watt sein
Bei 24 Std. sind das 1440MW/h oder 1.440.000kW/h x 0,07$ = 100.800$ am Tag
Im Monat über 3 Mio. Dollar für Strom (bei 66% mehr Leistung).

milliardo · 26. Juni 2023

Hat jemand Benches mit dem Ding auf 4k? Evtl. ist damit das Geruckel beim Zonenwechsel in D4 weg.

Skysnake · 30. Juni 2023

MalWiederIch schrieb:
Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind. Global gesehen sind die paar Supercomputer für die Umwelt nicht relevant.

Sprich solange es kühlbar ist (was es offensichtlich ist) und Leistung bringt ist bei dem Einsatzzweck alles erreicht. Ob nun (im kleinen Maßstab) 5 Cent die Stunde Industriestrom für 1kW oder 10 Cent für 2 kW interessiert dort keinen.

Oh doch, die Stromkosten SIND relevant. Du musst ja bedenken, dass das 30+MW sind. Selbst bei 10Cent die kWh sind das am Tag 72,000$ Das sind schon relevante Kosten. Die Stromkosten sind bei den größeren Systemen oft der zweitgrößte Brocken noch vor den Personalkosten um das Ding zu betreiben.

Jetzt aber mal noch was zu der Meldung an sich.

@Volker / @Redaktion wenn ich das richtig verstanden habe, wurden erst jetzt alle Komponenten installiert! Mit der Abnahme wurde aber noch gar nicht angefangen. Die ist also noch Monate entfernt. Es ist also eher frahwürdig, ob man zur SC23 im November schon einen Top500 Eintrag hat, den man vorzeigen kann/will.

Ich weiß nicht, ob euch klar ist, wie schwer es ist bei diesen Systemgrößen auch nur einen HPL Lauf durch zu bekommen. Da muss man Tage/Wochen lang erst mal das System auf Node basis Schütteln um die ganzen "schlechten" Nodes/Komponenten raus zu bekommen.

Das Problem ist ja, der HPL ist so langsam wie die langsamste Komponente im kompletten System. Es ist daher schon bei größen von 1000 nodes absolut normal, das man die Nodes erst einzeln testet und dann ausrechnet, welche Knoten man überhaupt verwenden kann, bevor ein zusätzlicher Knoten die Gesamtperformance runter zieht.

Die haben also noch einen gewaltigen Berg an Arbeit vor sich. Allein die Tests für Strom und Kühlung werden wohl noch mindestens ein bis zwei Wochen brauchen. Also selbst wenn alles recht glatt läuft.

Ich kenne es nur aus meiner eigenen Erfahrung mit Clustern im Bereich von 100-2000 Knoten. Du brauchst Wochen bis das System sauber läuft und es kommt immer mal wieder vor, dass das gesamte System nicht abgenommen werden kann, weil eben irgendwelche Einzelteile nicht tun. Wenn z.B. nen Core Switch getauscht werden muss, dann haste echt Spaß. Nach dem Tausch ist dann nämlich wahrscheinlich irgend ein Llink der vorher tat kaputt und du musst Kabel tauschen. Was dann wenns dumm läuft zur Folge hat, das ein anderer Port/Kabel beschädigt wird....

Sprich das artet schnell zu ner endlosen Story aus. Zudem soll das neue Mangement System von Cray/HPE "interessant" sein durch die Verwendung von Kubernetes...

Suche

Notiz Aurora-Supercomputer: Auf dem Weg zum Top500-Eintrag

Volker

Ost 1

Denniss

Admiral

estros

Fleet Admiral

Philste

Lt. Commander

PegasusHunter

Lt. Commander

Freiheraus

Lt. Commander

MalWiederIch

Lt. Commander

andi_sco

Legends of Tomorrow

S.Kara

Captain

Haldi

Fleet Admiral

DEFCON2

Lieutenant

MalWiederIch

Lt. Commander

Freiheraus

Lt. Commander

milliardo

Commander

Skysnake

Captain

Ähnliche Themen

Passend zum Thema

Offizielles Statement Mindfactory bestätigt Sanierung, aber es „läuft wieder rund“

Chinas Auftragsfertiger SMICs N+3 zieht mit TSMCs N6-Prozess gleich

Irreführende Werbung Sammelklage gegen Apple wegen KI-Funktionen eingereicht