Notiz Aurora-Supercomputer: Auf dem Weg zum Top500-Eintrag

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.763
  • Gefällt mir
Reaktionen: flo.murr, bad_sign, Dgini und 3 andere
Ein Platz an der Sonne, nur ein paar Jahre verspätet. Und nächstes Jahr schon wieder im Schatten .....
Mal schauen wieviel Leistung bei wieviel Leistungsaufnahme Aurora dann so erbringt.
 
Das Gute ist: Für die Wissenschaftler ist es egal, auf welchem Platz ein Supercomputer ist. Hauptsache er ist für die Zeit und die nötige Rechenleistung passend dimensioniert.;)
 
  • Gefällt mir
Reaktionen: Mar1u5, Haldi, TechFunk und 3 andere
Wird halt interessant, ob man die GPUs echt so niedrig taktet, oder ob man nachher sagt "ätsch bätsch, sind doch über 3 EFlops" und damit El Capitan gewissermaßen den Mittelfinger zeigt. Bei über 60k Ponte Vecchios sollten ja eigentlich über 3 EF rauskommen. Ich denke aber eher, dass man sie aus Energiespargründen einfach viel niedriger taktet, um die 2 EFlops effizient zu erreichen.
 
estros schrieb:
Das Gute ist: Für die Wissenschaftler ist es egal, auf welchem Platz ein Supercomputer ist. Hauptsache er ist für die Zeit und die nötige Rechenleistung passend dimensioniert.;)
Und zur Not gibt es noch einige Millionen User, wie mich, die mit Boinc unterstützen :schluck:
 
  • Gefällt mir
Reaktionen: Wallwatcher, BeBur und Subcommander
1,66-fache Leistung bei 3-facher Leistungsaufnahme gegenüber Frontier?
Lustig wie sich Intel wiederholt Vorschussloberbeeren verleiht. Die können es nicht abwarten mit dem Eigenlob. Ein Verein von öligen Narzissten.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Skysnake, Exlua, Orok91 und 2 andere
Freiheraus schrieb:
1,66-fache Leistung bei 3-facher Leistungsaufnahme gegenüber Frontier?
Lustig wie sich Intel wiederholt Vorschussloberbeeren verleiht. Die können es nicht abwarten mit dem Eigenlob. Ein Verein von öligen Narzissten.
Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind. Global gesehen sind die paar Supercomputer für die Umwelt nicht relevant.

Sprich solange es kühlbar ist (was es offensichtlich ist) und Leistung bringt ist bei dem Einsatzzweck alles erreicht. Ob nun (im kleinen Maßstab) 5 Cent die Stunde Industriestrom für 1kW oder 10 Cent für 2 kW interessiert dort keinen.
 
  • Gefällt mir
Reaktionen: Aliosy und TechFunk
MalWiederIch schrieb:
dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind
Ne, aber der Verbrauch der Kühlung ist nicht unerheblich. Die muss ebenfalls versorgt, gewartet und repariert werden.
 
Freiheraus schrieb:
1,66-fache Leistung bei 3-facher Leistungsaufnahme gegenüber Frontier?
Lustig wie sich Intel wiederholt Vorschussloberbeeren verleiht. Die können es nicht abwarten mit dem Eigenlob. Ein Verein von öligen Narzissten.
Was regst du dich so auf? Dass Intel gerne Werbung macht ist doch nichts neues.
Immerhin schön dass das System endlich mal fertig wird.

Was die Leistungsaufnahme angeht kann man die nicht einfach 1:1 vergleichen, kommt immer auf das Verhältnis CPUs und GPUs an und vor allem was damit gemacht werden soll. Je nach Einsatzzweck kann Aurora vielfach schneller sein als Frontier.
 
MalWiederIch schrieb:
Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind.

Der SuperMUC-ng braucht bis zu 3 Megawatt. Denke schon, dass Stromkosten ansatzweise relevant sind.
 
DEFCON2 schrieb:
Der SuperMUC-ng braucht bis zu 3 Megawatt. Denke schon, dass Stromkosten ansatzweise relevant sind.

Wie relevant können die Stromkosten sein, wenn du die restlichen Kosten nicht nennst bzw. nennen kannst? :rolleyes:

Hier mal ein Vergleich:

Nvidia NGX Cloud:

37.000$ pro Monat
5,6kW max.
Bei 24 Stunden 100% Auslastung (unrealistisch) - 4032kWh pro Monat
Stromkosten (0,07$/kWh - Industriestrom) - 282,84$ pro Monat

Nein - die Stromkosten sind nicht ansatzweise relevant.
Im Fall vom schnellsten Supercomputer aktuell sind es knapp über ein ExaFlops - die Nvidia NGX Cloud bietet 1/50 davon.

Gehen wir davon aus, das Preis-/Leistung linear verlaufen und Effizienz ähnlich sind kostet der HPE Frontier;

1.85 Millionen $ im Monat
+ 14.142$ für Strom im Monat

Nochmal - die Stromkosten sind nicht relevant :lol:
 
Hm, habe ich einen Denkfehler?

Frontier:
21 Megawatt müssten 21.000.000 Watt sein
Bei 24 Std. sind das 504MW/h oder 504.000kW/h x 0,07$ = 35.280$ am Tag
Im Monat über 1 Mio. Dollar für Strom.


Aurora:
60 Megawatt müssten 60.000.000 Watt sein
Bei 24 Std. sind das 1440MW/h oder 1.440.000kW/h x 0,07$ = 100.800$ am Tag
Im Monat über 3 Mio. Dollar für Strom (bei 66% mehr Leistung).
 
  • Gefällt mir
Reaktionen: Skysnake, Gilga und Atomkeks
Hat jemand Benches mit dem Ding auf 4k? Evtl. ist damit das Geruckel beim Zonenwechsel in D4 weg. :freaky:
 
MalWiederIch schrieb:
Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind. Global gesehen sind die paar Supercomputer für die Umwelt nicht relevant.

Sprich solange es kühlbar ist (was es offensichtlich ist) und Leistung bringt ist bei dem Einsatzzweck alles erreicht. Ob nun (im kleinen Maßstab) 5 Cent die Stunde Industriestrom für 1kW oder 10 Cent für 2 kW interessiert dort keinen.
Oh doch, die Stromkosten SIND relevant. Du musst ja bedenken, dass das 30+MW sind. Selbst bei 10Cent die kWh sind das am Tag 72,000$ Das sind schon relevante Kosten. Die Stromkosten sind bei den größeren Systemen oft der zweitgrößte Brocken noch vor den Personalkosten um das Ding zu betreiben.

Jetzt aber mal noch was zu der Meldung an sich.

@Volker / @Redaktion wenn ich das richtig verstanden habe, wurden erst jetzt alle Komponenten installiert! Mit der Abnahme wurde aber noch gar nicht angefangen. Die ist also noch Monate entfernt. Es ist also eher frahwürdig, ob man zur SC23 im November schon einen Top500 Eintrag hat, den man vorzeigen kann/will.

Ich weiß nicht, ob euch klar ist, wie schwer es ist bei diesen Systemgrößen auch nur einen HPL Lauf durch zu bekommen. Da muss man Tage/Wochen lang erst mal das System auf Node basis Schütteln um die ganzen "schlechten" Nodes/Komponenten raus zu bekommen.

Das Problem ist ja, der HPL ist so langsam wie die langsamste Komponente im kompletten System. Es ist daher schon bei größen von 1000 nodes absolut normal, das man die Nodes erst einzeln testet und dann ausrechnet, welche Knoten man überhaupt verwenden kann, bevor ein zusätzlicher Knoten die Gesamtperformance runter zieht.

Die haben also noch einen gewaltigen Berg an Arbeit vor sich. Allein die Tests für Strom und Kühlung werden wohl noch mindestens ein bis zwei Wochen brauchen. Also selbst wenn alles recht glatt läuft.

Ich kenne es nur aus meiner eigenen Erfahrung mit Clustern im Bereich von 100-2000 Knoten. Du brauchst Wochen bis das System sauber läuft und es kommt immer mal wieder vor, dass das gesamte System nicht abgenommen werden kann, weil eben irgendwelche Einzelteile nicht tun. Wenn z.B. nen Core Switch getauscht werden muss, dann haste echt Spaß. Nach dem Tausch ist dann nämlich wahrscheinlich irgend ein Llink der vorher tat kaputt und du musst Kabel tauschen. Was dann wenns dumm läuft zur Folge hat, das ein anderer Port/Kabel beschädigt wird....

Sprich das artet schnell zu ner endlosen Story aus. Zudem soll das neue Mangement System von Cray/HPE "interessant" sein durch die Verwendung von Kubernetes...
 
Zurück
Oben