MalWiederIch schrieb:
Ich glaube kaum, dass bei den Nutzungskosten für einen Supercomputer die Stromkosten nur ansatzweise relevant sind. Global gesehen sind die paar Supercomputer für die Umwelt nicht relevant.
Sprich solange es kühlbar ist (was es offensichtlich ist) und Leistung bringt ist bei dem Einsatzzweck alles erreicht. Ob nun (im kleinen Maßstab) 5 Cent die Stunde Industriestrom für 1kW oder 10 Cent für 2 kW interessiert dort keinen.
Oh doch, die Stromkosten SIND relevant. Du musst ja bedenken, dass das 30+MW sind. Selbst bei 10Cent die kWh sind das am Tag 72,000$ Das sind schon relevante Kosten. Die Stromkosten sind bei den größeren Systemen oft der zweitgrößte Brocken noch vor den Personalkosten um das Ding zu betreiben.
Jetzt aber mal noch was zu der Meldung an sich.
@Volker / @Redaktion wenn ich das richtig verstanden habe, wurden erst jetzt alle Komponenten installiert! Mit der Abnahme wurde aber noch gar nicht angefangen. Die ist also noch Monate entfernt. Es ist also eher frahwürdig, ob man zur SC23 im November schon einen Top500 Eintrag hat, den man vorzeigen kann/will.
Ich weiß nicht, ob euch klar ist, wie schwer es ist bei diesen Systemgrößen auch nur einen HPL Lauf durch zu bekommen. Da muss man Tage/Wochen lang erst mal das System auf Node basis Schütteln um die ganzen "schlechten" Nodes/Komponenten raus zu bekommen.
Das Problem ist ja, der HPL ist so langsam wie die langsamste Komponente im kompletten System. Es ist daher schon bei größen von 1000 nodes absolut normal, das man die Nodes erst einzeln testet und dann ausrechnet, welche Knoten man überhaupt verwenden kann, bevor ein zusätzlicher Knoten die Gesamtperformance runter zieht.
Die haben also noch einen gewaltigen Berg an Arbeit vor sich. Allein die Tests für Strom und Kühlung werden wohl noch mindestens ein bis zwei Wochen brauchen. Also selbst wenn alles recht glatt läuft.
Ich kenne es nur aus meiner eigenen Erfahrung mit Clustern im Bereich von 100-2000 Knoten. Du brauchst Wochen bis das System sauber läuft und es kommt immer mal wieder vor, dass das gesamte System nicht abgenommen werden kann, weil eben irgendwelche Einzelteile nicht tun. Wenn z.B. nen Core Switch getauscht werden muss, dann haste echt Spaß. Nach dem Tausch ist dann nämlich wahrscheinlich irgend ein Llink der vorher tat kaputt und du musst Kabel tauschen. Was dann wenns dumm läuft zur Folge hat, das ein anderer Port/Kabel beschädigt wird....
Sprich das artet schnell zu ner endlosen Story aus. Zudem soll das neue Mangement System von Cray/HPE "interessant" sein durch die Verwendung von Kubernetes...