Bericht High Performance Computing: Ohne Wakü ist die Leistung in Zukunft nicht mehr zu bändigen

Bohnenhans · 19. Mai 2024

Ja klar wird das Wasser wärmer sonst funktioniert das mit der Kühlung der CPUs oder GPUs doch nicht?

Das wird man halt wieder abkühlen wenn das ein geschlossener Kreislasuf ist - was sicher oft Sinn macht. Man kann viel machenm aber wenn der Wärmeunterschied gering ist halt nicht so viel sinnvolles.

Und was man macht muss extrem skalierbar sein - also nach 3 Jahren das mind doppelte bis 5-fache an Wasser abkühlen holen, Wasser=Das Kühlmedium das die nutzen werden

Natürlich kann man ein Büro etc heizen wenn das aber dann bereits auf 30 Grad heizbar ist und man hat die 10-fache Wärmeenergie ein paar Jahre später die man abführen MUSS heizt man dann das Büro auf 90 Grad?

Das ist halt das was man einplanen muss. Dort wo heute MW entstehen werden irgendwann GW an Abwäme entstehen. KW und vielleicht 3-stellige MW lassen sich immer für kleine vor Ort Projekte nutzen - bei GW wird das halt schwer.

Wenn man RZ mit GW hat die wie gesagt morgen garantiert da sein und üblich sein werden wenn man mind im Mittelfeld mitspielen will ob da dann 1%-10% für Raumheizung, Gewächshäuser etc weggeht das ist halt egal - es ist nett aber egal.

Das halt wie wenn man einem Autofahrer Benzin schenkt das er selber verbrauchen muss und nicht verkaufen verschenken etc darf - schenkt man ihm 10 Liter in der Woche er freut sich - evtl auch bei 100 MUSS er aber 10.000 jeden Tag abnehmen dann macht er ein langes Gesicht......

Skysnake · 19. Mai 2024

dominiczeth schrieb:
Vom Prinzip kannst auch 5MW kühlen, ist alles nur eine Frage von Durchfluss, Größe, Effizienz,.... Selbst sehr kleine industrielle Rückkühlanlagen kommen locker auf 30kW. Wir hatten damals, bei meinem alten Arbeitgeber, Plasmabrenner. Die haben auf einem Handtellergroßen Bereich mal eben 20kW abgegeben, war auch kein Problem das zu Kühlen. Die Kühlanlagen dazu waren nicht viel größer als eine größere Kommode...

Dir ist bereits schon klar, dass das Delta T entscheidend ist? Schau dir mal an was Freikühler für 1MW bei nem Rechenzenteum an Fläche brauchen. Das ist alles nur nicht klein uns günstig schau dir dagegen mal nen Kühler im Auto an, der bei >100Grad arbeitet...

machs111 schrieb:
wir haben gerade einen immersive liquid cooling solution bei uns stehen mit Öl.

Und was sind eure Erfahrungen? Und noch wichtiger, gibt der CPU Hersteller Garantie darauf oder läuft das komplett über den Kühlerhersteller?

Wäre mir ehrlich gesagtzu heiß

ABIT4ever schrieb:
@immortuos

In solchen HPC-Rechenzentren wird keine Komponente mehr repariert. Wenn von 5.000 Servern in fünf Jahren 100 ausfallen, lässt man sie einfach aus. Auch bei den DLC-Kühlungen wird keiner hingehen, irgendwo einen defekten RAM-Riegel zu tauschen. Lohnt einfach nicht.

Bullshit. Bei HPC Anlagen selbst in der Größe wird natürlich repariert. Dimm neu stecken oder mal der CPU mal die WLP erneuern ist Standard. Wenn danach noch immer nicht tut kommt der Server in die RMA zum Hersteller/Dienstleister.

Erst wenn du bei zehntausenden eher hunderttausenden von Servern bist wird direkt rausgezogen und dann in der RMA repariert. Aber auch da schmeißt das keiner einfach weg.

Gerade im HPC Bereich wo du die Kisten hart ran nimmst hast du >1% Ausfall pro Jahr.

Gr.mm schrieb:
Wie oben geschrieben ist der nachlauf etwa 1-2 grad wärmer als der vorlauf

gibt es, man geht aber eher auf 5-10 Grad. Macht es der Klima einfacher.

Gr.mm schrieb:
Hat man früher bei uns (die kühlung) mit 5kw pro rack geplant, was mal ein volles rack gewesen ist, kann man jetzt teils nur noch eine handvoll server in den gleichen schrank bauen und der rest MUSS leer bleiben - eine enorme platzverschwendung.

5kW ist aber echt sehr niedrig. Das kenne ich nur von Netzwerkschränken. Bei Compute ist 15 eher 20kW eigenrlich das untere Limit.

5kW bekomme ich ja schon mit 5 IB Switchen gerissen. Da bist du dann auch schnell dabei das gar nichts mehr ins Rack kann. 5kW reißen ja schon einzelne GPU Systeme.

Thomrock schrieb:
Regelungstechnisch ist das nicht sehr anspruchsvoll die Zentralkälte regelt meistens auf den Pufferspeicher. Das ist nur ein Beispiel aus der Praxis es gibt viele andere Lösungen je nach Kundenwunsch und finanziellen Möglichkeiten.

?

hmm komisch das ich bei Abhnahmen regelmäßig erlebe, dass die Infrastruktur Leute sagen alles kein Problem und dann fängst du mal an bißchen mit dem System zu spielen und schon klingelt das Telefon weil die am schwitzen sind....

ich habe es auch mehr als einmal erlebt as sich ne ME Kälteanlage abgeschaltet hat...

also die Kühlsysteme sauber eintegeln ist bei HPC meist eine Aufgabe die Initial mehrere Tage braucht und auch om normalen Betrieb noch etwas Liebe benötigt.

Kilinari schrieb:
Kann mir einer erklären warum sie die teuren Industrie-Hydraulikschläuche und Verschraubungen/Kupplungen nutzen und nicht normale günstige Schläuche und außerhalb der Server starre Verrohrung wie bei einer Heizung in einem normalen Haus? Warmes Wasser durch die Gegend pumpen ist nun keine Raketenwissenschaft. (Bin gelernter Zentralheizungs- und Lüftungsbauer).

Die Kühlkreisläufe werden wohl keine Drücke >10bar haben.

Wartbarkeit ist hier das Zauberwort. Du musst halt im vollen Betrieb ohne Flüssigkeitsverlust stecken können.

Irgendwo geht halt ständig was kaputt.

SIR_Thomas_TMC schrieb:
Hab die Frage auch gestellt, noch keine Antwort erhalten. Selbst wenn es wenig Wärmeunterschied ist (was bei den Leistungswerten ja irgendwie sonderbar wäre), könnte man die in nem Wärmetauscher aufkonzentrieren. In Strom umwandeln fällt mir dann aber nur ein Peltierelement ein (sauteuer), oder über Wasserdampf (klappt wohl eher nicht). Hm. Nahwärme wird da wohl selten gebraucht werden.

Warum seltsam? Die Chips dürfen nicht wärmer als Tcase werden. Das sind max 95Grad, wobei es auch immer mehr Chips mit nur noch 65Grad Tcase gibt. Wenn du da mit 35-45 Grad kalt rein gehst bleibt da nicht mehr viel Luft um am Ausgang wärmer zu sein. Das ist ja das herausfordernde an der Kühlung im RZ. Du musst riesige Energiemengen mit kleinem Delta abführen.

Bohnenhans schrieb:
Die Wasserrücklauftemperatur ist vielleicht doch typischerweise max 4-5 Grad über der Vorlauftemp? was soll man denn damit anfangen?

Genau das ist das Problem. Die Wärme ist kaum nutzbar wegen dem kleinen delta und vor allem dem niedrigen absoluten Wert. Viel Prozesswärme ist bei über 100Grad oder drum herum.

Bohnenhans schrieb:
Das läuft sicher nicht das gleiche Wasser nacheinander durch hunderte oder tausende C/GPUs und ist dann am Ende 40 Kelvin wärmer als der Zulauf, das wird sicher weitgehend parallel von verschiedenen Wasserströmen duchlaufen.

Nein, man durccläuft meist nur einen max zwei nodes. Also am Ende irgendwas zwischen 1 und 10 Chips. Das war es dann aber auch.

Bohnenhans schrieb:
Ob solche Grossrechenzentren im Bereich AI 500MW brauchen oder 550MW mit Kühlung ist doch egal nimmt man die Prognose der Verzehnfachung ist man 3 Jahre später bei vermutlich ~ 2 GW und mit Kühlung 2,5 GW. wenn das System weiter auf der Höhe der Zeit sein sol

Ähm nein ist nicht egal. Aber das ist wie die Diskussion um den Standby Verbrauch...

Thomrock · 19. Mai 2024

Skysnake schrieb:
ich habe es auch mehr als einmal erlebt as sich ne ME Kälteanlage abgeschaltet hat...

Das mal was ausfällt ist schon Normal wohl dem der genug Leistungsreserve hat.

Skysnake schrieb:
also die Kühlsysteme sauber eintegeln ist bei HPC meist eine Aufgabe die Initial mehrere Tage braucht und auch om normalen Betrieb noch etwas Liebe benötigt.

Sicher muss alles sauber geplant und eingeregelt werden aber wenn eine große Anlage einmal läuft was auch länger dauern kann als ein paar Tage machen andere Gewerke in der Gebäudeautomation mir mehr Ärger als die Kälteversorgung. Ich betreue selbst eine schon recht große Kälteanlage mit 1,5 MW Leistung und die Kälte macht mir keine schlaflosen Nächte.

dominiczeth · 19. Mai 2024

Skysnake schrieb:
Dir ist bereits schon klar, dass das Delta T entscheidend ist?

Natürlich ist mir das klar. Daraus ergibt sich ja schließlich auch die Leistung (Durchfluss, Delta T und Wärmekapazität).
Die Brenner, von denen ich sprach, hatten einen Vorlauf von 22° und einen Rücklauf von ca 45°C. Da bleibt auch nicht viel übrig zur Raumtemperatur, gerade im Sommer.
Aber darum ging es nicht, es ging ja um die Unmöglichkeit an einem gewissen Punkt. Und dieser Punkt ist bei Servern noch lange nicht erreicht.

Skysnake · 19. Mai 2024

Thomrock schrieb:
Ich betreue selbst eine schon recht große Kälteanlage mit 1,5 MW Leistung und die Kälte macht mir keine schlaflosen Nächte.

Für was?

So als reiner Zahlenwert ist das völlig nichtssagend. Bei HPC ist ja das Problem, das du z.b. für den Top500 run von 20% Last auf 100% Last innerhalb 5 Sekunden an und fällt dann auf so 80-90% über Stunden bis dann der Fall auf die 20% Idee kommt. Gerade wenn man sieht das es Probleme gibt, schwankt man zwischen 20 und 100% auch durchaus binnen weniger Minuten mehrfach hin und her.

Im Regelbeteieb eher selten, da man meist keine Jobs auf mehr als 60% der Maschine zulässt, aber wenn, kann es auch alle paar Minuten zwischen 20 und 100% schwanken. Das mögen die Kältezentralen eher weniger im MW Bereich.

bei Wasser hat man halt Blasen warmen Wassers die durchs System rauschen. Auch eher uncool.

dominiczeth schrieb:
Die Brenner, von denen ich sprach, hatten einen Vorlauf von 22° und einen Rücklauf von ca 45°C. Da bleibt auch nicht viel übrig zur Raumtemperatur, gerade im Sommer.

naja, genau so viel wie bei 45Grad Rücklauf beim Rechner. Bei 22Grad ist es aber eine Kältemaschine. Das ist schon was anderes als wenn du das mit Trockenkühlern machst.

dominiczeth schrieb:
Aber darum ging es nicht, es ging ja um die Unmöglichkeit an einem gewissen Punkt. Und dieser Punkt ist bei Servern noch lange nicht erreicht.

Was meinst du bezüglich Unmöglichkeit?

Also bei welcher Komponente?

Beim Kühler auf den Chips ist man mit 45Grad Vorlauf schon nicht weit weg von dem was geht an Leistungsdichte. Die Systeme mit höherer Power haben ja auch mehr Chipfläche. Von daher ist das kein Problem. Einfach größerer Kühler mit mehr parallelem Durchfluss und fertig.

Thomrock · 19. Mai 2024

Skysnake schrieb:
Für was?

Kein HPC meine Serverräume lassen sich zum Glück alle noch mit Luft kühlen der Rest ist Gebäudeklimatisierung.

Skysnake · 19. Mai 2024

Dann wäre ich sehr vorsichtig mit solchen Aussagen. Ich habe die letzten Jahre selbst bei HPC Betreibern immer wieder erlebt wie die auf die Fresse geflogen sind einfach weil die Variabilität gestiegen ist und eben auch die Leistung der Systeme.

BTW im Extremfall haben meine Tests von <1% auf ~60% in <10 Sekunden und dann nach <30 Minuten auf 100% Last. Also System komplett aus und dann einschalten und Job auf dem gesamten System starten.

Bei normalen Serverräumen hat man das nicht. Dadurch das alles unabhängig ist hat man nur einen gewissen Gleichzeitigkeitsfaktor und wenn dann Schwankungen im Bereich von Stunden. Aber sicher nicht von <1 Minute.

Bohnenhans · 19. Mai 2024

Naja die RZ die ja massivst im Kommen sind und die diesen Kühlbedarf vor allem brauchen sind sicher zu 90% KI Zentren, alles andere braucht kaum solche extreme Steigerung der Rechenleistung.

Und die KI Zentren werde immer auf Volllast durchlaufen. die werden permanent auf 100% sein.

Joshua2go · 20. Mai 2024

lorpel schrieb:
Und mit Wieland Steckdose gibt's das Problem nicht?

Standard Steckdosen sind nicht für dauerhaft hohe Stromabnahme/-einspeisung 24/7 konzipiert.

IdefixWindhund · 21. Mai 2024

Schon irgendwo "witzig". Hat man nicht früher auf andere Plattformen gewechselt, weil sie weniger im Unterhalt (Stromkosten) gekostet haben!?

Bohnenhans · 21. Mai 2024

Man hat schon immer dorthin gewechselt wo man den meisten Ertrag aus dem eingesetzten Mittel machen konnte.

Wenn ein 10x schnelleres KI das 20x mehr Strom vebraucht dazu führt dass man in einem Bereich Marktführer werden kann ist der 20.fach höhere Stromverbrauch halt egal.

z.B. könnte der Ki RZ Bereich für Pharmazie und Humanmedizin ganz schnell ein Billionen oder Billiardenmarkt werden für den der da am schnellsten ist und sinnvolle Netze entwickeln kann.

Da gilt halt super hohes Risiko <-> Giga Chance.

So wie auch Bitcoin Stromkosten viele die da früh heftig reingegangen sind zu Multimillionären oder Milliardären gemacht haben.

Qualla · 21. Mai 2024

Das ist eine folgerichtige Entwicklung. Spannend ist für mich vor allem, dass Firmenkunden sehr andere Schwerpunkte bei ihrer Wasserkühlung haben als Privatbastler. Da stehen Leistung, Preis und Wartungszyklen im Fokus. Vielleicht färbt das ja etwas auf den Bastlerbereich ab, wobei ich da meine Zweifel habe.
Trotzdem interessieren mich die professionellen Lösungen sehr!

Bohnenhans · 21. Mai 2024

Naja denke die Hardware in den kommenden Hightech RZ läuft ähnlich wie in BitCoin Farmen höchstens 2-3 Jahre bis es keinen Sinn mehr macht damit zu arbeiten weil die Welt sonst Lichjahre weg ist

Da wird man evtl Standardanschlüsse ausserhalb haben an grosse Leitungen haben Druckminderer und der Rest ist Modul das mitgetauscht wird wenn das System getauscht wird

Selbst solche einfachen Einsteiger nvidia 8x100 4he Systeme kosten bereits 250.000+ da ist es ja egal ob die Wakü Komponenten fest integriert sind als z.b. Direct Die Lösungen und mitrausfliegen

Bei den GPU Preisen wird kaum wer in den Systemen Wakü Verbinder etc haben wollen ;-)

machs111 · 7. Juni 2024

dominiczeth schrieb:
Natürlich ist mir das klar. Daraus ergibt sich ja schließlich auch die Leistung (Durchfluss, Delta T und Wärmekapazität).
Die Brenner, von denen ich sprach, hatten einen Vorlauf von 22° und einen Rücklauf von ca 45°C. Da bleibt auch nicht viel übrig zur Raumtemperatur, gerade im Sommer.
Aber darum ging es nicht, es ging ja um die Unmöglichkeit an einem gewissen Punkt. Und dieser Punkt ist bei Servern noch lange nicht erreicht.

die Öl Kühlung läuft ziemlich gut. zu heiß wirds da keiner Komponente. Probleme sind eher in der Wartung weil MA auf den Umgang mit Öl geschult werden müssen.

Suche

Bohnenhans

Captain

Skysnake

Captain

Thomrock

Lt. Junior Grade

dominiczeth

Vice Admiral

Skysnake

Captain

Thomrock

Lt. Junior Grade

Skysnake

Captain

Bohnenhans

Captain

Joshua2go

Lt. Commander

IdefixWindhund

Gast

Bohnenhans

Captain

Qualla

Lt. Commander

Bohnenhans

Captain

machs111

Ensign

Ähnliche Themen

GPU-Kühlung Update Alphacool setzt die Radeon RX 9070 XT zigfach unter Wasser

GTC 2025 Neues Kühlkonzept Solidigm setzt Server-SSDs geschickter unter Wasser

AiO-Wakü von 240 bis 420 mm be quiet! stößt mit der Silent Loop 3 in neue Längen vor

Bericht High Performance Computing: Ohne Wakü ist die Leistung in Zukunft nicht mehr zu bändigen

Captain

Captain

​

Lt. Junior Grade

Vice Admiral

Captain

Lt. Junior Grade

Captain

Captain

Lt. Commander

IdefixWindhund

Gast

Captain

Lt. Commander

Captain

Ensign

Ähnliche Themen

Passend zum Thema