Nvidia & Supermicro: Wie (AI-)Rechenzentren einen kühlen Kopf bewahren
Am Thema Kühlung kommt die IT-Industrie in Anbetracht der exponentiell steigenden Verlustleistung von CPUs und GPUs im (AI-)Rechenzentrum nicht mehr vorbei, das wurde schon zur ISC 2024 deutlich. Auch auf der Hot Chips 2024 steht das Thema im Fokus. Ein Überblick der Präsentationen von Supermicro und Nvidia.
Kühlung ist wieder sexy
„Thermal has become sexy again“ heißt es mit einem Augenzwinkern zur Eröffnung der Tutorial-Sessions auf der Konferenz. Das Thema Kühlung und Wärmeabfuhr von CPUs, GPUs, ja ganzen Rechenzentren ist ein großes, nicht nur für Branchenriesen, sondern auch für Startups, die eine Chance wittern, neue und innovative Lösungen auf den Markt zu bringen.
„The rise of the GPU“ sorgt zusammen mit dem AI-Hype, der Rechenzentren mit zehntausenden GPUs hervorbringt, für neue Herausforderungen. Prozessoren sind bereits bei 500+ Watt und steigen weiter, GPUs bei 1.000+ Watt – und die nächste Marke wartet auch hier nur darauf zu fallen, erklärt Supermicro, die bei den Ausführungen ansetzen, die zur Computex 2024 bereits publiziert wurden.
Von 12 über 120 auf bald 240 kW im Rack
Hat ein klassisches Rack bisher rund 12 Kilowatt Leistung aufgenommen, sind es nun 120 Kilowatt – und dies wird sich in Kürze noch einmal mindestens verdoppeln, glaubt Supermicro als einer der Anbieter der Lösungen in der Auftaktpräsentation. Um diese Verlustleistung abzuführen, zeigt der Trend deutlich in Richtung Wasserkühlung.
Luftkühlung ist aber nicht tot, es ist alles eine Frage des Einsatzgebiets, Platzbedarfs, Geldes. Doch rein mit Luft werden neue Systeme in der Regel nicht mehr gekühlt, oft kommen einige Elemente, die flüssigkeitsgekühlt sind, zum Einsatz – Stichwort Chiller oder Kühltürme. Ziel ist es immer, den Anteil der Leistungsaufnahme der Kühlung am Gesamtverbrauch des Rechenzentrums so klein wie möglich zu halten (Data Center Power Efficiency, PUE).
Auf grüner Wiese ist Wasser Trumpf
Neue Greenfield-Investments, also keine Umwandlungen bestehender alter Datacenter oder Lagerhallen, die zweckentfremdet werden, sollten aber auf eine komplett flüssigkeitsgekühlte Lösung setzen, die enorme Vorteile versprechen, lautet der Tenor zur Konferenz.
Supermicro und Nvidia machen dabei die bekannte Rechnung auf, untermauert mit neuen Zahlen. Lüfter machen in Datacentern nicht nur Lärm, sie verbrauchen auch viel Strom und – wie es zur ISC 2024 im Mai bereits hieß – „fans don't calculate“: Lüfter bringen keine Rechenleistung.
Mit Flüssigkühlung fallen bis zu 80 Prozent der Lüfter weg, schon das allein spart viel Energie ein. Ist ein Greenfield-Investment gleich von vornherein auf komplette Flüssigkeitskühlung ausgelegt, werden die Einsparungen noch deutlicher.
Am Ende ist dies alles in der Rechnung zu berücksichtigen, die sich vor Ort auch die Teilnehmer kritisch zur Brust nehmen: Kann ein flüssigkeitsgekühltes Datacenter wirklich günstiger respektive gleich teuer sein als eines mit Luftkühlung? Supermicro sagt Ja, Nvidia unterstützt dies. Vor allem auf lange Sicht hinaus, dann spart es sogar Geld ein, so das Versprechen.
Nicht überall wird das aus dem Stand heraus funktionieren. In den Übergangslösungen gibt es die sogenannten Rear Door Heat Exchanger, eine Mischung aus Luft- und Flüssigkeitskühlung im Datacenter. Auch der Zweig „Immersion Liquid Cooling“ nimmt an Fahrt auf.
Bekannt sind einige der Lösungen bereits von der einen oder anderen Messe, auf denen Hersteller in Flüssigkeit versenkte Boards oder gar ganze Server gezeigt haben. Das hat Vorteile wie die, dass 100 Prozent der Abwärme auch wirklich an die Flüssigkeit und nicht doch in die Luft übergehen, aber es passt nicht überall. Also wird geforscht, wie es sich eventuell auch in einem kleineren Rahmen einbinden lässt.
Nvidias Experte für Wasserkühlungen kommt aus dem Bereich Reaktorkühlung
Nach Supermicro als Anbieter von Lösungen kam auch Nvidia als einer der „Verursacher“, wie ihn die Moderation mit einem Lachen ankündigte, zur Sprache. Denn die immer stärkeren GPUs wollen angepasste Kühllösungen. Für dieses Thema hat Nvidia eigene Experten zu bieten. Einer davon hat seinen Doktor im Bereich der Kühlung von Kernreaktoren gemacht und erklärt vor Ort, dass es durchaus gewisse Gemeinsamkeiten für Kühllösungen von GPUs und Datacentern gibt.
Nvidias Forschung in dem Bereich existiert schon einige Jahre, wurde zuletzt aber weiter intensiviert. Mit einem Digital Twin, also einem digitalen Zwilling, werden gewonnene Erkenntnisse aus der Praxis zusammen mit anderen Partnern digital weiter verarbeitet, Cadence ist als namhafte Größe bereits involviert. Die Nachfrage bei Nvidia, wie es denn um eine mögliche Standardisierung aussehe, beantwortetet der Hersteller in die Richtung, dass man erst einmal hoffe, dass ein paar auf den Zug aufspringen würden. Ein Standard dürfte aus Nvidias eigener Initiative also vorerst nicht hervorgehen.
Am Ende zielt die Forschung und Entwicklung darauf auszuloten, wie hoch die Verlustleistung im Rack respektive Server respektive Rechenzentrum noch steigen kann? Wo liegen die Limits?
Die digitalen Lösungen werden von Emulatoren in der Praxis mit Daten gefüttert, mal luftgekühlt und auch mal mit Flüssigkeit. Wie viel Wärme pro cm² kann aktuell abgeführt werden: 200 Watt pro cm² oder 230 W/cm²? Hilft es einfach die Fließgeschwindigkeit des Wassers oder einer anderen Flüssigkeit wie PG-25 zu erhöhen? Was macht mein Material dann eigentlich? Ganz dünne Finnen in den Kühlern korrodieren vielleicht, nutzen sich ab; eine zu starke Strömung ist also auch nicht überall gut.
PG-25 ist ein von Nvidia in den letzten Jahren präferiertes Gemisch, welches gewisse Vorteile als Wärmeträger verspricht, aber auch Nachteile hat, die auch die Industrie erklärt.
Reducing the Propylene Glycol concentration below 25% reduces the inhibitor concentrations to a level that may not provide adequate corrosion, scale and biological protection for a system
Hydratech
Die Aussagen von Nvidia lassen auch erkennen, warum einige der Neuheiten des Unternehmens so entworfen wurden. Es bringt aktuell beispielsweise nichts, einen eher kleinen Chip zu produzieren, von dem die Wärme nicht abgeführt werden kann, weil die Kühllösung dafür noch gar nicht bereit ist. Große Chips gewährleisten exakt dies. Die Differenz von luftgekühltem zu flüssigkeitsgekühltem Aufbau zeigt aber auch bereits die Unterschiede: Ist der Server 8U hoch, oder eben nur 1U, und letzterer dabei sogar noch flotter.
Die Forschung in Richtung Megawatt-Rack geht also munter weiter, hat aber auch das Thema Nachhaltigkeit auf dem Schirm respektive muss es haben. Wohin mit all dem warmen Wasser zum Beispiel? Fernwärme oder die Nutzung zur Stromerzeugung sind zwei Möglichkeiten. Der Strom könnte dann wiederum direkt für die Geräte zur Kühlung genutzt werden. Dass Rechenzentren in der Nähe von Wohnsiedlungen bereits zum Heizen genutzt werden, ist keine Neuheit mehr. Wie nachhaltig das am Ende aber wirklich ist, steht auf einem anderen Papier.