Blackwell Ultra: Nvidia GB300 kommt auf 288 GB HBM3e und 1,4 kW pro GPU

23.12.2024 16:18 Uhr

Bild: Nvidia

Aus der taiwanischen Lieferkette kommen technische Daten zum Upgrade auf Blackwell Ultra. Den Mid-Cycle-Refresh der Blackwell-Architektur hatte Nvidia zur Computex im Juni selbst bereits angekündigt, jetzt kommen Details für GB300 wie die Menge des verbauten HBM3e (288 GB) oder der Verbrauch pro GPU (1.400 Watt) ans Licht.

Dass Nvidia das Tempo bei der Einführung neuer Lösungen für das KI-Supercomputing anziehen wird, hatte der Hersteller vor rund einem Jahr gegenüber Investoren angekündigt. Zur Computex-Keynote im Juni dieses Jahres war CEO Jensen Huang überraschend offen und ließ die Zuschauer grob für die nächsten Jahre skizziert bereits auf die Blackwell-Nachfolger Blackwell Ultra, Rubin und Rubin Ultra blicken.

Blackwell Ultra mit 288 GB HBM3e

Demnach steht im kommenden Jahr der Mid-Cycle-Refresh auf Blackwell Ultra an. Für den hatte Nvidia bereits von offizieller Seite das Ausstattungsmerkmal „8S HBM3e 12H“ angekündigt. Das bedeutet: Es kommen 8 Stacks HBM3e mit jeweils 12 Layern zum Einsatz. Der Speicherausbau pro GPU soll damit von derzeit 192 GB auf 288 GB steigen, berichtet die Economic Daily aus Taiwan unter Verweis auf die Lieferkette.

Die Angabe von 288 GB überrascht allerdings nicht, da Blackwell (ohne Ultra) derzeit 8 Stacks HBM3e mit jeweils 8 Layern nutzt und damit auf 192 GB kommt. 50 Prozent mehr Layer bei Blackwell Ultra bedeuten im Umkehrschluss 50 Prozent mehr Speicher und somit 288 GB.

Die TDP steigt moderat

In dem Bericht der Economic Daily geht es primär um GB300, also den Nachfolger des GB200 Superchips. So bezeichnet Nvidia das Board mit zwei B200-GPUs und einer Grace-CPU. 36 dieser Boards bilden den GB200 NVL72, ein dicht gepacktes, wassergekühltes Rack mit 72 Blackwell-GPUs, 36 Grace-CPUs, 13,5 TB HBM3e und bis zu 1.440 PetaFLOPS Leistung (FP4 Tensor Core Sparse). Jedes Superchip-Board kommt auf eine konfigurierbare TDP von 2.700 Watt. Das ist wichtig mit Blick auf Blackwell Ultra.

Denn für die B300-GPU wird in dem Artikel eine TDP von 1.400 Watt angegeben. Das klingt nach viel, ist aber nicht wesentlich mehr als bei B200. Zwei Blackwell-Ultra-GPUs würden damit maximal 2.800 Watt erreichen, dazu müsste man dann noch die Grace-CPU und die weiteren Board-Komponenten rechnen, um den Verbrauch mit dem bisherigen GB200 Superchip vergleichen zu können. Dass der Verbrauch pro Board höher sein wird, ist absehbar, der Unterschied wird gemessen an dem Leistungszuwachs aber nicht dramatisch ausfallen. Die FP4-Leistung soll mit Blackwell Ultra bei Verwendung der Sparsity-Beschleunigung um 50 Prozent auf 2.160 PetaFLOPS steigen.

LPCAMM für die Grace-CPU

Abseits des HBM3e der GPUs sind auf jedem GB200 Superchip auch 480 GB LPDDR5X für die Grace-CPU verlötet. Hier soll mit der nächsten Generation der modulare LPCAMM einziehen, der ohnehin von Anfang für Notebooks, Desktops und Server geplant war.

Änderungen bei Kühlung und Energiespeicher

Für neue AI-Server mit Blackwell Ultra soll für die Wasserkühlung die Anzahl der Universal Quick Disconnects (UQD) erhöht werden, was das System modularer machen würde. In den neuen Racks soll zudem Platz für Battery Backup Units (BBU) und Superkondensatoren geschaffen werden, um mit dieser Energie Ausfälle abzufedern.

Networking soll auf 1,6 Tbit/s verdoppeln

Außerdem soll Nvidia beim Networking die nächste Verdoppelung auf 1,6 Tbit/s gehen. Die Economic Daily bringt dafür ein Upgrade des bisherigen InfiniBand-Adapters ConnectX-7 auf den ConnectX-8 ins Spiel. Laut Computex-Roadmap vom Juni waren 1,6 Tbit/s bislang aber erst für die übernächstes Jahr erwartete Rubin-Plattform und deren ConnectX-9 angesetzt. Der ConnectX-8 kommt außerdem bereits bei den aktuellen Blackwell-Lösungen zum Einsatz und stellt dort eine Bandbreite von 800 Gbit/s zur Verfügung.