Nvidia Kyber: Ein DGX SuperPod komprimiert auf nur noch ein Rack

Zur GTC hat Nvidia mit dem Blackwell Ultra DGX SuperPod einen „Out-of-the-box AI Supercomputer“ vorgestellt, der mit 576 GPUs über 11 ExaFLOPS (FP4) Rechenleistung für KI-Projekte zur Verfügung stellt. Was dort allerdings noch auf vier Racks verteilt wird, könnte bald in ein einziges passen, wie das Kyber Rack von Nvidia zeigt.
Scale-up auf die Spitze getrieben
Vor dem Scale-out müsse man den Scale-up machen, erklärte Nvidia-CEO Jensen Huang gestern dem Keynote-Publikum. Gemeint ist eine Verdichtung der Komponenten, bevor man damit in die Breite geht. Nvidia treibt dieses Vorhaben mit stetig dichter gepackten Racks voran und erreicht zur GTC 2025 mit dem Kyber Rack die vorläufige Spitze.
Das Kyber Rack war zur Keynote nur indirekt ein Thema, man musste schon genau auf die Fußnoten achten, um neben dem Bild des für die zweite Jahreshälfte 2027 geplanten Rubin Ultra NVL576 den Rack-Entwicklungsnamen „Kyber“ zu finden. Schnell fiel der Blick stattdessen nämlich auf die gigantischen Zahlen rund um Rubin Ultra mit riesigem 4-Retikel-GPU-Package.
Kyber macht alles anders
Bereits die zur Keynote gezeigte Frontansicht von Kyber ließ vermuten, dass Nvidia die Komponenten hier nicht nur noch dichter packen, sondern diese auch vollständig anders im Rack anordnen wird. Analog zur gezeigten Roadmap bis in das Jahr 2028 gab sich Nvidia auch am eigenen GTC-Messestand erstaunlich offen mit einer Vorschau auf die nächsten Server-Generationen und hatte dort auch bereits Kyber und die dafür benötigten neuen Bausteine ausgestellt – offiziell erst einmal nur als Proof of Concept. Doch angesichts der Tatsache, dass Jensen Huang den Rubin Ultra NVL576 genau in diesem Chassis zur Keynote gezeigt hat, ist von einer entsprechenden Umsetzung auszugehen.
576 GPUs in einem einzigen Rack
Rubin Ultra NVL576 bringt unter anderem 144 Chip-Packages mit insgesamt 576 GPUs verbunden über mehrere NVLink Switches in einem einzigen Rack zusammen. Das Rack hat laut Huang einen Energiebedarf von 600 kW. Zum Vergleich: Bei GB200 NVL72 (und GB300 NVL144) sind es 132 kW und pro Rack 144 GPUs (neue Zählweise bei GB300) verteilt auf 72 Chip-Packages, 36 Grace-CPUs und neun NVLink Switches.
Kyber kommt ohne NVLink-Kupferkabel aus
Nvidia strebt demnach eine GPU-Verdichtung pro Rack um den Faktor 4x mit Rubin Ultra im Vergleich zu Rubin, Blackwell Ultra und Blackwell an. Dafür muss der Aufbau des Racks vollständig überarbeitet werden, wie Kyber eindrucksvoll zeigt. Bei GB300 NVL144 und Vera Rubin NVL144 verbaut Nvidia die insgesamt 18 Compute-Trays mit jeweils 8 GPUs und 2 CPUs noch wie Schubladen im Rack, die neun NVLink Switches sitzen übereinander gestapelt zwischen den ersten zehn und weiteren acht Compute-Trays. Die „Wirbelsäule“ des Systems sind 3,2 Kilometer Kupferkabel auf der Rückseite des Racks, die die Compute-Trays mit den NVLink Switches verbinden, um „eine“ große GPU zu erzeugen.
Kyber baut nicht nur dichter, sondern kommt auch ohne diese Kabel aus. Anstelle der Trays setzt Nvidia hier auf Blades für Compute und NVLink Switches, die um 90 Grad gedreht wie Bücher in ein Regal geschoben werden. Vier Blöcke à 18 Compute-Blades für insgesamt 72 Compute-Blades kann Kyber von vorne aufnehmen. Bei Kyber hat jedes Compute-Blade nur noch rund die halbe Bautiefe gegenüber den Blackwell-Trays, weil Nvidia von einem hybriden flüssigkeitsgekühlten Aufbau zu einem ausschließlich flüssigkeitsgekühlten Aufbau wechselt, der keinerlei klassische Kühlkörper und Lüfter mehr benötigt. Die Flüssigkeitskühlung umfasst hier diesmal wirklich alle Komponenten, also nicht mehr nur GPUs und CPUs, sondern auch Storage, DPU, Netzwerk und mehr, sodass Lüfter nicht mehr über die Boards blasen müssen.
Midplane-PCB als neues Zwischenstück
Aber wo kommen bei Kyber dann noch die benötigten NVLink Switches unter? Diese nehmen die zweite Hälfte der Bautiefe des in puncto Abmessungen standardkonformen Racks direkt hinter den Compute-Blades ein. Dazwischen sitzt senkrecht zu den von vorne und hinten aufeinander treffenden Blades ein neues Midplane-PCB mit Kontaktpunkten auf beiden Seiten, um von vorne die Compute-Blades und von hinten die NVLink-Switch-Blades mit entsprechenden Verbindungsstücken aufzunehmen. In diesem Bereich des Racks verläuft auch die Flüssigkeitskühlung mit den jeweils zwei Anschlüssen an jedem Compute- und NVLink-Switch-Blade. Im Endergebnis entsteht so bezogen auf die Anzahl der GPUs ein viermal so dicht gepacktes Rack mit 144 Chip-Packages für insgesamt 576 GPUs, da bei Rubin Ultra vier statt zwei GPUs ein Chip-Package bilden.
Blackwell Ultra DGX SuperPod
Dieses Jahr müssen sich Nvidia-Kunden allerdings noch mit dem zur GTC angekündigten Blackwell Ultra DGX SuperPod „begnügen“, der ebenso 576 GPUs bietet, diese aber noch auf vier Racks mit hybrider Kühlung verteilt. Der neue SuperPod wird von Nvidia als quasi schlüsselfertiger „Out-of-the-box AI Supercomputer“ vermarktet, der mit 576 Blackwell-Ultra-GPUs und 288 Grace-CPUs eine Rechenleistung von 11,5 ExaFLOPS für FP4 erreicht. Der Blackwell Ultra DGX SuperPod soll im Laufe dieses Jahres von Nvidias Partnern angeboten werden.

ComputerBase hat Informationen zu diesem Artikel von Nvidia im Rahmen einer Veranstaltung des Herstellers in San Jose, Kalifornien erhalten. Die Kosten für An-, Abreise und fünf Hotelübernachtungen wurden vom Unternehmen getragen. Eine Einflussnahme des Herstellers oder eine Verpflichtung zur Berichterstattung bestand nicht.
- Autonomes Fahren: Nvidia gewinnt Magna, GM und Volvo für AGX und DGX
- Für Rubin und Feynman: SK Hynix, Samsung und Micron zeigen HBM4E mit bis zu 64 GB
- Nvidia Kyber: Ein DGX SuperPod komprimiert auf nur noch ein Rack
- +9 weitere News