Nvidia Quantum-2: Ein 400-Gbit/s-Switch mit 57 Milliarden Transistoren
Nvidia legt im HPC-Segment mit einem neuen Flaggschiff-Switch nach, der im Vergleich zum Vorgänger mit der dreifachen Leistung auftrumpfen soll, indem 64 Ports mit 400 Gbit/s oder 128 Ports mit 200 Gbit/s zur Verfügung gestellt werden. Herzstück des Quantum-2 InfiniBand-Switch ist ein Chip mit satten 57 Milliarden Transistoren.
Der Quantum-2 soll das Erbe des bisherigen Flaggschiffs QM8700 alias „Quantum-1“ antreten, der auf der Website von Nvidia zwar als eigenes Produkt geführt wird, im Datenblatt (PDF) aber eindeutig als früheres Produkt von Mellanox zu erkennen ist.
Bidirektionaler Durchsatz von 50,2 Tbit/s
Beim Quantum-2 bewirbt Nvidia die dreifache Leistung im Vergleich zum Vorgänger, was sich anhand der Anzahl der Ports und deren bidirektionaler Geschwindigkeit ableiten lässt. Ermöglichte der Quantum-1 noch einen Durchsatz von maximal 16 Tbit/s, die sich aus höchstens 80 Ports à 100 Gbit/s oder 40 Ports à 200 Gbit/s ergaben, bietet der Quantum-2 jetzt 64 Ports mit 400 Gbit/s oder 128 Ports mit 200 Gbit/s, woraus sich ein bidirektionaler Durchsatz von 50,2 Tbit/s ergibt.
Switch-Systeme mit bis zu 2.048 Ports
Mit doppeltem Datendurchsatz und dreifacher Anzahl von Ports, wobei Nvidia die 80-Port-Option des Quantum-1 außer Acht lässt, könne die Anzahl der Switches im Datacenter um den Faktor 6 reduziert werden. Der benötigte Platz und Energieverbrauch könne pro Switch zudem um 7 Prozent reduziert werden. Mit dem Quantum-2 lassen sich Switch-Systeme aufbauen, die insgesamt über bis zu 2.048 Ports verfügen können.
Switch größer als ein Nvidia A100
Abseits der Ports ist der „Quantum-2“ getaufte Chip der eigentliche Switch im Inneren des Quantum-2 InfiniBand Switch, der erneut das 1U-Format aufweist. Nvidia legt nur sehr wenige Details dazu offen und nennt vor allem die 57 Milliarden Transistoren, die bei TSMC in N7 gefertigt werden. Für einen Switch ist das geradezu gigantisch, wenn man Nvidias derzeit schnellsten KI-Beschleuniger A100 zum Vergleich heran zieht, der 54,2 Milliarden Transistoren aufweist und im selben Prozess bei TSMC gefertigt wird.
Nutzung mit ConnectX-7 oder BlueField-3
Nvidia bezeichnet den Quantum-2 auch als neue Plattform für Supercomputer, die mit dem ConnectX-7-NIC und der BlueField-3-DPU zwei Optionen für den Endpunkt der Netzwerkverbindung zur Verfügung stellt. ConnectX-7 (PDF) ist das aktuelle NIC-Flaggschiff von Nvidia mit 8 Milliarden Transistoren aus 7-nm-Fertigung, das für bis zu 4 Ports und ebenfalls bis zu 400 Gbit/s ausgelegt ist. ConnectX-7 soll laut Nvidia im Januar des kommenden Jahres erstmals als Sample verfügbar sein.
BlueField-3 integriert ConnectX-7
BlueField-3 ist NIC und Data Processing Unit in einer Lösung. Die DPU soll im Supercomputer die CPU entlasten und besteht aus einer Netzwerkkarte mit ARM-Prozessor und kümmert sich um kritische Aufgaben in den Bereichen Netzwerk, Speicherverwaltung und Sicherheit. Die zur GTC im April vorgestellte DPU setzt auf eine CPU mit 16 ARM Cortex-A78, die bei entsprechend beschleunigten Anwendungen die Rechenleistung von 300 klassischen CPU-Kernen liefern soll. Für das beschleunigte Networking werden RDMA/RoCE, GPU Direct und SDN/NFV auf der DPU abgewickelt und für beschleunigten Storage stehen unter anderem Technologien wie NVMe-oF (over Fabrics), Elastic Block Storage (etwa bei Amazon) und Kompression zur Auswahl. BlueField-3 integriert den ConnectX-7-NIC für 400 Gbit/s und DDR5 mit zugehörigem Speicherinterface und kommt auf 22 Milliarden Transistoren aus 7-nm-Fertigung.
Der Quantum-2 ist jetzt verfügbar von bekannten Infrastruktur- und Systemanbietern wie Atos, DataDirect Networks (DDN), Dell Technologies, Excelero, Giabyte, HPE, IBM, Inspur, Lenovo, Penguin Computing, QCT, Supermicro, VAST Data und WekaIO.
ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA erhalten. Die einzige Vorgabe war der frühestmögliche Veröffentlichungszeitpunkt.