Supercomputer: Nvidia gibt Einblick in Eos mit 4.608 H100-GPUs
Nvidia beliefert nicht nur Dritte mit Hard- und Software für Supercomputer, sondern betreibt auch eigene, darunter den im Frühjahr 2022 vorgestellten Eos, der letztes Jahr auf Platz 9 der Top500 in das Ranking einstieg. In einem Blog-Beitrag und Video gibt Nvidia jetzt erstmals einen öffentlichen Einblick in dessen Architektur.
Den Supercomputer Eos hatte Nvidia erstmals zur GTC im März 2022 in Aussicht gestellt, als auch die damals neue Hopper-Architektur angekündigt wurde, die unter anderem bei der H100-GPU oder bevorstehenden AI-Lösungen wie dem GH200 zum Einsatz kommt. Zur diesjährigen GTC wird die Vorstellung der nächsten Architektur namens Blackwell erwartet, sofern bisherige Gerüchte zutreffen. Die erste darauf basierende GPU dürfte B100 heißen, wie bereits einer Roadmap von Nvidia zu entnehmen war.
Supercomputer wie der Eos können zum Beispiel genutzt werden, um darauf AI-Workloads wie das Trainieren von Large Language Models oder die Genomsequenzierung schneller und effizienter als auf Systemen nur mit CPUs laufen zu lassen.
Eos auf Platz 9 der Top500
Eos schaffte im November letzten Jahres auf Anhieb den Einsteig unter die weltweit zehn schnellsten Supercomputer im Top500-Ranking. Im Linpack-Performance-Benchmark kam das System auf eine Leistung von 121,40 PetaFLOPS. Das Feld führt derzeit der Frontier aus den USA an, der bestückt mit AMD Epyc der 3. Generation und AMD Instinct MI250X auf 1.194,00 PetaFLOPS kommt.
576 DGX H100 mit 4.608 H100-GPUs
Nvidia setzt im eigenen Supercomputer selbstredend auf die eigenen AI-Lösungen, genauer gesagt 576 DGX-H100-Systeme, in denen insgesamt 4.608 der begehrten H100-GPUs stecken. Jeweils acht H100-GPUs mit 80 GB HBM3 kommen somit in einem DGX H100 zum Einsatz, sodass insgesamt 640 GB HBM3 pro System mit einer aggregierten Speicherbandbreite von 24 TB/s für AI-Workloads zur Verfügung stehen. Ein DGX H100 behaust außerdem unter anderem zwei Intel Xeon Platinum 8480C mit insgesamt 112 CPU-Kernen, 2 TB DDR5 und mehrere ConnectX-7 Smart-NICs mit 400 Gbit/s.
Leistungsaufnahme von über 720 kW
Den SuperPOD wiederum unterteilt Nvidia in sogenannte Scalable Units (SU), von denen einer 32 DGX H100 aufnimmt. Bei der in einem Whitepaper beschriebenen Referenz-Architektur (PDF) geht Nvidia von 4 SUs und somit 128 DGX H100 aus, wobei ein Rack mit nur einer SU laut Nvidia auf eine Leistungsaufnahme von über 40 kW kommt. Bei den 576 DGX H100 des Eos können somit grob 720 kW nur für die Compute-Systeme angesetzt werden, bevor die Management-Racks einbezogen werden. SuperPODs lassen sich laut Nvidia aber auf bis zu 64 SUs mit dann 2.048 DGX H100 respektive 16.384 H100-GPUs skalieren.