News Nvidia Blackwell: B200-GPU kommt als Dual-Die mit 208 Milliarden Transistoren

Ayo34 · 20. März 2024

Laut der Präsentation kann man die alten einfach gegen die neuen austauschen. Gerade das wurde doch als großer Pluspunkt genannt? Aber auch sonst, wie viele Chips passen da rein? Ein Chip kostet 30 - 50k? Da wird ein Umrüsten, was wohl nicht nötig ist, auch nur einen kleinen Anteil ausmachen.

Der Strombedarf pro Chip bleibt einfach (fast) egal.

stefan92x · 20. März 2024

Bei den Um/Nachrüstungen für Datacenter sprechen wir halt dann ganz schnell über neue Mittelspannungsanschlüsse inklusive neuer Trafos, Klimaanlagen im Megawattbereich... alles nur um weiter den vorhandenen Rackspace nutzen zu können. Da ist der gesteigerte Strombedarf wirklich nicht trivial.

Das alles ändert aber natürlich auch nichts an deinem richtigen Punkt, dass effizientere Chips mit hohem Stromverbrauch besser sind, als weniger effiziente mit geringerem.

Aber "einfach" ist der Austauch von 700W Hopper gegen 1000W Blackwell definitiv nicht.

ThirdLife · 21. März 2024

stefan92x schrieb:
Aber "einfach" ist der Austauch von 700W Hopper gegen 1000W Blackwell definitiv nicht.

Laut Präsi braucht man für gleiche Leistung aber nun in einem Rack nur noch 4 MW statt 15 MW. Selbst bei doppelter Performance reden wir dann von 8-10 MW. Da hast dann über 50% auch an Kühlung noch gespart und die Leistung verdoppelt, nur halt nicht wie geschrieben "bis zu" vervierfacht.

Ich würde behaupten die neuen GPUs sind verdammt krank effizient wenn man diese Zahlen sieht.

Ayo34 · 21. März 2024

stefan92x schrieb:
Aber "einfach" ist der Austauch von 700W Hopper gegen 1000W Blackwell definitiv nicht.

Hast du dir die Präsentation überhaupt angeschaut? Laut Nvidia Chef nimmt man die alten Chips raus und die neuen rein. Einfacher geht es doch nicht?

Ergänzung (21. März 2024)

ThirdLife schrieb:
... nur halt nicht wie geschrieben "bis zu" vervierfacht.

Das habe ich geschrieben um zu verdeutlichen, was die GPU kann. Hier macht man wegen einem 1000 Watt Chip einen Aufstand und ich habe lediglich gesagt, dass diese 1000 Watt quasi egal sind, wenn dafür die GPU 4x mehr leistet. Je nach Szenario leistet sie (laut Präsentation) eben 2 bis 6x soviel wie der Vorgänger. Ebenso ist die Effizienz enorm gestiegen.

Anstelle "WOW" zu schreiben, hat man Angst vor lächerlichen 1000 Watt pro Chip.

ThirdLife · 21. März 2024

Ayo34 schrieb:
Das habe ich geschrieben um zu verdeutlichen, was die GPU kann.

Ich habs gar nicht auf dich bezogen sondern auf die Werte von nVidia selbst in der Präsi

Auch wird vergessen dass man alleine mit den neuen Switches und dem Verzicht auf Fiber und Transceiver auch nochmals rund 2kW eingespart werden. Wenn deine Racks also Hopper betreiben konnten werden sie auch mit Blackwell klarkommen und dabei rund 3-4x mehr Performance liefern.

Technisch war das schon ganz großes Kino was da aufgefahren wurde. Super spannend - werde wohl selbst leider nie die Gelegenheit haben mit derart Hightech zu arbeiten.

stefan92x · 21. März 2024

Ayo34 schrieb:
Hast du dir die Präsentation überhaupt angeschaut?

Der neue DGX GB200 NVL72 braucht 120kW für ein Rack. Vor wenigen Jahren war eine Auslegung auf 20-30kW peo Rack in Rechenzentren üblich. Das ist mein ganzer Punkt, da geht es nicht um Effizienz, oder um Angst vor dem Stromverbrauch.

Die Entwicklung, dass man weniger Systeme braucht, ist super, und dass man mit der gesteigerten Effizienz mehr Leistung im Rechenzentrum erzielt ebenso.

Trotzdem ist es Fakt (und nur darum ging es mir), dass ein KI-Datacenter 2024 deutlich anders ausgelegt werden muss als ein Standard-Datacenter 2020.

ThirdLife · 21. März 2024

stefan92x schrieb:
Der neue DGX GB200 NVL72 braucht 120kW für ein Rack. Vor wenigen Jahren war eine Auslegung auf 20-30kW peo Rack in Rechenzentren üblich.

Ich glaube ein Megacluster aus tausenden solcher Racks wird nicht in "ein übliches" RZ gebaut.

Wer das kauft hat die Kohle und weiss was er will und wird auch die entsprechenden Anbieter finden. Das ist kein "ich mach mal schnell bisschen Colo mit meinen 15 Servern fürs Business"-Spiel.

stefan92x · 21. März 2024

Davon kannst du ausgehen. Aber wenn du groß denkst, wird es halt eigentlich noch krasser. Wenn Meta/Facebook 2020 ein Rechenzentrum in damals üblicher Auslegung mit Kapazität für 1000 Racks gebaut hat, dann werden sie einen Netzanschluss für etwa 40 MW bekommen haben. Wenn sie das heute zum KI-Rechenzentrum umrüsten, dann müssen sie 750 Racks freilassen, wenn sie nicht massive bauliche Veränderungen vornehmen und nochmal 120 MW zusätzliche Stromversorgung legen lassen wollen.

Da ist man dann schon im Bereich von extra eine neue Hochspannungsleitung zum Rechenzentrum legen lassen, um weiter das Gebäude an sich komplett ausnutzen zu können.

ThirdLife · 21. März 2024

stefan92x schrieb:
Da ist man dann schon im Bereich von extra eine neue Hochspannungsleitung zum Rechenzentrum legen lassen, um weiter das Gebäude an sich komplett ausnutzen zu können.

Spielt bei den Kosten von geschätzt 30-40k x 350k GPUs und somit 11-14 Mrd Dollar auch keine Rolle mehr. Das ist wie 20er Chicken McNuggies kaufen und halt noch nen Extra-Dip für 40 Cent holen. Wenn überhaupt.

stefan92x · 21. März 2024

Würde ich schon nicht unterschätzen, aber die Tendenz trifft es schon

So oder so, es drehte sich ja vor allem um die Frage von @Ayo34 , warum man sich für die totale Leistungsaufnahme überhaupt interessiert, und ich glaube das haben wir mittlerweile ganz gut rausgearbeitet

Suche

News Nvidia Blackwell: B200-GPU kommt als Dual-Die mit 208 Milliarden Transistoren

Ayo34

Vice Admiral

stefan92x

Commander

ThirdLife

Captain

Ayo34

Vice Admiral

ThirdLife

Captain

stefan92x

Commander

ThirdLife

Captain

stefan92x

Commander

ThirdLife

Captain

stefan92x

Commander

Ähnliche Themen