News Lenovo ThinkSystem SR685a V3: Wenn Genoa mit 8 MI300X, 51 TB und Titan-Netzteilen kuschelt

Nagilum99 · 24. April 2024

Haldi schrieb:
Okay....
Jetzt muss mir aber nochmals jemand den Epyc 9004 erklären!
128 PCi-E Lanes bei Singel Socket. 160 bei Dual. Also bei 2 CPUs dann 320 Lanes?

128 ohne Link, 160 weil 2x 64 für den Link, aber nur einmal Chipsatz etc. nötig ist.
Es geht aber auch mit weniger als 64 Lanes für den Link - theoretisch.

stefan92x · 24. April 2024

Haldi schrieb:
Jetzt muss mir aber nochmals jemand den Epyc 9004 erklären!
128 PCi-E Lanes bei Singel Socket. 160 bei Dual. Also bei 2 CPUs dann 320 Lanes?

Die Angabe bezieht sich auf das Gesamtsystem, nicht pro CPU. 2x128 wären ja 256 Lanes, aber die CPUs werden auch über diese verbunden. Das heißt bei Dual Socket bleiben hier 80 Lanes pro CPU frei nutzbar und 48 Lanes werden für die Verbindung zwischen den beiden CPUs verwendet. Je nach Auslegung können das auch 64 Lanes sein, dann hätte ein Dual Socket-Server auch nur 128 nutzbare Lanes.

Oberst08 · 24. April 2024

iNFECTED_pHILZ schrieb:
Aber dann bitte nicht am 10gbit Hardware sparen, 😀

Du meinst InfiniBand Hardware. Mit 10GBit kommt man da nicht weit...

iNFECTED_pHILZ · 24. April 2024

Für den geplanten Einsatzweck passt das schon.

TheInvisible · 24. April 2024

tolga9009 schrieb:
Die 24 RAM-Slots sind mega! 24x 64GB RDIMMs mit 250€ pro Stück kommt man auf 1,5TB DDR5-4800 ECC RAM für gerade einmal ~6000€. In diesem Segment geradezu ein Schnäppchen!

Find den 12 Kanal auch geil und wir müssen uns mit lächerlichen Dual-Channel begnügen ; )

icemanspirit · 24. April 2024

Haldi schrieb:
Was ziemlich cool ist. Nvidia aber völlig egal weil sie die meisten Ai Berechnungen in fp4 machen und nicht fp64.
Anhang anzeigen 1477213

Leicht falscher Vergleich - Blackwell ist bisher "Vaporware" i.e. nur angekündigt, MI300X sind heute lieferbar. Was AMD Blackwell entgegensetzen wird, ist bisher nicht im öffentlichen Raum sichtbar.

Zudem macht niemand in der Industrie sein Training in FP4, 16-bit Formate sind der Standard und dort eine gute Auslastung zu erreichen bei großem Modelltraining ist auch schon reichlich schwer und die erreichten Werte weichen extremst von den von Nvidia beworbenen Werten ab.

FP4 sehe ich eher bei quantisierter Inferenz in Zukunft genutzt. Aber da kommt es auf sehr viele sich bewegende Teile an, dass dies passiert. So zum Beispiel was denn die großen, oder zumeist genutzten Modelle bei der wirklichen Verfügbarkeit von Blackwell für eine Architektur haben, was machen die Trainings-, und Inferenz-Algorithmen, und und und...

Das kann man bisher nicht vorhersehen.

der_hirsch · 25. April 2024

Hab früher in der Serverentwicklung gearbeitet, aber halt im Bereich 1-4U... an so nem Ding hätt ich gerne mitgearbeitet, schon eine geile Konstruktion...

Skysnake · 26. April 2024

@MichaG Paar Ergänzungen zum Artikel.

Das 100kg schwere Server Rack ist kein Rack sondern der Server oder Barbone. Das Rack ist das wo der Server drin eingebaut wird

Und zu Titanium, kann ich nur sagen, dass das absoluter Standard inzwischen ist, da es dazu gesetzliche Regelungen gibt die das zwingend beim Einsatz in Rechenzentren fordern.

Rickmer schrieb:
Zwei der Netzteile braucht es allein schon für die Lüfter... die haben doch sicherlich eine Leistungsaufnahme von 100W das Stück oder noch memehr.

Na 100W nicht, aber 10-30W pro Lüfter kann man schon rechnen.

Bei nem 1kW 1U Server iann man gut und gerne 120-200W für die Lüfter rechnen...

iNFECTED_pHILZ schrieb:
Für den geplanten Einsatzweck passt das schon.

Nicht wirklich.

Wenn du das @scale betreibst, dann werden da riesige Datenmengen rumgeschoben. Da ist 8x 200G IB schon ganz ok und die Leute schauen auch nach 8x 400G bzw schielen auf das kommende 8x 800G

iNFECTED_pHILZ · 26. April 2024

Skysnake schrieb:
Nicht wirklich.

Wenn du das @scale betreibst, dann werden da riesige Datenmengen rumgeschoben. Da ist 8x 200G IB schon ganz ok und die Leute schauen auch nach 8x 400G bzw schielen auf das kommende 8x 800G

Doch doch. Darf ich an den Ausgangspost erinnern:

Reicht der für ein Home-NAS? Wollte ein paar Dokumente darauf lagern und ab und zu ein paar Bilder draufziehen und wieder runterladen.

icemanspirit · 26. April 2024

Falls jemand so was Mal nutzen will - der letzte Trend aus dem Silicon Valley:

Craigslist fuer GPU-Cluster: https://gpulist.ai/

Skysnake · 26. April 2024

Naja, so günstig ist das nicht, wenn man mindestens eine GPU für mindestens eine Woche beim günstigsten nutzen muss sind das mal schon 235$...

Und meist eher 8GPUs für 4 Wochen. Da wird das dann auch ein eher teurer Spaß.

Suche

News Lenovo ThinkSystem SR685a V3: Wenn Genoa mit 8 MI300X, 51 TB und Titan-Netzteilen kuschelt

Nagilum99

Lt. Commander

stefan92x

Commander

Oberst08

Lieutenant

iNFECTED_pHILZ

Commodore

TheInvisible

Lt. Junior Grade

icemanspirit

Ensign

der_hirsch

Ensign

Skysnake

Captain

iNFECTED_pHILZ

Commodore

icemanspirit

Ensign

Skysnake

Captain