News Green500 Supercomputer: Europa zeigt den USA, wie Effizienz beim Großrechner geht

vandenus schrieb:
Wie soll denn das technisch gehen mit dem auf mehrere Systeme verteilen?
So wie man das schon seit Jahrzehnten macht? PGAS Sprachen, MPI one sided communication oder ein Tasking Modell? Damit kann man dad einzel node Memory limit für das Model umgehen. Wenn das Model aber in den RAM passt, dann kann man auch wie gesagt einen Hadoop/Spark ähnlichen Ansatz fahren bzw wenn die besser passt einen distributed Computing Ansatz wie bei Folding at home oder Seti. Wie gesagt gibt es da zick etablierte Methoden.
vandenus schrieb:
AI basiert ja darauf das JEDE Information mit der trainiert wird IMMER alle im AI Netz vorhandenen Knoten anpasst und bei jedem die Gewichtung verändert.
Und wo ist das Problem? Das ist ein simples MPI_Allscatter und fertig. Alternativ ein MPI Alltoall und auch das wars.

vandenus schrieb:
Deshalb hat ja NVidia die Technik mit der virtuellen GPU entwickelt die egal wie viele tausend Einzel GPUJ module installiert sind zu einem einzigen grossen Bereich zusammenfasst der extrem schnell Daten tauschen kann - genau das macht NVidia so konkurrenzlos überlegen.
Ja, nVidia ist gut darin Komplexität in eigenen Sonderlocken zu verstecken statt die OpenSource Projekte zu verbessern......

Wie gesagt, das ist alles altes HPC Zeug das man eigentlich nur umsetzen muss. Die die AI/ML Laptop Jungs ist das aber natürlich alles der neue heiße Scheiß.....
 
  • Gefällt mir
Reaktionen: =dantE=
Ja aber solche physisch getrennten Syteme haben einen unterirdischen Durchsatz

AI Modelle basieren darauf dass jeder Knoten angefasst wird

vidia bietet hier grob 450 GByte also ca 3, 5 TBit / s

Man kann auch das größte Amazon Lager wenn es bis zum Dach voll ist mit einem Lastenfahrrad 500 km weit umziehen - stimmt evtl - aber wird niemand machen

Was liefern denn solche physisch verteilten Syteme an RAM Durchsatz?

Man ist vielleicht damit nach 5 Jahren so weit wie mit einem lokalen NVidia System nach 6 Monaten

Die Rechenop sind in AI Netzten doch eher trivial der Speicherzugriff der ist wichtig
 
Zuletzt bearbeitet:
Du hast absolut keine Ahnung von solchen Systemen oder?

Nochmals. Genau solche Systemen werden genutzt. Dein geiler nvidia Superpod ist nen stinknormaler Cluster mit multipath Infiniband.

Was etwas anders ist ist die neue Lösung mit den 72 nodes über nvswitch statt Infiniband verbunden. Das ist aber nur ein qualitativer Unterschied.

Uns bezüglich Bandbreite. Die Systeme haben pro GPU normal einen Nic. Aktuell sind das 400Gbit/s. Nächstes Jahr dann 800Gbit/s wenn du willst. Bei 4 Nics sind das Brutto 200GB/s bzw 400GB/s. Netto Netto sind das ähnliche Werte wie sonst auch. Du bist da also verdammt nah dran.

Und ja klar ist das weniger als der NVLink im System aber auch der ist weniger als die Bandbreite vom RAM und ja auch die ist wiederum weniger als die Bandbreite von den Caches und ja ich die ist weniger als die Bandbreite von den Registern. Ist das ein Problem? Jaein. Klar wäre es schön wenn gleich hohe Bandbreiten hätte. Ist es aber nicht, weil das nicht umsetzbar ist und eben auch nicht wirklich benötigt wird um trotzdem sehr sehr sehr hohe Leistungen zu erreichen.

Und nur mal so viel es gibt mehrere Hersteller die 400 oder bald auch 800 GBit liefern können pro Nic. Perspektivisch könnte nVidia sogar etwas zurückfallen und andere 1600GBit/s+ liefern. Wobei ein Faktor 2-4 jetzt kein GameChanger ist. Da reden wir mal bei Faktor 10+ nochmals drüber.

Wie gesagt aus einer reinen HW Perspektive macht nVidia nichts besonderes. Was ganz nett ist ist die Investition in die Software und das Bundeln. Wenn nvidia da aber nicht so massiv investieren würde für ihre Produkte könnte sich mehr im Bereich allgemeiner Lösungen entwickeln. Besonders ist sowas wie Cerebras. Die hinken aber halt beim Softwarestack und den hohen Einstiegskosten. Dagegen ist nVidia noch "günstig".
 
400 gbit oder 800 oder 1600 Gbit ist aber halt doch gar nichts oder nicht sonderlich viel.

Aktuellester Stand ist bei NVidia inzwischen 900 Gbyte / sec also 7200 Gbit - zumindest in den neusten H200.

wer nicht in der Liga spielt ist halt kein Highend auch wenn er sobald Zeit egal wäre die Aufgabe auch irgendwann erledigen kann.

In der Relaität ist aber Zeit halt nicht egal - es geht nicht darum ob es geht sondern ob es ausreichend schnell geht um im Bereich der schnellen mithalten zu können.

Auch die Oma mit dem Rollator erreicht irgendwann die 100m Marke beim Wettrennen wird aber kaum in der "normalen" Olympiade auf dem Treppchen landen xD

Der neue echt fixe Rechner in Jülich ist doch auch ein NVidia VGPU System und kein verteiltes System. Wenn auch nicht mehr so effizient
 
Zuletzt bearbeitet:
Zurück
Oben