So wie man das schon seit Jahrzehnten macht? PGAS Sprachen, MPI one sided communication oder ein Tasking Modell? Damit kann man dad einzel node Memory limit für das Model umgehen. Wenn das Model aber in den RAM passt, dann kann man auch wie gesagt einen Hadoop/Spark ähnlichen Ansatz fahren bzw wenn die besser passt einen distributed Computing Ansatz wie bei Folding at home oder Seti. Wie gesagt gibt es da zick etablierte Methoden.vandenus schrieb:Wie soll denn das technisch gehen mit dem auf mehrere Systeme verteilen?
Und wo ist das Problem? Das ist ein simples MPI_Allscatter und fertig. Alternativ ein MPI Alltoall und auch das wars.vandenus schrieb:AI basiert ja darauf das JEDE Information mit der trainiert wird IMMER alle im AI Netz vorhandenen Knoten anpasst und bei jedem die Gewichtung verändert.
Ja, nVidia ist gut darin Komplexität in eigenen Sonderlocken zu verstecken statt die OpenSource Projekte zu verbessern......vandenus schrieb:Deshalb hat ja NVidia die Technik mit der virtuellen GPU entwickelt die egal wie viele tausend Einzel GPUJ module installiert sind zu einem einzigen grossen Bereich zusammenfasst der extrem schnell Daten tauschen kann - genau das macht NVidia so konkurrenzlos überlegen.
Wie gesagt, das ist alles altes HPC Zeug das man eigentlich nur umsetzen muss. Die die AI/ML Laptop Jungs ist das aber natürlich alles der neue heiße Scheiß.....