Mir ist durchaus bewusst, dass beim Skalieren über mehrere Nodes hinweg die Effizienz abnimmt, ABER:
Um das ganze mal ins Verhältnis zu setzen, der deutsche Spitzenreiter in Sachen Supercomputer-Effizienz ist hier angegeben mit über 70 GFLOPS pro Watt.
Eine RTX 4080 Super hat eine Spitzenleistung von ca. 55 TFLOPS unter maximaler Auslastung. Gehen wir hier also von 320 Watt aus. Auf ein Watt heruntergerechnet ergibt das knappe 172 GFLOPS pro Watt - also eine fast 2,5x bessere Pro-Watt-Performance, als ein solcher Supercomputer derzeit erzielen kann.
Selbst, wenn man hier noch die restliche Infrastruktur eines herkömmlichen Desktop-PCs hinzurechnet, so wird die Effizienz nicht allzu viel schlechter und liegt immer noch deutlich über den "nur" 70 GFLOPS pro Watt des JEDI.
Das ist nur eine Zahlenspielerei: wie gesagt, beim Skalieren über viele Nodes hinweg nimmt die Effizienz bauartbedingt leider stark ab.
EDIT:
@cb-leser hat
hier klargestellt, dass meine Gleichung nicht aufgeht, da die Werte bei Consumer-Grafikkarten in aller Regel in FP16/32 angegeben werden, in Supercomputern hingegen mit einer Genauigkeit von 64 Bit. Von daher ist mein Beitrag nicht wirklich ernstzunehmen.