Es gibt eine Messung für als GPU-Benchmarks für LLM
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
Hier sieht man, daß einer RTX 4090 bei 70B Q4_K_M das RAM ausgeht, aber einer M3 Max 40 GPU mit 64 GB dank Unified Memory noch eine Bearbeitung möglich ist. Mit 2 x RTX 4090 24GB gehts dann auch wieder.
Frage:
NVLink steht ja nur den Profimodellen der Quadro/AXXX Reihe zur Verfügung. Wie macht man es dann rein praktisch, daß sich bei Consumer HW wie der RTX 4090 mehrere GPUs zusammenschalten kann, so daß sie für größere Modelle mehr RAM und Leistung haben? Wird das dann per CUDA und Software gelöst? Geht das dann auch mit kleineren GPUs wie einer 4060TI mit 16 GB? Wenn man beispielsweise mehr RAM benötigt, und hier dann 3x4060 TI 16 GB = 48 GB und mehr als beispielsweise nur eine RTX 4090 hätte?
Hintergrund, ich überlege gerade, auf einem X299 MB mehrere GPUs für Testen für LLMs verbauen. RAM ist ja für sowsa immer kritisch.
PS: Ja, mir ist natürlich bewußt, daß es Profi-GPUs mit über 8000 € pro Stück mit mehr RAM gibt. Aber das soll jetzt hier nicht Gegenstand der Diskussion sein. Frage ist, was ist mit Consumer HW hier möglich?
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference
Hier sieht man, daß einer RTX 4090 bei 70B Q4_K_M das RAM ausgeht, aber einer M3 Max 40 GPU mit 64 GB dank Unified Memory noch eine Bearbeitung möglich ist. Mit 2 x RTX 4090 24GB gehts dann auch wieder.
Frage:
NVLink steht ja nur den Profimodellen der Quadro/AXXX Reihe zur Verfügung. Wie macht man es dann rein praktisch, daß sich bei Consumer HW wie der RTX 4090 mehrere GPUs zusammenschalten kann, so daß sie für größere Modelle mehr RAM und Leistung haben? Wird das dann per CUDA und Software gelöst? Geht das dann auch mit kleineren GPUs wie einer 4060TI mit 16 GB? Wenn man beispielsweise mehr RAM benötigt, und hier dann 3x4060 TI 16 GB = 48 GB und mehr als beispielsweise nur eine RTX 4090 hätte?
Hintergrund, ich überlege gerade, auf einem X299 MB mehrere GPUs für Testen für LLMs verbauen. RAM ist ja für sowsa immer kritisch.
PS: Ja, mir ist natürlich bewußt, daß es Profi-GPUs mit über 8000 € pro Stück mit mehr RAM gibt. Aber das soll jetzt hier nicht Gegenstand der Diskussion sein. Frage ist, was ist mit Consumer HW hier möglich?