the_IT_Guy schrieb:
Wenn explizit für "KI", wäre es dann nicht besser mal richtig einen raus zu hauen und eine 64GB Karte anzubieten?
stefan92x schrieb:
Würde sich schon lohnen, aber da wird die Luft halt schon dünner. Trotzdem ist VRAM durch nichts zu ersetzen, um größere Modelle betreiben zu können. Es ist halt technisch nicht umsetzbar mit den verfügbaren GDDR6-Chips, da bleiben 32 GB das Maximum an 256 Bit Busbreite.
Kommt durchaus hin. Ich hatte mal eine Zeit lang die Tesla M10 32 GB (Maxwell von 2016!) im Auge. Die gehen auf ebay für 100-200 Euro weg. Da bekommt man eine Menge GDDR5 RAM um mal ein LLM zu betreiben. Natürlich mit Nvidia, weil KI läuft ja auf Nvidia.
Aktuell habe ich den Wissenstand erreicht, dass es ganz gut war, dass ich keine davon bekommen habe, weil auch CUDA sich weiterentwickelt. Die effizienteren LLMs nutzen neuere Features, um speichereffizienter oder schneller zu arbeiten. Mit einer recht alten GPU dürfte man bei sich den rasanten Neuentwicklungen schon sehr bald wieder ärgern, dass die GPU nicht mehr supportet wird.
Es gibt Karten mit 384 Bit Busbreite und mehr RAM, aber wenn du es wirklich ernst meinst, setzt du auf HBM. Mit 4096+ Bit Bandbreite hat man damit einfach wesentlich mehr Durchsatz, der für LLMs einfach benötigt wird. Nachdem es mal die Vega Serie oder die Radeon VII mit HBM von AMD gab, die durchaus interessant waren, wandern wahrscheinlich sämtliche HBM Chips derzeit in die KI Beschleuniger. Und irgendwo hieß es mal, dass Nvidia damit so viel Geld umsetzt, dass sie Gamer gar nicht mehr bedienen müssten.
Für so ein bisschen LLM kann man Gaming GPUs sicherlich gut verwenden, aber ernsthafte, generische LLMs benötigen einfach VRAM ohne Ende. Die kleinen 16 GB LLMs, die man inzwischen von Nvidia als Assistenz bekommt, sind destilliert und z.B. auf das Schreiben von wissenschaftlichen Texten spezialisiert. Das reicht ggfs. aber auch vollkommen aus. Für das Training braucht man ohnehin mindestens doppelt so viel VRAM wie für die Ausführung, wenn ich das richtig im Kopf habe.
Wobei auch kleine Modelle unter 16 GB schon recht kreative Chatbots sein können. Aber so richtig "schlau" werden die Modelle erst mit einem riesigen Kontext und mehr und mehr VRAM.
Dass die Welt unter KI aktuell überwiegend LLMs versteht ist leider Käse. Andere Typen von KI Modellen wie z.B.
Moondream2 können auch mit 4 GB eine gute Bilderkennung erreichen. Es kommt natürlich immer darauf an, was man tatsächlich braucht. Wer nur Autos erkennen will, könnte sogar mit einem Raspberry Pi passable Ergebnisse erzielen.
Korrigiert mich, falls ich irgendwo Mist erzählt habe.