KI Rechner

Luckeie · 20. August 2024

Langsam beginne ich mich wieder für einen neuen Computer zu interessieren und ich bin sehr daran interessiert lokale KI's wie Lama oder Stable Diffusion auszuprobieren. Bisher mache ich das mit einem AMD Ryzen 3950 und einer Nvidia 2080 Ti. Mein Traum wäre die Leistungsfähigkeit von GPT 4o lokal auf meinem Rechner. Ich bin mir sicher dass sich da in den nächsten Jahren noch viel ändern wird und würde gerne Ideen für einen neuen Rechner oder auch Notebook haben, mit dem solche Experimente gut möglich sind. Es soll ja jetzt Mikroprozessoren geben, die spezielle Hardware eingebaut haben um KI Funktionen zu unterstützen. Aber noch kenne ich mich da nicht gut aus. Hat jemand Ideen für gute Hardware?

Liebe Grüße

Thomas

madmax2010 · 20. August 2024

Nichts kaufen, nach bedarf mieten.
Eine H100 kostet 30.000 Euro,zur miete 2-3 Euro pro Stunde.
Wenn du mit LLMs ernsthaft was machen willst, Trainieren willst, finetuning etc, brauchst du davon 1-8 Stück. Hardware und Frameworks ändern sich in den nächsten Jahren noch viel.
Einer von vielen anbietern die ich gern mag ist Lamda:
https://lambdalabs.com/service/gpu-cloud

Sonst kann man zur not auch 4-8 RTX 4090 lokal betreiben, das ist dann etwas billiger.

Mosed · 20. August 2024

Luckeie schrieb:
Mein Traum wäre die Leistungsfähigkeit von GPT 4o lokal auf meinem Rechner.

Meinst du die Leistungsfähigkeit der OpenAI Server, auf denen GPT läuft?
Ich habe ChatGPT mal nach der Rechenleistung der OpenAI Infrastruktur gefragt und um wieviel Faktoren diese schneller ist als übliche CPUs und GPUs.

Heraus kam sehr viel Text mit einer Zusammenfassung:

Ein typischer GPT-4-Server könnte die Rechenleistung von mehreren Millionen moderner CPUs oder mehreren tausend GPUs wie der NVIDIA RTX 3080 aufweisen. Der genaue Faktor hängt von der genauen Anzahl der eingesetzten GPUs und der spezifischen Hardwarekonfiguration ab, aber es handelt sich um ein Verhältnis von Millionen zu Tausenden, wenn man die gesamte Recheninfrastruktur betrachtet.

oicfar · 20. August 2024

Es ist immer die Frage was man genau machen möchte. Vielleicht solltest du das mal genauer beschreiben. S.h. was genau hast du vor. Oder was genau meinst du mir:

Luckeie schrieb:
Mein Traum wäre die Leistungsfähigkeit von GPT 4o lokal auf meinem Rechner.

Luckeie · 20. August 2024

Als ChatGPT 3 erschien war das ja ein Milleniumereignis. Und als ich das erste Mal eine lokale KI am Laufen hatte, fand ich das auch bombastisch, auch wenn es mit GPT-3 nicht mithalten konnte. Bei den vielen CPUs in der Antwort von ChatGPT, die Du oben aufführst, ist die Frage ob die nur zum Trainieren gebraucht werden oder auch für eine Abfrage? Ich gehe davon aus dass man mit einem leistungsfähigen Desktop in ein paar Jahren durchaus brauchbare 'Intelligenz'-Leistungen bekommen kann. Das ist so in etwa dass womit ich herumspielen will.

Quantität · 20. August 2024

Nachdem was mir hier im Forum so erzählt wurde, muss man zwischen komplexem Training und einfachen Abfragen unterscheiden. Das Training von Modellen benötigt enorm viel Rechenleistung die mit dafür speziellen GPUs (H100 & Co) im Multi-Verbund erreicht wird.

Für einfache Abfragen reicht aber auch schon ein gemoddeter Toaster.

Luckeie · 20. August 2024

Ich habe zum Beispiel Vicuna installiert. Das läuft mit Grafikkarte oder mit der CPU. Da kann man einen deutlichen Unterschied sehen, mit der CPU, trotz der 16 Kerne, ist es deutlich langsamer als mit der Grafikkarte. Also Toaster ist vielleicht ein bisschen wenig. :-)

oicfar · 20. August 2024

Luckeie schrieb:
Das läuft mit Grafikkarte oder mit der CPU. Da kann man einen deutlichen Unterschied sehen, mit der CPU, trotz der 16 Kerne, ist es deutlich langsamer als mit der Grafikkarte.

Ist auch verständlich wieso es mit der GraKa schneller ist.

Luckeie schrieb:
Ich gehe davon aus dass man mit einem leistungsfähigen Desktop in ein paar Jahren durchaus brauchbare 'Intelligenz'-Leistungen bekommen kann.

Unwahrscheinlich, dass es so kommen wird.

Luckeie · 20. August 2024

Man könnte ja die Netze anstatt mit dem Wissen des ganzen Internets eher mit reinen Intelligenzleistungen trainieren. Dann braucht man vielleicht nicht so viele künstliche Neuronen. Und bei der Anzahl der Transistoren von Speicher kommen wir langsam in den Bereich der Anzahl der Neuronen beim menschlichen Gehirn. Das will zwar im Moment noch gar nichts heißen, aber wir die Zahlen klaffen nicht mehr potenzweise auseinander.

madmax2010 · 21. August 2024

Luckeie schrieb:
Als ChatGPT 3 erschien war das ja ein Milleniumereignis.

Nein.
Transformermodelle gab es zu dem Zeitpunkt schon gut 5 Jahre und eine 5-6 Stellige Anzahl an Personen in verschiedensten Unternehmen sammeln seit langem Erfahrung damit. Es ist eine Inference Engine die, wie andere ihrer Klasse, zwar mit einer gewissen Streuung Informationen, die man auch auf anderen Wegen abfragen kann, auf ressourcenintensive Weise in Natürlicher Sprache repräsentiert. Dabei ist sie nicht in der Lage zu sein diese zu hinterfragen oder zu argumentieren.
Da gab es in den letzten Jahren schon bessere Ansätze.
Es hat hat ne Welle glorifizierter Chatbots losgetreten

Luckeie schrieb:
Ich habe zum Beispiel Vicuna installiert. Das läuft mit Grafikkarte oder mit der CPU. Da kann man einen deutlichen Unterschied sehen, mit der CPU, trotz der 16 Kerne, ist es deutlich langsamer als mit der Grafikkarte. Also Toaster ist vielleicht ein bisschen wenig. :-)

Ok, und welche Anforderungen hast du? Im Zweifelsfall ist eine CPU mit 512 x86 Kernen langsamer als eine GPU mit 300 Tensor Kernen.

Luckeie schrieb:
Man könnte ja die Netze anstatt mit dem Wissen des ganzen Internets eher mit reinen Intelligenzleistungen trainieren. Dann braucht man vielleicht nicht so viele künstliche Neuronen.

Die 2 Forschungsgebiete heißen Supervised Learning und Reinforcment Learning. Beide (und weitere Paradigmen) haben ihren Daseinszweck und beide werden gebraucht.
Nur eines ist sicher.. Die Anzahl der Neuronen / Transistoren hat nichts mit Intelligenz (was auch immer man darunter verstehen mag)

abcddcba · 21. August 2024

machen wir uns nix vor, im Consumer Bereich wird man groessere Sprachmodelle aktuell nicht kostenguenstig nutzen koennen.
Und ich rede dabei, weil angestrebt vom TE von Modellen wie Llama 3.1 405B oder wie ein darauf fine-tuned Hermes3 405B. Da ist mit Desktop GPUs am Ende nix zu holen. Aber wie schon von @madmax2010 erwaehnt, On-Demand GPU mieten ist moeglich. Nutze ich im Job auch mittlerweile ausschliesslich, weil Zugang zu den staerkeren GPU Clustern immer super nervig ist bei uns. Fuer Inference ist es auch nicht so teuer, Training geht natuerlich ins Geld weil man mehr Ressourcen braucht. Aber er TE wird vermutlich keine grossen Modelle traineren wollen.

Ansonsten, das einzige realistische waere ja eher entweder mehrere RTX4090 oder eine RTX6000 oder wenn man zu viel Geld hat alles ab A10 oder eher dann A100. Mehr sehe ich privat nicht, und letzere schon eigentlich auch eher nicht.

Rickmer · 23. August 2024

Stable Diffusion, Flux & Co kann man auf einer RTX 4090 gut laufen lassen.
Für Flux sollte man dann mehr als 32GB RAM im PC haben. Ich habe aus dem Grund diese Woche von 32GB auf 64GB aufgestockt...

Was LLMs angeht - die ganzen wirklich großen Modelle mit dreistelligen Parameter-Zahlen kannste knicken. Da ist deine einzige Option, dir GPU Cluster bei einem der Cloud-Anbieter zu mieten.

Es gibt diverse Anleitungen, mit denen 70B Parameter Modelle brauchbar auf einer RTX 4090 laufen - oder alternativ ist es deutlich einfacher, ein quantized* 70B Modell vollkommen im VRAM von zwei 4090 laufen zu lassen.

*INT4 oder Q4 wie z.B. hier: https://huggingface.co/Alias1964/Llama-3.1-70B-Instruct-lorablated-Q4-EXL2

Ergänzung (23. August 2024)

Addendum: LLM Performance ist übrigens zu sehr großen Teilen von der Speicherbandbreite abhängig. Die 4090 ist kaum schneller als die 3090, weil die Bandbreite kaum gestiegen ist und der deutlich größere L2 Cache hier nicht wirklich hilft.

Benchmarks:
https://github.com/XiongjieDai/GPU-Benchmarks-on-LLM-Inference

In Stable Diffusion ist das allerdings nicht der Fall und die 4090 ist deutlich schneller als die 3090. Das gilt auch für das neue Flux.

Luckeie · 23. August 2024

Danke für die Tipps! Eure Vorschläge gehen ja mehr so in die Richtung viel hilft viel. Das ist sicher auch richtig. Aber mieten will ich ganz bestimmt kein System. Und das wäre mir auch viel zu teuer. Ich bin nur neugierig und mich fasziniert die Vorstellung von einem persönlichen KI Freund (Film: Her). Aber ich dachte es gibt vielleicht mittlerweile spezielle Hardware, die einem da helfen kann? AMD bietet ja zum Beispiel NPUs, also Neural Processing Units an. Auch Analogrechner sind wieder im Gespräch (https://www.sprind.org/de/projekte/ulmann/). Wer hat damit Erfahrungen? Es mag sein dass ich naiv bin, aber ich bin relativ sicher dass mehr Intelligenz auch mit weniger RAM geht. Ist nur eine Frage der Vernetzung der künstlichen Neuronen. Es fällt ja sicher auf, dass ChatGPT nahezu auf alles eine Antwort weiß. Da es vermutlich mit Informationen aus dem Internet trainiert wurde kennt es extrem viele Dinge. Aber das ist ja nicht unbedingt Intelligenz sondern eher eine Art intelligentes Lexikon. Für mich täte es auch ein neuronales Netz welches deutlich 'intelligenter' als GPT-4o ist, dafür aber nicht so viel weiß, sich aber auf Basis meiner Fragen das notwendige Wissen besorgt um dann damit intelligent arbeiten zu können. Ich hoffe Ihr versteht um was es mir geht.

Rickmer · 24. August 2024

Jo. Simple Antwort: gibt's noch nicht.

Aber keine Sorge - es werden grade zig Milliarden investiert um das zu entwickeln.

HerrRossi · 24. September 2024

Ich hätte auch zwei Fragen zu einem KI-Rechner.

1.
Kann man eigentlich auch unterschiedliche Grafikkarten kombinieren oder müssen die alle gleich sein? Ich habe eine 2080ti, eine 3080 und eine 4090, könnte man die zusammen betreiben und die insgesamt 45GB RAM nutzen oder geht das nicht?

2.
Wie viel Bandbreite brauchen die Karten am PCIe-Bus für KI? Beim Mining reichte ja x1, ist das bei KI-Anwendungen auch so?

Rickmer · 24. September 2024

HerrRossi schrieb:
Kann man eigentlich auch unterschiedliche Grafikkarten kombinieren oder müssen die alle gleich sein? Ich habe eine 2080ti, eine 3080 und eine 4090, könnte man die zusammen betreiben und die insgesamt 45GB RAM nutzen oder geht das nicht?

Das wird von der Software abhängig sein, ob die das verkraftet.

Laut Google soll mehrere verschiedene GPUs von der oobabooga webui z.B. unterstützt werden

Ich würde allerdings davon ausgehen, dass das Gespann dann von der Geschwindigkeit der 2080Ti limitiert wird.

HerrRossi schrieb:
Wie viel Bandbreite brauchen die Karten am PCIe-Bus für KI? Beim Mining reichte ja x1, ist das bei KI-Anwendungen auch so?

Ich würde davon ausgehen, dass die PCIe Bandbreite zumindest in manchen Situationen deutlich wichtiger ist - insbesondere falls Teil der Daten in RAM ausgelagert werden müssen weil der VRAM nicht reicht.

Suche

KI Rechner

Luckeie

Ensign

madmax2010

Fleet Admiral

Mosed

Lieutenant

oicfar

Commander

Luckeie

Ensign

Quantität

Lieutenant

Luckeie

Ensign

oicfar

Commander

Luckeie

Ensign

madmax2010

Fleet Admiral

abcddcba

Rear Admiral

Rickmer

Fleet Admiral

Luckeie

Ensign

Rickmer

Fleet Admiral

HerrRossi

Fleet Admiral

Rickmer

Fleet Admiral

Ähnliche Themen