News „Chat with RTX“-Demo: Nvidias AI-Chatbot läuft nach Download lokal auf RTX 30 & 40

dernettehans · 13. Februar 2024

Gibts schon lange und besser: https://lmstudio.ai/

KarlsruheArgus · 13. Februar 2024

Danke für die Info, bin nicht wirklich drin in der Thematik (Laie) werde aber das Ding gerne mal ausprobieren. Erste Erfahrungen mit GPT4ALL hatte ich bereits.

DaLexy · 13. Februar 2024

dernettehans schrieb:
Gibts schon lange und besser: https://lmstudio.ai/

Oder oobabooga, wer dann noch bock auf Roleplay hat der nimmt dazu noch SillyTavern als Frontend

dernettehans · 13. Februar 2024

Da hier einige mitlesen die Ahnung zu TensorRT haben. Gibt es darauf basierend auch ein lokales Programm welches pixel Bilder in Vektorgrafiken umwandeln kann wie diese Webseite hier https://vectorizer.ai/ die kostet aber Geld.

DaLexy · 13. Februar 2024

Ich bin mir nicht sicher aber ich hab gesehen das Leute mit Stable Diffusion Ingame grafiken erstellen. Das wäre das einzige wo ich ansetzen würde. Am besten mal austesten und im Subreddit stöbern.

Hier noch ne Resource für Datasets und LoRA`s https://civitai.com/

Fyi: Man kann Oobabooga auch mit Stable Diffusion koppeln, so wie ChatGPT mit Dall-E. Allerdings weiss ich nicht wie da die resultate sind zwecks Prompt bzw. Promptengineering..

drmaniac · 13. Februar 2024

DaLexy schrieb:
Hab meinen Text oben mal etwas editiert. Leider ist das was du sagst derzeit die realität denn desto mehr Kontext du willst, desto mehr VRAM/RAM brauchst du.

Dann kommt noch hinzu wieviel Parameter du in dem Model hast, 7B oder 20B ! Gibt auch 120B Models aber das kannste als Otto User schon vergessen wenn du nicht gerade 2-3x 3090/4090 mit 64GB RAM hast ^^

Ich fahre derzeit 13B mit Quant 8 oder 20B/23B mit Quant 4.

Das sieht dann schnell so aus mit einer 3080 10GB und 32GB RAM
Die Bilder sind von meinen Testruns mit 8k und 16k kontext.

Also dank der arbeitsspeicherpreise heute ist es ja gar nicht so aufwendig sich 128 GB RAM oder mehr in den Rechner zu hauen. Allerdings grafikkartenspeicher wird das schon eher ein Problem... Wäre es denn von Vorteil wenn man "nur" eine 4090 besitzt und dafür aber unglaublich viel RAM in die Kiste packt? Ich glaube meine fragestellung will einfach nur ausdrücken kann ich mit viel Arbeitsspeicher es kompensieren dass ich nur z.b eine grafikkarte im Rechner habe

dernettehans · 13. Februar 2024

Genau daher hatte ich schon vor einigen Jahren gefordert, dass VRAM wichtiger werden sollte, wegen lokaler Ausführung von KI. Das könnte man dann auch in Spiele einbaun, dass lokal ein Model läuft zusätzlich zum VRAM was das Game braucht. Und genau dafür kann man nicht genug VRAM haben. Karten mit 32-64GB VRAM wären dann durchaus verständlich und plausibel. Aber Nvidia geizt ja leider dabei. Oder man könnte einfach VRAM nachrüsten über Slots auf ner GPU.

Ergänzung (13. Februar 2024)

DaLexy schrieb:
Dann kommt noch hinzu wieviel Parameter du in dem Model hast, 7B oder 20B ! Gibt auch 120B Models aber das kannste als Otto User schon vergessen wenn du nicht gerade 2-3x 3090/4090 mit 64GB RAM hast ^^

Ich hatte schon Probleme 13B Modelle zu laden in LMStudio mit ner RTX4080 und 16GB VRAM und 32GB RAM weiss aber nich genau woran es nun lag, eigentlich sollte das ja gehn. Wirklich schade dass ich keine 4090 hab, denn bei 20GB scheint grad so die grenze zu sein für gute größere Models.

aLanaMiau · 13. Februar 2024

Mistral 7B... hm, dachte da könnte NV mehr zaubern...

BAR86 · 13. Februar 2024

Matthias B. V. schrieb:
Für mich eher Marketing als wirklich langfristig nachhaltig.

Natürlich gibt es Szenarien wo es sinnvoll sein wird, das LLM auf dem eigenen PC laufen zu lassen (Spiele etwa -> NPCs). Also ja, nachhaltig, aber natürlich ein Forschungsprojekt.

Zhan · 13. Februar 2024

Interessant wegen RAG direkt mit dabei. Aber mit LM Studio, ChromaDB, LangChain und bissel Python sollte man das auch anders hinbekommen können. Hab auch mit nur kurz suchen schon ein paar Projekte gefunden. Hm. Ich muss weg, was ausprobieren

Mr.Seymour Buds · 13. Februar 2024

Nur für Windows 11?? Kein Linux?

fox40phil · 13. Februar 2024

Vor allem: warum nur W11?! und nicht 10?

Haldi · 14. Februar 2024

Webseite des Entwicklers ist Leicht überlastet mit dem Download -.-
nVidia kann sich nicht mal anständige Server leisten.$

Ich lade hier runter mit 2.9Mbit/s.... komme mir vor wie in Deutschland.

DaLexy · 14. Februar 2024

drmaniac schrieb:
Also dank der arbeitsspeicherpreise heute ist es ja gar nicht so aufwendig sich 128 GB RAM oder mehr in den Rechner zu hauen. Allerdings grafikkartenspeicher wird das schon eher ein Problem... Wäre es denn von Vorteil wenn man "nur" eine 4090 besitzt und dafür aber unglaublich viel RAM in die Kiste packt? Ich glaube meine fragestellung will einfach nur ausdrücken kann ich mit viel Arbeitsspeicher es kompensieren dass ich nur z.b eine grafikkarte im Rechner habe

Ja, das kannst du. Allerdings kommt es da auf das Modell an. 70B models kannst du damit nutzen und die mit in den RAM auslagern aber da musst du bedenken das die Tokens/sec und Responmsetime darunter leiden. Ich hab mit meinen Settings gerade bei 4k Kontext und 23B "Output generated in 119.89 seconds (2.24 tokens/s, 269 tokens, context 2536). Ich kann damit leben, obwohl schneller schöner wäre

Desto größer das ganze, desto mehr leidet es. Wenn du Responsetime wie ChatGPT willst brauchst du schon genug VRAM ohne RAM auslagerung. 23B kriegst du in eine 4090 mit minimaler auslagerung, für 70B brauchst du schon zwei davon. Kannst auch den billigeren weg gehen und dir nen Rack bauen mit Tesla P40, gibt es schon für unter 200€ bei ebay. Machen bei reddit einige die sich da 2 und mehr dafür zusammenbasteln.

dernettehans schrieb:
Ich hatte schon Probleme 13B Modelle zu laden in LMStudio mit ner RTX4080 und 16GB VRAM und 32GB RAM weiss aber nich genau woran es nun lag, eigentlich sollte das ja gehn. Wirklich schade dass ich keine 4090 hab, denn bei 20GB scheint grad so die grenze zu sein für gute größere Models.

Ich kenne LMStudio nicht aber das wird mit sicherheit ein problem mit den Settings gewesen sein, ich brauchte auch erstmal 1-2 Wochen um mit den Settings klarzukommen bzw. zu verstehen was da falsch läuft.

Mit den 16GB bei dir solltest du easy 13B laufen haben ohne auszulagern, vielleicht testest du nochmal oobabooga mit sillytavern denn sillytavern hat gute presets die das ganze noch viel einfacher machen. Oobabooga brauchst du dann nur um das Model im backend zu laden, settings sind da egal.

Es gibt auch gute 7B und 13B models, genauso wie es beschissene 70B models gibt. Es kommt aufs finetuning an. Viele Models sind auch beschissene Frankenmerges von leuten die kein plan haben.

//EDIT
Hab das RTX Chat mal versucht zu installieren, allerdings bricht er ab und installiert Mistral nicht. Habs erstmal wieder runtergeworfen und warte auf ne andere Version.

Ayo34 · 14. Februar 2024

Download fertig, Installation läuft und ich bin auf die Performance gespannt. Anscheinend ist es ja auch für größere Datenmengen lokal gemacht. Also nicht nur für Privatanwender, sondern auch Firmen.

Nefcairon · 14. Februar 2024

Ich verstehe das nicht. Das ist eine lokal laufende KI? Was sind da potentielle Anwendungsfälle?

KarlsruheArgus · 14. Februar 2024

@Nefcairon schon mal von GPT4All gehört ? Dort laufen die Anwendungen auch lokal auf dem Workbench.

Wintermute · 14. Februar 2024

Warum nur Windows 11? Wollte es gerade auf die ausprobieren Liste setzen. Dann eben nicht...

Kraeuterbutter · 14. Februar 2024

Frage von jemanden der außer bisschen Rumspielen mit chatGPT keine Ahnung hat:
was macht man damit so am heimischen PC ?

ich hab kein Interesse an Band 10 bis 20 eines Harry Potters
oder Herr der Ringe - Gedichte in klingonisch

kann so eine KI (in naher Zukunft oder schon heute) einem Datenmessi helfen?

ich hab über die Jahre wohl 40TB oder mehr an Daten angesammelt..

könnte man so ein KI Modell seine DAten "Einlernen lassen" (primär: Fotos und Videos)

und dann so fragen stellen wie:
"ich war mal auf einer RAdtour mit Zelt.. hab in einem Wald übernachtet. Es gab einen wunderschönen Sonnenuntergang mit Sonnenstrahlen durch den Wald die das Zelt schön beleuchtet haben.
es muss zwischen 2010 und 2012 gewesen sein"

und die KI findet mir das Foto bzw. liefert mir 50 Fotos wovon dann eines davon das richtige ist..

oder:
"ich hab mal ein Video gemacht, wo ich einen Handstand auf einem Brückengeländer gemach habe. es war in der Nähe vom Meer. es waren noch mindestens 5 weitere personen dabei"

und die KI liefert mir Videos von meiner lokalen PLatte, wo ich (oder zumindest jemand) nen Handstand gemacht hat - sagt mir noch dazu wo im Video die Stelle zu finden ist..

ist sowas bereits denkbar ?
oder sind das zu komplexxe Daten (für eine Lokale KI)?

ich lese hier ja: Texte von maximal 16.000 Zeichen (was in Relation zu dem was in einem Video passiert wohl wenig ist)

GeleeBlau · 14. Februar 2024

Ganz lustig. Habe mal alle Perl pdfs die ich so rumliegen habe reingefüttert und jetzt kann er eigentlich alle Perl Probleme, die ich so getestet habe, lösen. Schafft sogar mathematische Probleme die größer sind als a+b.

Dauer halt nur echt ewig mit meiner 3070 bis er die 20 pdf verarbeitet hat.

News „Chat with RTX“-Demo: Nvidias AI-Chatbot läuft nach Download lokal auf RTX 30 & 40

Lt. Commander

Commodore Pro

Lt. Commander

Lt. Commander

Lt. Commander

Lieutenant

Lt. Commander

Lieutenant

Commander

Commander Pro

Commodore

Rear Admiral

Admiral

Lt. Commander

Rear Admiral

Lt. Junior Grade

Commodore Pro

Fleet Admiral

Admiral

Lieutenant