News „Chat with RTX“-Demo: Nvidias AI-Chatbot läuft nach Download lokal auf RTX 30 & 40

Jan · 13. Februar 2024

Nach der Ankündigung im Januar hat Nvidia heute „Chat with RTX“ zum Download für jedermann freigegeben, wobei nur Inhaber einer GeForce RTX 3000 oder GeForce RTX 4000 auch in der Lage sind, den AI-Chatbot auch auszuführen. Das Large Language Model kann mit eigenen Daten gefüttert werden.

Zur News: „Chat with RTX“-Demo: Nvidias AI-Chatbot läuft nach Download lokal auf RTX 30 & 40

Eisenoxid · 13. Februar 2024

Sehr interessant....

konkretor · 13. Februar 2024

Mal sehen ob AMD da auch nach zieht.
Das ist ein sehr einfacher Zugang zu dieser Technologie und dazu lokal.

Ja wir IT Profis können das ja jetzt schon...

SavageSkull · 13. Februar 2024

Da ist das Nikolaus Rätsel 2024 sicher...

SpartanerTom · 13. Februar 2024

@konkretor Wäre eine sinnvolle Marketing Aktion. Allerdings würde ich da nicht mit rechnen, da ROCm einen großteil der Consumer Karten nicht unterstützt. Aber vielleicht ändert man da ja endlich die Denkweise. Das Ausklammern der Consumer GPUs ist meiner Meinung nach ein großer Fehler.

Kürzlich hat ollama nativen ROCm Support (via llama.cpp) bekommen, also ist es nicht undenkbar sowas ohne unüberwindbaren Aufwand umzusetzen.

tusen_takk · 13. Februar 2024

Bezüglich AMD hatte ich heute folgendes gelesen @konkretor:
https://www.golem.de/news/ki-beschl...litaet-und-laesst-sie-fallen-2402-182149.html

Offline wäre auch LLaMa eine Idee:
https://www.heise.de/hintergrund/Gr...-Ein-LLaMA-fuer-die-Westentasche-7624131.html

mojitomay · 13. Februar 2024

Da ich ollama auf meinem ollen PC installiert habe und die ca. 8GB dolphin-mistral, haut mich das jetzt nicht so vom Hocker mit der Lokalen Ki.

Das ist selbst ohne GPU brauchbar.

Rickmer · 13. Februar 2024

konkretor schrieb:
Das ist ein sehr einfacher Zugang zu dieser Technologie und dazu lokal.

Ich frag mich nur, warum da so viel zusätzlicher Speicherplatz benötigt wird. Das Mistral 7B int4 selbst ist ja wenn ich's richtig sehe nur ca. 15GB groß.

konkretor · 13. Februar 2024

@Rickmer vielleicht diverse Versionen abgelegt. Auf Platz schaut heute niemand mehr

0x8100 · 13. Februar 2024

gpt4all hat ebenso die möglichkeit, dokumente zu durchsuchen und braucht keine gpu.

drmaniac · 13. Februar 2024

Das finde ich sehr interessant was mich interessieren würde ist ob ich z.b eine eBook Sammlung von meinen lieblingsautoren lernen lassen kann und dann könnte die KI quasi eine Geschichten fortschreiben?

Es gibt ja auch romanreihen die sind unfassbar lang z.b 3000 Perry rhodan Romane und wenn ich mir jetzt überlege diese KI könnte quasi das Perry rhodan Universum verstehen und man kann Fragen dazu stellen da wären die Antworten sicherlich sehr interessant.

Könnten Studenten damit ihre lernskripte von der KI lernen lassen und sich Zusammenfassungen erstellen lassen?

Oder wie wäre es mit einem neuen Harry Potter Roman

Nur mal so als Anregung wohin das ganze gehen könnte was ich allerdings hoffe ist dass nicht diese unsägliche Zensur auch auf den lokalen Modellen stattfindet. Wenn ich z.b Frage was hat nur als Beispiel Donald Trump alles schlimmes und Böses gemacht dann will ich schon eine reale Antwort und nicht ein weichgespültes blablabla. Oder auch romanfiguren die als Bösewichte böse sind und nicht mit einer KI nur freundlich und regenbogen bunt zum Leben erweckt werden haha

Matthias B. V. · 13. Februar 2024

Für mich eher Marketing als wirklich langfristig nachhaltig.

Die Meisten Nutzer werden Tools von Microsoft, Google, Apple, etc. nutzen da die ohnehin in die Software integriert werden...

drmaniac · 13. Februar 2024

Also ich sehe schon als nachhaltig weil die rechenleistung immer weiter steigt individuell für die einzelnen Individuen und auch wenn ich z.b ein Abo habe bei Chat GPT finde ich trotzdem spannend irgendwann eine leistungsfähige lokale KI zu haben die meine Daten eben nicht in die Cloud und in die Welt hochlädt

arncht · 13. Februar 2024

https://github.com/ggerganov/llama.cpp

Fantastic… Es läuft auf meinem 10-W-MacBook Air.

ripa · 13. Februar 2024

Auf was bezieht sich "Demo"? Ist die Laufzeit begrenzt? Hört sich für mich nach einem brauchbaren Produkt an.

Ergänzung (13. Februar 2024)

arncht schrieb:
https://github.com/ggerganov/llama.cpp

Fantastic… Es läuft auf meinem 10-W-MacBook Air.

Und damit kann man genauso einfach einen Ordner mit Dateien befüllen und nach etwas Wartezeit kann der Bot mit dem Inhalt glänzen? Das bezweifle ich irgendwie

Ergänzung (13. Februar 2024)

0x8100 schrieb:
gpt4all hat ebenso die möglichkeit, dokumente zu durchsuchen und braucht keine gpu.

Klingt interessant, danke - gucke ich mir mal genauer an. Beim ersten Überfliegen ist das anlernen mit eigenen Daten, aber auch nicht so simpel, oder? Es müssen Daten in bestimmten Formaten bzw. Strukturen vorliegen?

Nolag · 13. Februar 2024

mojitomay schrieb:
Da ich ollama auf meinem ollen PC installiert habe und die ca. 8GB dolphin-mistral, haut mich das jetzt nicht so vom Hocker mit der Lokalen Ki.

Klar, wer lediglich mit einem LLM chatten will, der nimmt einfach Ollama oder LM Studio. Hier wird aber eine RAG Pipeline mitgeliefert und man kann damit das Modell im Prinzip mit eigenen Inhalten erweitern.

DaLexy · 13. Februar 2024

drmaniac schrieb:
Das finde ich sehr interessant was mich interessieren würde ist ob ich z.b eine eBook Sammlung von meinen lieblingsautoren lernen lassen kann und dann könnte die KI quasi eine Geschichten fortschreiben?

Es gibt ja auch romanreihen die sind unfassbar lang z.b 3000 Perry rhodan Romane und wenn ich mir jetzt überlege diese KI könnte quasi das Perry rhodan Universum verstehen und man kann Fragen dazu stellen da wären die Antworten sicherlich sehr interessant.

Könnten Studenten damit ihre lernskripte von der KI lernen lassen und sich Zusammenfassungen erstellen lassen?

Oder wie wäre es mit einem neuen Harry Potter Roman

Nur mal so als Anregung wohin das ganze gehen könnte was ich allerdings hoffe ist dass nicht diese unsägliche Zensur auch auf den lokalen Modellen stattfindet. Wenn ich z.b Frage was hat nur als Beispiel Donald Trump alles schlimmes und Böses gemacht dann will ich schon eine reale Antwort und nicht ein weichgespültes blablabla. Oder auch romanfiguren die als Bösewichte böse sind und nicht mit einer KI nur freundlich und regenbogen bunt zum Leben erweckt werden haha

Das wird vermutlich nicht klappen da die Kontextlänge viel zu groß sein müsste um alles zu erfassen. Derzeitige LocalLlama Models haben im durchschnitt 2048-4096 (gibt auch 8192) Tokens kontext und ein Token ist ~4 Zeichen.

Dann kommt noch hinzu welche Quant du nimmst, Die volle FP16 oder doch eher nen Quant 8 ? Alles ab Quant 4 ist nutzbar aber auch nicht ganz korrekt wenn es um den vorigen kontext geht. Desto geringer der Quant, desto anfälliger für fehler und wie ich hier gesehen habe scheint es sich um ein Quant 4 von Mistral zu handeln.

drmaniac · 13. Februar 2024

DaLexy schrieb:
Das wird vermutlich nicht klappen da die Kontextlänge viel zu groß sein müsste um alles zu erfassen. Derzeitige LocalLlama Models haben im durchschnitt 4096 Tokens und ein Token ist ~4 Zeichen.

Naja das wäre aber irgendwie lahm um damit einigermaßen größere PDFs analysieren zu können also wenn ich das richtig verstehe glaubst du dass man maximal Dokumente mit 16000 Zeichen analysieren lassen könnte?

Am besten brauchen wir ein paar Experten die das jetzt schon getestet haben und uns eine Aussage darüber geben können ob mehr möglich ist

0x8100 · 13. Februar 2024

ripa schrieb:
Beim ersten Überfliegen ist das anlernen mit eigenen Daten, aber auch nicht so simpel, oder?

eigentlich schon

schau mal hier -> https://docs.gpt4all.io/gpt4all_chat.html#localdocs-plugin-chat-with-your-data

edit: auf macs den metal-support aktivieren:

bringt mehr leistung.

edit2: ich bin gerade angenehm überrascht - das läuft jetzt auch auf meiner gpu und zwar wesentlich schneller

DaLexy · 13. Februar 2024

drmaniac schrieb:
Naja das wäre aber irgendwie lahm um damit einigermaßen größere PDFs analysieren zu können also wenn ich das richtig verstehe glaubst du dass man maximal Dokumente mit 16000 Zeichen analysieren lassen könnte?

Am besten brauchen wir ein paar Experten die das jetzt schon getestet haben und uns eine Aussage darüber geben können ob mehr möglich ist

Hab meinen Text oben mal etwas editiert. Leider ist das was du sagst derzeit die realität denn desto mehr Kontext du willst, desto mehr VRAM/RAM brauchst du.

Dann kommt noch hinzu wieviel Parameter du in dem Model hast, 7B oder 20B ! Gibt auch 120B Models aber das kannste als Otto User schon vergessen wenn du nicht gerade 2-3x 3090/4090 mit 64GB RAM hast ^^

Ich fahre derzeit 13B mit Quant 8 oder 20B/23B mit Quant 4.

Das sieht dann schnell so aus mit einer 3080 10GB und 32GB RAM

Die Bilder sind von meinen Testruns mit 8k und 16k kontext.

News „Chat with RTX“-Demo: Nvidias AI-Chatbot läuft nach Download lokal auf RTX 30 & 40

Chefredakteur

Lt. Junior Grade

Artikeldetektiv

Fleet Admiral

Captain

Lt. Commander Pro

Lt. Commander

Silent-Fanatiker

Artikeldetektiv

Admiral

Lieutenant

Lieutenant

Lieutenant

Newbie

Banned

Commander

Lt. Commander

Lieutenant

Admiral

Lt. Commander

Anhänge