News „Chat with RTX“-Demo: Nvidias AI-Chatbot läuft nach Download lokal auf RTX 30 & 40

Jan

Chefredakteur
Teammitglied
Registriert
Apr. 2001
Beiträge
16.021
  • Gefällt mir
Reaktionen: Mr Peanutbutter, aid0nex, ChrisMK72 und 8 andere
Sehr interessant....
 
  • Gefällt mir
Reaktionen: FX9590, NDschambar, Turbulence und eine weitere Person
Mal sehen ob AMD da auch nach zieht.
Das ist ein sehr einfacher Zugang zu dieser Technologie und dazu lokal.

Ja wir IT Profis können das ja jetzt schon...
 
  • Gefällt mir
Reaktionen: aid0nex, NDschambar, Turbulence und 2 andere
@konkretor Wäre eine sinnvolle Marketing Aktion. Allerdings würde ich da nicht mit rechnen, da ROCm einen großteil der Consumer Karten nicht unterstützt. Aber vielleicht ändert man da ja endlich die Denkweise. Das Ausklammern der Consumer GPUs ist meiner Meinung nach ein großer Fehler.

Kürzlich hat ollama nativen ROCm Support (via llama.cpp) bekommen, also ist es nicht undenkbar sowas ohne unüberwindbaren Aufwand umzusetzen.
 
  • Gefällt mir
Reaktionen: Azdak, Termy, konkretor und eine weitere Person
  • Gefällt mir
Reaktionen: flo.murr und Mcr-King
Da ich ollama auf meinem ollen PC installiert habe und die ca. 8GB dolphin-mistral, haut mich das jetzt nicht so vom Hocker mit der Lokalen Ki.

Das ist selbst ohne GPU brauchbar.
 
  • Gefällt mir
Reaktionen: lalelu, fullnewb, Mcr-King und eine weitere Person
konkretor schrieb:
Das ist ein sehr einfacher Zugang zu dieser Technologie und dazu lokal.
Ich frag mich nur, warum da so viel zusätzlicher Speicherplatz benötigt wird. Das Mistral 7B int4 selbst ist ja wenn ich's richtig sehe nur ca. 15GB groß.
 
  • Gefällt mir
Reaktionen: flo.murr
@Rickmer vielleicht diverse Versionen abgelegt. Auf Platz schaut heute niemand mehr
 
  • Gefällt mir
Reaktionen: Cool Master und Mcr-King
gpt4all hat ebenso die möglichkeit, dokumente zu durchsuchen und braucht keine gpu.
 
  • Gefällt mir
Reaktionen: fullnewb, NDschambar, tusen_takk und 2 andere
Das finde ich sehr interessant was mich interessieren würde ist ob ich z.b eine eBook Sammlung von meinen lieblingsautoren lernen lassen kann und dann könnte die KI quasi eine Geschichten fortschreiben?

Es gibt ja auch romanreihen die sind unfassbar lang z.b 3000 Perry rhodan Romane und wenn ich mir jetzt überlege diese KI könnte quasi das Perry rhodan Universum verstehen und man kann Fragen dazu stellen da wären die Antworten sicherlich sehr interessant.

Könnten Studenten damit ihre lernskripte von der KI lernen lassen und sich Zusammenfassungen erstellen lassen?

Oder wie wäre es mit einem neuen Harry Potter Roman ;)

Nur mal so als Anregung wohin das ganze gehen könnte was ich allerdings hoffe ist dass nicht diese unsägliche Zensur auch auf den lokalen Modellen stattfindet. Wenn ich z.b Frage was hat nur als Beispiel Donald Trump alles schlimmes und Böses gemacht dann will ich schon eine reale Antwort und nicht ein weichgespültes blablabla. Oder auch romanfiguren die als Bösewichte böse sind und nicht mit einer KI nur freundlich und regenbogen bunt zum Leben erweckt werden haha
 
  • Gefällt mir
Reaktionen: FX9590, 2Stoned, ChrisMK72 und 4 andere
Für mich eher Marketing als wirklich langfristig nachhaltig.

Die Meisten Nutzer werden Tools von Microsoft, Google, Apple, etc. nutzen da die ohnehin in die Software integriert werden...
 
  • Gefällt mir
Reaktionen: Mcr-King
Also ich sehe schon als nachhaltig weil die rechenleistung immer weiter steigt individuell für die einzelnen Individuen und auch wenn ich z.b ein Abo habe bei Chat GPT finde ich trotzdem spannend irgendwann eine leistungsfähige lokale KI zu haben die meine Daten eben nicht in die Cloud und in die Welt hochlädt
 
  • Gefällt mir
Reaktionen: 2Stoned und Espero
Auf was bezieht sich "Demo"? Ist die Laufzeit begrenzt? Hört sich für mich nach einem brauchbaren Produkt an.
Ergänzung ()

arncht schrieb:
https://github.com/ggerganov/llama.cpp

Fantastic… Es läuft auf meinem 10-W-MacBook Air.
Und damit kann man genauso einfach einen Ordner mit Dateien befüllen und nach etwas Wartezeit kann der Bot mit dem Inhalt glänzen? Das bezweifle ich irgendwie ;)
Ergänzung ()

0x8100 schrieb:
gpt4all hat ebenso die möglichkeit, dokumente zu durchsuchen und braucht keine gpu.
Klingt interessant, danke - gucke ich mir mal genauer an. Beim ersten Überfliegen ist das anlernen mit eigenen Daten, aber auch nicht so simpel, oder? Es müssen Daten in bestimmten Formaten bzw. Strukturen vorliegen?
 
mojitomay schrieb:
Da ich ollama auf meinem ollen PC installiert habe und die ca. 8GB dolphin-mistral, haut mich das jetzt nicht so vom Hocker mit der Lokalen Ki.
Klar, wer lediglich mit einem LLM chatten will, der nimmt einfach Ollama oder LM Studio. Hier wird aber eine RAG Pipeline mitgeliefert und man kann damit das Modell im Prinzip mit eigenen Inhalten erweitern.
 
  • Gefällt mir
Reaktionen: s!r.einSTein, meneguzzo68, Wintermute und 4 andere
drmaniac schrieb:
Das finde ich sehr interessant was mich interessieren würde ist ob ich z.b eine eBook Sammlung von meinen lieblingsautoren lernen lassen kann und dann könnte die KI quasi eine Geschichten fortschreiben?

Es gibt ja auch romanreihen die sind unfassbar lang z.b 3000 Perry rhodan Romane und wenn ich mir jetzt überlege diese KI könnte quasi das Perry rhodan Universum verstehen und man kann Fragen dazu stellen da wären die Antworten sicherlich sehr interessant.

Könnten Studenten damit ihre lernskripte von der KI lernen lassen und sich Zusammenfassungen erstellen lassen?

Oder wie wäre es mit einem neuen Harry Potter Roman ;)

Nur mal so als Anregung wohin das ganze gehen könnte was ich allerdings hoffe ist dass nicht diese unsägliche Zensur auch auf den lokalen Modellen stattfindet. Wenn ich z.b Frage was hat nur als Beispiel Donald Trump alles schlimmes und Böses gemacht dann will ich schon eine reale Antwort und nicht ein weichgespültes blablabla. Oder auch romanfiguren die als Bösewichte böse sind und nicht mit einer KI nur freundlich und regenbogen bunt zum Leben erweckt werden haha
Das wird vermutlich nicht klappen da die Kontextlänge viel zu groß sein müsste um alles zu erfassen. Derzeitige LocalLlama Models haben im durchschnitt 2048-4096 (gibt auch 8192) Tokens kontext und ein Token ist ~4 Zeichen.

Dann kommt noch hinzu welche Quant du nimmst, Die volle FP16 oder doch eher nen Quant 8 ? Alles ab Quant 4 ist nutzbar aber auch nicht ganz korrekt wenn es um den vorigen kontext geht. Desto geringer der Quant, desto anfälliger für fehler und wie ich hier gesehen habe scheint es sich um ein Quant 4 von Mistral zu handeln.
 
  • Gefällt mir
Reaktionen: lalelu und Mcr-King
DaLexy schrieb:
Das wird vermutlich nicht klappen da die Kontextlänge viel zu groß sein müsste um alles zu erfassen. Derzeitige LocalLlama Models haben im durchschnitt 4096 Tokens und ein Token ist ~4 Zeichen.

Naja das wäre aber irgendwie lahm um damit einigermaßen größere PDFs analysieren zu können also wenn ich das richtig verstehe glaubst du dass man maximal Dokumente mit 16000 Zeichen analysieren lassen könnte?

Am besten brauchen wir ein paar Experten die das jetzt schon getestet haben und uns eine Aussage darüber geben können ob mehr möglich ist :D
 
  • Gefällt mir
Reaktionen: Tritom73
ripa schrieb:
Beim ersten Überfliegen ist das anlernen mit eigenen Daten, aber auch nicht so simpel, oder?
eigentlich schon :) schau mal hier -> https://docs.gpt4all.io/gpt4all_chat.html#localdocs-plugin-chat-with-your-data

edit: auf macs den metal-support aktivieren:
1707850212539.png

bringt mehr leistung.

edit2: ich bin gerade angenehm überrascht - das läuft jetzt auch auf meiner gpu und zwar wesentlich schneller :)

1707850448292.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Apocalypse, ripa, emerald und eine weitere Person
drmaniac schrieb:
Naja das wäre aber irgendwie lahm um damit einigermaßen größere PDFs analysieren zu können also wenn ich das richtig verstehe glaubst du dass man maximal Dokumente mit 16000 Zeichen analysieren lassen könnte?

Am besten brauchen wir ein paar Experten die das jetzt schon getestet haben und uns eine Aussage darüber geben können ob mehr möglich ist :D
Hab meinen Text oben mal etwas editiert. Leider ist das was du sagst derzeit die realität denn desto mehr Kontext du willst, desto mehr VRAM/RAM brauchst du.

Dann kommt noch hinzu wieviel Parameter du in dem Model hast, 7B oder 20B ! Gibt auch 120B Models aber das kannste als Otto User schon vergessen wenn du nicht gerade 2-3x 3090/4090 mit 64GB RAM hast ^^

Ich fahre derzeit 13B mit Quant 8 oder 20B/23B mit Quant 4.

Das sieht dann schnell so aus mit einer 3080 10GB und 32GB RAM :)
Die Bilder sind von meinen Testruns mit 8k und 16k kontext.
 

Anhänge

  • Screenshot 2023-12-11 025341.png
    Screenshot 2023-12-11 025341.png
    33,2 KB · Aufrufe: 433
  • Screenshot 2023-12-11 025437.png
    Screenshot 2023-12-11 025437.png
    41,9 KB · Aufrufe: 441
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Moerf, ChrisMK72, thornhill und 5 andere
Zurück
Oben