Lokales LLM performance

Pyrukar

Captain
Registriert
Jan. 2013
Beiträge
3.699
Hallo zusammen,

Ich nutze TGWUI mit einem Modell, das gerade so in meinen Video Speicher (3060 12GB) geht und somit auf der GPU berechnet wird. Ich nutze den Chatbot mit chat-instruct (oder chat = selbes problem) und einem Custom Charakter.

Wenn ich einen neuen Chat starte dann bekomme ich innerhalb von Sekunden eine Antwort und das LLM merkt sich auch (zumindest bis zu einem Limit) den Kontext des gesprächs. Wenn ich das jetzt lange genug treibe laufe ich eben exakt in dieses Limit und dann dauern Antworten mal locker 20sek.
Jetzt die Frage: Ist das eine Hardware Limitierung oder ist das eher eine Software Limitierung dass es dann relativ schnell sehr ineffektiv wird? Ich würde es gerne einfach nur verstehen.

Ein paar hinweise zur Hardware und was man aus der Konsole vom Lokalen Server ablesen kann:
R5800x
32GB Ram
3060 12GB

und das context limit scheint irgendwo bei ca 2000 zu liegen zumindest steht diese Zahl in der Konsole.


was ich zumindest nicht entdeckt habe sind:

Video Speicher läuft über (der ist ziemlich konstant bei 11,5 GB)
Nennenswerte CPU Last
Nennenswerte RAM Auslastung
 
Packe dein Post bei ChatGPT, dann kriegst du eine ausführliche Antwort. ;)
 
oicfar schrieb:
Ich nutze keine Online Chatbots ... schon gar nicht wenn man dafür einen Account benötigt :) und soweit ich weis, ist ChatGPT nicht (mehr) ohne account nutzbar
 
  • Gefällt mir
Reaktionen: madmax2010

In deinem Fall wird es sicherlich an wenig VRAM liegen. 12GB ist nicht viel. Und das wird sich dann auf die Performance auswirken.
 
Die erste Antwort dauert lang, die nächsten sind schneller. Du wirst aber bei den nächsten Fragen einen Kontext haben und der braucht auch (V)RAM.

Was passiert mit einem kleineren Modell?
 
Welches modell nutzt du? In welchem Format sind die Gewichte?
welcher tokenizer dazu? --> Bei wie vielen Token ist die Grenze?

Vermutlich liegt es an der Größe des Context Windows und kleinen genutzten Tricks um dieses zu erweitern. Das kann gern recht IO intensiv werden
 
JumpingCat schrieb:
Die erste Antwort dauert lang, die nächsten sind schneller.
Nein, wenn ich regeneriere aka mit dem Selben Kontext eine neue Antwort möchte, dauert es genauso lange wie bei geändertem Kontext.

JumpingCat schrieb:
Die erste Antwort dauert lang, die nächsten sind schneller. Du wirst aber bei den nächsten Fragen einen Kontext haben und der braucht auch (V)RAM.
Und genau das sehe ich eben nicht bei HWinfo. Egal ob ich ein Chat mit wenig kontext oder einen mit viel Kontext habe die VRAM auslastung bleibt bis auf einzelne MB (die auch an anderen Dingen liegen können) identisch. und der VRAM läuft laut HW Info nicht über


@madmax2010
1731784248784.png

das Modell heist Storytime-13b.Q4_0.gguf


@oicfar ja das Video zeigt was passiert und ja ich renne ziemich sicher in das Token limit. Aber das ist ja nicht schlimm für mich, wenn der alte text verloren geht, Ich verstehe aber nicht, warum das Programm anscheinend ewig braucht um den alten Rest abzuschneiden, denn so wie es aussieht ist exakt das das Problem. Somit wäre es ein Software Problem und LLM Modell Unabhänig, korrekt?
 
hm. anders herum ist vielleicht einfacher:

ab zeig mal bitte eine prompt die knapp zu lang ist
 
Ich wüsste nicht wie das geht ... die einzenen Nachrichten sind wenige tokens lang, erst die summe macht das problem. und an den aufsummierten Kontext komme ich soweit ich weis nicht ran.
 
Kannst du das mit Ollama + Open WebUI testen? Halt ob es sich genau oder anders verhält?
 
Zurück
Oben