Lokales LLM performance

Pyrukar · 16. November 2024

Hallo zusammen,

Ich nutze TGWUI mit einem Modell, das gerade so in meinen Video Speicher (3060 12GB) geht und somit auf der GPU berechnet wird. Ich nutze den Chatbot mit chat-instruct (oder chat = selbes problem) und einem Custom Charakter.

Wenn ich einen neuen Chat starte dann bekomme ich innerhalb von Sekunden eine Antwort und das LLM merkt sich auch (zumindest bis zu einem Limit) den Kontext des gesprächs. Wenn ich das jetzt lange genug treibe laufe ich eben exakt in dieses Limit und dann dauern Antworten mal locker 20sek.
Jetzt die Frage: Ist das eine Hardware Limitierung oder ist das eher eine Software Limitierung dass es dann relativ schnell sehr ineffektiv wird? Ich würde es gerne einfach nur verstehen.

Ein paar hinweise zur Hardware und was man aus der Konsole vom Lokalen Server ablesen kann:
R5800x
32GB Ram
3060 12GB

und das context limit scheint irgendwo bei ca 2000 zu liegen zumindest steht diese Zahl in der Konsole.

was ich zumindest nicht entdeckt habe sind:

Video Speicher läuft über (der ist ziemlich konstant bei 11,5 GB)
Nennenswerte CPU Last
Nennenswerte RAM Auslastung

oicfar · 16. November 2024

Packe dein Post bei ChatGPT, dann kriegst du eine ausführliche Antwort.

Pyrukar · 16. November 2024

oicfar schrieb:
bei ChatGPT

Ich nutze keine Online Chatbots ... schon gar nicht wenn man dafür einen Account benötigt

und soweit ich weis, ist ChatGPT nicht (mehr) ohne account nutzbar

oicfar · 16. November 2024

In deinem Fall wird es sicherlich an wenig VRAM liegen. 12GB ist nicht viel. Und das wird sich dann auf die Performance auswirken.

JumpingCat · 16. November 2024

Die erste Antwort dauert lang, die nächsten sind schneller. Du wirst aber bei den nächsten Fragen einen Kontext haben und der braucht auch (V)RAM.

Was passiert mit einem kleineren Modell?

madmax2010 · 16. November 2024

Welches modell nutzt du? In welchem Format sind die Gewichte?
welcher tokenizer dazu? --> Bei wie vielen Token ist die Grenze?

Vermutlich liegt es an der Größe des Context Windows und kleinen genutzten Tricks um dieses zu erweitern. Das kann gern recht IO intensiv werden

Pyrukar · 16. November 2024

JumpingCat schrieb:
Die erste Antwort dauert lang, die nächsten sind schneller.

Nein, wenn ich regeneriere aka mit dem Selben Kontext eine neue Antwort möchte, dauert es genauso lange wie bei geändertem Kontext.

JumpingCat schrieb:
Die erste Antwort dauert lang, die nächsten sind schneller. Du wirst aber bei den nächsten Fragen einen Kontext haben und der braucht auch (V)RAM.

Und genau das sehe ich eben nicht bei HWinfo. Egal ob ich ein Chat mit wenig kontext oder einen mit viel Kontext habe die VRAM auslastung bleibt bis auf einzelne MB (die auch an anderen Dingen liegen können) identisch. und der VRAM läuft laut HW Info nicht über

@madmax2010

das Modell heist Storytime-13b.Q4_0.gguf

@oicfar ja das Video zeigt was passiert und ja ich renne ziemich sicher in das Token limit. Aber das ist ja nicht schlimm für mich, wenn der alte text verloren geht, Ich verstehe aber nicht, warum das Programm anscheinend ewig braucht um den alten Rest abzuschneiden, denn so wie es aussieht ist exakt das das Problem. Somit wäre es ein Software Problem und LLM Modell Unabhänig, korrekt?

madmax2010 · 16. November 2024

hm. anders herum ist vielleicht einfacher:

ab zeig mal bitte eine prompt die knapp zu lang ist

Pyrukar · 16. November 2024

Ich wüsste nicht wie das geht ... die einzenen Nachrichten sind wenige tokens lang, erst die summe macht das problem. und an den aufsummierten Kontext komme ich soweit ich weis nicht ran.

oicfar · 16. November 2024

Kannst du das mit Ollama + Open WebUI testen? Halt ob es sich genau oder anders verhält?

0x8100 · 16. November 2024

Pyrukar schrieb:
und soweit ich weis, ist ChatGPT nicht (mehr) ohne account nutzbar

https://duck.ai

Suche

Lokales LLM performance

Pyrukar

Captain

oicfar

Captain

Pyrukar

Captain

oicfar

Captain

JumpingCat

Commander

madmax2010

Fleet Admiral

Pyrukar

Captain

madmax2010

Fleet Admiral

Pyrukar

Captain

oicfar

Captain

0x8100

Admiral

Ähnliche Themen