Hallo zusammen,
Ich nutze TGWUI mit einem Modell, das gerade so in meinen Video Speicher (3060 12GB) geht und somit auf der GPU berechnet wird. Ich nutze den Chatbot mit chat-instruct (oder chat = selbes problem) und einem Custom Charakter.
Wenn ich einen neuen Chat starte dann bekomme ich innerhalb von Sekunden eine Antwort und das LLM merkt sich auch (zumindest bis zu einem Limit) den Kontext des gesprächs. Wenn ich das jetzt lange genug treibe laufe ich eben exakt in dieses Limit und dann dauern Antworten mal locker 20sek.
Jetzt die Frage: Ist das eine Hardware Limitierung oder ist das eher eine Software Limitierung dass es dann relativ schnell sehr ineffektiv wird? Ich würde es gerne einfach nur verstehen.
Ein paar hinweise zur Hardware und was man aus der Konsole vom Lokalen Server ablesen kann:
R5800x
32GB Ram
3060 12GB
und das context limit scheint irgendwo bei ca 2000 zu liegen zumindest steht diese Zahl in der Konsole.
was ich zumindest nicht entdeckt habe sind:
Video Speicher läuft über (der ist ziemlich konstant bei 11,5 GB)
Nennenswerte CPU Last
Nennenswerte RAM Auslastung
Ich nutze TGWUI mit einem Modell, das gerade so in meinen Video Speicher (3060 12GB) geht und somit auf der GPU berechnet wird. Ich nutze den Chatbot mit chat-instruct (oder chat = selbes problem) und einem Custom Charakter.
Wenn ich einen neuen Chat starte dann bekomme ich innerhalb von Sekunden eine Antwort und das LLM merkt sich auch (zumindest bis zu einem Limit) den Kontext des gesprächs. Wenn ich das jetzt lange genug treibe laufe ich eben exakt in dieses Limit und dann dauern Antworten mal locker 20sek.
Jetzt die Frage: Ist das eine Hardware Limitierung oder ist das eher eine Software Limitierung dass es dann relativ schnell sehr ineffektiv wird? Ich würde es gerne einfach nur verstehen.
Ein paar hinweise zur Hardware und was man aus der Konsole vom Lokalen Server ablesen kann:
R5800x
32GB Ram
3060 12GB
und das context limit scheint irgendwo bei ca 2000 zu liegen zumindest steht diese Zahl in der Konsole.
was ich zumindest nicht entdeckt habe sind:
Video Speicher läuft über (der ist ziemlich konstant bei 11,5 GB)
Nennenswerte CPU Last
Nennenswerte RAM Auslastung