AGB-Leser schrieb:
Kann man die auf Festplatten überhaupt dafür nutzen? Die Datenübertragung ist ja sehr langsam
Sicherlich kannst du das, dauert dann halt nur einen kleinen augenblick länger bis die geladen ist, denn die LLM wird ja in den VRAM geladen bzw. RAM oder beides je nachdem wie groß das Model ist das du nutzen willst. Die Responsetime ist bzw. dürfte dadurch nicht eingeschränkt sein. Ich spiele gerade mit 13B Models rum die entweder komplett im RAM laufen oder VRAM+RAM da die 3080 mit 10GB dafür nicht ausreicht. 7B Models werden auch minimal im RAM ausgelagert. 30B und alles darüber tuh ich mir noch nicht an wobei ich da echt bock drauf hab, aber dafür brauch ich erst ne 3090/4090 oder ne A6000 mit 48GB VRAM
Kannst es dir ja mal selber ansehen falls du willst, gibt genug Tools dafür wie SillyTavern, Koboldcpp, Llamacpp oder was ich nutze
Obaabooga TextUI. Unter Windows alles 1 click installer, lediglich die UI settings sind etwas sehr gewöhnungsbedürftig da es eine menge zum einstellen gibt (Die standardpresets sind aber schon ok). So ist z.b. die zu berücksichtigende Kontextlänge als "n_ctx" definiert. Hab da selber auch erst planlos vorgesessen aber ChatGPT hilft gerne bei der erläuterung der begriffe
Hier noch ne super resource für die Models, viele davon auch unzensiert.
https://huggingface.co/TheBloke
Kann man easy über das WebUI integrieren. Also ich habe ca. 2 tage gebraucht um das Grundwissen zu verstehen was die verschiedenen Datasets/Modelendungen angeht wie GGUF, GGML, GTPQ, BIN, AWQ mit ihren vor und nachteilen bzw. den Transformern. Anfangs hat AWQ trotz seiner vorteile bei mir nach jedem ersten normalen Reply immer nur noch Bullshit geschrieben der keinen Sinn ergab. Bin nun bei 8Bit Quant mit GGUF geblieben bzw. GTPQ.
Teste derzeit halt noch rum mit den Models. Zu empfehlen sind auf jeden Mistral und Llama2 da die komplett anders und Profitechnisch trainiert worden sind. Die meisten anderen Models sind meißt nur Merges von vorhandenen anderen Models.