Don-DCH schrieb:
mich würde sehr interessieren, ob ihr lokale KI Anwendungen hostet wie Beispielsweise Stable Diffusion oder ein lokales Sprachmodell ähnlich ChatGPT.
Insbesonders, welche Erfahrungen Ihr damit habt.
Ich benutze seit ein paar Monaten auf einem neuen Rechner Stable Diffusion in mehrere Versionen, einmal über ComfyUi in Windows 11, ComfyUi in TuxedoOS, und ein bisschen in Krita mit dem AI-Plugin, welches ebenso eine grundlegende, lokale SD(XL) Installation anlegt.
Ich müsste so an die 1000 Bilder oder so produziert haben, hauptsächlich Characters und einige Experimente mit fraktalem Denoising (also mehrere Durchgänge mit immer kleineren "geträumten" Details).
Hardwareseitig kam Ryzen 7700, 64 GB RAM und eine RTX 4060TI 16 GB zum Einsatz. Für einen "Test" genügt das. Ich kann damit bei entsprechend komplexen Workflows Bilder bis etwa 1535 x 1024 Pixel im VRAM erzeugen, mit "Tiled" Samplern (die das Bild vor dem Denoising in Kacheln zerlegen) gehen auch Formate bis 4000 x 3000 Pixel, je nach Motiv, Model und Sampler auch mit entsprechenden Details.
Ein Problem wird dann die Rechenzeit, 1-2h pro Bild sind bei der Auflösung keine Seltenheit. Aber gängige Format bis 2048 x 1536 sind in einigen Minuten mit guter Qualität drin. Wenn man zum weiteren Upscaling noch externe Software verwendet, oder sowieso noch mit Photoshop & Co weiterarbeitet, kann man sicher auch halbwegs druckbares Material erzeugen.
Soweit zum Positiven: Negativ an der ganzen Stable Diffusion Welt ist die Komplexität, die einen insbesondere bei Verwendung von Node-Editoren wie ComfyUI vielleicht erschlägt. Es kommen täglich neue Plugins und Nodes und Modelle heraus, die die Community bastelt. Darunter auch ziemlich schräges Zeug und NFSW Content, aber eben auch sinnvolle und mächtige Tools wie Controlnet, IPAdapter (Image 2 Image) und Filter, Upscaler, Videotools, Faceswapper, Automasking. Da muss man eigentlich Vollzeit am Ball bleiben, um noch durchzublicken. Und so immer stabil läuft die Kiste bei der Menge an Zeug auch nicht, minimale Python-Kenntnisse sind zum Debugging von Vorteil.
Und in Sachen Hardware, würde ich für diejenigen, die gut aufgelöste Bilder in grösseren Mengen produzieren wollen fürs Hobby und kommerziell... oder gar kleinere Videos, so ab 48 GB RAM und mind. eine RTX 4070 TiS empfehlen. Normales RAM wird auch gut belastet, habe über 32 GB belegt wenn mehrere Grafik-Tools (Affinity, GIMP, etc) und SDXL zusammen laufen.
Und wenn man Wert auf Effizienz legt und es nicht so eilig hat, vielleicht sogar auf die RTX 5000er Serie warten bevor man richtig einsteigt. Die aktuellen Highend RTX-Karten sind zwar schneller, aber verbrauchen auch linear mehr Ressourcen (Strom und Anschaffungspreis), denn viele Tricks gibt es da keine, die Rechenzeit ist ein Produkt aus dem gewählten Checkpoint, Steps, Bildgrösse, Anzahl Nodes im Workflow, und der Upscaling-Runden.
Ich persönlich finde die Technik faszinierend, sehen aber durchaus Probleme was den Ressourcenhunger angeht und die Möglichkeiten der Tools. Ich rechne damit, dass hochqualitative open source Modelle und die diverse Tools tendenziell einer gesetzlichen Regulierung zum Opfer fallen könnten. Wenn nicht heute, dann in der Zukunft, denn die Möglichkeiten sind jetzt schon heftig, und dann ist eines Tages die 1-Click Copy einer realen Person aus ein paar Insta-Fotos möglich, ohne sich mit den grafischen Algorithmen oder Workflows tagelang zu beschäftigen.