[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

MechanimaL · 28. September 2023

Large Language Model, also sowas wie Chat GPT auf lokaler Ebene in dem Fall. Also ich hab das bei mir auf ne SSD gelegt, auf der noch ausreichend Platz ist. Du könntest es ja testweise mal erhöhen auch auf ner x beliebigen Platte, irgendeine wirst Du ja vll finden, wenn es auch nicht die beste Perfomance ist, nur zum Testen, ob das das Problem beseitigt. War tatsächlich nötig bei dem Text-AI Tool und das arbeitet vom Prinzip her ähnlich wie SD mit dem Grafikram usw.

*Und der Platz wird einfach fest veranschlagt, indem eine pagefile.sys Datei der entsprechenden Größe angelegt wird.

Madcat69 · 28. September 2023

Also roop-unleashed will bei mir partout nicht, immer "no faces detected" ...

MechanimaL · 28. September 2023

Diese Programme funktionieren ja als "inpainter", ggf. muss man sie im "inpainting" tab ausführen, wenn es im img2img nicht geht. Markieren musste ich nichts; inpainting mit 0.01 denoising und das (roop damals) hat sich selbst die maske erstellt und nur das Gesicht geändert. Aber da kann Dir @lostie79 womöglich direkt einen Tipp geben

lostie79 · 28. September 2023

Madcat69 schrieb:
Also roop-unleashed will bei mir partout nicht, immer "no faces detected" ...

Der Count hatte letztens ne Wiki angelegt. Hilft das weiter?

https://github.com/C0untFloyd/roop-unleashed/wiki/Face-Swap-Tab

Das Targetface darf nicht zu stark beschnitten oder zu klein sein. 512x512 würde ich sagen minimum.

Madcat69 · 28. September 2023

ich scheitere irgendwie schon an einer Installation ohne Fehler

Ergänzung (28. September 2023)

Hm, die path-Angaben sind auch schon wieder weg. Kann das sein, dass bei einer Neuinstallation von Roop die Pfadangaben zu Python, CUDA und FFMPEG gelöscht werden?

War jetzt zwei Mal der Fall ...

Ergänzung (28. September 2023)

Und wenn ich CPU statt CUDA stelle kommt das:

Error
NoneType' object has no attribute 'elem_id

Ergänzung (28. September 2023)

Ich ergänze mich selbst:

https://github.com/C0untFloyd/roop-unleashed/issues/225

Es macht den Path kaputt.

Rickmer · 2. Oktober 2023

Ein bisschen rumprobieren - SDXL hat es doch nochmal geschafft mich zu überraschen.

Prompt effektiv:

from behind, kim possible sitting in pilot seat, piloting a military helicopter, (black crop top:1.4), baggy green cargo pants, long red hair and green eyes, freckles

from behind, kim possible sitting in pilot seat, piloting a military helicopter, (black crop top:1.4), baggy green cargo pants, long red hair and green eyes, freckles, <lora:xl_more_art-full_v1:1>,<lora:add-detail-xl:1>, fully clothed, Digital art, glow effects, Hand drawn, render, 8k, octane render, cinema 4d, blender, dark, atmospheric 4k ultra detailed, cinematic sensual, Sharp focus, humorous illustration, big depth of field, Masterpiece, colors, 3d octane render, 4k, concept art, trending on artstation, hyperrealistic, Vivid colors, modelshoot style, (extremely detailed CG unity 8k wallpaper), professional majestic oil painting by Ed Blinkey, Atey Ghailan, Studio Ghibli, by Jeremy Mann, Greg Manchess, Antonio Moro, trending on ArtStation, trending on CGSociety, Intricate, High Detail, Sharp focus, dramatic, photorealistic painting art by midjourney and greg rutkowski
Negative prompt: text, signature, nipples, nsfw, logo, Glasses, Watermark, bad artist, blur, blurry, text, b&w, 3d, bad art, poorly drawn, disfigured, deformed, extra limbs, ugly hands, extra fingers, canvas frame, cartoon, 3d, disfigured, bad art, deformed, extra limbs, weird colors, blurry, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, ugly, blurry, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, out of frame, ugly, extra limbs, bad anatomy, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, mutated hands, fused fingers, too many fingers, long neck, Photoshop, video game, ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, 3d render

Hier mit dem betterThanWords 2.0 erstellt - vorsicht, das hat extrem starke Tendenzen zu NSFW.

Klar, die Hand könnte eine Korrektur gebrauchen und die Instrumente sind eher skizzenartig, aber ich war trotzdem etwas baff, wie viel verschiedenes Detail im Bild steckt - völlig ohne img2img oder inpainting.

Ich hatte auch mal geschaut, was das SDXL base model daraus machen würde - das macht ein sehr beeindruckendes Heli Cockpit, aber 'from behind' ist dem anscheinend ein völliges Fremdwort.

lostie79 · 2. Oktober 2023

Hatte letzte Woche bisschen mit dem QR-Code-Monster gespielt

Rickmer · 10. Oktober 2023

'Ne Frage...
Ich kann doch nicht der einzige sein, der manchmal ein paar Zeilen eines Liedertext bei Stable Diffusion eintrichtert um zu schauen was passiert, oder?

painomatic · 20. Oktober 2023

Ich will mich gern mit AnimateDiff beschäftigen - unteranderem wird Controlnet benötigt, welche Modelle nutzt ihr da? Nutze dieses Tutorial, da wird es leider nicht erwähnt bzw bin ich noch nicht soweit voran geschritten.

MechanimaL · 21. Oktober 2023

meinst Du für SDXL? Das wäre in der Tat eine Frage, die ich mir selbst auch stelle. Kleinere Models benötigen weniger VRAM, aber größere sind wahrsch in irgendeiner Form besser..

https://huggingface.co/lllyasviel/sd_control_collection/tree/main

Wenn jemand noch weitere Links hat, gerne auch hier rein stellen!

Bei 1.5 hat sich glaub ich nichts geändert:

https://huggingface.co/lllyasviel/ControlNet-v1-1/tree/main (models)

Erklärung bzgl. Modelnamen:

Rickmer · 21. Oktober 2023

Alle SDXL Controlnets die ich bisher ausprobiert habe sind leider nicht sonderlich gut...

Die original SD1.5 Controlnets funktionieren deutlich besser.

Rickmer · 23. Oktober 2023

Ich habe heute festgestellt, dass Dall-E 3 auch ziemlich harte Grenzen der Fähigkeiten hat, indem ich versucht habe, dieses Bild, dass ich in A1111 erstellt hatte, nachzubilden:

closeup of a single female human face, digital art, glow effects, Hand drawn, render, illustrative, octane render, cinema 4d, blender, Vivid colors, professional majestic oil painting by Ed Blinkey, Atey Ghailan, Studio Ghibli, by Jeremy Mann, Greg Manchess, Antonio Moro, trending on ArtStation, trending on CGSociety, photorealistic painting art by midjourney and greg rutkowski, ADDCOMM
(left half of a female human face, red-haired green-eyed irish gal with (freckles:1.4), straight long hair:1.5) ADDCOL
(right half of a female human face, african princess with (black skin:2.5) and (brown eyes:1.4), short curly hair:1.5),
Negative prompt: (worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, tattoo, watermark, text

Erstellt mit dem neuen thinkdiffusionxl Modell und Verwendung von der RegionalPrompter Erweiterung für A1111

Diese Anfrage hat es garnicht erst angenommen:

paint me a stylistic oil painting of a female face with the left half irish with green eyes, freckles and long red hair and the right half african with black skin and very short curly hair.

Darauf gab es diese Antwort:

I’m sorry, but I am not able to generate images with such specific details. However, I can suggest some famous paintings of women that you might find interesting:
[...]

Bei einer einfacheren Anfrage und dann mehreren Modifikationen kamen Bilder wie dieses bei raus:

Initiale Anfrage schrieb:
paint me a picture of a female face with the left half irish with long red hair and the right half african with short curly hair

Erste Modifikation schrieb:
please make it a more stylistic oil painting and the irish half have green eyes and freckles

Zweite Modifikation schrieb:
please make it a more smooth transition between the halves of the image

Okay, schonmal nicht schlecht, aber:

größtenteils weder stylistisch noch ölartig
die Details werden durcheinander geworfen und für beide Seiten des Bildes oder garnicht angewendet...

Dafür, dass explizit mit der Genauigkeit des Prompting geworben wurde finde ich das schon etwas enttäuschend.
Positiv: Es hatte immerhin zu 100% geschafft, den beschriebenen Bilder-Split zu machen. Das hat Stable Diffusion (egal ob SD1.5 oder SDXL) selbst mit Hilfe des Regional Prompter nur Teil der Zeit hinbekommen.

SpartanerTom · 30. Oktober 2023

Ich war so frei ein kurzes Writeup meiner Einstiegserfahrung mit einer AMD Karte zu posten. Falls euch das interessiert, schaut doch vorbei:

https://www.computerbase.de/forum/threads/stable-diffusion-lokal-auf-amd-grafikkarten.2167228/

Ich dachte der Umfang ist etwas zu groß für diesen Sammler.

MechanimaL · 31. Oktober 2023

Habe Deinen Thread mal in den Bereich AMD Installation aufgenommen, mit ComfyUI als A1111 Alternative.

MechanimaL · 31. Oktober 2023

Rickmer schrieb:
Alle SDXL Controlnets die ich bisher ausprobiert habe sind leider nicht sonderlich gut...

Die original SD1.5 Controlnets funktionieren deutlich besser.

https://huggingface.co/lllyasviel/sd_control_collection/tree/main mit den t2i controlnets von der Seite konnte ich aber gute Ergebnisse erzielen. Andere davon habe ich noch nicht getestet.

birdskywinter · 2. November 2023

Hallo,
ich möchte mich ein wenig in stable diffusion einarbeiten.
Ich habe veraltete Hardware
2x 8GB DDR3 Ram
I5 3570k
AMD RX480 8GB

Mit "Stable Diffusion web UI with DirectML A browser interface based on Gradio library for Stable Diffusion." gibt es eine Lösung die auch AMD GPUs unterstüzt.

Ist das die beste Lösung? Oder gibt es bessere Optionen für AMD?
Außerdem Frage ich mich ob es besser wäre mein 1080p Display an die intigrierte Grafik anzuschließen als an die Grafikkarte wenn nebenbei noch ein 1080p 60hz youtube Video läuft umd die AMD GPU zu entlasten?

MechanimaL · 4. November 2023

Kann Dir da leider keine Hilfe anbieten, aus dem Thread von @SpartanerTom , der ein paar Posts weiter oben verlinkt ist, geht hervor, dass comfyUI die beste Performance für AMD bietet- es könnte aber sein, dass sich das bei einer älteren Karte anders darstellt. https://www.reddit.com/r/StableDiff...d/an_example_of_what_can_be_done_on_a_rx_480/ hier wird noch (6 Monate alt) ein rx480 user vorstellig, vll hilft Dir dieser Thread noch weiter.

SpartanerTom · 5. November 2023

@birdskywinter Wenn du ein bisschen Speicher auf SSD/HDD übrig hast (persönliche Empfehlung wären für den Start so 25GB+) und es auf die Geschwindigkeit erstmal nicht direkt ankommt würde ich zunächst Mal SHARK ausprobieren. Das ist zwar etwas der Exot unter den Umsetzungen (unter der Haube), aber zum rumspielen nicht schlecht. Laut GitHub issuetracker ist die RX480 8GB auch bestätigt unterstützt).

https://github.com/nod-ai/SHARK

Wenn es dich interessiert lies auch Mal meinen Artikel (siehe #333) durch. Da steht noch ein bisschen was dazu.

ComfyUI taugt mir persönlich am besten, ist aber auch mit der höchsten Einstiegshürde verbunden.

painomatic · 8. November 2023

Ich habe mal ein bisschen mit Runway Gen2 Img2Video rumgespielt - hier ein kurzer Trailer der dabei entstanden ist:

The Cult of the Weever

Prompts die ich in Midjourney genutzt habe:
1979, Fishermen at the haunted river, Fish Daemon, The Cult of the Weever, Pentax k1000, Tokina ATX-I 100mm F/2.8, Kodak ultramax 400, fish god, worship, carnival, float, smoke, bubbles, bones, offering, alter, Vates, Welsh, nostalgia, uncanny valley, weirdcore, oddcore, retro aesthetic, eerie --v 5.2

Im Anhang noch ein paar Bilder aus Midjourney:

pain_o_matic_1979_Fishermen_at_the_haunted_river_creepy_Fish_Cr_d624fec2-57c0-4138-892a-4bae50...png

pain_o_matic_1979_Fishermen_at_the_haunted_river_Fish_Daemon_Th_ab46e854-7c86-4aa7-8cb8-c4df7d...png

pain_o_matic_1979_Fishermen_at_the_haunted_river_Fish_Daemon_Th_e05b4e21-caaf-4113-bdea-f03f1c...png

pain_o_matic_1979_Fishermen_at_the_haunted_river_The_Cult_of_th_6fa78b72-3e6c-45fe-9018-93799f...png

pain_o_matic_1979_Fishermen_at_the_haunted_river_The_Cult_of_th_76c1bd9b-5a92-4c8b-a362-d85e1b...png

pain_o_matic_1979_Fishermen_at_the_haunted_river_The_Cult_of_th_478f5d7f-ebac-47b2-98b7-900494...png

d

Wenn ich endlich mal Zeit finde, werde ich das ganze einmal mit AnimateDiff testen.

SpartanerTom · 2. Dezember 2023

Habe mal das neue SD XL Turbo Model ein bisschen getestet. Selbst auf der ziemlich lahmen (bei mir ca 2.7 it/s) DirectML Implementierung ist das schon recht flott.

Mit ROCm unter Ubuntu reagiert es nahezu "in Echtzeit" und mit CUDA/nvidia sollte es natürlich nochmal fixer sein.

Sicher nicht die absolut besten Ergebnisse, aber verrückt was mit One Step Diffusion schon möglich ist.

Bitte entschuldigt die stümperhaften Recordings, hab nur schnell OBS angeworfen

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lieutenant

Lt. Commander

Lieutenant

Ensign

Lt. Commander

Silent-Fanatiker

Ensign

Silent-Fanatiker

Lt. Commander

Lieutenant

Silent-Fanatiker

Silent-Fanatiker

Captain

Lieutenant

Lieutenant

Lt. Commander

Lieutenant

Captain

Lt. Commander

Captain