[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Beschäftige mich seit knapp 2 Wochen mit lokaler Stable Diffusion Berechnung und finde es faszinierend - vor allem wenn man bedenkt, dass SD erst im August 2022 released wurde.
Nach 2 Tagen Recherche und Eingewöhnung kommen im Minutentakt brauchbare Bilder aus meiner alten 4GB 980 mit nem 1.5er SD Model.

Mein aktueller Favorit ist immer noch ein Portrait vom 2. oder 3. Tag - meine GTX 980 braucht für die Bilder nur ca. 40 Sekunden (Direkt RAW Text2Image, ohne Upscaler oder Nachbearbeitung)

1680733244097.png


Ein paar andere Favs meinerseits:

1680733396034.png

1680733410147.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Impy81, Maviapril2, painomatic und eine weitere Person
@ripa schöne Ergebnisse - schick gerne Mal dein Prompts.
 
  • Gefällt mir
Reaktionen: Der Kabelbinder und Maviapril2
Das wird nix :D
In den ersten Tagen wurde einfach wild in die Pro und Neg Promts reingekloppt was einem eingefallen ist. Dazu viele verschiedene Models und Sampler abwechselnd ausprobiert. -.-
 
Nutze kein Automatic. Und nein ich habe kein Autosave an - was soll ich mit dem ganzen Spam. Müsste ich ja am Ende drüberschauen und aussortieren, worauf absolut keine Lust habe ^^ Ich speichere ein Bild, wenn es mir gefällt :)
Aktuell speichere ich mir die Daten aber öfter mal weg, wenn ich ähnliche Ergebnisse vielleicht zukünftig noch mal erreichen möchte. Aber primär ist es ja der Überrschungseffekt der mir so Spaß macht. Starten - alles leer und gucken wo einen der Wind so hintreibt :)
 
Bei A1111 werden die Daten auch in der erstellten Datei (PNG) abgelegt und können im GUI oder einem externen Bildanzeiger (bei mir aktuell Nomacs) nochmal ausgelesen werden. Kann schon praktisch sein :) Bei anderen GUIs/Tools ist das wahrscheinlich auch möglich, oder bereits voreingestellt.
 
Das kann meine Gui auch, aber leider nur, wenn alle Bilder automatisch gespeichert werden. Einzelne Bilder werden ohne Metadaten gespeichert. Wenn ich dran denke kann ich aber die passende json direkt mitspeichern.
Ist ne ganz simple Gui, ohne Lora, Gewichtung, Scripte, Extensions, Trainer und den ganzen anderen komplizierten Zeugs. :D

SD 1.4/1.5 Models, Sampler, Upskaling und mögliches Image2Image. Viel mehr kann es nicht. Läuft aber dafür halt auch sehr gut auf meiner 4GB Karte. Das war mir als Noob vor 2 Wochen wichtiger. Ich hab erst über A111 gelesen, aber es war mir direkt zu kompliziert.

Hab zumindest den Promt für das blaue Portrait gefunden: celebrity character, celebrity face, celebrity person, famous face, famous person, known face, known person, photo
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL
ripa schrieb:
Hab zumindest den Promt für das blaue Portrait gefunden: celebrity character, celebrity face, celebrity person, famous face, famous person, known face, known person, photo
Ich habe Deinen Prompt bei mir ausprobiert und bekomme auch ähnliche Bilder hin aber keines hat die Güte des 'blauen Porträts' oder des anderen Frauenporträts mit dem Lichtstrahl. Kannst Du noch ein paar Parameter verraten? Deine Porträts sind ja auch rechteckig und nicht quadratisch! Was hast Du für eine Auflösung eingestellt, doch bestimmt nicht die standardmäßig 512*512 Pixel?
 
Zuletzt bearbeitet:
Ich hab mal CLIP gefragt, wie es das "blaue Porträt" beschreiben würde. Ergebnis:
a woman with blue eyes and a white shirt on a blue background with a blue background and a blue background, Eve Ryder, realistic shaded perfect face, a photorealistic painting, photorealism
Vielleicht hilft das ja weiter. ;)

Andere Sache:

Kennt zufällig jemand ein gutes Tutorial, wie man die Bildkomposition bei SD v1.5 kontrollieren kann?
Wie kann man die Eigenschaften von Motiv und Hintergrund am besten voneinander trennen? Angaben wie "X in the background" wendet er bei mir aktuell ständig auf das Hauptmotiv an. 🤔
 
Mein 4gb vram reichen für maximal 704x896 - das müsste auch die Auflösung der Bilder sein. Warum das Bild diesen Blaustich hat habe ich auch nicht verstanden. Ich habe bestimmt 50 random seeds mit dem promt durchlaufen lassen und nur dieses eine war so blau. Hat mir auf Anhieb gefallen und deswegen direkt weggespeichert.
Das bunte Portrait ist ein gänzlich anderer Promt - das war was mit jedi, star wars , mandalorian und lady gaga. Den bekomme ich nicht mehr zusammen :D

Ergänzung ()

Luckeie schrieb:
Ich habe Deinen Prompt bei mir ausprobiert und bekomme auch ähnliche Bilder hin aber keines hat die Güte des 'blauen Porträts' oder des anderen Frauenporträts mit dem Lichtstrahl. Kannst Du noch ein paar Parameter verraten? Deine Porträts sind ja auch rechteckig und nicht quadratisch! Was hast Du für eine Auflösung eingestellt, doch bestimmt nicht die standardmäßig 512*512 Pixel?
Ergänzung ()

Der Kabelbinder schrieb:
Ich hab mal CLIP gefragt, wie es das "blaue Porträt" beschreiben würde. Ergebnis:

Vielleicht hilft das ja weiter. ;)

Andere Sache:
Kennt zufällig jemand ein gutes Tutorial, wie man die Bildkomposition bei SD v1.5 kontrollieren kann?
Wie kann man die Eigenschaften von Motiv und Hintergrund am besten voneinander trennen? Angaben wie "X in the background" wendet er bei mir aktuell ständig auf das Hauptmotiv an. 🤔
Ich packe alles was den Hintergrund betrifft an das Ende des Promts, dass reicht meistens aus.
Was ist CLIP? Eine KI die Bilder analysiert/kategorisiert?
 
Zuletzt bearbeitet:
Der Kabelbinder schrieb:
Ich hab mal CLIP gefragt, wie es das "blaue Porträt" beschreiben würde. Ergebnis:

Vielleicht hilft das ja weiter. ;)
Hat es leider nicht. Aber trotzdem danke! Und interessanter Hinweis!
 
Wenn ich von der quadratischen Auflösung abweiche bekomme ich fast immer Doppelgesichter. Weiß jemand was ich da anders einstellen muss?
 
  • Gefällt mir
Reaktionen: Der Kabelbinder
Luckeie schrieb:
Wenn ich von der quadratischen Auflösung abweiche bekomme ich fast immer Doppelgesichter. Weiß jemand was ich da anders einstellen muss?
Hab's herausgefunden: Man sollte 'hires. fix' anklicken.
 
Genau, das gilt im A1111. Models die auf 1.5 aufbauen neigen häufig dazu, bei größeren Auflösungen das Motiv/Beschreibungen mehrfach zu generieren, bei Hires.fix wird die kleinere Auflösung als Basis Bild verwendet und von dort ausgehend in einer höheren Auflösung berechnet.

Dabei lohnt es sich ggf. auch mit verschiedenen Denoising-Werten zu spielen, gehst Du dort weiter hoch, unterscheidet sich das Bild stärker vom 512 Bild. Das kann von Fall zu Fall gut oder schlecht sein. An diesem Punkt kannst Du dann den Denoising niedriger setzen (bsp. 0.2-0.4), wenn Dir das Ursprungs (512) Motiv besser gefällt, oder ein höheres Denoising (bsp. 0.5-0.75), wenn Dir gefällt, was sich dadurch noch verändert.

Dazu noch ein Tipp: Bei höherem Denoising ist "Latent" unter Upscaler als Einstellung empfehlenswert, bei niedrigerem Denoising allerdings eine "Upscaler"-Auswahl ohne "latent" im Namen verwenden, da das Bild ansonsten an Schärfe und Details verliert.

painomatic schrieb:
Wobei SD das glaube schon länger kann, oder? Aber trotzdem ganz hilfreich um an den eigenen Prompts zufeilen bzw zulernen, wie MJ diese interpretiert.
CLIP Interrogator Extension in A1111 hat direkt mehrere Models zur Auswahl zur Interpretation. (Es wird empfohlen: ViT-L für 1.x basierte Models; ViT-H für 2.x basierte Models; siehe "About"-Tab in der Extension.)

Hier ist eines auch Online zum Testen verfügbar: https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Luckeie und Der Kabelbinder
Der Kabelbinder schrieb:
Andere Sache:
Kennt zufällig jemand ein gutes Tutorial, wie man die Bildkomposition bei SD v1.5 kontrollieren kann?
Wie kann man die Eigenschaften von Motiv und Hintergrund am besten voneinander trennen? Angaben wie "X in the background" wendet er bei mir aktuell ständig auf das Hauptmotiv an. 🤔
https://energy-based-model.github.i...-Generation-with-Composable-Diffusion-Models/

In A1111 integriert, könnte evtl helfen.

Evtl auch hilfreich:
https://github.com/ashen-sensored/stable-diffusion-webui-two-shot

Und wie schon jemand anderes schrieb: Hauptmotiv zuerst beschreiben, Background am Ende. Aber das machst Du ja wahrsch. schon :) Anderes Model gegentesten wäre auch interessant- die reagieren ja auch unterschiedlich gut/genau auf Prompts.
 
  • Gefällt mir
Reaktionen: Der Kabelbinder
Der Kabelbinder schrieb:
Kennt zufällig jemand ein gutes Tutorial, wie man die Bildkomposition bei SD v1.5 kontrollieren kann?
Wie kann man die Eigenschaften von Motiv und Hintergrund am besten voneinander trennen? Angaben wie "X in the background" wendet er bei mir aktuell ständig auf das Hauptmotiv an. 🤔
Ich hatte damit das Osterwochenende rumprobiert...

Das Ergebnis meiner letzten Versuche:
00135-3867491011.png


Ich hatte dazu auch ein paar Worte zusammengefasst. Zu eurem (möglichen) Leidwesen allerdings auf Englisch - sorry, not sorry. Im Zweifelsfall mal durch Google Translate jagen.



This is a trial for using Controlnet with multiple very different looking subjects, all taking part in the same scene.
I used some stock photo of an office meeting (notebook on table and everything) for an openpose controlnet, everything else was text2img and img2img.

This was practice for... well, lots of things.

Issues:
  • Hands. Always hands. Though not so bad that you're likely to notice at first glance.
  • Leg length on the kimono girl. I definitely should've put more effort into trying to fine-tune the control net at the beginning - that lazyness bit me in the ass later.
  • The green jacket doesn't fall right where it goes behind the arm.
  • The chairs have wonky proportions and so does the table.

Successes:
  • Body types are as different as intended
  • Clothes and hair styles (as well as their colours) are on point and came out as intended
  • One person sitting at a 90° angle to the camera and looking at someone else
  • Spring season feeling, established


I've done a bit of experimenting with Latent Couple and Tiled Diffusion... as best I can tell:

Latent Couple is good for:
- creating cohesive scenes (relatively speaking)
- sticking to a theme
- working with input from an openpose control net

It simply cannot deal with upscaling images it creates and without a control net it's pretty bad at creating specific setups or even sticking to the amount of characters described in the prompt


Tiled Diffusion is good for:
- getting the amount of characters you intended where you intended them to be*
- upscaling images started with LC

It's pretty shit at creating more complex scenes wholesale and in my testing failed to turn an openpose control net showing three people sitting into an image of three people sitting around a table. There were three bits of different tables, consistently.


So, my current best method for getting a specific scene: Create an openpose controlnet through a stock image or a 3D program, use that with Latent Couple at relatively low resolution to fine-tune my prompt and get the composition about right, then do one or two upscaling steps with Tiled Diffusion.

I have yet to experiment using more than just openpose in connection. Sure, the openpose_bones for Blender gives me everything I really need, but I don't have the patience to fiddle around with multiple models to get everything in the right position...
Meanwhile, finding a stock photo that is exactly right for more than just openpose... good luck. Unless you see an image and decide to turn that into anime style or something, I suppose.


*I've experimented with making the background the first or last region - the background in the first region seems to be a bit better, but it's not even close to being a fix, not if you want a background element in front of a character, such as people sitting around a table.
Trying to do the table as a seperate front or background region just makes it worse, since it tries to populate that region with more (tiny) people, amongst other problems.


Aitrepreneur hat dazu auch eine Anleitung gemacht, der Typ macht gute Anleitungen...

PS: Parameter des Bild einfach per PNG Info auslesen
 
  • Gefällt mir
Reaktionen: MechanimaL
Cool. Könntest Du mal das Ausgangsbild schicken? Hast Du eigtl. versucht weitere Teile von Controlnet zu verwenden? Ich lese raus, dass ja, aber dass das nicht so gut geklappt hat? Oder war in dem Prozess bisher "nur" Openpose im Einsatz? In der "3D-Openpose" Extension kann man ja auch Hände bearbeiten. Aber ich glaube, die Erkennung davon läuft dann über andere Teile von Controlnet, da der Openpose-Adapter nicht so detalliert arbeitet (Finger)- richtig? Evtl wäre da noch was rauszuholen :)

PS: Hast Du das mal getestet: https://github.com/hako-mikan/sd-webui-regional-prompter ? Scheint ähnlich wie Latent Couple zu arbeiten, aber laut Eigendarstellung eine "potentielle Verbesserung".
 
Zurück
Oben