[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Ich habe mich mal wieder an einer dynamischen Scene mit mehreren Personen versucht...

00043-1011472242.png


Ich habe mir bei der Wahl des Referenzbilds auch keinen Gefallen getan...
1) Das Halten von Schwertern bedeutet komplexe Handkonfigurationen. D'oh. Außerdem ist es auch nicht ganz einfach, die Schwertklingen durchgehend und gerade zu bekommen.
2) Eine Pose zu wählen, bei der der tretende Fuß die Kleidung der anderen Person berührt, war dumm. Stable Diffusion hat für solche Dinge kein Körperbewusstsein, also sind Schuh und Jacke ein Kleidungsstück geworden.

Außerdem habe ich kaum einen Hintergrund für das Bild erlangt weil der Text2Img Schritt 3 Control-Nets und die Upscaling-Schritte auch 2-3 Control-Nets genutzt hatten, sonst ging entweder die Pose oder die Schwerter verloren.

AI-Kunst ist nur dann einfach, wenn man sich auf Einzelcharakterportraits beschränkt...
 
Rickmer schrieb:
Ich habe mich mal wieder an einer dynamischen Scene mit mehreren Personen versucht...
(...)

AI-Kunst ist nur dann einfach, wenn man sich auf Einzelcharakterportraits beschränkt...
Ja, das ist natürlich eine Challenge :D

Vielleicht hilft Dir dieser Channel etwas, soweit ich mich erinnere, hat er auch Kampfszenen und ähnliches in seinen Workflow-Beispielen: https://www.youtube.com/@Not4Talent_AI/videos Auf jedenfall befasst er sich sehr intensiv mit Bildkomposition und Posen.

Noch ein Tipp: Bei Regional Prompter und Co kann man auch negativ Prompts für die Bereiche machen und ja auch den Hintergrund.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Otorva und Rickmer
Hier mal etwas von mir.

Habe mich von diversen Settings inspirieren lassen.

Code:
A photo of a young, ellie from the last of us sitting in a caf, wears an army shirt, surrounded by a cozy atmosphere, looking at the viewer.
long hair, athletic, red lips, flirting with the camera, <lora:LowRA:0.3>
Negative prompt: cartoon, painting, illustration, (worst quality, low quality, normal quality:2), bad fingers, bad hand
Steps: 30, Sampler: DPM++ SDE Karras, CFG scale: 6, Seed: 3883312123, Size: 512x768, Model hash: 9584e2c050, Model: cyberrealistic_v32, Denoising strength: 0.45, Clip skip: 2, Hires prompt: "A photo of a young, ellie from the last of us sitting in a caf, wears an army shirt, surrounded by a cozy atmosphere, looking at the viewer.\nlong hair, athletic, red lips, flirting with the camera,<lora:polyhedron_skinny_all:1> <lora:detailed_eye:0.4>, beautifull eyes", Hires upscale: 3, Hires steps: 20, Hires upscaler: 4x-UltraSharp, Lora hashes: "polyhedron_skinny_all: 210b1ee059ef, detailed_eye: 345ae081135f", Version: v1.4.1

00045-3883312123.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL
Ich hab's nochmal mit mehreren Personen versucht - ich hatte mir drei OpenPose Haltungen aus einem Pack rausgesucht und die zu einem 1024x768 Bild geschnitten um dies als OpenPower Vorlage zu nutzen:

Trio B.png

Damit ich nicht Drillinge auf dem Bild habe, hatte ich Latent Couple genutzt. Daher auch das etwas ungewöhnliche Format des Prompt:
Positiv:
3girls, (on a beach:1.4), (palm trees:1.2), ((best quality)), ((masterpiece)), ((realistic)), (detailed), beautiful lighting, intricate, high detail, sharp focus, dramatic, (RAW photo, 8k uhd, film grain), caustics, subsurface scattering, reflections, (extremely detailed CG unity 8k wallpaper)
AND 1girl, evalyn_noexist, posing with hands behind head, white crop top and miniskirt, (sandals:1.2), (happy:1.4),
AND 1girl, cherrynobodysd15, short orange sundress, sleeveless, freckles, (happy), laughing, (barefoot:1.3),
AND 1girl, evelynnobodysd15, (black hair:1.4), (barefoot:1.3), leather swimsuit, black collar, (big boobs:1.1), (tanned:1.4), bob cut, short hair, hands on hips, angry

Negativ:
fastnegativev2, bad-hands-5, (worst quality, low quality:1.2), (jpeg artifacts:1.2), (depth of field, bokeh, blurry, film grain, chromatic aberration, lens flare:1.0), greyscale, monochrome, dusty sunbeams, trembling, motion lines, motion blur, emphasis lines, text, title, logo, signature, (painting by bad-artist-anime:0.9), (painting by bad-artist:0.9), watermark, text, error, blurry, jpeg artifacts, cropped, jpeg artifacts, signature, watermark, username, artist name, bad anatomy, easynegative, tiling, ng_deepnegative_v1_75t, (sunglasses:1.2), curtains, cloth, hat, sunhat, jacket, cape, cloak, long hair

Yep - ich war so faul und habe statt einer ausführlichen Charakterbeschreibung zumindest Teil des schreibens erspart indem ich 'noexist' bzw 'nobody' Vorlagen genutzt habe - das sind Embeddings, die jeweils sehr starke Tendenz zu einer spezifischen fiktiven Person haben. (Im Vergleich zu Embeddings oder LoRas im Abbild einer echten Person, meistens irgendwelche Promis.)

Am Start war schwierig, eine halbwegs durchgängige Scene zu erzeugen. Bei 1024x768 mit Controlnet haben sich die meisten Checkpoints sehr schwer getan - letztendlich hatte der 'BeenYouLite' Checkpoint in der Hinsicht als am stabilsten erwiesen.

Ansonsten natürlich die ganzen anderen Probleme, die man hat, wenn man eine Vielzahl an Elementen im Bild hat inkl. drei Paar Füße. Ein bisschen habe ich mit Inpainting und etwas Photopea Trickserei aufgebessert, aber irgendwann hatte ich auch einfach keine Lust mehr.

00089-559309739.png

Beim Upscale hatte ich unerwartete Probleme mit Detailverlust - letztendlich war ich dann zum revtoonyoumix Checkpoint und eine Kombination der add_detail und more_details Loras übergegangen, was brauchbar funktioniert hat.
 
  • Gefällt mir
Reaktionen: MechanimaL und painomatic
Ich wollt schon sagen, die rechte ist aber leicht "pissed", dann hab das Prompt gesehen und, dass Du das mit "angry" selbst so erzeugt hast 😅

Ich denke, was sich auch eignen würde, um zufällige Personen zu erhalten (mit möglichst viel Varianz, ohne alles von hand prompten zu müssen) wären wildcards, wie sie manche extensions/scripts anbieten. Eigtl müsste es auch ohne weiteres möglich sein damit ein random_girl als Begriff einzugeben und es werden automatisch von Haarfarbe, Ethnie, Augen, Körperbau usw. zufällige Eigenschaften ausgewählt (wenn man das zuvor so "programmiert" hat). Mit einzelnen Kategorien geht es auf jedenfall via wildcard und man könnte sich natürlich so ein Prompt speichern mit den gewünschten Zufallskategorien, sollte aber auch möglich sein, diese nochmal zusammenzufassen.
Ergänzung ()

1690025068751.png


"Hidden Text". Erzeugt mit dem Controlnet Plugin für QR Codes.
Anleitung: https://replicable.art/learn/generate-images-with-hidden-text-using-stable-diffusion-and-controlnet
mehr Beispiele: https://www.reddit.com/r/StableDiff...o_generate_hidden_text_using_stable/?sort=old

Wenn man s nicht gleich erkennt, einfach mal Blinzeln (das hat bei mir auf jedenfall direkt geholfen ^^ ).
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: painomatic, rarp und Rickmer
MechanimaL schrieb:
"Hidden Text". Erzeugt mit dem Controlnet Plugin für QR Codes.

Wenn man s nicht gleich erkennt, einfach mal Blinzeln (das hat bei mir auf jedenfall direkt geholfen ^^ ).
Doch, ist zwar subtil, aber gut erkennbar und gelungen.

Werde ich auch mal ausprobieren, sobald ich meine unkooperativen Hände und Schuhe gemeistert habe. ^^
 
MechanimaL schrieb:
Wenn man s nicht gleich erkennt, einfach mal Blinzeln (das hat bei mir auf jedenfall direkt geholfen ^^ ).
Oder die Augen absichtlich defokussieren, das funktioniert auch sehr gut.

MechanimaL schrieb:
Ich wollt schon sagen, die rechte ist aber leicht "pissed", dann hab das Prompt gesehen und, dass Du das mit "angry" selbst so erzeugt hast 😅
Ich finde halt, dass dreimal derselbe Gesichtsausdruck langweilig ist.

Ich glaube ich hab's schonmal erwähnt, aber normale Portraits sind schlichtweg zu einfach. Dann lieber eine interessante Pose und/oder mehrere Personen im Bild, dann hat man sich wenigstens etwas Mühe gegeben um das Resultat zu erreichen.

00198-3485918757_finalized_v2.jpg
 
Servus zusammen,
ich bin noch ein totaler Neuling was die Bildgenerierung betrifft. Welche Freeware ist denn derzeit "am besten"? Gerne würde ich eine Einladungskarte erstellen lassen, tropischer Hintergrund, Text drüber, ganz was einfaches halt. Und mal sehen für was ich es zukünftig gebrauchen kann :)
 
Duststorm schrieb:
Welche Freeware ist denn derzeit "am besten"? Gerne würde ich eine Einladungskarte erstellen lassen, tropischer Hintergrund, Text drüber, ganz was einfaches halt.
Text können die typischen Stable Diffusion Interfaces oder auch Midjourney nicht. Da musst du also mit Gimp, Photopea oder einem anderen Bild-Editor deiner Wahl nachhelfen.

Alternativ, eins der dedizierten Generator-Tools verwenden, z.B.:
https://ai-postcard-generator.com/
https://www.appypie.com/design/postcard/maker
 
Hab hier mal ein bisschen die letzten Seiten gelesen, holy moly ist das kompliziert :D Zumindest für einen Leihen
 
Geht mir genauso, besonders, wenn Anleitungen bei mir partout nicht funktionieren wollen.

Heute ist mein Hände-Tag. Warum auch immer, wenn ich zwei Hände über Controlnet/Depth einbaue, sieht eine super aus und die andere zum Fürchten. Aber das wird schon noch.^^

PS: Laien

EDIT: Hatte den Preprocessor noch an...
 
Zuletzt bearbeitet:
Duststorm schrieb:
Hab hier mal ein bisschen die letzten Seiten gelesen, holy moly ist das kompliziert :D Zumindest für einen Leihen

Ach was. Die installation ist das schwierigste ;) Der rest ist üben, üben, üben.
Vor allem ist das suchtpotenzial sehr groß.
 
Duststorm schrieb:
Hab hier mal ein bisschen die letzten Seiten gelesen, holy moly ist das kompliziert :D Zumindest für einen Leihen
@blubberbirne hat oben einen Link zu einem deutschsprachigen Channel gepostet (danke dafür!), der helfen könnte :) siehe die Playlist im folgenden;

Ich würde einfach die Installation, wie im ersten Posts dieses Threads schrittweise durchführen. und dann jeweils im 1. Video der Playlist finden ab Minute 17 und im zweiten generell finden sich Tipps in Deutsch zur Anwendung; ansonsten in Engl. findet sich reichlich (vieles verlinkt im 1. post; youtube usw.).


Nächste Woche erfolgt auch ein Update vom ersten Post bgzl. Links (werde dort nur noch wesentliche Einsteiger-Links reinpacken).

Wenn etwas nicht klappt, gerne nachfragen!
 
Zuletzt bearbeitet:
ja ein netter Dude, deutsch-Grieche mit lustigem Akzent ^^ und Anfänger-freundliche Erklärungen. Ist auch schon lange in der YT-Channel Liste auf Seite 1 :) hier der Stand an yt chans wie er bald auch im 1. Thread sein wird (Ergänzungen gerne an mich per PN).

Bitesized Genius
Levende Streg
Sebastian Kamph
Software Engineering Courses - SE Courses - YouTube
Samson Vowles - Delightful Design - YouTube
Nerdy Rodent - YouTube
Olivio Sarikas - YouTube
Aitrepreneur
Jeremy Howard - YouTube
bycloud - YouTube
Wossi86
 
Zuletzt bearbeitet:
Sehr interessant - es gab ja schon eine Erweiterung, die aber eher mittel funktioniert hat. Die offizielle Unterstützung kommt hoffentlich eher in Richtung der Qualität, die damit erreicht werden sollte.

Eigentlich sollte ja SDXL 1.0 letzte Woche Dienstag rauskommen und wurde dann um eine Woche verschoben. Damit sollte der Release eigentlich jetzt sein. Mal schauen, wann es tatsächlich kommt.
 
Ja, das heißt es.. ich hatte mich mit SDXL noch nicht groß beschäftigt, weil ich warten wollte, bis es ohne umständliche Wege in A1111 läuft.. Jetzt hab ich noch etliche, einfache Fragen dazu, zb
  • was ist nochmal die Base Auflösung ?
  • ist das Refiner Model zu verstehen wie hires.fix, also Basis Bild mit Base Model erstellen, dann Upscale mit Refiner?
  • wie steht es mit VAE Dateien? da hab ich auch schon welche gesichtet..
 
MechanimaL schrieb:
Übrigens ist gerade A1111 1.5 rausgekommen mit SDXL Support, also man kann die SDXL Models (aktuell 0.9, 1.0 wohl bald) einfach in den Standard SD Model-Ordner machen und laden!

https://github.com/AUTOMATIC1111/stable-diffusion-webui/releases/tag/v1.5.0

Kann man Problemlos updaten, oder sollte man neu installieren?

EDIT: Ok, update auf 1.5 wird beim Start direkt installiert.
EDIT2: Dafür kann man die Modele nicht mehr so einfach Downloaden. Man muss sich "bewerben".
Kennst jemand andere Quellen?
 
Zuletzt bearbeitet:
Zurück
Oben