[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Meinen Experimenten nach wird es daran scheitern, ein Bild mit Säbelzahntiger zu generieren...

Ich hatte auch kurz auf Google geschaut nach Bildern die sich zur Verwendung im Controlnet eignen, war aber nicht wirklich begeistert.
Ergänzung ()

MechanimaL schrieb:
oder via [Tier1:Tier2:0.5] (Zahl am Ende bestimmt ab wann der Begriff gewechselt wird, da bei der Hälfte der Berechnung)
Den Trick kannte ich noch garnicht, danke.

Fürchtet den Elefantentiger.
00036-4150871641.png
 
  • Gefällt mir
Reaktionen: Maviapril2
Shaav schrieb:
Was haltet ihr von der Idee das Bild mit einem Säbelzahntiger generieren zu lassen, dieses dann als Vorlage für ControlNet zu nehmen und dann mit einem Meerscheinchen generieren zu lassen?
Oder denke ich da ganz falsch?
Da du ja nur die Zähne des Tigers willst, müsstest du den Bereich in dem Controlnet wirkt auf den Mund begrenzen.

Das Problem, das du sozusagen aufgedeckt hast, ist, wie Rickmer auch schon bemerkt hat, dass SD, zumindest bei den von mir probierten Models, das Konzept des Säbelzahntigers nicht kennt. Es kennt also auch keine Säbelzähne. Da es diese nicht sinnhaft zuordnen kann (sozusagen), wird es diese immer als Fremdkörper verstehen. Egal wie Du sie versuchst ins Bild zu bekommen.

Was durchaus funktioniert, sind Reiszähne auf Raubtierniveau. Klar könnte man da dann versuchen möglichst die Eckzähne noch groß rauszuarbeiten, die Säbelzahn-Tiger-Zähne wirst Du aber nicht erschaffen, außer du findest vll einen Umweg (eine Bekannte Fantasy Figur/anderes Tier mit solchen Zähnen hat oder ähnlich), was Du dann als Referenz im Prompting/inpainting o.ä. verwenden könntest.

Aber per Inpainting das Meerschweinschen (oder die ^^ ) mit scharfen Zähnen ist kein Problem und ließe sich evtl noch (je nach verwendeter Referenz (andere Tiere etc.) noch drastischer machen.

Zuerst das Tier im gewünschten Setting erschaffen und dann img2img inpainting den Mund-Bereich neu machen, ggf im Anschluss nochmal das entstandene Bild durch img2img jagen.

Wenn Du oder wer anderes es doch mit Säbelzahn hinbekommt oder noch eine Idee hat, bitte posten :)

00049-1232449161.png
00024-3204506057.png
 
  • Gefällt mir
Reaktionen: Shaav
MechanimaL schrieb:
Was durchaus funktioniert, sind Reiszähne auf Raubtierniveau. Klar könnte man da dann versuchen möglichst die Eckzähne noch groß rauszuarbeiten, die Säbelzahn-Tiger-Zähne wirst Du aber nicht erschaffen, außer du findest vll einen Umweg (eine Bekannte Fantasy Figur/anderes Tier mit solchen Zähnen hat oder ähnlich), was Du dann als Referenz im Prompting/inpainting o.ä. verwenden könntest.
Man könnte das Internet nach Säbelzahntiger Bildern durchforsten und ein LoRa erstellen...
 
Zwischenfrage: Ein Stable Diffusion Programm mit entsprechenden Erweiterungen um gute Bilder auf dem PC erzeugen zu können, wie lange dauert es dort ein Bild in Full HD Auflösung zu Berechnen?
Nehmen wir einen guten REchner Nvidia 3090 ti .?

Hab hier etwas gefunden, wo man die einzelnen GPU s als Benchmark betrachten kann. Dort spricht man von ca 4 sek für diese GPU unter SD..
https://www.tomshardware.com/news/stable-diffusion-gpu-benchmarks

Hat jemand Erfahrungen damit?
 
Zuletzt bearbeitet:
Die Geschwindigkeit kommt auf viele Faktoren drauf an und kann sich für dieselbe Auflösung erheblich unterscheiden...

Faktoren mit signifikantem Einfluss:
  • Wie viele Schritte
  • welcher Sampler
  • (wenn relevant) denoising strength
  • werden zusätzliche Extensions verwendet? (z.B. Controlnet oder Tiled Diffusion kann die Zeit deutlich erhöhen)
  • welche Library verwendet wird (z.B. xformers mit nvidia Karten)
  • welche low-vram Anpassungen ggf. Elemente aus dem VRAM in den RAM verschoben haben und über den PCIe Slot hin- und hergeschoben werden müssen

Interessanterweise hat die Größe des verwendeten Checkpoint keinen signifikanten Einfluss - wenn er einmal geladen ist, ist ein 2GB Checkpoint ähnlich schnell wie ein 17GB* Checkpoint.
*Der A-Zovya Photoreal V1 Ultra Full Checkpoint ist der größte, der mir bekannt ist. Ansonsten bleiben die allgemein immerhin unter 10GB...

Klaus_Vielleser schrieb:
Hab hier etwas gefunden, wo man die einzelnen GPU s als Benchmark betrachten kann. Dort spricht man von ca 4 sek für diese GPU unter SD..
Meine 4090 rechnet niedrigere Auflösungen in wenigen Sekunden durch... wenn ich einen schnellen Sampler sowie nur 20-30 Schritte nutze und auf sonstige Zusätze verzichte.

Hohe Auflösung, 2-3 Controlnets aktiv, Tiled Diffusion mit Region Prompt Control + Tiled VAE (um genannte hohe Auflösung oberhalb des vram-Limit für einen einzelnden Render zu erreichen) und dann am besten noch den After Detailer dran schalten? Das dauert was länger.
 
Zuletzt bearbeitet:
Aktuell ist mein SD voll lahm und ich weiß noch nicht genau wo dran es liegt.. angeblich gibt es mit NVIDIA Treibern ab einer bestimmten Version Perfomanceverluste von bis zu 50%. Aber ich hatte auch mit einem älteren Treiber keine Besserung. Evtl werd ich mal eine Neu Installation von allem machen..
Ergänzung ()

Klaus_Vielleser schrieb:
Zwischenfrage: Ein Stable Diffusion Programm mit entsprechenden Erweiterungen um gute Bilder auf dem PC erzeugen zu können, wie lange dauert es dort ein Bild in Full HD Auflösung zu Berechnen?
Zunächst berechnet man in der Regel in 512 um zu schauen, dass Prompt und Seed passen, dann kann man mit dem selben Seed eine Berechnung mit hires.fix machen (höhere Auflösung bei ähnlichem Bild) (idr 2x). Dann ist man auf 1024x1024. Das erste dauert ein paar Sekunden, das nächste ein paar Sekunden mehr (vll 20 ?) ich kann es grade repräsentativ angeben, da es bei mir langsamer läuft als es sollte :D Aber selbst mit ner 3060 (12GB) kann man schon arbeiten. Wie gut und schnell man mittlerweile mit AMD Karten vorankommt,müssten die Nutzer davon mal berichten :)
 
Zuletzt bearbeitet:
Ich habe mal ein bisschen nachgemessen...

Mit Euler a, 20 Schritten und einfachem Prompt, text2img:
  • Batch Count 10, 768x512: 18,4s
  • Batch Count 1, 768x512: ~3,5s
  • Batch Count 1, 1920x1080: ~12s (aber das Ergebnis kannste in die Tonne kippen)

MechanimaL schrieb:
Aber selbst mit ner 3060 (12GB) kann man schon arbeiten.
Ich hatte erste Versuche mit einer 1080Ti (11GB) gemacht. Das hatte gereicht um Lust auf mehr zu wecken.

Da war das Limit allerdings auch schon bei etwas über 3 MPixel erreicht (völlig ohne Controlnet oder weitere Extras) und ein img2img Upscale auf solch eine Auflösung mit mittlerem Denoise hatte rund 5 Minuten gedauert.

(Ich hatte damals aber auch noch nicht xformers aktiv...)
 
Danke bis hier her. Ich lese bei Euch weiter interessiert mit, um aus Euren Erfahrungen zu lernen.
Vielleicht kann hier einmal jemand die Vorgehensweise exakt schildern, wenn man SD mit guter Bibliothek installiert. Aber so , dass man es leicht nachvollziehen kann und es nicht abschreckt.
Danke im Voraus
 
  • Gefällt mir
Reaktionen: Shaav
Rickmer schrieb:
Ich habe mal ein bisschen nachgemessen...

Mit Euler a, 20 Schritten und einfachem Prompt, text2img:
  • Batch Count 10, 768x512: 18,4s
  • Batch Count 1, 768x512: ~3,5s
  • Batch Count 1, 1920x1080: ~12s (aber das Ergebnis kannste in die Tonne kippen
Ich hab mal SD neuinstalliert und ähnliche Ergebnisse. Müssten aber bei Dir eigtl schneller sein. Welchen Nvidia Treiber hast Du installiert ? Ab 532 besteht wohl das Speed-Problem.
 
Das würde mich auch intressieren. Ich habe automatic1111 installiert und habe das Problem, dass ich viele der Regler und Schalter nicht verstehe.

Auch beim Thema Prompting scheint jeder anders zu verfahren, Gibt es da einen roten Faden?
 
Shaav schrieb:
Das würde mich auch intressieren. Ich habe automatic1111 installiert und habe das Problem, dass ich viele der Regler und Schalter nicht verstehe.
Da gibt es viele Turotials im Web/YT. Anschauen/Lesen, ausprobieren, lernen. Einfacher geht es nicht.
Shaav schrieb:
Auch beim Thema Prompting scheint jeder anders zu verfahren, Gibt es da einen roten Faden?
 
Zuletzt bearbeitet:
MechanimaL schrieb:
Welchen Nvidia Treiber hast Du installiert ? Ab 532 besteht wohl das Speed-Problem.
Ich hatte 532.03 installiert, habe jetzt erstmal auf 536 geupdated. Außerdem hatte ich jetzt gesehen, dass A1111 zu einem xformers Update auffordert, daher bin ich da von v17 auf v20 gegangen.

Ein erneuter Durchlauf meiner 'Benchmarks' hat aber keine Unterschiede gezeigt.

Shaav schrieb:
Das würde mich auch intressieren. Ich habe automatic1111 installiert und habe das Problem, dass ich viele der Regler und Schalter nicht verstehe.
Da hilft nur Tutorials schauen (es gibt einige gute auf civitai.com oder auf youtube) und jede Menge trial&error

Shaav schrieb:
Auch beim Thema Prompting scheint jeder anders zu verfahren, Gibt es da einen roten Faden?
Nicht wirklich...
Auch hier gibt es natürlich diverse Tutorials.

Bei den Bildern die zu civitai.com hochgeladen werden ist fast immer der Prompt dabei, da kann man sich auch inspirieren lassen.
 
Zuletzt bearbeitet:
Klaus_Vielleser schrieb:
Danke bis hier her. Ich lese bei Euch weiter interessiert mit, um aus Euren Erfahrungen zu lernen.
Vielleicht kann hier einmal jemand die Vorgehensweise exakt schildern, wenn man SD mit guter Bibliothek installiert. Aber so , dass man es leicht nachvollziehen kann und es nicht abschreckt.
Danke im Voraus

Das Installieren ist ja im Eingangspost erklärt. Über das Web UI installierst Du Erweiterungen (wie "Controlnet") und die SD-Models lädst Du bspw. auf civitai.com. Wenn Du bei den Bildern im Thread hier schaust in der Prompt-Info steht das Model dabei oder auf der Seite oder auf anderen Seiten mit Gallerien. Diese kommen dann in den Ordner "(...)stable-diffusion-webui\models\Stable-diffusion\" und schon kannst Du sie im web-ui benutzen.

Ich werden den "weitergehende Links"-Teil des Eingangspostings auch mal updaten, evtl auch noch auf wesentliche Einsteiger-Relevante Links zusammenkürzen, das macht es übersichtlicher und erleichtert das Updaten. Allerdings sind die meisten Links und Channels auf Englisch, für mich ist das einerlei, aber mag für andere ein Problem oder abschreckend sein. Ich schaue mal, ob es mittlerweile auch gute Links auf Deutsch gibt.

Shaav schrieb:
Das würde mich auch intressieren. Ich habe automatic1111 installiert und habe das Problem, dass ich viele der Regler und Schalter nicht verstehe.

Auch beim Thema Prompting scheint jeder anders zu verfahren, Gibt es da einen roten Faden?

Oh da gibt es sehr viele. In den Links mal durchschauen im Eingangspost. Innerhalb der nächsten Tage gibt's auch nochmal ein Update. Deutsche Ressourcen muss ich aber nochmals gesondert suchen. Schickt mir gerne Links, wenn ihr was gutes habt (per PN). https://stable-diffusion-art.com/ hier gibt's bspw. etliche Tutorials und Einsteiger Tipps.
 
Zum Thema Prompten würde ich meinen: Hier muss KI noch lernen, nicht der Mensch. Sie muss lernen rauszulesen was der Benutzer von ihr will. Wenn er es nur ausführlich genug beschreibt.
Selbiges gilt auch noch für Sprach-KI. Hier muss auch die KI noch lernen. Am besten aus Erfahrung in Gesprächen. Aber das lässt man dort nicht zu. Zumindest nicht in der aktuellen Version. Ich vermute man gibt das gelernte erst in den neueren Versionen frei - und dann kostet es Geld.
 
Klaus_Vielleser schrieb:
Hier muss auch die KI noch lernen. Am besten aus Erfahrung in Gesprächen. Aber das lässt man dort nicht zu. Zumindest nicht in der aktuellen Version.
Alle mir bekannten Versuche in die Richtung hatten dazu geführt, dass die KI innerhalb kurzer Zeit extremst rassistisch wurde...
 
Ganz klar, hier muss man gegen steuern. Aber sind es dann nicht eher die USer, welche rassistische Bildaufträge geben?
 
@Shaav Noch eine Anmerkung zu den heulenden Meerschweinchen: Idealerweise sollte man im Prompt eine Form festlegen (Photo/Zeichnung etc.) und ggf noch weiter auf einen Stil eingrenzen und bevorzugt Inpainting Modelle benutzen (gibt es von manchen Models), denn dann ist die Konsistenz von Ursprungsbild und Eingezeichnetem Bereich natürlich größer, grade auch, wenn man nur das Maskierte berechnen lässt.

Im A1111 haben manche der Regler/Knöpfe mouse-over Info, falls Du das noch nicht bemerkt hast. Ansonsten hilft sich informieren in den Tutorials/Youtube/dem offiziellen WIKI und gerne kannst Du natürlich konkrete Fragen hier stellen.

@Klaus_Vielleser Der Tomshardware Artikel ist ja auch schon etwas älter. Es gibt eine A1111 extension "system info", da kann man ein Benchmark durchführen und es online hochladen. Dort erhältst Du aktuelle Real-Life Ergebnisse verschiedener Systeme: https://vladmandic.github.io/sd-extension-system-info/pages/benchmark.html

Zum Thema Prompting gibt es im Eingangspost in der "Linksammlung" eine eigene Sektion.


https://www.reddit.com/r/StableDiff...pet_into_any_animal_with_controlnet/?sort=new Hier noch eine lustige Tier-Verwandlungsmethode. Allerdings eher für advanced user.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Shaav
Sitze nun seit 2 Stunden vor Stable Diffusion. Habe schon diverse Models von civitai.com runtergeladen und mir
die beispiele angeschaut. Komme aus den staunen gar nicht mehr raus.

Habe auch direkt eine Frage: wie bekomme ich diesen Upsacaler ans laufen. 4x_NMKD-Siax_200k.pth
 
Ich nehme an, die Datei hast Du bereits geladen, dann in den Ordner "(...)stable-diffusion-webui\models\ESRGAN\" kopieren und er erscheint (nach Neustart von A1111) im Dropdownmenu.
 
  • Gefällt mir
Reaktionen: blubberbirne
Danke für den Tip. Ich hatte tatsächlich vergessen die Datei in den ESGRAN Order zu kopieren. Klappt nun.
 
Zurück
Oben