[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Large Language Model, also sowas wie Chat GPT auf lokaler Ebene in dem Fall. Also ich hab das bei mir auf ne SSD gelegt, auf der noch ausreichend Platz ist. Du könntest es ja testweise mal erhöhen auch auf ner x beliebigen Platte, irgendeine wirst Du ja vll finden, wenn es auch nicht die beste Perfomance ist, nur zum Testen, ob das das Problem beseitigt. War tatsächlich nötig bei dem Text-AI Tool und das arbeitet vom Prinzip her ähnlich wie SD mit dem Grafikram usw.

*Und der Platz wird einfach fest veranschlagt, indem eine pagefile.sys Datei der entsprechenden Größe angelegt wird.
 
Also roop-unleashed will bei mir partout nicht, immer "no faces detected" ... :(
 
Diese Programme funktionieren ja als "inpainter", ggf. muss man sie im "inpainting" tab ausführen, wenn es im img2img nicht geht. Markieren musste ich nichts; inpainting mit 0.01 denoising und das (roop damals) hat sich selbst die maske erstellt und nur das Gesicht geändert. Aber da kann Dir @lostie79 womöglich direkt einen Tipp geben :)
 
ich scheitere irgendwie schon an einer Installation ohne Fehler ;)
Ergänzung ()

Hm, die path-Angaben sind auch schon wieder weg. Kann das sein, dass bei einer Neuinstallation von Roop die Pfadangaben zu Python, CUDA und FFMPEG gelöscht werden?

War jetzt zwei Mal der Fall ...
Ergänzung ()

Und wenn ich CPU statt CUDA stelle kommt das:

Error
NoneType' object has no attribute 'elem_id
Ergänzung ()

Ich ergänze mich selbst:

https://github.com/C0untFloyd/roop-unleashed/issues/225

Es macht den Path kaputt.
 
Zuletzt bearbeitet:
Ein bisschen rumprobieren - SDXL hat es doch nochmal geschafft mich zu überraschen.

00102-799501381.png


Prompt effektiv:
from behind, kim possible sitting in pilot seat, piloting a military helicopter, (black crop top:1.4), baggy green cargo pants, long red hair and green eyes, freckles

from behind, kim possible sitting in pilot seat, piloting a military helicopter, (black crop top:1.4), baggy green cargo pants, long red hair and green eyes, freckles, <lora:xl_more_art-full_v1:1>,<lora:add-detail-xl:1>, fully clothed, Digital art, glow effects, Hand drawn, render, 8k, octane render, cinema 4d, blender, dark, atmospheric 4k ultra detailed, cinematic sensual, Sharp focus, humorous illustration, big depth of field, Masterpiece, colors, 3d octane render, 4k, concept art, trending on artstation, hyperrealistic, Vivid colors, modelshoot style, (extremely detailed CG unity 8k wallpaper), professional majestic oil painting by Ed Blinkey, Atey Ghailan, Studio Ghibli, by Jeremy Mann, Greg Manchess, Antonio Moro, trending on ArtStation, trending on CGSociety, Intricate, High Detail, Sharp focus, dramatic, photorealistic painting art by midjourney and greg rutkowski
Negative prompt: text, signature, nipples, nsfw, logo, Glasses, Watermark, bad artist, blur, blurry, text, b&w, 3d, bad art, poorly drawn, disfigured, deformed, extra limbs, ugly hands, extra fingers, canvas frame, cartoon, 3d, disfigured, bad art, deformed, extra limbs, weird colors, blurry, duplicate, morbid, mutilated, out of frame, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, ugly, blurry, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, out of frame, ugly, extra limbs, bad anatomy, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, mutated hands, fused fingers, too many fingers, long neck, Photoshop, video game, ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, mutation, mutated, extra limbs, extra legs, extra arms, disfigured, deformed, cross-eye, body out of frame, blurry, bad art, bad anatomy, 3d render

Hier mit dem betterThanWords 2.0 erstellt - vorsicht, das hat extrem starke Tendenzen zu NSFW.

Klar, die Hand könnte eine Korrektur gebrauchen und die Instrumente sind eher skizzenartig, aber ich war trotzdem etwas baff, wie viel verschiedenes Detail im Bild steckt - völlig ohne img2img oder inpainting.

Ich hatte auch mal geschaut, was das SDXL base model daraus machen würde - das macht ein sehr beeindruckendes Heli Cockpit, aber 'from behind' ist dem anscheinend ein völliges Fremdwort.
 
'Ne Frage...
Ich kann doch nicht der einzige sein, der manchmal ein paar Zeilen eines Liedertext bei Stable Diffusion eintrichtert um zu schauen was passiert, oder?
 
  • Gefällt mir
Reaktionen: MechanimaL
Ich will mich gern mit AnimateDiff beschäftigen - unteranderem wird Controlnet benötigt, welche Modelle nutzt ihr da? Nutze dieses Tutorial, da wird es leider nicht erwähnt bzw bin ich noch nicht soweit voran geschritten.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: painomatic
Alle SDXL Controlnets die ich bisher ausprobiert habe sind leider nicht sonderlich gut...

Die original SD1.5 Controlnets funktionieren deutlich besser.
 
  • Gefällt mir
Reaktionen: painomatic
Ich habe heute festgestellt, dass Dall-E 3 auch ziemlich harte Grenzen der Fähigkeiten hat, indem ich versucht habe, dieses Bild, dass ich in A1111 erstellt hatte, nachzubilden:

closeup of a single female human face, digital art, glow effects, Hand drawn, render, illustrative, octane render, cinema 4d, blender, Vivid colors, professional majestic oil painting by Ed Blinkey, Atey Ghailan, Studio Ghibli, by Jeremy Mann, Greg Manchess, Antonio Moro, trending on ArtStation, trending on CGSociety, photorealistic painting art by midjourney and greg rutkowski, ADDCOMM
(left half of a female human face, red-haired green-eyed irish gal with (freckles:1.4), straight long hair:1.5) ADDCOL
(right half of a female human face, african princess with (black skin:2.5) and (brown eyes:1.4), short curly hair:1.5),
Negative prompt: (worst quality, low quality:1.4), (deformed, distorted, disfigured:1.3), poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, tattoo, watermark, text

Erstellt mit dem neuen thinkdiffusionxl Modell und Verwendung von der RegionalPrompter Erweiterung für A1111

1698091503165.png




Diese Anfrage hat es garnicht erst angenommen:
paint me a stylistic oil painting of a female face with the left half irish with green eyes, freckles and long red hair and the right half african with black skin and very short curly hair.
Darauf gab es diese Antwort:
I’m sorry, but I am not able to generate images with such specific details. However, I can suggest some famous paintings of women that you might find interesting:
[...]

Bei einer einfacheren Anfrage und dann mehreren Modifikationen kamen Bilder wie dieses bei raus:

Initiale Anfrage schrieb:
paint me a picture of a female face with the left half irish with long red hair and the right half african with short curly hair
Erste Modifikation schrieb:
please make it a more stylistic oil painting and the irish half have green eyes and freckles
Zweite Modifikation schrieb:
please make it a more smooth transition between the halves of the image

1698091599986.png 1698091725397.png1698091750482.png
1698091672302.png


Okay, schonmal nicht schlecht, aber:
  • größtenteils weder stylistisch noch ölartig
  • die Details werden durcheinander geworfen und für beide Seiten des Bildes oder garnicht angewendet...

Dafür, dass explizit mit der Genauigkeit des Prompting geworben wurde finde ich das schon etwas enttäuschend.
Positiv: Es hatte immerhin zu 100% geschafft, den beschriebenen Bilder-Split zu machen. Das hat Stable Diffusion (egal ob SD1.5 oder SDXL) selbst mit Hilfe des Regional Prompter nur Teil der Zeit hinbekommen.
 
  • Gefällt mir
Reaktionen: Maviapril2
  • Gefällt mir
Reaktionen: Rickmer und MechanimaL
Habe Deinen Thread mal in den Bereich AMD Installation aufgenommen, mit ComfyUI als A1111 Alternative.
 
  • Gefällt mir
Reaktionen: SpartanerTom
Hallo,
ich möchte mich ein wenig in stable diffusion einarbeiten.
Ich habe veraltete Hardware
2x 8GB DDR3 Ram
I5 3570k
AMD RX480 8GB

Mit "Stable Diffusion web UI with DirectML A browser interface based on Gradio library for Stable Diffusion." gibt es eine Lösung die auch AMD GPUs unterstüzt.

Ist das die beste Lösung? Oder gibt es bessere Optionen für AMD?
Außerdem Frage ich mich ob es besser wäre mein 1080p Display an die intigrierte Grafik anzuschließen als an die Grafikkarte wenn nebenbei noch ein 1080p 60hz youtube Video läuft umd die AMD GPU zu entlasten?
 
Zuletzt bearbeitet:
@birdskywinter Wenn du ein bisschen Speicher auf SSD/HDD übrig hast (persönliche Empfehlung wären für den Start so 25GB+) und es auf die Geschwindigkeit erstmal nicht direkt ankommt würde ich zunächst Mal SHARK ausprobieren. Das ist zwar etwas der Exot unter den Umsetzungen (unter der Haube), aber zum rumspielen nicht schlecht. Laut GitHub issuetracker ist die RX480 8GB auch bestätigt unterstützt).

https://github.com/nod-ai/SHARK

Wenn es dich interessiert lies auch Mal meinen Artikel (siehe #333) durch. Da steht noch ein bisschen was dazu.

ComfyUI taugt mir persönlich am besten, ist aber auch mit der höchsten Einstiegshürde verbunden.
 
  • Gefällt mir
Reaktionen: MechanimaL
Ich habe mal ein bisschen mit Runway Gen2 Img2Video rumgespielt - hier ein kurzer Trailer der dabei entstanden ist:

The Cult of the Weever

Prompts die ich in Midjourney genutzt habe:
1979, Fishermen at the haunted river, Fish Daemon, The Cult of the Weever, Pentax k1000, Tokina ATX-I 100mm F/2.8, Kodak ultramax 400, fish god, worship, carnival, float, smoke, bubbles, bones, offering, alter, Vates, Welsh, nostalgia, uncanny valley, weirdcore, oddcore, retro aesthetic, eerie --v 5.2

Im Anhang noch ein paar Bilder aus Midjourney:
pain_o_matic_1979_Fishermen_at_the_haunted_river_creepy_Fish_Cr_d624fec2-57c0-4138-892a-4bae50...pngpain_o_matic_1979_Fishermen_at_the_haunted_river_Fish_Daemon_Th_ab46e854-7c86-4aa7-8cb8-c4df7d...pngpain_o_matic_1979_Fishermen_at_the_haunted_river_Fish_Daemon_Th_e05b4e21-caaf-4113-bdea-f03f1c...pngpain_o_matic_1979_Fishermen_at_the_haunted_river_The_Cult_of_th_6fa78b72-3e6c-45fe-9018-93799f...pngpain_o_matic_1979_Fishermen_at_the_haunted_river_The_Cult_of_th_76c1bd9b-5a92-4c8b-a362-d85e1b...pngpain_o_matic_1979_Fishermen_at_the_haunted_river_The_Cult_of_th_478f5d7f-ebac-47b2-98b7-900494...pngd

Wenn ich endlich mal Zeit finde, werde ich das ganze einmal mit AnimateDiff testen.
 
  • Gefällt mir
Reaktionen: MechanimaL, birdskywinter, SpartanerTom und eine weitere Person
Habe mal das neue SD XL Turbo Model ein bisschen getestet. Selbst auf der ziemlich lahmen (bei mir ca 2.7 it/s) DirectML Implementierung ist das schon recht flott.



Mit ROCm unter Ubuntu reagiert es nahezu "in Echtzeit" und mit CUDA/nvidia sollte es natürlich nochmal fixer sein.

Sicher nicht die absolut besten Ergebnisse, aber verrückt was mit One Step Diffusion schon möglich ist.

Bitte entschuldigt die stümperhaften Recordings, hab nur schnell OBS angeworfen :D
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Maviapril2, MechanimaL und painomatic
Zurück
Oben