[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

painomatic · 25. Januar 2024

Hier ist eine gute Anleitung für Stable Video Diffusion - ist zwar doch leider noch sehr rudimentär und eingeschränkt was Auflösung, Länge und Framerate betrifft, aber es lassen sich brauchbare Ergebnisse erzielen.

Mit meiner RTX 3070 benötige ich pro Video ca 1:30min zum generieren. Die Inputbilder kommen alle aus Midjourney, aber sicherlich kann man sich da auch etwas passendes in ComfyUI bauen.

Ich bin gerade an einem weiteren AI Video Projekt dran - ein kleiner SciFi Trailer. Für mich persönlich liefert die besten Image2Video Ergebnisse zur Zeit Runaway Gen2, welches ja auch gerade ein dickes Uprgrade in Form von Motion Brushes bekommen hat. Leider waren meine Credits für diesen Monat schon aufgebraucht bevor das Update kam.

painomatic · 31. Januar 2024

Hier das finale Werk, ein fiktiver Trailer
Ghost in the Shell - City of Mirrors

Tools und Programme die ich genutzt habe:
Image: Midjourney
Image2Video: Runaway Gen2, Pika and Stable Video Diffusion
Depth Map: Runaway, Midas, Photoshop Neural Network Filter and Depth Scanner AE Plugin
Upscale: Topaz Video AI
NLE & Sound: Premiere Pro
GFX: After Effects

Rickmer · 13. Februar 2024

Stability AI hat Würstchen umgesetzt - lang lebe Stable Cascade.

https://stability.ai/news/introducing-stable-cascade

Weil das zwei-Modell-Prinzip von SDXL nicht schon nervig genug war gibt's jetzt von jedem Modell zwei Versionen

Thanks to Stable Cascade’s modular approach, the expected VRAM requirements for inference can be kept to approximately 20gb but can be further lowered by using the smaller variants

Uff. Wer keine RTX 3090 / 4090 hat ist da erstmal raus bzw. muss auf die kleineren - schlechteren - Versionen zurückgreifen. Das wird in der Community wohl eher lauwarm ankommen...

SpartanerTom · 13. Februar 2024

Thanks to Stable Cascade’s modular approach, the expected VRAM requirements for inference can be kept to approximately 20gb but can be further lowered by using the smaller variants

Das nenne ich mal eine schlanke Pipeline

Rickmer · 15. Februar 2024

Wenn Sora bietet was die Homepage verspricht dann ist openai allen anderen in Text2Video unglaublich weit voraus...

https://openai.com/sora

Rickmer · 16. Februar 2024

@MechanimaL Ich würde im Start-Post statt A1111 jetzt die Forge-WebUI empfehlen.

Das ist eine Variante von A1111 mit einer Vielzahl von Verbesserungen, am wichtigsten:

Deutlich verbessertes Speichermanagement
Controlnet (und einige andere Addins) direkt integriert

Karten mit 6~8GB VRAM haben extreme Verbesserungen was die Geschwindigkeit angeht, insbesondere mit SDXL.
Mit meiner RTX 4090 merke ich bei 'normalen' Auflösungen nichts, aber beim Upscaling konnte ich 5120x2160 ohne irgendwelche Tricks erreichen und 3440x1440 passst locker in den VRAM der GPU.

SpartanerTom · 16. Februar 2024

Hört sich an als konnten sie einen Teil des exzellenten Fooocus Backends in ein etwas offeneres General Purpose WebUI portieren.

Werde es mir definitiv mal anschauen.

SpartanerTom · 17. Februar 2024

StableCascade hat jetzt ersten Support in ComfyUI und läuft (nach kurzem Plausch mit dem Entwickler) auch auf meiner ROCm Mühle.

Hier mal ein allererstes (unoptimiertes) Ergebnis eines minimalen Workflows:

Generation funktioniert mit dieser Pipeline auch in hohen Auflösungen bei mir (ob das Ergebnis entsprechend gut ist und ob das für die Modelle vs Upscaling sinnvoll ist sei an dieser Stelle mal dahin gestellt). 1440p hat etwa 13GB VRAM benötigt (mit den BF16 models) und hat auf meiner RX6800 240s gerechnet.

MechanimaL · 17. Februar 2024

Rickmer schrieb:
@MechanimaL Ich würde im Start-Post statt A1111 jetzt die Forge-WebUI empfehlen.

Ja, das werde ich wahrscheinlich machen!

Ich bin selbst dabei, mir Forge-Webui näher anzusehen, d.h. insbesondere die Features, die noch nicht in A1111 sd-webui enthalten waren.

Wer webui-forge parallel zu A1111 testweise installieren möchte, kann es einfach so machen:

Die gepackte Datei hier runterladen

Einen neuen Ordner (am besten ohne Leerzeichen in der Ordnerstruktur) dafür erstellen und das 7z-Paket dort entpacken.

update.bat ausführen

In den webui-forge gehen und dort die datei webui-user.bat mit dem Editor öffnen und sie wie folgt ändern, damit sie weiß, wo der A1111- Ordner ist (dadurch benutzt du alle models usw. wie sie bereits installiert sind). "e:/SD/stable-diffusion-webui" durch den Pfad zu A1111-webui auf deinem System entsprechend ersetzen.

@echo off

set PYTHON=
set GIT=
set VENV_DIR=e:/SD/stable-diffusion-webui
set COMMANDLINE_ARGS=--forge-ref-a1111-home e:/SD/stable-diffusion-webui
call webui.bat

Anschließend mit run.bat starten (update via update.bat manuell oder man fügt wieder git pull in die webui-user.bat ein)

Rickmer · 17. Februar 2024

SpartanerTom schrieb:
Hier mal ein allererstes (unoptimiertes) Ergebnis eines minimalen Workflows:

Ich habe jetzt auch etwas mehr damit rumexperimentiert und, naja... ich glaube nicht, dass SDXL sich noch lange halten wird.

Ich hoffe, dass Leute ihre Trainings-Sets für SDXL nicht gelöscht haben, weil die können für ~~Forge~~ Stable Cascade vermutlich 1zu1 wieder verwendet werden und dürften laut Stability AI deutlich weniger Trainingsaufwand benötigen.

CivitAI hat mittlerweile auch eine Kathegorie für ~~Forge~~ Stable Cascade. Mal schauen wie lange es dauert, bis das in den gängigen UIs offiziell implementiert ist.
Wobei natürlich auch ein bisschen die offene Frage ist - wenn das in der Forschungs-Vorschau ist, wird da nochmal was von OpenAI kommen in den nächsten Wochen?

SpartanerTom · 17. Februar 2024

@Rickmer Wie meinst du das genau? Ich dachte das Forge eher ein Backend ist, dass das schwere Heben und vor allem die Speicherveraltung übernimmt. Kann es sein, dass du Forge und Stable Cascade in deinem Post vertauscht hast? Oder kommt Forge auch mit einem eigenen Modell-Format daher das ich bislang übersehen habe?

Ansonsten sieht es nach einem allerersten Test so aus, als sei Stable Cascade deutlich leichter und ressourcenschonender anzuwenden als SDXL. Selbst bei den Standard StabilityAI Modellen, die ja meist sehr schnell von der Community outperformt werden.

Rickmer · 17. Februar 2024

SpartanerTom schrieb:
Kann es sein, dass du Forge und Stable Cascade in deinem Post vertauscht hast?

Das ist durchaus möglich - fixed

Ergänzung (17. Februar 2024)

Was bei mir in Stable Cascade überhaupt nicht funktionieren will:

a cat laying on a table and a dog lying under the table

Meistens sind nur zwei Katzen im Bild, ab und zu mal sitzen eine Katze und ein Hund nebeneinander auf dem Tisch. Ein Hund unterm Tisch auf dem eine Katze ist? Niemals.

SDXL schafft das zumindest ca. 1/4 der Versuche und Dall-E3 hat nahezu eine 100% Trefferquote.

painomatic · 1. März 2024

Ich möchte gern mit euch mein neustes Werk teilen:

A Tale of Light and Darkness
Der gesamte Prozess für ein Bild von Midjourney bis zum hochskalierten Video hat mich 3:30-4:00 Minuten gekostet. Ich habe an diesem Projekt ca. 40 Stunden gearbeitet und durch die Erfahrungen aus dem letuzten Projekt einen ganz guten Workflow gefunden:
Zuerst hatte ich eine grobe Idee für die Story, den Look und das Artwork von Fantasy-Filme der 80er Jahre zu verwenden, wie Labyrinth, Der Dunkle Crystal, Die unendliche Geschichte etc. Dann habe ich mir eine kleine Geschichte ausgedacht und diese immer weiter verfeinert und den Text für das Voiceover geschrieben und mit Elvenlabs erstellt. Als nächstes habe ich mit Midjourney passende Bilder generiert und sie grob zusammengeschnitten, um eine Layout Sequenz zuerhalten und dann im letzten Schritt alle Bilder via Runaway Gen2 animiert. Der neue Motionbrush war da sehr hilfreich. Mein Basic Prompt für die Bilder war:

movie still from 1986 fantasy film [scene discription], dark fantasy, never ending story, dark Crystal 1980s graphics, high detail, lifelike, directed by Guillermo del Toro, in the style of Labyrinth by Jim Henson --ar 16:9 --v 6
Workflow Image2Animation:
Midjourney -> Topaz GigaPixel (2x Upscale) -> Runaway/Pika -> Topaz Video AI (Preset 2x Upscale/4x Slomo)

Tools:
Text2Image: Midjourey (~500 Pictures)
Imageediting: Photoshop
ImageUpscale: Topaz Gigapixel
Image2Video: Runway Gen2 (~2000 Credits) and Pika (~400Credits)
Voiceover: ElvenlabsVideo
Upscale: Topaz Video AI
NLE: Premiere Pro
Musik: Tom Schikura - durch Glück an einen Komponisten kennengelernt, der Spass daran hat Musiken zuerstellen
SFX: Sounds aus meinem privaten Archiv

Falls ihr noch weitere Fragen oder genaue Details haben wollt - einfach raus damit.

MechanimaL · 3. März 2024

Respekt! Wäre interessant, inwiefern das in ähnlicher Qualität auch mit komplett kostenlosen Mitteln zb aus dem Bereich von Stable Diffusion möglich gewesen wäre. Aber da müssen andere ran ^^

Was ich verbessern würde, wäre der Audio Mix und die Stimme, jetzt wo Du schon so eine großartige musikalische Untermalung hast

Du hast ja schon eine Anfrage unter dem Video, wenn Du dem die einzelnen Spuren zur Verfügung stellst, kann das noch besser werden. Aktuell sind die Konsonanten der Erzählerstimme zu laut im Vergleich zum Ton der Stimme und an manchen Stellen geht die Stimme zu sehr unter. Evtl müsstest Du die Stimme neu erstellen, aber vielleicht reicht es auch, die Stimm-Spur zu bearbeiten (mit EQ/Compressor) und Sound und Stimme insgesamt in einen besseren Mix zu bringen.

painomatic · 4. März 2024

@MechanimaL - ich glaube die Bilder und den Upscale könnte man tatsächlich auch mit Opensource lösen - nur bei den Videos bin ich mir nicht sicher - gerade der Motionbrush von Runaway Gen2 gibt einiges an Controlle. Die Anfrage ist tatsächlich von einen meiner besten Freunde

- wobei er nur gern selbst mal das Voiceover einsprechen wollte, also gar nicht den Mix machen.

MechanimaL schrieb:
Evtl müsstest Du die Stimme neu erstellen, aber vielleicht reicht es auch, die Stimm-Spur zu bearbeiten (mit EQ/Compressor) und Sound und Stimme insgesamt in einen besseren Mix zu bringen.

Danke für den Tip und Input.

SpartanerTom · 6. März 2024

Ich habe ein kleines Update zu meinem Stable Diffusion Leserartikel veröffentlicht.
Getestet wurde SDXL auf ComfyUI, A1111 main und forge sowie Fooocus.

Hier gehts zum Update

MechanimaL · 22. März 2024

Habe den Eingangspost ein wenig aktualisiert. Fooocus als Einsteigervorschlag für SD ist dazugekommen, sowie Forge als WEB-UI Variante. Leider lässt die offizielle Forge Doku (im Vergleich zu der von A1111) noch etwas zu wünschen übrig, von daher hab ich an etlichen stellen auch das originale webui weiterhin als Variante drin gelassen. Außerdem habe ich bei den Links vieles weggelöscht, was sich wohl überlebt hat, bzgl. der Relevanz; die Aktualisierung der Links werde ich die Tage noch abschließen; Youtube Channel -Liste ist bereits komplett aktualisiert mit den Channels, wenn ihr noch Vorschläge habt, gerne schicken, ansonsten: Vielleicht findet ihr ja was interessantes darunter

Rickmer · 22. März 2024

So sehr es mir leid tut noch eine UI zu erwähnen, aber man sollte im Startpost zumindest auf die Existenz von Comfy UI hinweisen.
Der größte Pluspunkt ist Flexibilität, weshalb sie häufig die erste UI ist, die neue Features implementiert. Soweit ich das mitbekommen habe wird Comfy auch zumindest zum Teil bei stability AI intern genutzt.

SpartanerTom · 22. März 2024

Es gibt auch ein eigenes "UI" von StabilityAI welches die Node Architektur als Backend nutzt:

https://github.com/Stability-AI/StableSwarmUI

Ich hab mir das aber noch nie groß angeschaut und kann da auch falsch informiert sein.

Des weiteren hat der Haupt Autor von ComfyUI mittlerweile StabilityAI im Profil stehen

Keine Ahnung wie belastbar das ist.

Rickmer · 22. März 2024

SpartanerTom schrieb:
https://github.com/Stability-AI/StableSwarmUI

Das ist so langsam in der Beta angelangt, Sebastian Kamph hatte gestern ein Video dazu gemacht:

@MechanimaL zur Liste der Youtube Kanäle übrigens bitte Not4Talent_AI hinzufügen.
Er lädt nicht of hoch und macht nicht zu jedem heißen Scheiß ein Video, aber von mir hat er ein Sub bekommen weil es immer wieder detaillierte Anleitung zum erstellen von wirklich komplexen Bildern gibt. Beispiele:

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lt. Commander

Lt. Commander

Silent-Fanatiker

Captain

Silent-Fanatiker

Silent-Fanatiker

Captain

Captain

Lieutenant

Silent-Fanatiker

Captain

Silent-Fanatiker

Lt. Commander

Lieutenant

Lt. Commander

Captain

Lieutenant

Silent-Fanatiker

Captain

Silent-Fanatiker