[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Ich denke ich setze noch eine Übersicht (in Form einer Tabelle) mit den aktuellen Tools für SD vor die Installationsempfehlungen. ComfyUI ist zwar erwähnt, aber nur im Bereich AMD Systeme.

Den not4talent-Channel habe ich auch abonniert, aber wohl übersehen beim Hinzufügen in die Liste ^^ Danke für den Hinweis!

Stable Swarm UI war damals, als ich das erste mal davon hörte, noch nicht allzuweit entwickelt; werde ich mir näher ansehen und ggf. ebenfalls verlinken. Übrigens, soweit ich mich erinnere, war das von Beginn an ein Projekt von Stability AI.
 
  • Gefällt mir
Reaktionen: SpartanerTom und Vigilant
Announcement aus dem StableDiffusion Discord:
Screenshot_20240603-165442.png


Auf der Seite selbst sehe ich nicht wirklich was
https://stability.ai/stablediffusion3

aber es geht wohl demnächst los.
 
das ging aber eher nach hinten los. Civitai hat SD3 erstmal gebannt. Gibt probleme mit den nutzungsrechten und der Qualität von SD3.
 
Gute Neuigkeiten bezüglich SD3: https://stability.ai/news/license-update

Die Lizenz wurde abgelöst von einer deutlich weniger problematischen (und kürzeren). Dazu wurde 'in den nächsten Wochen' eine verbesserte Version des SD3 Medium versprochen. Bis zieht Civitai hoffentlich auch den Bann zurück.

Dann mal abwarten.
 
  • Gefällt mir
Reaktionen: SpartanerTom und Maviapril2
Um SD3 ist es still geworden, aber Flux ist mittlerweile da.

Nach einigen initialen Problemen (u.A. musste ich die comfy dependencies aktualisieren) läuft das jetzt auf meiner 4090.

Mit diesen Einstellungen wird 14GB GPU-Speicher Verbrauch angezeigt, es würde also sogar auf einer 4080 laufen:
1722801849197.png


Allerdings braucht selbst mit der 4090 ein Bild in 1024x1024 ca. 16 Sekunden nachdem alles schon geladen ist.
 
  • Gefällt mir
Reaktionen: MechanimaL
Nachtrag: Ein Beispiel-Prompt in 1024x1536
Ich hatte auch kurz 1280x2048 versucht, aber das war glaube ich zu viel verlangt

photo of a japanese tanned girl with glowing purple eyes wearing full steel plate armor wearing long black opera gloves posing for a photograph, high detail, rough brush strokes, painted with pastels
Standing in front of an outdoor swimming pool, aiming a rifle at the viewer, tossing her knee-long fiery red hair. There is a orange butterfly flying at the camera.
There are two shaggy brown dogs on the left.

Mit dem Schnell Model in 4 Schritten in 6 Sekunden:
1722804648002.png


Und mit dem 'regular' Model:
1722805075918.png

1722804851769.png

Das Verständnis des Prompt ist echt gut - zuminest wenn es mit dem gefragen was anfangen kann.
Es sind z.B. nicht immer zwei Hunde oder es sind nicht beide links im Bild. Ich hatte auch ein wenig getestet wie viele verschiedene Farben ich gleichzeitig fordern kann - bis zu so 6 schienen durchaus möglich zu sein ohne, dass etwas unabsichtlich auf ein anderes Bildelement abgefärbt hat.

NSFW ist nahezu nicht unterstützt - es ist nicht völlig ausgeschlossen, aber Flux weiß schon nicht so wirklich wie Nippel aussehen sollen. Mehr habe ich dann auch nicht getestet.


Wie bei den meisten Base Models scheint auch in Sachen Stil usw. viel Auswahl zu bestehen von Anime über Fotografie bis hin zu verschiedenen artistischen Stilen und Medien.

a painting of a flying colibri sipping nectar from a flower, broad brush strokes, textured
1722805563562.png
 
  • Gefällt mir
Reaktionen: wrglsgrft und MechanimaL
1722804140048.png

(Quelle)

Hey @Rickmer! Bin heute auch endlich dazu gekommen und wollte gerade auch etwas dazu schreiben :) Der Release von FLUX ist sicherlich ein Meilenstein und ein Grund zum Feiern für die Community.

Sehr vielversprechendes Model und ja, es ist recht VRAM und RAM hungrig und der Speed ist auch (noch) langsamer als SDXL in vergleichbarer Auflösung, das stimmt. Dafür wird man belohnt mit deutlich verbessertem Promptverständnis, einem von SD nicht erreichtem Text-Verständnis (d.h. Texte in Bilder packen), sowie einer Qualität die jedes bisherige SD Basis Model deutlich übertrifft. Bis auf ein paar Teilbereiche auch die Finetunes von SDXL.

Jetzt müssen noch die von SDXL gewohnten Features wie controlnet usw. folgen und der RAM_Verbrauch, sowie Perfomance werden möglicherweise auch bald noch etwas optimiert. Habe in einigen Kommentaren gelesen, dass FLUX auch trainiert werden könne, da bin ich mal gespannt. In der Tat sind schon Leute dran, bzgl. Loras und Training.

Das Teil macht richtig Laune und ist das, was SD3 hätte sein können oder sollen. Es fühlt sich an, wie wenn eine neue SD Version rausgekommen ist, der bekannte "nur-noch-ein-Bild"-Effekt.. ist bereits voll eingetreten :D

Es läuft auch mit 12 und sogar weniger GB VRAM, siehe dieser Post und die Kommentare zu weiteren Informationen. Dazu und für mehr tolle Bilder mal dort vorbeischauen: Flux Reddit.

Wie Rickmer bereits geschrieben hat: Wer weniger RAM hat, hat verschiedene Optionen- allein schon auf Seite der verwenden Checkpoints/CLIP Modelle. Auf der folgenden Seite sind die beiden offiziellen Flux-Models verlinkt, sowie eine fp8 Variante und dazu drei ComfyUI-Basis-Workflows in Form der Beispiel-Bilder abgelegt. Das erste Bild ist die Vollversion ("Dev"/HQ Variante), das zweite die fp8 Modell Version davon (für Leute mit weniger als 24 oder 16 (?) GB VRAM und das Dritte die "Schnell" Version (geringere Qualität, dafür weniger Steps, bei gleichen Anforderungen wie Dev-Variante). Weitere Workflows und angepasste Models für FLUX finden sich auf CivitAI !

EDIT: möglicherweise ist es besser eine kleinere fp8 Variante zu nutzen (Dateigröße ist ~11GB nicht wie bei dem Link von ComfyUI ~17GB!) --> Alles für 12GB User: https://civitai.com/models/622579/flux1-dev-fp8 - da sind auch die anderen "kleineren" Dateien direkt verlinkt.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: wrglsgrft und Rickmer
Es ist ziemlich langsam, aber es läuft auch auf meiner RX 6800 mehr oder weniger direkt out-of-the-box in ComfyUI (habe nur alle dependencies geupdated und das neuste nightly von torch installiert). Wenn man sich wieder etwas mühe gibt welche Pytorch-Optimierungen man für ROCm mit an die Hand geben muss wird es vermutlich noch ne Ecke schneller.

Habe einen kurzen ad-hoc Test in 1024x1024 mit dem .safetensor schnell-Modell gemacht:

a painting of a flying colibri sipping nectar from a flower, broad brush strokes, textured

1722810668895.png


1722810364405.png


1722810403996.png


Vielleicht sollte ich mir mal die Zeit nehmen meinen Artikel zu aktualisieren. Bin die letzten Monate allerdings nicht zu allzuviel Spielereien gekommen.
 
Zuletzt bearbeitet:
SpartanerTom schrieb:
Habe einen kurzen ad-hoc Test in 1024x1024 mit dem .safetensor schnell-Modell gemacht:
Wenn ich das richtig sehe wurden ca. 2GB auf RAM ausgelagert?
Versuch's nochmal mit der fp8 Version. Wenn das rein auf GPU läuft dürfte das deutlich schneller sein.
 
@Rickmer
Der Python Diffusers Prozess liegt eigentlich komplett im VRAM, wenn das ganze mit --lowvram läuft. Das ausgelagerte sind alles Hintergrundprozesse wie Browser etc. Allerdings sind einige Cores bei der Inferenz recht hoch belastet, also vielleicht gibt es da doch overspill.

1722887013449.png


Ich glaube einfach es liegt an der relativ unoptimierten Implementierung von FP8 in PyTorch für ROCm auf Consumer-Karten.

Wo ich etwas stutzig bin ist beim laden der Modelle

Code:
got prompt
model weight dtype torch.float8_e4m3fn, manual cast: torch.bfloat16
model_type FLOW
Using split attention in VAE

allerdings weiß ich auch nicht genau was im PyTorch Kontext "manual cast" bedeutet. Wie schaut dieser Schritt auf native CUDA aus?

https://towardsdatascience.com/pytorch-native-fp8-fedc06f1c9f7

Wenn es "nur" bei AMD auf bfloat16 zurückfällt wäre das womöglich direkt der Ansatzpunkt.

Eventuell lohnt es sich das ganze mal manuell in Python aufzurufen. Dafür fehlt mir aber aktuell die Zeit.
 
Zuletzt bearbeitet:
Habe mich auf Civitai von einen Bild inspirieren lassen, und den Prompt nachgebaut.
Flux ist echt eine feine sache. Es mag zwar Langsamer sein, aber die Ergebnisse sind auch um einiges besser.
Die Prompts werden viel besser umgesetzt.

Kamala_Harris.png
 
Ich habe mit Comfy und FLUX jetzt schon mehrfach geschafft, meinen RAM komplett zum Überlaufen bis Absturz des PC zu bringen :/
Anscheinend sind 32GB RAM nicht genug Spielraum für Experimente...

SpartanerTom schrieb:
allerdings weiß ich auch nicht genau was im PyTorch Kontext "manual cast" bedeutet. Wie schaut dieser Schritt auf native CUDA aus?
Mit nvidia GPU kommt genau dieselbe Meldung auch wenn ich überall fp8 anwähle
 
  • Gefällt mir
Reaktionen: SpartanerTom
Rickmer schrieb:
Anscheinend sind 32GB RAM nicht genug Spielraum für Experimente...
Ja ich hatte auch schon einen beinahe-Absturz, aber ich hab dann den Python Prozess abgeschossen. Da gibt es noch ein bisschen Luft für Optimierungen. Ironischerweise ist das bei mir aufgetreten, als ich mal testweise mit der Latent-Auflösung nach unten gegangen bin. Vielleicht ist es (auch) ein Problem mit ungewöhnlichen Größen und/oder aspect ratios.
 
32GB RAM sind evtl etwas knapp. Glücklicherweise habe ich - in weiser Voraussicht 😂 - vor zwei Wochen auf 64GB upgegradet und bisher keine Probleme diesbezüglich gehabt. Grade mal ein Bild in Standardgröße ohne Extras erzeugt und im Peak wurden währenddessen 54GB physikalischer Speicher verwendet (systemweit), zumeist sind etwa 20-40 in Gebrauch bei FLUX Verwendung.

BTW: Ist es normal, dass Comfy (Windows Standalone) im "lowvram mode" läuft mit 24GB VRam? In den Startparametern ist nichts diesbezüglich angegeben.
 
Ich warte auf Zen 5 X3D bevor ich irgendwelche Upgrades kaufe, ich investier nicht mehr in DDR4.
(Wobei, ich könnte von meinem Heimserver was stibitzen wenn ich auf mein RAM OC verzichte?... aber das würde dann JEDEC laufen und da geht glaube ich spürbar CPU Leistung bei flöten.)

Mit Zen 5 kommt dann ernsthaft die Entscheidung zwischen 64 und 96GB RAM... :/

MechanimaL schrieb:
BTW: Ist es normal, dass Comfy (Windows Standalone) im "lowvram mode" läuft mit 24GB VRam? In den Startparametern ist nichts diesbezüglich angegeben.
Ich hatte mehrfach Meldungen gesehen in die Richtung von 'insufficient memory, trying again in low vram mode'
 
got prompt
[rgthree] Using rgthree's optimized recursive execution.
Requested to load FluxClipModel_
Loading 1 new model
Requested to load Flux
Loading 1 new model
loading in lowvram mode 21973.2
100%|██████████████████████████████████████████████████████████████████████████████████| 25/25 [00:39<00:00, 1.59s/it]
Von insufficient memory stand bisher noch nirgends was, es macht das immer von sich aus.
 
Ich hab ein bisschen damit rumgespielt. Für meine 16GB VRAM musste ich mit den Latents bis etwa 620x620 runtergehen bis die LowVRAM Meldung ganz weg war. Die Zahl ist dabei (nach meiner Erfahrung/Einschatzung) die Größe in MB die Pytorch für das reine Flux-Inferenzmodell reserviert (ohne clip und VAE)
 
Am 15.08 soll für ComfyUI ein großes User Interface Update kommen.

Zum RAM Verbrauch. Das Flux1 Dev Model lastet meinen RAM bis fast komplett aus. In der Spitze waren es gestern knapp 58GB in Verbindung mit ComfyUI.
 
Zuletzt bearbeitet:
Für FLUX Anwendung mit 8-12 GB VRAM, einfach diesem Video folgen, Links in der Description.
 
  • Gefällt mir
Reaktionen: wrglsgrft
Ich habe die letzten Tage alle Varianten von Flux ausgiebig getestet und eine Zusammenfassung mit allen wichtigen Sachen zusammen gestellt:
https://www.all-ai.de/tutorials/tutorials-ki/deutsche-ki-flux-im-test

  • Vergleiche (Pro, Dev, Schnell, Dev 8Bit, Schnell 8Bit)
  • 4x Workflows mit deutschen Notizen
  • Lizenzbedingungen
  • Hardwareanforderungen
  • Wie man RAM sparen kann (z.B. Flux 16Bit Model zusammen mit dem 8 Bit Clip Model verwenden, dann reicht auch 32GB RAM.
  • Tipps für Prompt Styler, Flux Styles Übersicht...


Finde es einfach sehr geil, dass wir endlich eine deutsche KI auf Spitzenniveau haben!

Flux-All-Markt1.jpg


FluxWorkflows.jpg
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: MechanimaL, wrglsgrft und Rickmer
Zurück
Oben