[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

MechanimaL · 24. August 2024

Danke für den Vergleich. Ideogram hatte ich schon auf meiner Liste, Imagen funktioniert aber nur mit VPN oder via mobile APP? Die Website meinte es sei "in ihrem Land" noch nicht verfügbar oder so ähnlich.

blubberbirne · 26. August 2024

Habe die nacht meine erste Flux Lora trainiert mit einer RTX 4070.
5 Bilder, 100 Steps pro Bild. Hat "nur" 8 Std. gedauert

.

Das Ergebniss kann sich sehen lassen. Werde die Woche nochmal mit 10 Bilder Trainieren lassen und eine bessere Auswahl bei den Vorlagen Bildern treffen.

MechanimaL · 26. August 2024

@blubberbirne Cool, mit welcher Methode hast Du es gemacht?

blubberbirne · 26. August 2024

Habe mich an diese Anleitung Orientiert.

An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.

YouTube-Embeds laden

Ayo34 · 26. August 2024

Eine gute Möglichkeit ist auch Seiten wie https://replicate.com/blog/fine-tune-flux dafür zu verwenden. Da hat man dann GPUs mit viel mehr VRAM und ist sehr schnell fertig. Die Kosten halten sich auch stark in Grenzen und sind dann gar nicht so viel höher als die Stromkosten, wenn man 30-40x länger zu Hause braucht.

Here are some guidelines:

Use 12-20 images for best results
For steps, a good starting point is 1000.
Use large images if possible
Use JPEG or PNG formats
Optionally, create a corresponding .txt file for each image with the same name, containing the caption
Training for this many steps typically takes 20-30 minutes and costs under $2.

Da werden dann H100 GPUs mit 80GB VRAM verwendet und es würde mit einer 4070 wahrscheinlich einige Tage dauern...

blubberbirne · 27. August 2024

Ist ja nicht so das beim erstellen der Lora die GPU soviel Strom frisst, wie beim Zocken.
Meine 4070 gönnt sich da um die 80-100W. Die CPU langweiligt sich da bei dieser Aufgabe.
Overall verbraucht mein PC da keine 200W. Ist somit noch sehr überschaubar.

MechanimaL · 27. August 2024

Schön, dass ihr schon 2 Möglichkeiten, sowohl online als auch lokal genannt habt. Werde auch demnächst lokale Versuche starten. Hatte schon reichlich Spaß mit den LORAs von anderen Leuten und möchte selbst damit experimentieren. Werde dann berichten

blubberbirne · 27. August 2024

Mit deiner RTX3090 sollte es recht zügig gehen

EDIT: Gestern abend eine weitere Lora Trainiert. Diesmal mit Bilder von mir. 12 Bilder. Die einstellungen etwas angepasst. Diesmal nur für 1024x1024 optimiert. Ging dann fast genau so schnell wie vor ein paar Tagen, wo es nur 5 Bilder waren (Aber mit 256, 512, 1024 in den einstellungen).

Ergebnisse sind Angsteinflösend

Ayo34 · 29. August 2024

Siehst du jetzt besser als in echt aus?

blubberbirne · 29. August 2024

@Ayo34 Ist es nicht das was KI bewirken sollte

MechanimaL · 31. August 2024

https://www.reddit.com/r/StableDiffusion/comments/1f5r53e/sdnext_release/

https://github.com/vladmandic/automatic

SD Next Update! Es unterstützt jetzt auch Flux und einige andere neue Models (wie Aura Flow und Kolors). Könnte insb. auch für non-windows+nvidia User interessant sein:

Multiplatform!
▹ Windows | Linux | MacOS with CPU | nVidia | AMD | IntelArc/IPEX | DirectML | OpenVINO | ONNX+Olive | ZLUDA

Platform specific autodetection and tuning performed on install

CyborgBeta · 3. September 2024

Mit Dall-E:

Letzteres (und ersteres) sieht schon sehr realistisch aus, finde ich.

A.K. · 4. September 2024

Moin

MS Designer Dall-E3

blubberbirne · 5. September 2024

CyborgBeta schrieb:
Letzteres (und ersteres) sieht schon sehr realistisch aus, finde ich.

Finde ich so gar nicht. Erkennt man sofort das es KI Bilder sind.

CyborgBeta · 5. September 2024

blubberbirne schrieb:
Erkennt man sofort das es KI Bilder sind.

Aha. Magst du sagen, woran?

Rickmer · 5. September 2024

Dem muss ich zustimmen. Dall-E ist nicht gut in Realismus.
... was möglicherweise auch ein wenig Absicht seitens Microsoft ist?

Für realistisch aussehende Bilder würde ich immer zu Stable Diffusion (bzw. Flux) greifen.

CyborgBeta schrieb:
Magst du sagen, woran?

Ich bin nicht sicher, dass ich das vollständig in Worte packen kann.

Das erste Bild ist so unrealistisch, dass es weh tut. Allein schon wie die kleinen Bläschen im Glas und um das Glas herum arrangiert sind ist einfach falsch.
Beim zweiten... es ist in mancher Hinsicht zu 'perfekt'. Dazu sieht die Textur insbesondere von der Schrift merkwürdig aus. Die Spiegelung der Kaffeebohnen fehlt fast vollständig. Außerdem ist der Text auf typische AI weise fehlerhaft. Biuenos Dias, jaja.

Das und 1024x1024 ist immer verdächtig.

Ich habe mal in Flux was zusammen geschmissen, was ich für etwas schwieriger von einem echten Foto zu unterscheiden halte:

prompt schrieb:
analog film photo A white coffee cup on a saucer sitting on a wooden table with "Buenos Dias" and a little sun artfully written on the foam using cinnamon powder. There are a lot of coffee beans scattered on the saucer. <lora:flux_realism_lora:1>, RAW photo, DSLR, soft lighting, film grain, Fujifilm XT3, faded film, desaturated, 35mm photo, grainy, vignette, vintage, Kodachrome, Lomography, stained, highly detailed, found footage

CyborgBeta · 5. September 2024

Ja gut, Eis oder ein (transparentes) Glas oder Flüssigkeiten kann es nicht.

Aber damit hat ja schon klassische Computergrafik Schwierigkeiten, wenn man so an Raytracing denkt.

Rickmer · 5. September 2024

CyborgBeta schrieb:
Ja gut, Eis oder ein (transparentes) Glas oder Flüssigkeiten kann es nicht.

Naja, auch das ist relativ...

Ayo34 · 6. September 2024

Wobei es ja auch bei Fotografie Unterschiede gibt. Manche möchten es möglichst real, aber echte Werbefotos sehen häufig auch wie "gemalt" aus. Das verschwimmt also alles. Das Bild über mir sehen wohl mehr Leute als natürliches Bild an. In der Werbung sehen echte Bilder aber dann (präpariert) so aus:

ayc10_A_hyper-realistic_summer_cocktail_in_a_condensation-cov_f1759fe6-61e5-4170-b1d2-c14351a5...png

ayc10_A_close-up_of_a_velvety_cappuccino_steam_wisps_dancing__e04b4070-2aa3-4a08-9265-e562373d...png

Aus meinem Vergleichsvideo:

wilk84 · 6. September 2024

CyborgBeta schrieb:
Letzteres (und ersteres) sieht schon sehr realistisch aus, finde ich.

Ja total realistisch die Bilder, einen Blinden könntest du überzeugen

[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Lieutenant

Lt. Commander

Lieutenant

Lt. Commander

Vice Admiral

Lt. Commander

Lieutenant

Lt. Commander

Vice Admiral

Lt. Commander

Lieutenant

Captain

Admiral

Lt. Commander

Captain

Silent-Fanatiker Pro

Captain

Silent-Fanatiker Pro

Vice Admiral

Lt. Junior Grade