[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Danke für den Vergleich. Ideogram hatte ich schon auf meiner Liste, Imagen funktioniert aber nur mit VPN oder via mobile APP? Die Website meinte es sei "in ihrem Land" noch nicht verfügbar oder so ähnlich.
 
  • Gefällt mir
Reaktionen: Kaulin
Habe die nacht meine erste Flux Lora trainiert mit einer RTX 4070.
5 Bilder, 100 Steps pro Bild. Hat "nur" 8 Std. gedauert :daumen:.

Das Ergebniss kann sich sehen lassen. Werde die Woche nochmal mit 10 Bilder Trainieren lassen und eine bessere Auswahl bei den Vorlagen Bildern treffen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Kaulin und Ayo34
  • Gefällt mir
Reaktionen: Kaulin
Habe mich an diese Anleitung Orientiert.

 
  • Gefällt mir
Reaktionen: Kaulin und Rickmer
Eine gute Möglichkeit ist auch Seiten wie https://replicate.com/blog/fine-tune-flux dafür zu verwenden. Da hat man dann GPUs mit viel mehr VRAM und ist sehr schnell fertig. Die Kosten halten sich auch stark in Grenzen und sind dann gar nicht so viel höher als die Stromkosten, wenn man 30-40x länger zu Hause braucht.

Here are some guidelines:
  • Use 12-20 images for best results
  • For steps, a good starting point is 1000.
  • Use large images if possible
  • Use JPEG or PNG formats
  • Optionally, create a corresponding .txt file for each image with the same name, containing the caption
  • Training for this many steps typically takes 20-30 minutes and costs under $2.

Da werden dann H100 GPUs mit 80GB VRAM verwendet und es würde mit einer 4070 wahrscheinlich einige Tage dauern...
 
  • Gefällt mir
Reaktionen: Kaulin
Ist ja nicht so das beim erstellen der Lora die GPU soviel Strom frisst, wie beim Zocken.
Meine 4070 gönnt sich da um die 80-100W. Die CPU langweiligt sich da bei dieser Aufgabe.
Overall verbraucht mein PC da keine 200W. Ist somit noch sehr überschaubar.
 
  • Gefällt mir
Reaktionen: Kaulin
Schön, dass ihr schon 2 Möglichkeiten, sowohl online als auch lokal genannt habt. Werde auch demnächst lokale Versuche starten. Hatte schon reichlich Spaß mit den LORAs von anderen Leuten und möchte selbst damit experimentieren. Werde dann berichten :)
 
  • Gefällt mir
Reaktionen: blubberbirne
Mit deiner RTX3090 sollte es recht zügig gehen :)

EDIT: Gestern abend eine weitere Lora Trainiert. Diesmal mit Bilder von mir. 12 Bilder. Die einstellungen etwas angepasst. Diesmal nur für 1024x1024 optimiert. Ging dann fast genau so schnell wie vor ein paar Tagen, wo es nur 5 Bilder waren (Aber mit 256, 512, 1024 in den einstellungen).

Ergebnisse sind Angsteinflösend :D
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Kaulin und wrglsgrft
Siehst du jetzt besser als in echt aus? :schluck:
 
  • Gefällt mir
Reaktionen: Kaulin und wrglsgrft
@Ayo34 Ist es nicht das was KI bewirken sollte :evillol:
 
  • Gefällt mir
Reaktionen: Kaulin und Ayo34
https://www.reddit.com/r/StableDiffusion/comments/1f5r53e/sdnext_release/

https://github.com/vladmandic/automatic

SD Next Update! Es unterstützt jetzt auch Flux und einige andere neue Models (wie Aura Flow und Kolors). Könnte insb. auch für non-windows+nvidia User interessant sein:
  • Multiplatform!
    Windows | Linux | MacOS with CPU | nVidia | AMD | IntelArc/IPEX | DirectML | OpenVINO | ONNX+Olive | ZLUDA
  • Platform specific autodetection and tuning performed on install
 
  • Gefällt mir
Reaktionen: Kaulin, Fersy und Rickmer
Mit Dall-E:

1725333415424.jpeg


1725333435089.jpeg


1725333541197.jpeg


1725333594215.jpeg


Letzteres (und ersteres) sieht schon sehr realistisch aus, finde ich. ;)
 
  • Gefällt mir
Reaktionen: Kaulin und Ayo34
CyborgBeta schrieb:
Letzteres (und ersteres) sieht schon sehr realistisch aus, finde ich. ;)

Finde ich so gar nicht. Erkennt man sofort das es KI Bilder sind.
 
Dem muss ich zustimmen. Dall-E ist nicht gut in Realismus.
... was möglicherweise auch ein wenig Absicht seitens Microsoft ist?

Für realistisch aussehende Bilder würde ich immer zu Stable Diffusion (bzw. Flux) greifen.

CyborgBeta schrieb:
Magst du sagen, woran?
Ich bin nicht sicher, dass ich das vollständig in Worte packen kann.

Das erste Bild ist so unrealistisch, dass es weh tut. Allein schon wie die kleinen Bläschen im Glas und um das Glas herum arrangiert sind ist einfach falsch.
Beim zweiten... es ist in mancher Hinsicht zu 'perfekt'. Dazu sieht die Textur insbesondere von der Schrift merkwürdig aus. Die Spiegelung der Kaffeebohnen fehlt fast vollständig. Außerdem ist der Text auf typische AI weise fehlerhaft. Biuenos Dias, jaja.

Das und 1024x1024 ist immer verdächtig.

Ich habe mal in Flux was zusammen geschmissen, was ich für etwas schwieriger von einem echten Foto zu unterscheiden halte:
1725570733003.png

prompt schrieb:
analog film photo A white coffee cup on a saucer sitting on a wooden table with "Buenos Dias" and a little sun artfully written on the foam using cinnamon powder. There are a lot of coffee beans scattered on the saucer. <lora:flux_realism_lora:1>, RAW photo, DSLR, soft lighting, film grain, Fujifilm XT3, faded film, desaturated, 35mm photo, grainy, vignette, vintage, Kodachrome, Lomography, stained, highly detailed, found footage
 
  • Gefällt mir
Reaktionen: blubberbirne, Ayo34, Maviapril2 und eine weitere Person
Ja gut, Eis oder ein (transparentes) Glas oder Flüssigkeiten kann es nicht. ;)

Aber damit hat ja schon klassische Computergrafik Schwierigkeiten, wenn man so an Raytracing denkt.
 
CyborgBeta schrieb:
Ja gut, Eis oder ein (transparentes) Glas oder Flüssigkeiten kann es nicht. ;)
Naja, auch das ist relativ...

1725572290963.png
 
  • Gefällt mir
Reaktionen: Kaulin und CyborgBeta
Wobei es ja auch bei Fotografie Unterschiede gibt. Manche möchten es möglichst real, aber echte Werbefotos sehen häufig auch wie "gemalt" aus. Das verschwimmt also alles. Das Bild über mir sehen wohl mehr Leute als natürliches Bild an. In der Werbung sehen echte Bilder aber dann (präpariert) so aus:

ComfyUI_00420_.png
ayc10_A_hyper-realistic_summer_cocktail_in_a_condensation-cov_f1759fe6-61e5-4170-b1d2-c14351a5...png
ComfyUI_00410_.png
ayc10_A_close-up_of_a_velvety_cappuccino_steam_wisps_dancing__e04b4070-2aa3-4a08-9265-e562373d...png

Aus meinem Vergleichsvideo:
 
  • Gefällt mir
Reaktionen: Kaulin, CyborgBeta und Rickmer
Zurück
Oben