[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

@blubberbirne Bei Stable Diffusion 3.5 stimme ich dir zu. Es bleibt eine kleine Verbesserung zu 3.0, aber ist eben nicht im Bereich von Flux.

Aber an Flux führt kein Weg vorbei? Ich prompte gerade mit dem Red Panda... und in der Arena übertrifft das Modell schon mal Flux Pro und auch das neue Flux Pro 1.1!
arena-recraft1.webp

https://www.all-ai.de/news/top-news24/recrafts-red-panda-v3-die-neue-spitze-in-der-arena
 
  • Gefällt mir
Reaktionen: Kaulin
Hmm... abgesehen davon, dass ich eh nicht für Bildgeneratoren zu haben bin, die ich nicht lokal laufen lassen kann, waren die wenigen Testrender die ich kurz gemacht habe nicht vollständig überzeugend.

Beispiel:
five 20 year old women looking at the viewer in a lineup starting with a petite blonde white woman on the left, a tan mediterranian woman in the middle and a large black woman with an afro on the right
1730365679838.webp


Zum einen sind die meisten Frauen sicherlich keine 20 Jahre alt vom Aussehen (auch bei anderen Bildern), zweitens haben die auch in mehreren Versuchen immer zur Seite geschaut und drittens ist das nicht was ich mit 'lineup' meinte. Nebeneinander bitte!

Auch als ich nach einem neuschwänzigem Fuchs (kitsune) gefragt habe gab's nur einen Schwanz.

a nine tailed kitsune in a forest hunting a rabbit
1730365901140.webp

Für mich sieht das mehr aus als ob der Fuchs vorm Hasen Schiss hat... und dass ein Hase einen langen Schwanz hat wär mir auch neu.
 
  • Gefällt mir
Reaktionen: Kaulin
Ich glaube beim zweiten Bild gibt es mehrere Probleme für die KI. Auf der einen Seite haben wir ein realistisches Bild, wollen aber einen Fuchs mit 9 Schwänzen. Und häufig ist es ja so, dass Beschreibungen sich auch auf andere Dinge im Bild auswirken. Wollen wir z.B. einen weißen Fuchs und schreiben keine Farbe zum anderen Tier dazu, dann wird es häufig auch weiß. Hier hat die KI wohl beim versuch realistisch 9 Schwänze unterzubringen auch einen beim Kaninchen platziert. Ebenso ist nicht angegeben im Prompt, wer vor wem Angst hat. Hat das Kaninchen bereits den Fuchs wahr genommen? ...

fuchs.jpg


Hier sieht dann der "Hase" ängstlich aus und nicht mehr der Fuchs. Müsste man mal schauen wie man den Prompt noch anpassen müsste. Interessant ist ja dann immer der Vergleich, was andere KIs aus dem gleichen Prompt machen.

Rickmer schrieb:
Hmm... abgesehen davon, dass ich eh nicht für Bildgeneratoren zu haben bin, die ich nicht lokal laufen lassen kann, waren die wenigen Testrender die ich kurz gemacht habe nicht vollständig überzeugend.

Das sehe ich genauso, daher ist Stable Diffusion und meistens Flux im Einsatz.

Deine Prompts mit Flux Dev:

fluxdev2.png


FluxDev1.png


Hier sieht man meiner Meinung nach 2 Dinge. Einmal ist Flux überragend bei realistischen Personen, aber es sind eben nur 3 und nicht 5. Und den anderen Prompt habe ich 4x versucht, aber jedes mal wurden es Freunde, und das Problem mit dem Schwanz ist ebenfalls vorhanden.
 
  • Gefällt mir
Reaktionen: Kaulin
Ayo34 schrieb:
Auf der einen Seite haben wir ein realistisches Bild, wollen aber einen Fuchs mit 9 Schwänzen.
Da ich keine Angabe zum Stil vorgegeben hatte, ist das Sache der KI.

Ayo34 schrieb:
Deine Prompts mit Flux Dev:
Ich hatte mehr Erfolg mit Flux im Breitformat - wobei da wirkliche Perfektion auch nicht zustande kam. Aber immerhin meistens 5 Personen (teils 4) und die Angaben zur Größe wurden auch (teils) befolgt.

Mit ausgiebiger Beschreibung hatte ich (bei einem NSFW Test) halt auch schonmal solche Resultate:
five nude women facing the viewer in a lineup starting with a petite blonde white woman with small breasts on the left followed by a tiny japanese woman with a purple bob cut, a tan mediterranian woman in the middle, a tall indian woman in the middle right and a large black woman with big breasts and an afro on the right
1730369568036.png


1730369685948.png

Die Nationalitäten würde SDXL mit Verwendung von Regional Prompter besser hinbekommen, aber dann wären alle wieder gleich groß...

Wie dem auch sei.

Ayo34 schrieb:
Und den anderen Prompt habe ich 4x versucht, aber jedes mal wurden es Freunde, und das Problem mit dem Schwanz ist ebenfalls vorhanden.
Stimmt, im Nachtest von mir hatte ich heute Flux auch keine mehrfachen Schwänze in dem Kontext abgewinnen bekommen.

Allerdings hatte ich auch mit Flux (jibMixFlux_v31ClarityKey) mal das generiert ohne ein spezifisches LoRa:
ninetales pokemon, kitsune, fox with nine fluffy tails sitting upgright, yellow fur
1730369799866.png
 
Ohne Upscaling oder Lora, direkt gepromptet in 2048x2048 bzw. 2752x1536. Die Entwicklung geht weiter und der KI-Touch von vielen Bildern fehlt auch bzw. ist viel geringer. 👍

1.png


2.png


4.png


3.png
 
  • Gefällt mir
Reaktionen: Kaulin und Maviapril2
  • Gefällt mir
Reaktionen: Kaulin, MechanimaL, painomatic und eine weitere Person
Zurück
Oben