[Sammelthread] AI - Bildgenerierung (Stable Diffusion, Midjourney & Co)

Maviapril2 schrieb:
Viele gute Custom Modelle basierend auf XL scheint es noch nicht zu geben, oder? Hatte zumindest bei 1.5 mit Custom Modellen wesentlich bessere Ergebnisse als mit dem Standardmodell.
Ist ja noch in den Kinderschuhen, SDXL ist grademal vor 6 Wochen raus gekommen.
Die meisten SDXL Custom Modelle sind laut deren Machern noch im Alpha- oder Beta-Release.

Die 1.5er Custom Modelle nach 6 Wochen waren auch nicht mega beeindruckend. Die aktuell beliebtesten sind diejenigen, die so nach 6 Monaten oder noch später veröffentlicht wurden.

MechanimaL schrieb:
Hier mal die Preview Bilder ein paar ausgewählter Custom-Modelle (aus meinem Model-Ordner
Es ging ihm spezifisch um die SDXL custom Modelle, deine Beispiele sind soweit ich sehe alle SD 1.5 ;)
 
  • Gefällt mir
Reaktionen: Maviapril2
@MechanimaL Danke für deine Mühe, aber das war nicht meine Frage, wie @Rickmer bemerkt hat. Vielleicht noch einen ☕? ;)

@Rickmer, alles klar, danke dir, das heißt, einfach noch etwas in Geduld üben
 
@Maviapril2 Ich habe heute zufällig dieses Video gesehen, wo jemand SD1.5 und SDXL vergleicht und z.B. eine statistische Auswertung der Qualität der Hände macht.


Hier kommt SDXL im Vergleich zum SD1.5 Basismodell extrem gut weg.

Auch was er schreibt bezüglich erheblich aufgebohrtem Sprachmodell - das merkt man eindeutig wenn man versucht, ein Bild mit mehr als einer Person zu erzeugen. Meine zwei Beispiele von der letzten Seite hattest du ja schon gesehen - kein 1.5er Modell das ich ausprobiert habe schafft sowas aus einem simplen Prompt ohne Hilfe mit mindestens Regional Prompter.

Aber hier gerne nochmal ein Beispiel, was SD1.5 so einfach nicht hin bekommt:
00052-2115180257.png


Der Prompt ist effektiv "(bodybuilder:2) girl and her (son:2.0) building a (sandcastle:2.0) on a hawai'i beach"

Klar, mit eine Glückstreffer beim Seed schafft SD1.5 das auch, aber da ist dann extrem viel Ausschuss bei, den SDXL einfach nicht (in dem Ausmaß) produziert.
 
  • Gefällt mir
Reaktionen: Maviapril2 und painomatic
Maviapril2 schrieb:
@MechanimaL Danke für deine Mühe, aber das war nicht meine Frage, wie @Rickmer bemerkt hat. Vielleicht noch einen ☕? ;)
Ach ich hab mich verlesen, ich brauch einfach ne neue Brille, lol-- habe gelesen: NICHT wesentlich bessere Ergebnisse bei 1.5 Base, als mit Custom Modellen :D Wie man ja an meiner Antwort auch erkennt ^^

Bei SDXL kannst Du mit dem Base Model bereits sehr gute Ergebnisse erzielen. Würde dann den Refiner mitbenutzen. Fotorealismus von Personen ist noch eingeschränkt, aber das ist bei den Custommodels auch noch so. Geht laaangsam voran ^^ Loras können auch schon einiges bewirken.
 
  • Gefällt mir
Reaktionen: Maviapril2
Der "Sohn" hat ein Gerstenkorn.
 
Weil wir das Thema SDXL Custom Models grade hatten..

SDXL Vergleiche, hier 30 Models verglichen:

Juggernaut vs Realvis:
 
  • Gefällt mir
Reaktionen: Maviapril2
Da sind ja schon einige gut gelungene Modelle dabei, danke dir, dann muss ich mir demnächst mal wieder Zeit nehmen
 
Habt ihr die Vorschau auf das bald erscheinende Dall-E 3 von openAI mitbekommen? Unglaublich gutes Textverständnis, dank Chat-GPT Implementierung:

 
Yep, mit dem Textverständnis von ChatGPT kann SDXL nicht ansatzweise mithalten und wird es nie können...

SD1.5 hat ein Textmodell mit 123 Millionen Parameter, SDXL hat 695 Millionen Parameter - welches beides hoffnungslos winzig ist im Vergleich mit den zig Milliarden Parameter von ChatGPT, egal ob Version 3.5 oder 4.0.

Quelle (mit Zeit Stempel):


Eine Möglichkeit für einen Nachfolger von SDXL ist natürlich, eins der zig neuen LLMs mit 3~65 Milliarden Parameter zu verwenden. Das Problem: Ganz grob gesehen frisst jede Milliarde an Parametern ein Gigabyte VRAM. In der Cloud mit zig A100 oder H100 im Verbund mag das kein Problem sein, aber für home use würde selbst ein kleines (und damit weniger akkurates) LLM die Mindestanforderungen verdoppeln... oder es muss ständig der VRAM zwischen dem Textmodell und dem Bildmodell swappen, was extrem auf Performance gehen würde.
 
  • Gefällt mir
Reaktionen: painomatic und Maviapril2
Klar bräuchte das mehr Speicher, wäre aber mit 24GB oder eingeschränkt mit 16GB auch machbar. Man kann brauchbare LLMs mit ~6-8GB Bedarf laden, dann wären noch 8/16 Rest für SDXL. Bestimmt ginge es auch noch kleiner, mit weiteren Optimierungen oder so.. Das Zusammenspiel von ChatGPT ist aber wahrsch. auch noch anders implementiert als CLIP bei SD funktioniert, oder? Es ist einfach krass, wie ein abstraktes BIld, wie eine halbe, entkernte Avocado, die bei einem Psychiater sitzt, dessen Kopf ein Löffel ist, und ihm sagt: "Ich fühle mich so leer" und das ganze durch T2I direkt so umgesetzt wurde. Sobald es surreal ist, wird es bei SD schon schwierig, dass da trotzdem dieses Niveau der genauen Umsetzung gewahrt bleibt ist schon um Welten besser, als wir es bisher hatten. Textabbildung scheint auch einwandfrei zu funktionieren.

Mal schauen, wie die Entwicklung bei SD weitergeht. Für mich ist das sehr faszinierend, also Dall-E, aber käme aufgrund der zensierten & online Nutzung nicht in Frage als Alternative..
 
MechanimaL schrieb:
Klar bräuchte das mehr Speicher, wäre aber mit 24GB oder eingeschränkt mit 16GB auch machbar. Man kann brauchbare LLMs mit ~6-8GB Bedarf laden, dann wären noch 8/16 Rest für SDXL.
Klar, so ein 7B Parameter LLM passt in 8GB VRAM rein, das wäre durchaus machbar.

Aber wenn es dann heißt, dass die Mindestanforderung für Stable Diffusion jetzt eine RTX 4060 Ti 16GB ist wird das Gezeter groß^^

MechanimaL schrieb:
Das Zusammenspiel von ChatGPT ist aber wahrsch. auch noch anders implementiert als CLIP bei SD funktioniert, oder?
Das lässt sich sicherlich anpassen, das wurde ja auch schon in SDXL anders implementiert als SD1.5. Textmodell und Bildmodell sind eh so eng verknüpft, dass die ein komplett neues Modell von Grund auf trainieren müssten.

MechanimaL schrieb:
Mal schauen, wie die Entwicklung bei SD weitergeht.
Ich bin sicher, dass die nicht auf SDXL als das letzte und finale Werk stehen lassen werden.

Dass die an einem eigenen LLaMA Ableger arbeiten wurde ja schon im Juli bekannt gemacht - wobei 65B bzw. 70B Parameter deutlich über 'home use' hinaus gehen. Aber Expertise im Bereich LLM ist halt schon vorhanden.

Das ist halt auch 'ne Frage, wo die hin wollen. mMn können die eine höhere Auflösung erstmal hinten anstellen, sondern Textverständnis, Anatomie (insbesondere Hände) und präzisere Details sollten für einen Nachfolger im Fokus stehen. Das braucht halt auch nicht umbedingt ein größeres Datenset, sondern ein richtig gut beschriftetes und sortiertes Datenset.
Wenn das Grundgerüst stimmt, kann man Auflösung problemlos durch img2img Upscaling erreichen.
 
Hallo zusammen, seit Anfang des Jahres beschäftige ich mich auch mit Stable Diffusion und rutsche immer tiefer in die Materie. Bin zwar immer noch kein Pro, weil ich auch nur mal Abends bisschen rumtesten kann, aber prinzipiell kann ich mittlerweile schon das generieren was ich möchte. Mal abgesehen davon ,d as es echt viel Zeit verschlingt :-)

Habe letztens roop bzw. roop-unleashed entdeckt. Wow und Scary. Allerdings läuft das bei mir nicht mehr so flüssig, will heissen - Rechner Freeze. Neustart und ein GOP Fehler etc. Virtueller Arbeitsspeicher am Limit und so on. SD läuft eigentllich stabil.

Auf meiner Wunschliste stehen schon mindestens 32GB Arbeitsspeicher. Die Grafikkarte ist eine MSI RTX 3060 ti, sowie ein MSI Raider Mainboard welches aber aus 2017 ist -_-

Ist hier jemand der roop-unleashed nutzt und könnte ein paar Setting Tipps geben?
 
ich hatte roop anfangs benutzt und bin dann noch (bevor es roop-unleashed gab) auf faceswaplab gewechselt. gibts auch im dropdown download menu von a1111. lief bisher ohne probleme.
 
ja, das habe ich auch installiert, aber bisher noch keine chance zum testen gehabt.

allerdings kann das auch nur standbilder, oder?
 
Jop, soweit ich weiß schon, jedenfalls, als ich es zuletzt verwendet hatte, gab es da keine Video-Funktionen o.ä.
 
Ah ja, ok. Deswegen bin ich auf unleashed, weil da kann man Videos einladen. Seit kurzem habe ich da allerdings freezes, nach garnicht so langen rendern...
 
Cool, muss ich mal testen. Hast Du alles up2date? Mal im Github geschaut vom Projekt, bzw. dort nachgefragt?
 
Also bei der ARbeit mit LLMs wurde mal empfohlen den virtuellen Speicher auf 30 oder 40GB hochzusetzen, ich glaub das musste ich auch mal machen, damit etwas nicht crashte ^^ Du sagst in dem Thread es ginge nicht höher einzustellen?

:D
1695890883513.png
 
^ für was steht LLM ? 🙄

naja, ne. Größer oder Kleiner ginge schon, ich hab nur Probleme damit das Kleiner zu machen, wenn der PC ja jetzt schon crasht. Wird ja sicherlich nicht förderlich sein....

Und Größer wollte ich nur bedingt, weil das ja logischweise nochmal ~8GB veranschlagt. Meine Platte ist bald voll. Deswegen die Frage, ob ich den V-Speicher nicht "leeren" kann, damit eben wieder genug Platz ist.

Oder wird der veranschlagte Speicher eigenständig verwaltet? Also das die bei mir 26GB nicht zwingend "Voll" bedeutet, sondern eben nur das was der PC auslagern darf? Und wenn es eben die 26 GB überschreitet, gibts nen Freeze/Crash?
 
Zurück
Oben