Conqi schrieb:
Weil Stock Fotos einem Zweck dienen und im Normalfall das optisch untermalen sollen worum es geht. Wenn man sich Stock Fotos zu irgendwelchen Bürojobs ansieht zum Beispiel steht da meistens irgendwer mit Akten in der Hand oder schüttelt irgendwelchen Kunden die Hand. Das sieht halt interessanter aus als jemand, der endlos in Excel scrollt.
Ok. Dann magst Du bei Stockfotos Recht haben, aber die Google-Bildersuche hat das Problem in meinen Augen nicht (und die dort auftauchenden Bilder sind wahrscheinlich auch ein Input für Gemini). Die Suche nach Bürojob liefert hautpsächlich Menschen vor Laptops/Computerbildschirmen.
Conqi schrieb:
Um das mal generell zu beantworten. Dein Beitrag besteht praktisch in jedem Punkt daraus, dass die KI entweder einen Bias haben muss oder alles genau gleich gewichtet. Das ist natürlich Blödsinn und habe ich auch nie behauptet.
Du behauptest in deinem Post doch, dass der Trainingssatz nicht ausgewogen genug sei. Was ist denn "ausgewogen", wenn nicht 50/50? Und woher weißt Du überhaupt, was der Trainingsdatensatz ist?
Conqi schrieb:
Kommt drauf an. Wenn es darum geht, die Welt halbwegs realistisch abzubilden würde ich sagen ja. Wieso sollte es das nicht, wenn es doch zum angefragten Begriff passt?
Weil das zu völlig generischen Ergebnissen führen würde. Wenn ich ein Bild von Frankreich erzeugen lasse, erwarte ich ein Bild, bei dem jemand anderes erkennt, dass es Frankreich darstellen soll. Das geht eben gut über die üblichen Wahrzeichen. Wenn ich stattdessen einen mitteleuropäischen Wald haben will, dann schreibe ich das eben in den Prompt.
Conqi schrieb:
Dann formuliert man im schlimmsten Fall halt genauer, was man haben will. Abgesehen davon ist eine einzelne recht kleine Insel auch schon deutlich spezifischer als Anfrage. Hier geht es ja erstmal primär um Menschen bei denen man nicht so klar sagen kann: "das ist der Standard".
Oder er spuckt einfach das naheliegende aus und wenn mir das nicht passt, kann ich den Prompt genauso umformulieren.
Mit deiner Logik wäre ja ein valides Bild für den Prompt "Bild eines Arztes" auch einfach ein schlafender Mensch in seinem Bett oder ein Mensch beim Einkaufen oder auf dem Klo. Schließlich schläft ein Arzt ja auch (relativ) regelmäßig, geht einkaufen und muss auch mal aufs Klo.
Conqi schrieb:
Für generische Anfragen finde ich aber halt schon, dass man darauf achten sollte, dass der Output nicht zu gleichförmig wird.
Aber der Output wird ja nur gleichförmig, wenn der Input gleichförmig ist. Und dann ist halt die Frage, ob der Input nicht die Realität abbildet, oder eben doch.
Conqi schrieb:
Notfalls kann man als User ja auch weiter präzisieren, was für eine Person man haben will.
Das ist ja das faszinierende/erschreckende bei der aktuellen Gemini-Version: kann man eben nicht, weil das LLM den Prompt manipuliert, bevor er an die Bildgenerierungs-KI gesendet wird.
Ein "happy man":
Conqi schrieb:
Wenn ich aber einfach nur Bilder von Häusern generieren lasse, sollten sie zumindest einen (extrem) kleinen Teil der Ergebnisse ausmachen.
Und woher weißt Du, dass es das nicht tut? Vielleicht braucht es ja nur ein paar Millionen Anfragen und dann ist auch wirklich eine Munduruku-Hütte dabei.
Conqi schrieb:
Wenn aber Menschen kaukasischer Abstammung nicht mal 20% der Weltbevölkerung ausmachen, sollte das dann der Standard für Bilder sein, die eine KI ausspuckt?
Jein. Wenn ich die Anfrage in Deutschland stelle (gogle kann das ja durchaus zuordnen), wäre es wahrscheinlich nicht verkehrt. Oder eben wenn regionale Einschränkungen (British women) im Prompt vorhanden sind.
Das spiegelt halt einfach nicht die Verteilung in GB wieder.