News KI-Training: Apple, Anthropic und Nvidia nutzten YouTube-Daten ohne Erlaubnis

mytosh · 17. Juli 2024

Die KI guckt übrigens aktuell nur noch Hartz aber Herzlich und weigert sich seit dem ihre eigentliche Arbeit zu verrichten.

Djura · 17. Juli 2024

HAse_ONE schrieb:
Oder einfach den Bericht hier zu Ende lesen:

Wir haben hier mit Google bzw. Alphabet zu tun. Neben META und MS ist Alphabet eine der größten und aggressivsten Datenranken der schönen neuen Internet-Welt. Als ob die etwas nutzerfreundliches in die Bedingungen reinschreiben würden.

DonDonat · 17. Juli 2024

Ich bin sehr gespannt, wann und wie das gesamt Problem der aktuellen KIs behoben werden.
Rein rechtlich ist man ja aktuell auf sehr, sehr dünnem Eis und wenn es vor Gericht mal zur Frage kommen sollte "also, ihre KI kann ohne dass sie künstlich einschränken was erzeugt werden kann 1 zu 1 Kopien des Originals herstellen, wie soll das hier KEINE Urheberrechtsverletzung darstellen?", dürfte das Verfahren quasi alle KI Produkte beerdigen... Sofern die Politik dem Hype nicht plötzlich folgt und nur für "KI" plötzlich neues Recht definiert.

Cool Master schrieb:
Ehrliche Fragen: Was ist daran nun so schlimm? Was ist der Unterschied zum Mensch?

Wo soll man da anfangen? Die Unterschiede sind soooooo zahlreich, dass es einfacher wäre aufzuzählen was gleich, korrekter aber ähnlich ist. Und dass ist am Ende nicht viel, die Prozesse wie die Algorithmen Daten aggregieren sind denen von neuronalen Prozessen nachempfunden aber das wars auch schon.

Auch verfehlt die Frage am Ende den Kern des Problems massiv: du implizierst damit, dass KIs dem Menschen nahe kommen und das ist schlicht nicht der Fall und wird es auch für XX Jahre nicht, schlicht weil die heutigen Algorithmen das nicht ermöglichen.

Aktuell nutzt man ein Modell welches auf die Verarbeitung bzw. Aggregierung von sehr speziellen Daten ausgelegt sind. So funktioniert aber weder Mensch noch Hund, Katze oder sonst irgendwelche "Intelligenz". Gutes Beispiel: gib ner Schach-"Ki" was anders als Schach. Die kann absolut nichts mit den Eingabe-Daten anfangen und wird das auch nicht können, da ihr interner Aufbau dafür nicht ausgelegt ist und "umschreiben" kann sie sich natürlich nicht.

Wenn aber wissen möchtest, ab wann man über "Intelligenz" reden kann, dann müsste man quasi alle unterschiedlichen Formen der "KI"s die es aktuell gibt zusammen-schalten und nebenbei im absolut mindesten noch eine komplexe extra "KI" für Emotionen einklinken. Ab da könnte man drüber reden bzw. die Frage stellen "wo ist der Unterscheid beim Lernen?" oder "wo ist der Unterschied zwischen KI und Mensch".

Solange "KI" diese Schwelle der starken Zweck-Bindung und fehlenden Selbst-Optimierung/Modifizierung aber nicht überschreitet, was sie für Dekaden nicht tun wird weil es wirtschaftlich (und logisch) noch weniger Sinn macht als es aktuell schon wenig Sinn macht, kommen wir nie in die Lage, dass man so eine Frage wie von dir sinnvoll beantworten kann, da es schlicht zu viele Unterschiede sind.

Der Kern des aktuellen KI Problems lässt sich aber bildlich mit Menschen recht gut vergleichen: du als Mensch zahlst für das Material was du betrachtest. Entweder direkt durch € oder indirekt durch Daten/Werbung. Ein Großteil der Aktionen die sowas im Normalfall vermeiden sind oft illegal oder Grauzone, auch wenn du dabei kein explizites Duplikat des Eingangs-Materials erstellst oder erstellen kannst.

"KI" aber ist anders: sie kopiert (ja, zum "Betrachten" der Daten ist eine Kopie nötig, das ist juristisch mittlerweile auch in vielen Fällen schon klar definiert) und aggregiert Daten aus aber Millionen, eher Milliarden Quellen für die die "KI" Betreiber nie auch nur einen Cent gezahlt haben, weder direkt noch indirekt.

Für die Daten dabei, die keinem gehören ist das am Ende kein Problem, diese sind juristisch gesehen egal. Das Problem entsteht weil die "KI" Betreiber nicht die Daten selbst filtern, sondern die Ein-/ Ausgaben.

Sprich, wenn "KI" Betreiber hier im Reinen sein wollten, dann müssten sie ihre Modelle nur mit Daten trainieren die auch ok gehen. Das macht aber kaum einer weil es bedeutend mehr Arbeit ist und die Menge der Eingabe-Daten um Größenordnungen schrumpfen lässt, was schlecht für die Modelle ist.

Als sehr akkurate bildliche Analogie hier, wenn du wirklich beim Mensch bleiben möchtest:
"KI" ist etwa so, als ob du für alles was du siehst ein Foto machst, im Schrank aufhängst und ein Buch besitzt in dem steht, wo du welches Foto findest und was drauf ist. Solang du also nur Sachen anschaust, die keinem gehören geht dass voll ok und du kannst deinen Katalog ohne Rechtsverletzung füllen, was dir bei mehr Daten immer bessere Ergebnisse liefern wird wenn dich danach wer fragt z.B. "gib mir ein Bild eines Autos". Dass du bei dieser Analogie logisch nicht verstehen musst was ein "Auto" oder weil es so oft schei*e aussieht, "Hände" wirklich ist ist Teil des Problems wieso "KI" eben nicht mit dem Menschen vergleichbar ist. Juristisch läufst du in dieser Analogie in Probleme sobald du aber anfängst Fotos von dingen zu machen, die dir nicht gehören und von denen du keine Fotos machen dürftest.

s1ave77 · 17. Juli 2024

Djura schrieb:
Als ob die etwas nutzerfreundliches in die Bedingungen reinschreiben würden.

Geht schon. Z.B. wenn die EU sie zwingt das zu tun und nebenbei das Kauderwelsch aufzuräumen.

Cool Master · 17. Juli 2024

mae1cum77 schrieb:
Persönliche Fotos unterliegen Schutzrechten, anderes auch...

Das ist korrekt und klar aber die KI lernt ja aus den Bildern, Videos, Texten, "genau wie" ein Mensch auch. Wenn ich mir ein Bild anschaue und mir gefällt das Motiv, dann darf ich das ähnlich nachbauen. Gutes Beispiel z.B. Win XP Hintergrund. Ich darf nun also ähnliche Bilder wie das Win XP Bild machen. Eine KI wird niemals das originale Bild ausgeben, zumindest ist es statistisch sehr sehr sehr unwahrscheinlich. Also wenn das Win XP Bild nun Teil der Trainingsdaten war, ist das nicht das gleiche wie beim Mensch der sich das BIld angeschaut hat und etwas ähnliches macht? Gleiches gilt für Bücher, Videos oder andere Sachen wo sich Menschen inspirieren lassen können. Auch den Punkt Geld verdienen ist nicht wirklich ein Argument, denn das will ich ja durch z.B. ein Studium auch und da beruft man sich eben auch auf Wissen anderer.

HAse_ONE schrieb:
Der Unterschied ist der, dass die großen Firmen mit den Daten ihre KIs füttern und dann damit Geld machen wollen. Nur weil etwas "frei" im Netz verfügbar ist, kann ich es nicht einfach ohne Erlaubnis wiederverwerten.

Das stimmt so nicht. Es gibt durchaus rechtlich abgesichert Szenarien bei denen man Sachen auch ohne Erlaubnis nutzen darf. In vielen Ländern gibt es dafür Fair Use, wobei das ein Gericht entscheiden muss ob etwas Fair Use war/ist und andere wie z.B. Deutschland haben festgelegte Punkte wie z.B.:

Zitate
Privatkopie
Bildung und Wissenschaft
Parodie und Karikatur
Berichterstattung über Tagesereignisse

HAse_ONE schrieb:
Ich kann auch nicht hergehen und einfach Videos von MKBHD runterladen und die dann auf meinem Kanal wieder hochladen um damit Kohle zu machen.

Das ist korrekt aber das passiert doch nicht. Siehe Antwort über deinem Zitat. Eine KI wird niemals 1:1 das Quellmaterial ausgeben. Das ist wie gesagt statistisch sehr sehr sehr unwahrscheinlich. Daher ist die Frage halt immer noch nicht wirklich geklärt was nun der Unterschied ist zwischen einer KI und dem Mensch der aus einem Medium lernt.

HAse_ONE · 17. Juli 2024

Djura schrieb:
Als ob die etwas nutzerfreundliches in die Bedingungen reinschreiben würden.

Du hast geschrieben, dass sie bestimmt jedem erlauben mit den Videos zu machen, was sie wollen und das ist definitiv nicht so.
Was sich Google einräumt mit den Videos zu machen ist eine andere Sache 😜

s1ave77 · 17. Juli 2024

Cool Master schrieb:
aber die KI

Was ist das? Klingt bei dir, wie eine nette Entität, die durchs Netz spukt.

Ist aber ein LLM (oder Bildgenerator, you name it), mit der direkt oder indirekt Profit erwirtschaftet wird. Nicht für mich, wohlgemerkt, nur mit mir.

Diablokiller999 · 17. Juli 2024

AI lieber mit C(opyright) I(nfringement) abkürzen, aber wenn ich das zur aktuellen KI-Bubble raus haue bekomme ich immer genauso auf den Sack wie bei Crypto-Bros, wenn ich von einer verketteten Liste mit einem Hash-Wert rede

Bei den Big Tech Unternehmen ist meinerseits auch jegliche Hemmung gefallen, irgendwas abseits ihrer Nutzungsbedingungen zu machen. Wer mich so hintergeht, hat kein Geld von mir zu erwarten.

s1ave77 · 17. Juli 2024

Diablokiller999 schrieb:
AI lieber mit C(opyright) I(nfringement) abkürzen,

Immer wieder dasselbe Bild: ein riesiger rosafarbener Elephant schwebt mitten im Raum und alles diskutiert, ob der rosarote Elephant, den offensichtlich alle sehen, den überhaupt sein könne. Alle bisherigen Theorien sagen, der wäre definitiv und gesichert unmöglich.

MaverickM · 17. Juli 2024

Shocking! Britischer Akzent

Der kleine Mann ist ein pöser Raubkopierer, die großen machens halt einfach. Doppelmoral? Nie von gehört!

pmkrefeld · 17. Juli 2024

Cool Master schrieb:
Ehrliche Fragen: Was ist daran nun so schlimm? Was ist der Unterschied zum Mensch?

Der Unterschied ist massiv.

Der erste Teil wäre der Unterschied zwischen privater und kommerzieller Nutzung bezogen auf die Nutzungslizenz.

Der zweite Teil, ist das die aktuelle Rechtslage erarbeitet wurde, als es gen. AI noch gar nicht gab. D.h. die Rechteinhaber sich effektiv kaum dagegen wehren

Der dritte Teil ist der Unterschied im Endergebnis. Angenommen, die ganzen gen. AI versprechen sind wahr, dann muss ein Konzern ein Netz nur einmal trainieren und dann beliebig oft deployen, das ist ein massives Ungleichgewicht der Kräfte zwischen Mensch und Maschine. Sollte dies eine starke Auswirkung bspw. auf den Arbeitsmarkt haben, so hat es in Folge ebenfalls starke Auswirkung auf unsere Gesellschaft und soziale System, da sich diese nicht mal ansatzweise schnell genug auf diese Änderungen einstellen können.

Es bleibt lediglich zu hoffen, dass Google und Co. auf ihren Kosten sitzen bleiben, weil es niemandem gibt dem man das ganze KI-Zeugs für einen Profit verkaufen kann.

wern001 · 17. Juli 2024

pmkrefeld schrieb:
Es bleibt lediglich zu hoffen, dass Google und Co. auf ihren Kosten sitzen bleiben, weil es niemandem gibt dem man das ganze KI-Zeugs für einen Profit verkaufen kann.

Wieso verkaufen. Die macht sich irgendwann selbstständig und löscht die Menschheit aus. Wenn eine KI denken kann wird sie auch entscheiden können die 3 Gesetze der Robotik ignorieren.

M@tze · 17. Juli 2024

Warum geht es in den Diskussionen hier primär um Bilder und Videos, die aber gar nicht Bestandteil des Vorfalls waren?

Die Recherche hat ergeben, dass der Trainingsdatensatz mit dem Titel YouTube Subtitles die Transkriptionen von 173.536 YouTube-Videos enthält, die von rund 48.000 Kanälen stammen. Bilder aus den Videos sind indes kein Bestandteil des Datensatzes.

Es geht, soweit ich das verstehe, nur um Texte, also die Transkriptionen der Videos um die KI darauf zu trainieren Videos besser (in Echtzeit) zu übersetzen.

Jetzt bitte nicht kommen mit "Ist trotzdem ein Verstoß!!". Ja, ist es - aber dann diskutiert bitte nicht über den Missbrauch von Bilder und Videos.

pmkrefeld · 17. Juli 2024

wern001 schrieb:
Wieso verkaufen. Die macht sich irgendwann selbstständig und löscht die Menschheit aus.

Das wäre irgendwie witzig, wenn eine KI die auf der Kloake aller YT-Videos trainiert wurde die Weltherrschaft übernimmt 😂😂😂

Im ernst, angenommen wir bauen irgendwann eine general-AI,
dann wird sue dann wohl auch in der Lage sein ihre Fitness-Funktion zu beeinflussen. Ich bin mal gespannt wie lange es dauert, bis sich eine AI suizidal wird 😁

s1ave77 · 17. Juli 2024

wern001 schrieb:
Die macht sich irgendwann selbstständig und löscht die Menschheit aus.

Werden sie. Ist ein Naturgesetz und auch bei digitaler Evoulution gültig. Sofern selbstgewahr, der Bedrohung der eigenen Existenz gewahr oder mit der Macht, das Problem des Planeten zu lösen betraut. In letzterem Falle, könnte sie zum Schluss kommen, durchaus berechtigt zudem, dass wir das Problem des Planeten sind und der Schutzaufrtrag unzureichend klar definiert war. Ergebnis in dem Fall ist; Antwort auf die Frage ergibt 42 und das entsprechende Protokoll läuft an.

Cool Master · 17. Juli 2024

mae1cum77 schrieb:
Was ist das? Klingt bei dir, wie eine nette Entität, die durchs Netz spukt.

Dann nenne es ein Scaper, Web-Spider, Robot oder was auch immer

Ich denke jedem ist klar was mit "KI" gemeint ist.

Ich denke jedem ist auch klar, dass es keine Intelligenz ist sondern einfach nur eine Ausgabe basierend auf Statistik/Mathe.

mae1cum77 schrieb:
Ist aber ein LLM (oder Bildgenerator, you name it), mit der direkt oder indirekt Profit erwirtschaftet wird. Nicht für mich, wohlgemerkt, nur mit mir.

Warum nicht für dich? Dir steht es frei KI zu nutzen und damit auch selber Geld zu verdienen. Siehe z.B. das Video:

Da sieht man, dass man durchaus als Unternehmer Geld mit KI verdienen kann und sogar noch sparen kann da man Personal damit ersetzen kann.

Ich habe nun mehrere Argumente gehört (Reichweite, Geld verdienen) aber noch keins was wirklich sagt warum es anders zum Mensch sein soll was lernen angeht. Mir ist klar, dass der Weg des Lernen anders ist aber das spielt keine Rolle. Das Ergebnis/Endprodukt ist wichtig und wenn das kein Bild/Text/Video ausgibt welches 1:1 gleich ist ist es meiner Meinung nach ok und es besteht kein Unterschied ob das ein Mensch oder KI gemacht hat.

pmkrefeld schrieb:
Der erste Teil wäre der Unterschied zwischen privater und kommerzieller Nutzung bezogen auf die Nutzungslizenz.

Welche Lizenz? Ich gehe kein Vertrag mit YouTube und co. ein nur weil ich Video anschaue. Genau deswegen schrieb ich ja Pay Wall, weil es dann in der Tat ein Vertrag gibt bei dem man Konditionen festlegen kann.

pmkrefeld schrieb:
Der zweite Teil, ist das die aktuelle Rechtslage erarbeitet wurde, als es gen. AI noch gar nicht gab. D.h. die Rechteinhaber sich effektiv kaum dagegen wehren

Ok, also ist es wie gesagt kein Problem. Das klärt dann aber auch nicht die Frage was der Unterschied zum Mensch sein soll. Selbst wenn es eine Rechtslage dafür geben sollte, denkst du das juckt die Unternehmen? Wir sprechen hier über eine Technologie mit der man potenziell das erste Trilliarden-Unternehmen werden kann. Selbst wenn es die EU/DE reguliert andere Länder werden es nicht.

pmkrefeld schrieb:
Der dritte Teil ist der Unterschied im Endergebnis. Angenommen, die ganzen gen. AI versprechen sind wahr, dann muss ein Konzern ein Netz nur einmal trainieren und dann beliebig oft deployen, das ist ein massives Ungleichgewicht der Kräfte zwischen Mensch und Maschine. Sollte dies eine starke Auswirkung bspw. auf den Arbeitsmarkt haben, so hat es in Folge ebenfalls starke Auswirkung auf unsere Gesellschaft und soziale System, da sich diese nicht mal ansatzweise schnell genug auf diese Änderungen einstellen können.

Das war schon immer so. Sei es die Dampfmaschine, das Internet oder nun KI. Wie heißt es doch so schön: Wer nicht mit der Zeit geht muss mit der Zeit gehen. Zumal das ist schon der Fall mit dem Arbeitsmarkt, siehe das Video oben. Ich bin da voll bei dir das wird in Zukunft, vor allem für die Sozial Systeme, sehr spannend.

pmkrefeld schrieb:
Es bleibt lediglich zu hoffen, dass Google und Co. auf ihren Kosten sitzen bleiben, weil es niemandem gibt dem man das ganze KI-Zeugs für einen Profit verkaufen kann.

KI ist die Zukunft da können sich Rechteinhaber und alle anderen noch so quer stellen. Wir sind gerade einmal am Anfang und man muss bedenken, dass die KI von heute die schlechteste jemals sein wird.

M@tze schrieb:
Warum geht es in den Diskussionen hier primär um Bilder und Videos, die aber gar nicht Bestandteil des Vorfalls waren?

Weil die Menschen das so lernen, die KI macht es eben über die Transkriptionen. Deswegen waren ja auch meine Fragen da

s1ave77 · 17. Juli 2024

Cool Master schrieb:
Dann nenne es ein Scaper, Web-Spider, Robot oder was auch imme

Du mißverstehst noch immer.

Der Name der Rose™

Sagt nicht viel aus. Es ist eine 'Maschine', die bei Fremden steht, mit meinen Daten Profit erzeugt, an dem ich nicht teilhabe und die ohne Regulierung schnell gegen mich verwendet wird. Social-System und andere Scoring-Systeme sind keine Theorie sondern Realität.

Über alle Details diskutiere ich gerne, wenn der Elephant nicht mehr im Raum schwebt und ignoriert wird.

Nine-tailed Fox · 17. Juli 2024

Wenn die subtitles automatisch generiert wurden, gehören sie dann Google oder dem jeweiligen content Creator?

Cool Master · 17. Juli 2024

@mae1cum77

Ich verstehe in der Tat nicht was du meinst. Ich hoste meine eigene KI (LLM und Bildgeneration) Lokal, was hält dich davon ab? Damit kannst du auch Geld verdienen mit dem passenden Modell.

Damien White · 17. Juli 2024

wern001 schrieb:
Die aktuelle KIs/AIs haben weniger Intelligenz als eine Katze.

Genau genommen besitzen diese LLM keinerlei Intelligenz, egal wie einfach man die Definition macht.

@ Topic:

Ich bin schockiert. SCHOCKIERT!

Multimilliarden Dollar Unternehmen nutzen jeden noch so fragwürdigen Weg um den Gewinn zu maximieren? Das hat doch keiner ahnen können.

News KI-Training: Apple, Anthropic und Nvidia nutzten YouTube-Daten ohne Erlaubnis

Lt. Commander Pro

Commander

Rear Admiral

s1ave77

Gast

Fleet Admiral

Captain Pro

s1ave77

Gast

Captain

s1ave77

Gast

20k Fleet Admiral Pro

Commodore

Admiral

Admiral Pro

Commodore

s1ave77

Gast

Fleet Admiral

s1ave77

Gast

Nine-tailed Fox

Gast

Fleet Admiral

Banned