KI-Training: Apple, Anthropic und Nvidia nutzten YouTube-Daten ohne Erlaubnis
Führende AI-Firmen wie Anthropic, Nvidia, Apple und Salesforce sollen Daten aus YouTube-Videos für das Training der Modelle verwendet haben, ohne die Creator um Erlaubnis zu fragen. Ein Verstoß gegen YouTubes Nutzungsbedingungen, der aber nicht neu ist.
Von dem Vorfall berichten Wired und Proof News. Die Recherche hat ergeben, dass der Trainingsdatensatz mit dem Titel YouTube Subtitles die Transkriptionen von 173.536 YouTube-Videos enthält, die von rund 48.000 Kanälen stammen. Bilder aus den Videos sind indes kein Bestandteil des Datensatzes.
Die Liste der Betroffenen ist prominent. Diese umfasst Medienbetriebe wie das Wall Street Journal, NPR und die BBC, Shows wie „The Late Show With Stephen Colbert”, „Last Week Tonight With John Oliver” und „Jimmy Kimmel Live“. Hinzu kommen YouTuber wie MrBeast, Marques Brownlee (MKBHD), Jacksepticeye und PewDiePie.
YouTube-Datensatz stammt von Non-Profit-Organisation
Wie Ars Technica berichtet, ist dieser YouTube-Datensatz ein Teil von The Pile. Das sind Trainingsdaten, die die Non-Profit-Organisation EleutherAI bereitstellt. Neben YouTube-Videos umfasst der gesamte Datensatz noch weitere Inhalte wie Bücher und Wikipedia-Artikel. Das Ziel ist: Firmen und Personen, die nicht die Ressourcen von Big-Tech-Konzernen haben, sollen dennoch einen Zugang zu qualitativ hochwertigen Trainingsdaten erhalten.
Der Haken ist in diesem Fall aber: Auch die Big-Tech-Konzerne nutzen diesen Datensatz. Und haben nun den Vorteil, nicht der Urheber zu sein. Wie Marques Brownlee – einer der betroffenen YouTuber – auf X schreibt, habe Apple etwa die Daten nicht selbst gesammelt, wäre technisch gesehen also nicht für den Vorfall verantwortlich. Ein Problem, das noch länger bestehen werde, so Brownlee.
YouTube als KI-Trainingslager
Generell sind die YouTuber wenig begeistert, die Reaktionen entsprechen den bekannten Copyright-Vorwürfen: Die KI-Unternehmen sammeln rücksichtslos Daten, ohne die Urheber um Erlaubnis zu fragen oder diese finanziell an den Umsätzen zu beteiligen. Die Konsequenz sind Klagen, der Ausgang ist aber noch offen. Denn die KI-Unternehmen wie OpenAI, Google oder Microsoft bestreiten die Vorwürfe. Durch Fair-Use-Regeln wäre das Sammeln der Daten zu Trainingszwecken gedeckt, lautet das Argument. Welche Trainingsdaten konkret verwendet werden, teilen die Unternehmen jedoch nicht mit – in diesem Bereich herrscht mittlerweile eine große Verschwiegenheit.
Im Rahmen der Streitigkeiten stand auch schon YouTube im Fokus. So soll OpenAI massenhaft YouTube-Inhalte erfasst haben, berichtete die New York Times im Frühjahr. Dabei wurden ebenfalls die Videos transkribiert, um mit dem Textkorpus die Modelle zu trainieren. In dem Team, das die YouTube-Videos sammelte, soll sogar OpenAIs President Greg Brockman persönlich mitgearbeitet haben.
Google selbst erklärt, YouTube-Inhalte für das KI-Training zu sammeln, widerspreche den Nutzungsbedingungen. Man habe auch Maßnahmen ergriffen, um das Sammeln zu erschweren. Generell verhält sich der Konzern aber zurückhaltend, was nicht überraschend ist. Denn Google steht selbst im Fokus von Copyright-Klagen.