Llama-Training: Meta muss erklären, warum Copyright-Flags entfernt wurden

Meta steht derzeit unter Verdacht, Copyright-Informationen aus den Trainingsdaten entfernt zu haben, die für das eigene KI-Modell Llama verwendet wurden. Ein Gericht hat nun angeordnet, dass das Unternehmen zu diesen Vorwürfen Stellung beziehen muss.
Meta soll bewusst Daten entfernt haben
Die nun von Richter Vince Chhabria erlassene Anordnung geht auf eine Sammelklage zurück, die die Autoren Richard Kadrey, Sarah Silverman und Christopher Golden bereits im Juli 2023 beim zuständigen Bundesgericht in San Francisco eingereicht hatten. In ihrer Klage werfen sie Meta vor, ihre Werke unrechtmäßig für das Training des KI-Modells verwendet zu haben.
Anfang dieses Jahres erweiterten sie die Anklage um den Vorwurf, dass Meta bewusst urheberrechtlich geschützte Inhalte genutzt habe. Diese Inhalte seien mit entsprechenden Copyright-Informationen (CMI) versehen gewesen, darunter Angaben zu Urheberschaft, Lizenzierung, Nutzungsbedingungen und Erstellungsdatum. Meta soll diese Informationen aus den Dateien entfernt haben, um die Werke für das maschinelle Lernen verwenden zu können.
Meta räumt Nutzung ein
In der vergangenen Woche erlaubte Chhabria die Erweiterung der Anklage um den Vorwurf, dass Meta gegen den US Digital Millennium Copyright Act (DMCA) verstoßen habe, und wies das Unternehmen an, dazu Stellung zu beziehen. Den nun veröffentlichten Gerichtsdokumenten zufolge hat Meta bereits eingeräumt, den Datensatz „Books3“ für das Training seines Sprachmodells Llama 1 genutzt zu haben – ein Datensatz, der geschütztes Material enthalten hat. „Die Behauptungen der Kläger lassen den Schluss zu, dass Meta CMI entfernt hat, um zu verhindern, dass Llama CMI ausgibt und damit offenbart, dass es auf urheberrechtlich geschütztem Material trainiert wurde“, hält Richter Chhabria in seiner Einschätzung fest.
Mit der Zulassung der Klage deutet sich nun an, dass die unkontrollierte Verwendung urheberrechtlich geschützter Werke zum Training neuronaler Netzwerke für KI-Unternehmen durchaus finanzielle Konsequenzen haben könnte. Allerdings mussten die Kläger auch eine Niederlage hinnehmen: So wies Chhabria den Anklagepunkt, wonach Metas Nutzung nicht freigegebener Bücher, die über Peer-to-Peer-Torrents bezogen wurden, gegen den kalifornischen Comprehensive Computer Data Access & Fraud Act (CDAFA) verstoßen habe, zurück.
Urteil mit Tragkraft
Dennoch besteht für die Kläger die Aussicht auf ein Urteil in ihrem Sinne. Erst im vergangenen Monat erwirkte der Medienkonzern Thomson Reuters in einem Schnellverfahren ein Teilurteil gegen das mittlerweile geschlossene KI-Unternehmen Ross Intelligence, das diesem untersagte, sich auf das Fair-Use-Prinzip zu berufen und sich dadurch einer möglichen Haftung zu entziehen. Dieses Urteil könnte auch für andere KI-Rechtsstreitigkeiten richtungsweisend sein.
Zudem sind die klagenden Autoren keine Unbekannten in solchen Auseinandersetzungen: Bereits im Januar des vergangenen Jahres konnten sie einen Erfolg gegen OpenAI erzielen, als sie dem Unternehmen die unrechtmäßige Nutzung ihrer Werke für das Training der GPT-Sprachmodelle vorwarfen.