Datenschutzverfahren: OpenAI soll Inhalt der Trainingsdaten nennen

4.6.2023 14:29 Uhr

Bild: OpenAI

In Italien wurde die ChatGPT-Sperre aufgrund von Datenschutzverstößen zwar wieder aufgehoben, vollständig ausgeräumt sind die Bedenken aber nicht. Es laufen weitere Verfahren wie das in Deutschland. Wo sich die zentralen Baustellen befinden, zeigt der nun veröffentlichte Fragebogen.

Diesen hatten die deutschen Datenschützer im April an OpenAI übermittelt, vom Unabhängigen Landeszentrum für Datenschutz Schleswig-Holstein (ULD) wurde er nun freigegeben. „Der Fragebogen umfasst die wesentlichen Datenschutzfragen“, sagt die schleswig-holsteinische Datenschutzbeauftragte Marit Hansen gegenüber Heise Online. Neben klassischen DSGVO-Themen wie der Rechtsgrundlage, Einwilligungen sowie dem generellen Umgang mit personenbezogenen Daten sind das auch Aspekte, die spezifisch auf Large Language Models (LLM) abzielen – die Konsequenzen gehen also über OpenAI hinaus.

Datenschützer wollen Einblicke in die Trainingsdaten

Zu diesen LLM-spezifischen Aspekten zählen etwa Berichtigungen. So wollen die Datenschützer wissen, wie ChatGPT die Richtigkeit der generierten Inhalte sicherstellen will und wie Nutzer falsche Inhalte berichtigen lassen können. Für LLM-Entwickler ist das nicht trivial, denn die auf den komplexen Sprachmodellen basierenden Chatbots tendieren zum Halluzinieren – also dem Erfinden von Fakten. Und das ist vor allem dann der Fall, wenn keine präzise Datengrundlage existiert. So können die Chatbots dann etwa falsche Daten über Personen herausgeben, selbst wenn entsprechende Informationen zuvor aus dem Trainingsmaterial entfernt wurde.

Interessant sind zudem die Einblicke in die Trainingsdaten, die die Datenschützer einfordern. So wollen diese wissen, aus welchen Quellen die Daten stammen, die OpenAI verwendet. Weitere Fragen zu den Trainingsdaten befassen sich etwa mit den personenbezogenen Daten, die darin enthalten sind. So soll OpenAI angeben, ob und wie lange diese gespeichert worden sind und ob diese vor dem Training speziell aufbereitet wurden – also etwa pseudonymisiert oder anonymisiert. Bislang ist OpenAI bei den Trainingsdaten äußerst verschlossen. Spannend ist daher abzuwarten, wie das Unternehmen nun auf die Aufforderungen reagiert.

Die Frist für die Antworten läuft am 7. Juni ab. Wann und ob diese vollständig veröffentlicht werden, lässt sich noch nicht absehen, so die Datenschutzbeauftragte Hansen zu Heise Online. Da „möglicherweise sensible Informationen wie Betriebsgeheimnisse enthalten sind“ und das Verfahren ohnehin nicht öffentlich sei, kann es etwas dauern.

Kampf um die Datenberge

Der Umgang mit Trainingsdaten sowie potenziellen Datenquellen bleibt also eines der zentralen Themen bei der LLM-Regulierung – und das nicht nur aus der Perspektive des Datenschutzes. Dass LLM-Entwickler wie OpenAI die Trainingsdaten offenlegen sollen, ist auch einer der Punkte im AI Act der EU, der derzeit noch viel diskutiert wird. Relevant ist dies auch für Rechteinhaber, die so überprüfen wollen, ob die Urheberrechte eingehalten worden sind – oder sich neue Leistungsschutzrechte einfordern lassen.

Potenzielle Datenquellen wie Reddit und Twitter reagierten bereits selbst mit erhöhten API-Preisen – die Schnittstellen ermöglichen den Zugriff auf die Inhalte der Dienste, die die LLM-Entwickler zum Training der Modelle verwenden. Ein Kollateralschaden ist in diesem Fall aber die Auswirkungen auf Drittanbieter-Apps. Erst diese Woche kündigte die Reddit-App Apollo an, den Dienst unter den aktuellen Bedingungen nicht finanzieren zu können.

In dem Kontext werden die führenden Anbieter von generativen KI-Modellen aber nicht nur für das Datensammeln kritisiert. So spricht Business Insider in einer Analyse von „Heuchelei“. Sowohl OpenAI als auch Google und Anthropic (Claude) untersagen in den Nutzungsbedingungen, dass mittels der KI-Systeme generierte Inhalte verwendet werden dürfen, um konkurrierende Anwendungen oder generell Machine-Learing-Systeme zu trainieren.