Bundesdatenschutzbeauftragter: Firmen sollten persönliche Daten nicht für KI-Training nutzen

Update 21.8.2023 9:16 Uhr

Personenbezogene Daten müssten technisch so geschützt werden, dass diese nicht ohne Weiteres für das Training von KI-Modellen verwendet werden, erklärt der Bundesdatenschutzbeauftragte Ulrich Kelber im Deutschlandfunk. Von der Politik fordert er entsprechende Regeln.

Die Meldung wurde um aktuelle Informationen zum Datenschutzverfahren gegen OpenAI ergänzt.

Ein Problem sei zunächst, dass sich von außen kaum nachvollziehen lässt, welche Daten überhaupt für das Training eines KI-Modells verwendet worden sind. Weil die Daten nicht in Rohform in Anwendungen wie ChatGPT abrufbar sind, sondern im Trainingsprozess verarbeitet wurden, sei die KI-Entwicklung für Datenschützer besonderes herausfordernd. „In der Tat ist die Frage, sind öffentlich zugängliche Daten für alle Zwecke verarbeitbar“, so Kelber im Interview.

Als Datenschutzbehörde sei man nicht dieser Meinung. Daher fordert er Reglungen – und ganz konkret auch technische Vorgaben. So müsse es etwa möglich sein, Daten „blocken“ zu können, damit diese nicht von den Systemen erfasst werden. Je nach Anwendung „wäre es (zudem) wichtig, Daten zu pseudonymisieren oder anonymisieren, bevor diese als Trainingsdaten verwendet werden, damit im Nachhinein nicht doch die Gefahr besteht, dass Erkenntnisse über eine Person“ über das KI-System verbreitet werden.

Derzeit arbeiten sowohl die deutsche Datenschutzkonferenz als auch der europäische Datenschutzausschuss an dem KI-Thema. Mit entsprechenden Verfahren ist etwa OpenAI konfrontiert. In diesen Fällen geht es etwa um Grundrechte, die KI-Anwendungen einhalten müssen. Eine der Fragen ist, wie man „eine Korrektur von Daten in dem System erzwingen“ kann, so Kelber.

Update 23.08.2023 16:48 Uhr

Noch dauert das Verfahren an. Bis zum 30. Juni lief die Frist für OpenAI, um den Fragenkatalog der deutschen Datenschützer zu beantworten. Erste Antworten wurden zu diesem Zeitpunkt auch übermittelt, erklärte Schleswig-Holsteins Datenschutzbeauftragte Marit Hansen auf Anfrage von ComputerBase. Für eine datenschutzrechtliche Beurteilung liegen derzeit aber noch nicht alle relevanten Informationen vor. Daher stimmt sich derzeit die KI-Taskforce der Datenschutzkonferenz ab, inwieweit Nachfragen erforderlich sind.

Bis das Verfahren abgeschlossen ist, kann es also noch dauern. Noch ist nicht klar, ob dies bis Ende 2023 der Fall ist, so Hansen.

OpenAIs KI-Webcrawler lässt sich mittlerweile aussperren

Das massenhafte Datensammeln der KI-Firmen wird generell kritisch beobachtet. Im Mittelpunkt steht OpenAI mit ChatGPT, im Kern betrifft die Debatte aber alle Unternehmen. Für Aufsehen sorgte Anfang Juli etwa Google, als publik wurde, wie weitreichend die Rechte sind, die sich der Konzern beim Datensammeln für die KI-Modelle einräumt.

OpenAI hat zuletzt die Angaben zu einem Webcrawler veröffentlicht. Dieser ermöglicht es, eigene Web-Angebote über die Robots.txt von der Datensammlung auszuschließen – es ist also dasselbe Verfahren wie bei Suchmaschinen. Die Lösung nutzen bereits diverse Angebote, dazu zählen Portale wie Stack Overflow oder Medien wie die New York Times.

Plattformen wie Reddit und das zuvor als Twitter bekannte X haben den API-Zugang ohnehin schon begrenzt. Für die KI-Firmen wird es also allmählich schwerer, neue Datenberge anzuhäufen. Hinzu kommen Gerichtsverfahren aufgrund der bestehenden Trainingsdaten, wobei neben dem Datenschutz auch das Urheberrecht betroffen ist. In den USA klagen etwa Autoren und Schauspieler, weil OpenAI ihre Werke für das Training der Modelle verwendet hat, ohne eine explizite Einwilligung einzuholen.