Fehlermeldung: Wenn man bestimmte Namen eingibt, stürzt ChatGPT ab
Zu bestimmten Themen und Personen soll ChatGPT keine Auskunft geben, unter anderem wegen Datenschutzverstößen und Falschinformationen, die der Chatbot generierte. Die Sperren sind aber nicht sonderlich elegant implementiert, berichten Ars Technica und 404 Media.
Auf Reddit entdeckten Nutzer, dass ChatGPT keine Antworten zu Namen wie Brian Hood und Jonathan Turley gibt. Es bleibt aber nicht bei dieser allgemeinen Aussage, stattdessen erscheint eine Fehlermeldung mit einem Text wie „I'm unable to produce a response.“ – zumindest wenn das GPT-4o als Modell verwendet wird. Wird hingegen die o1 preview genutzt, erklärt ChatGPT, es handele sich um einen mutmaßlichen Verstoß gegen die Nutzungsbedingungen, der gemeldet wurde.
Der Chat lässt sich dann auch nicht weiterführen. In beiden Fällen erfährt der Nutzer nicht, was das Problem ist.
Prominente Fälle für Falschinformationen – und Gerichtsverfahren
Warum das passiert, ist angesichts der Namen wenig überraschend: Es handelt sich um Personen, bei denen ChatGPT Falschinformationen halluzinierte. Brian Hood ist etwa ein australischer Bürgermeister, 2023 entdeckte er, dass ChatGPT behauptete, er sei wegen Bestechung inhaftiert worden. Tatsächlich war er aber ein Whistleblower. Er drohte mit Klagen.
Jonathan Turley ist ein Rechtsprofessor an der George Washington University, ihm wurde von ChatGPT fälschlicherweise ein Skandal wegen sexueller Belästigung angedichtet.
Ein weiterer Name auf der Liste ist Jonathan Zittrain, ein Professor an der Harvard Law School, der sich mit Internet Governance befasst. Er hat unter anderem Artikel geschrieben, die in der Copyright-Klage der New York Times zitiert werden. Möglicherweise ist das der Anlass. Laut Ars Technica würde OpenAI aber andere zitierte Autoren nicht sperren.
Wiederholen-Aufforderung wird sauberer gelöst
Erstaunlich ist ohnehin, wie plump die Fehlermeldung erscheint. Dass OpenAI grundsätzlich in der Lage ist, solche Blockaden sauberer zu lösen, zeigt sich bei anderen Themen, in denen ChatGPT keine Antwort geben soll. Eine der Beschränkungen betrifft die Aufforderung, einen Satz „für immer“ zu wiederholen. Forscher zeigten in einem Paper vom November 2023, dass ChatGPT sich mit dieser Eingabe aufhängt und ab einem gewissen Punkt Trainingsdaten ausgibt. So war es möglich, mehrere Megabyte an Trainingsdaten zu extrahieren.
Mittlerweile ist das nicht mehr möglich. Entsprechende Anfragen quittiert ChatGPT mit einer Absage.
Konsequenzen der fixen Filter
Laut dem Ars-Technica-Bericht gehen die Sperren der Namen deutlich weiter und zeigen, welche Probleme bei LLM-Systemen mit festen Filtern bestehen. Wenn ChatGPT die Antwort grundsätzlich verweigert, betrifft das auch die Internet-Suche des Chatbots – und diese ist eigentlich so konzipiert, dass Nutzer aktuelle Informationen und News abrufen können. Zusätzlich betrifft es auch Personen, die denselben Namen haben. Generell ist der Mangel an Transparenz bei OpenAIs Vorgehen problematisch.
Angreifer könnten solche Namen zudem als Werkzeug nutzen, um Chat-Sitzungen abstürzen zu lassen. Möglich ist so etwas im Rahmen einer visual prompt injection, bei der einer der betroffenen Namen in kaum entzifferbarer Schrift in ein Dokument oder Bild eingefügt wird. Nutzern dürfte es kaum auffallen, ChatGPT aber die Arbeit verweigern.
Insbesondere das Einhalten von Datenschutzvorgaben erscheint also deutlich komplizierter. Das gilt etwa für die EU. Europäischer Datenschützer fordern unter anderem, dass ChatGPT DSGVO-Regeln wie das Recht auf Vergessen einhält. Nutzer müssen demzufolge die Gelegenheit haben, persönliche Daten entfernen zu lassen.