Fehler und Halluzinationen: ChatGPTs Suchfunktion erfindet Ergebnisse für DFB-Pokalspiele
Mit der integrierten Suchmaschine soll ChatGPT in der Lage sein, tagesaktuelle Informationen auszugeben. Noch kämpft die Funktion aber mit der Zuverlässigkeit. Das zeigt eine Analyse aus den USA, aber auch Tests in der Redaktion. So erfindet ChatGPTs Suchfunktion etwa Ergebnisse für die aktuelle DFB-Pokalrunde.
Selbst bei News-Partnern nicht akkurat
Ausgangspunkt ist zunächst eine Analyse vom Tow Center for Digital Journalism, Futurism berichtet von den im Columbia Journalism Review präsentierten Ergebnissen.
Für den Test nutzten die Forscher 200 Zitate aus 20 News-Publikationen. ChatGPT sollte die Zitate dann jeweils einer Quelle zuordnen. Eines der Kernprobleme ist demnach: Wenn ChatGPTs Suchfunktion die eingegebenen Informationen keiner News-Publikation zuordnen kann, tendiert der Chatbot dazu, Quellen zu erfinden. Es ist also das sogenannte Halluzinieren – ein Phänomen, was die Debatte um generative AI-Chatbots von Anfang an prägt.
Im Fall der ChatGPT-Suchfunktion kommt es auch zu einer fehlerhaften Zuordnung, wenn der Zugriff überhaupt nicht möglich ist, weil einige Medien wie die New York Times OpenAIs Web-Crawler per Robots.txt-Eintrag aussperren. Die eigentliche korrekte Antwort wäre in solchen Fällen, dass die Quelle nicht auffindbar ist oder ChatGPT keinen Zugang hat. So etwas erfolgte aber kaum, laut der Analyse war es nur in sechs von 200 Fällen der Fall. Das ernüchternde Resultat lautet ohnehin: Während 47 Zitate korrekt zugeordnet wurden, waren die Antworten bei 57 Zitaten teilweise und 89 Zitaten komplett falsch.
Selbst bei News-Partnern sind Ergebnisse nicht immer korrekt
Bei der Web-Suche verspricht OpenAI, dass sich Informationen aus dem Internet in Echtzeit abrufen lassen. OpenAIs Web-Crawler geht dabei wie eine normale Suchmaschine vor, ChatGPT fasst dann die als relevant bewerteten Informationen zusammen und ergänzt die Antworten um Bilder sowie eine Quellen-Liste. Die News-Quellen lassen sich dabei in drei Kategorien unterteilen:
- Offizielle Partner mit Lizenzabkommen. Dazu zählten Politico, Wired, die Financial Times oder The Altantic.
- Nachrichtenseiten, die OpenAI einen Zugang per Web-Crawler ermöglichen. Das gilt etwa für die Washington Post.
- Nachrichtenseiten, die OpenAIs Web-Crawler via Robots.txt blockieren. Dazu zählt etwa die New York Times, die sogar eine Copyright-Klage gegen OpenAI eingereicht hat.
Partner, mit denen OpenAI ein Lizenzabkommen hat, schneiden in diesem Test generell besser ab. Bei der Financial Times und dem MIT Tech Review sind jeweils sieben Zitate korrekt zugeordnet, das ist Platz 1 im Test. Umgekehrt zeigt das aber auch: Selbst mit priorisiertem Zugang bestehen Probleme. Bei den Medien, die ChatGPTs Zugang blockieren, sind die Ergebnisse tendenziell am schlechtesten. Eine komplette Übersicht bieten die Forschenden via DataWrapper.
Was den Forschenden zudem noch aufgefallen ist: Die Antworten sind nicht konsistent. Gibt man eine Anfrage mehrmals ein, können sich die Ergebnisse unterscheiden.
ChatGPTs Suchfunktion kämpft ebenfalls mit Zahlen
Dass die Qualität der Antworten schwankt, lässt sich auch im alltäglichen Umgang feststellen. Bei allgemeinen Fragen wirkt ChatGPTs Suchfunktion generell sicherer. In Südkorea hatte der Präsident Yoon Suk Yeol gestern Abend kurzzeitig das Kriegsrecht ausgerufen und damit eine Staatskrise ausgelöst. Diese Geschehnisse fasst ChatGPT präzise zusammen.
Beobachten lassen sich aber auch Schwächen, die insbesondere im Umgang mit Zahlen bestehen, wie ein Test in der Redaktion (Stand: 4. Dezember 2024, ca. 15.30 Uhr) zeigt. Bei einer Frage nach den Ergebnissen der DFB-Pokal-Runde, die gestern und heute stattfindet, ist die Qualität der Antworten schlicht mies.
Von den vier Spielen gestern Abend werden lediglich zwei der Ergebnisse korrekt angezeigt. Noch kurioser: ChatGPT zeigt auch schon Ergebnisse für heute Abend, demnach verliert etwa Eintracht Frankfurt mit 2:3 gegen RB Leipzig. Für dieses Spiel liefert der Chatbot auf Nachfrage sogar eine Zusammenfassung, obwohl um 20.45 Uhr erst Anpfiff ist.
Bei einem zweiten Versuch mit angepasstem Prompt schafft es ChatGPT übrigens, die korrekten Ergebnisse für die Spiele von gestern Abend zu nennen und für heute Abend die Anstoßzeiten. In weiteren Versuchen wurden dann aber wieder Ergebnisse erfunden und bekannte Spielstände fehlerhaft ausgegeben.
Zeitpunkt eines Ereignisses und Prompts scheinen die Fehlerquote zu erhöhen
Naheliegend ist angesichts dieser Ergebnisse, dass der Zeitpunkt eines Ereignisses die Fehlerquote erhöht – je aktueller die Informationen, desto problematischer die Antworten. So etwas ließ sich bereits bei ChatGPTs ursprünglichem Web-Zugang beobachten. Dieser war allerdings auch nicht so explizit auf Echtzeit-Informationen ausgelegt, wie es bei der aktuellen Suchfunktion der Fall ist.
Eine weitere Baustelle sind Prompts. So ergeben weitere Tests in der Redaktion: Bei NFL-Ergebnissen ist ChatGPT mit einem präzisen Prompt wie „Wie lauten die Ergebnisse vom 13. Spieltag der NFL?“ in der Lage, die Ergebnisse vom 13. Spieltag korrekt darzustellen. In diesem Fall sind die Ergebnisse sogar mit schludrigen Prompts wie „Letzter Spieltag NFL Ergebnisse wie?“ akkurat, allerdings enthält die Übersicht dann auch Resultate vom 12. Spieltag. Mehrere Testläufe führen also auch bei diesem Beispiel dazu, dass die Ergebnisse nicht 100-prozentig korrekt sind.
Dennoch scheint es hilfreich zu sein, bei den Prompts darauf zu achten, dass diese möglichst präzise sind. Überzeugend ist das für eine Suchfunktion, die akkurate Informationen liefern soll, dennoch nicht. Und es geht auch besser. Zumindest ist der Konkurrent Perplexity in den Tests der Redaktion in der Lage, selbst mit schludrigen Prompts korrekte Ergebnisse zu liefern.