Vorwurf von OpenAI: DeepSeek soll mit ChatGPT-Inhalten trainiert worden sein
OpenAI wirft dem chinesischen AI-Start-up DeepSeek vor, die Modelle unrechtmäßig mit Material trainiert zu haben, das mit ChatGPT generiert worden ist. Laut einem Bericht der Financial Times habe OpenAI entsprechende Beweise vorliegen.
Bei dem Vorwurf geht es um „Destillation“. Bei diesem Verfahren nutzen Entwickler den Output von großen und leistungsfähigeren Modellen, um kleinere Modelle zu optimieren. So lassen sich bei bestimmten Aufgaben vergleichbare Ergebnisse mit weniger Aufwand erreichen.
OpenAI untersagt in den Nutzungsbedingungen, dass Entwickler den Output von ChatGPT verwenden, um konkurrierende Modelle zu entwickeln.
DeepSeek hatte im Dezember zunächst das V3-Modell veröffentlicht, das laut Benchmarks mit OpenAI-Modellen wie GPT-4o mithalten kann. Letzte Woche folgte das Reasoning-Modell R1, das vergleichbare Ergebnisse wie OpenAIs o1-Modell erzielt. Die Modelle lösten über das Wochenende einen Hype aus – vor allem, weil die Trainingskosten erstaunlich günstig waren.
DeepSeek bezeichnet sich selbst als ChatGPT
OpenAI will sich laut Financial Times nicht näher zu den Hinweisen äußern. Auf Reddit kursierten aber schon seit einigen Tagen Screenshots, in denen DeepSeek auf die Frage „Welches Model bist du?“ mit „Ich bin ChatGPT“ antwortete. Das wurde bereits als Hinweis interpretiert, dass die chinesischen Entwickler auch ChatGPT-Daten verwendet haben.
Copyright-Fragen sind für OpenAI kein unbekanntes Feld. Bis dato richteten sich Klagen aber in erster Linie gegen die KI-Firma. Der Vorwurf von Autoren, Schauspielern und Künstlern lautet: OpenAI nutzte die geschützten Inhalte für das Training der Modelle, ohne die Urheber an den Einnahmen zu beteiligen.
OpenAI bezeichnet das Vorgehen als rechtmäßig. Wenn geschützte Inhalte verwendet worden sind, erfolgte das laut der KI-Firma im Rahmen von Fair-Use-Regelungen.