ChatGPT-Entwicklung: OpenAI soll bewusst gegen Copyright-Regeln verstoßen haben
Bei den Copyright-Streitigkeiten steht OpenAI ohnehin unter Druck, zahlreiche Klagen laufen. Nun erklärt ein ehemaliger Mitarbeiter laut einem Bericht der New York Times, dass das KI-Start-up bewusst urheberrechtlich geschütztes Material verwendet habe.
Bei dem ehemaligen Mitarbeiter handelt es sich um Suchir Balaji, er hat bei OpenAI knapp vier Jahre lang als KI-Forscher gearbeitet. Zu seinen Aufgaben zählte unter anderem das Sammeln und Organisieren der Daten, die nötig waren, um ChatGPT zu entwickeln. Vor der Veröffentlichung des Chatbots im November 2022 spielte es seiner Aussage nach keine Rolle, ob Daten urheberrechtlich geschützt waren oder nicht. OpenAI verwendete sämtliche Daten, die im Internet frei verfügbar waren.
Praktisch alle englischsprachigen Internet-Texte für GPT-4
Anfang 2022 startete er mit seinem Team etwa das Sammeln von Trainingsdaten für die GPT-4-Entwicklung. Diese umfassten praktisch alle englischsprachigen Texte aus dem Internet. Für ihn ist dieses Vorgehen kein Fair use – das ist die Rechtsgrundlage, auf die sich KI-Entwickler wie OpenAI und Google berufen, um das massenhafte Datensammeln zu legitimieren.
Balaji selbst gibt an, erst im Nachklang zum ChatGPT-Start ein Unrechtsbewusstsein entwickelt zu haben. Vorher ließen sich Modelle wie GPT-3 nur über die API abrufen, mit dem Chatbot war es dann für alle möglich, einfach und massenhaft Inhalte zu generieren. Für ihn war das mit den rechtlichen Vorgaben nicht mehr vereinbar. Er kam zu dem Schluss, dass OpenAI gegen das Urheberrecht verstößt und Technologien wie ChatGPT generell dem Internet schaden. Im August dieses Jahres hat er laut der New York Times OpenAI auch verlassen.
Neu sind die Vorwürfe nicht, zahlreiche Schauspieler, Künstler und Rechteinhaber klagen. Wichtig an dieser Stelle ist: Zu diesen Unternehmen zählt auch der Verlag der New York Times. Der Vorwurf ist, OpenAI habe Inhalte der Zeitung ohne Erlaubnis verwendet.
Negative Effekte für das Internet
Was die negativen Konsequenzen von ChatGPT für das Internet sind, skizziert Balaji auch in einem Blog-Beitrag. Eine Auswirkung sei etwa, dass bei Portalen wie Stack Overflow sowohl die Reichweite als auch die Anzahl der Nutzeranfragen abgenommen haben. Stack Overflow richtet sich an Programmierer – es ist also eine Berufsgruppe, die ChatGPT am häufigsten nutzen.
Indem die Nutzer aber schlicht ChatGPT verwenden, leiden im Endeffekt die Anbieter, die ursprünglich die Daten erstellt haben. Der Chatbot untergrabe so das Geschäftsmodell von Personen, Unternehmen und Internetdiensten. „Das ist nicht nachhaltig für das Internet-Ökosystem als Ganzes“, so Balaji zur New York Times.
Neu ist der Vorwurf nicht. Bereits seit letztem Jahr läuft die Debatte, ob AI das bisher bekannte Internet tötet. Die Befürchtungen lauten im Kern: Plattformen werden dermaßen von AI-Inhalten überflutet, dass es sich schlicht nicht mehr lohnt, hochwertige Inhalte zu erstellen. Die Konsequenz ist ein Versacken im Status Quo, weil die AI-Chatbots nicht in der Lage seien, neues Wissen zu generieren, sondern nur bekannte Inhalte immer wieder aufwärmen.
Soweit die Sorgen. Allerdings räumt auch Balaji ein, dass sich bei Plattformen wie Reddit bislang noch keine Effekte wie Reichweitenverluste bemerkbar machen. Dennoch hält er einen Rechtsverstoß für wahrscheinlich. OpenAI, Google und weitere KI-Entwickler bestreiten das, man verweist auf die Fair-use-Regeln. OpenAI bekräftigte diese Argumentation auch nochmals auf Anfrage der New York Times.
Für Balaji ist das wenig plausibel. Immerhin wurden Copyright-Abkommen mit Plattformen wie Stack Overflow, Reddit sowie Nachrichtenagenturen wie AP und Verlagen wie Axel Springer abgeschlossen. „Es ist unklar, warum diese Vereinbarungen unterschrieben wurden, wenn das Training mit den Daten 'fair use' war“, so Balaji.