Wikipedia: Daten für KI-Entwickler sollen Bot-Scraper abwehren

Michael Schäfer
6 Kommentare
Wikipedia: Daten für KI-Entwickler sollen Bot-Scraper abwehren
Bild: geralt | CC0 1.0

Wikipedia will künftig verhindern, dass Entwickler von KI-Modellen die Plattform für das eigene KI-Training direkt auslesen. Dafür stellt die freie Online-Enzyklopädie in Kooperation mit der von Google betriebenen Plattform Kaggle einen speziell für das maschinelles Lernen optimierten Datensatz bereit.

Ein Fundus an Wikipedia-Inhalten

Bei Kaggle handelt es sich um eine auf Datenwissenschaft spezialisierte Community-Plattform mit derzeit mehr als 461.000 frei zugänglichen Datensätzen. Der nun in Zusammenarbeit mit Wikipedia veröffentlichte Beta-Datensatz steht auf dieser Infrastruktur bereit und soll „strukturierte Wikipedia-Inhalte in Englisch und Französisch“ enthalten, die „mit Blick auf Workflows für maschinelles Lernen entwickelt wurden“, wie die Wikimedia-Organisation in einem Blog-Beitrag mitteilt. Der Datensatz soll Entwicklern durch maschinenlesbare Artikeldaten das Modellieren, Feinabstimmen, Messen von Leistungen sowie das Vergleichen und Analysieren erleichtern. Enthalten sind Forschungszusammenfassungen, Kurzbeschreibungen, Bildverweise, Daten aus Infoboxen und Artikelabschnitte – jedoch ohne Referenzen oder nicht-textliche Elemente wie Audiodateien. Die Inhalte sind überwiegend unter der Creative Commons Attribution-Share-Alike 4.0 und der GNU Free Documentation License (GFDL) lizenziert.

Entlastung für Wikipedia-Server

Bereitgestellt werden die Daten über die Structured Contents beta der eigenen Snapshot-API von Wikipedia. Diese ermöglicht den Zugriff auf „gut strukturierte JSON-Darstellungen“, wodurch sich die Informationen leichter verarbeiten lassen als durch das übliche Scrapen oder Parsen. Im Unterschied zu diesen Methoden reduziert der bereitgestellte Datensatz zudem die Belastung der Wikipedia-Server erheblich, da der durch automatisierte KI-Bots verursachte Bandbreitenverbrauch nicht unerheblich ist. In 2024 sollen diese den Traffic um 50 Prozent erhöht haben, berichtete Platformer-Autor Casey Newton im April.

Ein weiteres Ziel des Datensatzes ist, kleineren KI-Unternehmen sowie Datenwissenschaftlern den Zugang zu Trainingsdaten zu erleichtern und damit die Entwicklung eigener Systeme zu unterstützen.

Unsere Bots RTX 50 kaufen und RX 9000 kaufen bieten jetzt einen Filter auf Deals⭐ und zeigen den Preistrend📉.

Ihr habt die Wahl: Macht mit bei den Reader's Choice Awards 2025 und bestimmt eure Hersteller des Jahres!