Sprung auf dem Weg zur AGI?: OpenAI stellt neues Spitzenmodell o3 vor
OpenAI hat mit o3 zwei neue Modelle angekündigt, die Anfang kommenden Jahres erscheinen sollen. Im Vergleich zu o1 verzeichnen diese nochmals deutliche Fortschritte bei Logikaufgaben und erzielen außerordentlich hohe Werte bei einem Benchmark, der AGI messen möchte.
o3-Modelle kommen 2025
Zunächst soll noch im Januar o3-mini erscheinen, das große Modell der Reihe dann etwas später. Was nun besonders für Aufsehen sorgt, sind die Ergebnisse beim ARC-Benchmark, die o3 erreicht.
Dieser stammt von François Chollet. Bis November 2024 war er KI-Entwickler bei Google, öffentlich bekannt wurde er aber vor allem für seine kritische Auseinandersetzung mit dem Intelligenzbegriff, der im Kontext von LLM verwendet wird. Dieses Denken prägt auch den ARC-Benchmark. Denn bei diesem Test sollen die KI-Systeme mit tendenziell simplen Aufgaben geprüft werden, die sich aber nicht aus den Trainingsdaten ableiten lassen.
Die Herausforderung ist also, selbstständig eine Lösung zu erarbeiten. Während Menschen das im Schnitt bei 80 Prozent der Aufgaben gelingen soll, schaffen aktuelle Modelle wie o1 nur rund 31 Prozent. Vorherige Generationen wie GPT-4o kommen sogar auf lediglich 5 Prozent. Der ARC-Benchmark gilt daher auch als Maßstab für die AGI-Entwicklung, also einer allgemeinen künstlichen Intelligenz (engl. Artificial General Intelligence; AGI), die bei den meisten Aufgaben mit Menschen mithält oder diese übertrifft.
Neuer Meilenstein im ARC-Benchmark
Die neuen o3-Modelle erreichen nun neue Bestwerte. Während eine effiziente Variante auf 75,7 Prozent kommt, schafft die rechenintensive Version 87,5 Prozent. Während OpenAI die Fortschritte bei o3 wenig überraschend als bemerkenswert darstellen, zeigt sich auch Chollet erstaunt. In einem Blog-Beitrag (via Decoder) spricht Chollet von einem überraschenden und wichtigen Funktionssprung in den KI-Fähigkeiten, die man so noch nicht beobachtet habe.
Dass die o1- und o3-Modelle sich so absetzen können, liegt an der überarbeiteten Architektur. Die Modelle „denken nach“, wenn sie Aufgaben lösen – der Fokus verlagert sich also auf die Inferenzphase, bei der das Modell die Antwort berechnet. Um zur korrekten Antwort zu kommen, ist es dabei möglich, verschiedene Lösungswege durchzuspielen.
Teuer ist aber auch der Betrieb der Modelle in dieser Form. Laut Chollet wurden bei dem effizienten Modell 33 Millionen Token verarbeitet, um die Aufgaben zu lösen. So entstehen Kosten in Höhe von 2.012 US-Dollar, was 20 US-Dollar pro Aufgabe entspricht. Und der rechenintensive Weg benötigt 172 mal so viel Computing-Power wie das effiziente Modell.
o3 ist kein AGI-System
Trotz der Fortschritte hält Chollet die neuen o3-Modelle nicht für AGI-Systeme. Dafür würden diese immer noch an allzu leichten Aufgaben scheitern – mit menschlicher Intelligenz wäre das nicht vergleichbar. Zusätzlich betont er, der ARC-Benchmark allein sei ebenfalls kein Gradmesser für AGI. Dieser stehe vielmehr dafür, den Fokus auf eines der zentralen Probleme in KI-Systemen zu richten – das Lösen von Aufgaben, für die es kein Muster in den Trainingsdaten gibt.
Chollet kündigt nun einen Nachfolger für den ARC-Benchmark an. ARC-AGI-2 soll im kommenden Jahr erscheinen und auf dasselbe Prinzip setzen – Aufgaben, die für Menschen einfach zu lösen sind, KI-Systeme aber vor große Herausforderungen stellen.
Als erstes verfügbar sein wird aber o3-mini. Das ist die Version des Modells, die bei den meisten alltäglichen Aufgaben zum Einsatz kommen soll. Zusätzlich können Kunden, die auf die Modelle über die API zugreifen, zwischen verschiedenen Effizienz-Modi wählen. So lässt sich festlegen, wie viel Kapazitäten das Modell hat, um Aufgaben zu berechnen.
Wie Sam Altman noch auf X ergänzt, soll o3-mini bei Aufgaben wie Programmieren das o1-Modell deutlich hinter sich lassen, die Kosten für die Nutzer würden aber deutlich geringer ausfallen.
Google kündigt mit Gemini 2.0 Flash ebenfalls ein „denkendes“ Modell an
OpenAI sind nicht die einzigen Anbieter, die Modelle vorstellen, die Teile der Berechnungen auf die Inferenzphase verlagern. In dieser Woche hat Google mit Gemini 2.0 Flash Thinking ein Modell vorgestellt, das ebenfalls Aufgaben schrittweise löst.
Generell bewerten KI-Forscher eine solche Architektur als Lösung, um die Geschwindigkeit bei der KI-Entwicklung hochzuhalten. Laut Ilya Sutskever, ehemals OpenAI und nun Start-up-Gründer, habe das Skalieren in der Pre-Trainingsphase ein Plateau erreicht. Demnach genügt es nicht mehr, die Menge der Trainingsdaten und Rechenzeit zu erhöhen, um Fortschritte zu erzielen. Es seien neue Ansätze erforderlich, so Sutskever. Die Inferenzberechnungen zu skalieren, ist einer davon.