OpenAIs neue Spitzenmodelle: o3 und o4-mini können vor allem Bilder besser verarbeiten

Mit o3 und o4-mini hat OpenAI zwei neue Reasoning-Modelle vorgestellt, die sich bei der Leistungsfähigkeit an die Spitze setzen und mehr Funktionen bieten. So lassen sich mit den neuen Modellen etwa sämtliche Tools in ChatGPT nutzen und sie bieten Vorteile bei Agenten-Systemen.
o3 als neues Spitzenmodell
OpenAIs neues Spitzenmodell ist o3, das sich bei den internen Benchmarks klar an die Spitze setzt. o4-mini ist hingegen auf Effizienz getrimmt und soll Kosten senken. Was beide Modelle vereint: Sie nehmen sich mehr Zeit, um nach einer Anfrage die Antwort zu berechnen. Und man machte Fortschritte beim Verarbeiten von Bildern.
Bei der visuellen Wahrnehmung spricht OpenAI von einem Meilenstein, Bilder sollen erstmals Teil der Chain-of-Thougt sein – also einer Art Gedankenkette, bei der ein Modell eine Aufgabe in Zwischenschritte teilt. „Denken mit Bildern“ nennt OpenAI diesen Prozess, der in der Praxis dazu führen soll, dass ChatGPT etwa Fotos besser auswerten kann – also etwa ein Schild erkennen oder Rätsel lösen. Sichtbar werden diese Fortschritte auch in den Benchmarks, die beiden neuen Modelle können sich deutlich von o1 und GPT-4o absetzen.
Es existieren aber Limitationen. So können die Modelle beim Verarbeiten von Bildern redundante und unnötige Zwischenschritte einlegen, was zu übermäßig langen Chain-of-Thoughts führt. Zudem bestehen noch Wahrnehmungsfehler, was zu falschen Antworten führt. Zuverlässig sind die Modelle dabei nicht, bei mehreren Versuchen können diese bei derselben Aufgabe unterschiedliche Ergebnisse produzieren. Einige sind dabei falsch, Halluzinationen bleiben also eine Baustelle.
Besser in Mathematik, aber noch hakt es
Fortschritte zeigen o3 und o4-mini bei mathematischen Benchmarks wie AIME 2024 und AIME 2025 oder in Bereichen wie dem Programmieren. Generell schaffen es die Modelle, sich von den Vorgängern abzusetzen. OpenAI verweist zudem auf die Erfahrungen von Testern, wonach die Fehlerrate von o3 bei komplexen und realen Aufgaben um 20 Prozent gesunken sein soll. Das betreffe insbesondere Bereiche wie Programmieren, BWL und kreatives Arbeiten.
OpenAI-Forscher wie Noam Brown merken aber selbst an, dass noch viel Arbeit bestehe. So wären die Modelle etwa nach wie vor nicht besonders gut, mathematische Beweise zu schreiben.
Es ist also eine Baustelle, die sich auch bei o3-mini beobachten lässt, wie Ernest Davis und Gary Marcus schildern. Beide verweisen dabei auf eines der gravierenden Probleme der aktuellen KI-Modelle: Diese erkennen das eigene Scheitern nicht, sondern produzieren „falsche“ Beweise, die aber vergleichsweise echt klingen können.
Dass komplexe Mathematik-Aufgaben – etwa auf dem Niveau mathematischer Olympiaden – nicht gelöst werden, sei laut Davis und Marcus daher nicht die relevante Herausforderung. Wichtiger sei, dass die Modelle erkennen, wann sie an einer Aufgabe scheitern. Und das dem Nutzer mitteilen.
Wie Decoder anmerkt, schneidet o4-mini beim PersonQA-Benchmark schlechter als o1 und o3 ab. Bei diesem Test geht es um Fragen zu Persönlichkeiten, also um das Wissen im Modell. OpenAI begründet die Ergebnisse mit dem kleineren Modell, das weniger Weltwissen habe und damit auch eher zum Halluzinieren – also dem Erfinden von Fakten – neige.
Entwicklung lässt sich weiter mit Computing-Power skalieren
OpenAI geht derweil davon aus, dass sich die Modelle mit dem aktuellen Reinforcement-Learning-Ansatz weiter verbessern lassen. Je länger die Modelle „nachdenken“ können, desto besser die Ergebnisse. Das Skalieren von Computing-Kapazitäten stellt also weitere Fortschritte in Aussicht, so die Botschaft, die man im Kontext der Debatte um KI-Investitionen einordnen muss. OpenAI will gemeinsam mit Partnern in vier Jahren bis zu 500 Milliarden US-Dollar in die Infrastruktur stecken, dafür müssen die Aussichten stimmen.
Tool-Nutzung: OpenAI verbessert Agentenfähigkeit
Ebenfalls verbessert wurde bei o3 und o4-mini der Umgang mit Tools, dieser konnte mit dem RL optmiert werden. Die direkte Konsequenz: Mit den neuen Reasoning-Modellen lassen sich erstmals sämtlichen Funktionen in ChatGPT nutzen, also etwa die Web-Suche, der Upload von Daten und Dokumenten, das Verarbeiten von Bildern als Eingabe sowie das Generieren von Bildern.
Generell soll der Umgang mit Tools verbessert worden sein. Die Modelle sind also eher in der Lage, eigenständig zu entscheiden, wann ein bestimmtes Werkzeug nötig ist, um eine Aufgabe zu erledigen.
OpenAI erweitert damit auch die Produktpalette. Mit Codex CLI hat man eine experimentelle Version eines Coding-Agenten veröffentlicht, der als Open-Source-Programm über GitHub abrufbar ist. Dieser läuft lokal auf dem Rechner und ermöglicht visuelles Arbeiten, indem etwa Skizzen oder Screenshots verarbeitet werden.
Neue Modelle arbeiten effizienter
Effizienz ist einer der weiteren Punkte, an denen OpenAI ansetzt. Die Reasoning-Modelle benötigen viel Rechenpower, dementsprechend hoch sind auch die Kosten. Nun sollen laut OpenAIs Werten bereits das o3-Modell bei geringeren Kosten mehr Leistung als das o1-Modell liefern. o4-mini bietet im Vergleich zu o3-mini ebenfalls nochmals Vorteile.
Verfügbarkeit: o3 und o4-mini landen direkt in ChatGPT
Wer ein Abo von ChatGPT Pro, Plus oder Teams besitzt, kann die neuen Modelle sofort nutzen. Diese ersetzen o1 sowie o3-mini und o3-high. Über die API sind o3 und o4-mini ebenfalls verfügbar. Wer die kostenlose Variante von ChatGPT nutzt, kann o4-mini testen, indem „Think“ vor die eigentliche Anfrage geschrieben wird. Begrenzungen bei der Nutzung der einzelnen Modelle, die sich nach den verfügbaren Server-Kapazitäten richten, existieren aber wie gehabt.
In einigen Wochen will OpenAI zudem noch o3-pro veröffentlichen. Das Modell soll dann ebenfalls sämtliche ChatGPT-Tools nutzen können. Bis es erscheint, können Pro-Nutzer – OpenAIs Top-Abo für 200 US-Dollar monatlich – das o1-pro-Modell nutzen.
In Aussicht steht zudem noch GPT-5, das als Hybrid-Modell die Fähigkeiten von herkömmlichen Sprachmodellen mit denen von Reasoning-Modellen vereinigen soll. Der Start verzögert sich aber.
Ihr habt die Wahl: Macht mit bei den Reader's Choice Awards 2025 und bestimmt eure Hersteller des Jahres!