Experten-Einschätzungen: Wie sich OpenAIs neues o1-Modell im Vergleich zu GPT-4o schlägt
Lange wurde schon ein großer Wurf von OpenAI erwartet. Nun sieht es so aus, als könnte die o1-Modellreihe das sein, was als GPT-4-Nachfolger gehandelt wurde. Kurz nach dem Start geben Experten erste Einschätzungen ab. Eine der Erkenntnisse: Die bis dato verfügbare Vorschau von o1 setzt vor allem bei den bisherigen Schwächen an.
Fortschritte gibt es vor allem bei Logik-Aufgaben, die eine Planung in mehreren Schritten erfordern, schreibt Ethan Mollick, Professor an der Wharton School der University of Pennsylvania, in seinem Newsletter. Er hatte bereits vorab Zugang zu der o1-Vorschauversion, die im Vorfeld der offiziellen Ankündigung unter dem Codenamen Strawberry bekannt war.
Die Vorteile, die o1 gegenüber GPT-4o hat, zeigt Mollick am Beispiel eines Kreuzworträtsels. Solche Aufgabentypen sind für Large Language Models (LLM) bis dato nur schwer zu lösen, weil es nicht ausreicht, einfach eine Frage zu beantworten. Welche Lösung korrekt ist, hängt sowohl von den anderen Antworten als auch der Anzahl der Buchstaben ab, die verwendet werden dürfen. Eine Lösung zu finden, ist daher auf mehreren Ebenen komplex – die Antwort lässt sich nur schrittweise ermitteln.
Laut Mollick zeigen sich in solchen Fällen die Vorteile, wenn ein System länger „nachdenken“ kann. Bei seiner Kreuzworträtsel-Abfrage waren es stattliche 108 Sekunden; die einzelnen Berechnungsschritte – die Mollick als Screenshot teilt – liefern interessante Einblicke in die Vorgänge.
Die Vorschauversion von o1 ist, so Mollick, zwar schon in der Lage, Dinge zu erledigen, die zuvor nicht möglich gewesen wären. Die bekannten Probleme existieren aber weiterhin. So komme es zu Fehlern und Halluzinationen, begrenzt seien die Fähigkeiten zudem durch die „Intelligenz“ von GPT-4o, das auch die Grundlage von o1 ist.
o1 soll Schwächen ausmerzen
Weil die Fortschritte sich zunächst auf Logik-Aufgaben beschränken – und Alltagsfunktionen wie Web-Browsing und Daten-Upload mit o1 noch nicht möglich sind –, geht Alex Kantrowitz vom Big-Technology-Newsletter davon aus, dass zunächst diejenigen enttäuscht sein könnten, die ChatGPT derzeit für Schreib-, Redaktions- und Marketingaufgaben nutzen. Begeistert dürften eher diejenigen sein, die AI-Systeme im Bereich Mathematik und Coding verwenden.
Einige Aspekte könnten aber auch im Alltag von Durchschnittsnutzern ankommen. Wie der Autor Georg Schmalzried analysiert, geht es bei o1 im Kern ohnehin nicht darum, bisherige Stärken von LLM-Chatbots zu verbessern. Das Ziel ist, die Schwächen auszumerzen. Und nach seinen ersten Tests sieht er Fortschritte. So ist ChatGPT mit dem neuen Modell etwa in der Lage, die Anzahl von bestimmten Buchstaben in einem Wort präzise zu zählen. Bei solchen Aufgaben scheitert GPT-4o regelmäßig. Generell ist der Umgang mit Zahlen verbessert – ein Aspekt, der bislang zu den Schwachpunkten zählt. Schmalzried untermauert das in seinem Newsletter-Beitrag anhand einiger Beispiele, die verschiedene Zählaufgaben umfassen.
OpenAI bleibt verschlossene Firma
Gary Marcus bezeichnet die o1-Vorstellung ebenfalls als beeindruckend, verweist aber auf kritische Punkte. Neben bekannten Problemen wie dem Halluzinieren bemängelt er, dass o1 auch technisch nicht der große Wurf ist, der von OpenAI und Partnern wie Microsoft immer wieder angedeutet wurde. Bei Logikspielen wie Tic-Tac-Toe habe es etwa immer noch Probleme, trotz der Fortschritte.
Hinzu kommt das generelle Vorgehen von OpenAI: Bei den veröffentlichten Informationen behält sich die KI-Firma erneut bedeckt. Verschwiegenheit bleibt ein wesentlicher Bestandteil der Strategie. Ebenso würden keine Modelle bereitgestellt, die die wissenschaftliche Community ausführlich testen könnte, so Marcus.