GPT-4.5 veröffentlicht: OpenAIs bis dato größtes Modell ohne Reasoning-Fähigkeiten

Andreas Frischholz
4 Kommentare
GPT-4.5 veröffentlicht: OpenAIs bis dato größtes Modell ohne Reasoning-Fähigkeiten
Bild: OpenAI

OpenAI hat eine Vorschauversion von GPT-4.5 veröffentlicht. Laut dem Blog-Beitrag ist es das bislang größte Modell, das am besten für Chats geeignet ist. Es soll sich noch natürlicher als die Vorgänger anfühlen.

Bei der Entwicklung von GPT-4.5 skalierte OpenAI die Trainingsphasen des Modells, indem man mehr Daten und Computing-Power einsetzte. Hinzu kommen Neuerungen bei der Architektur sowie weitere Optimierungen. Vor allem durch die Skalierung beim unüberwachten Lernen („unsupervised learning“) wurden laut OpenAI Aspekte wie die Mustererkennung oder das Generieren kreativer Erkenntnisse verbessert.

GPT-4.5 ist kein Reasoning-Modell

Fortschritte entstehen so bei Anwendungen wie Schreiben, Programmieren oder dem Lösen praktischer Probleme. Generell hat das Modell eine breitere Wissensbasis und ein tieferes Verständnis der Welt. Laut OpenAI geht man zudem davon aus, dass es weniger halluziniert – also Fakten erfindet, wenn die Datenlage unklar ist.

Um ein Reasoning-Modell handelt es sich bei GPT-4.5 aber nicht. OpenAI spricht generell von zwei Achsen, um die Entwicklung zu skalieren. Während beim unüberwachten Lernen die Genauigkeit sowie die Intuition des Weltmodells verbessert werden, steigert das Reasoning die Fähigkeit des Modells, bei dem Beantworten des Modells eine Art „Denkprozess“ zu starten.

Das betrifft Modelle wie die o1-Reihe, aber auch die Thinking-Modelle von Google sowie Claude 3.7 Sonnet von Anthropic. Diese verlagern Ressourcen auf die Inferenzphase, bei der die Antwort auf eine Anfrage berechnet wird. Dadurch sind sie in der Lage, Aufgaben in mehrere Schritte zu unterteilen und unterschiedliche Lösungswege zu testen. Das hilft bei Logikaufgaben.

GPT-4.5 zunächst für ChatGPT Pro, weitere Abo-Klassen folgen

Derzeit läuft GPT-4.5 noch als „research preview“. Es handelt sich also um eine Vorschauversion, die bislang nur die Nutzer verwenden können, die 200 US-Dollar pro Monat für ChatGPT Pro zahlen. Nutzer von ChatGPT Plus und Team sollen nächste Woche den Zugang erhalten, die Varianten Enterprise und Edu folgen später.

Bei den ChatGPT-Funktionen unterstützt GPT-4.5 die Websuche, den Bilder- und Dokumenten-Upload sowie die Canvas-Oberfläche. Multimodale Funktionen wie der Sprachmodus, Video und Screensharing fehlen aber noch.

Über die API ist es ebenfalls verfügbar. Weil es sich um ein besonders großes und rechenintensives Modell handelt, sind die Preise jedoch auch entsprechend hoch. Laut OpenAI sei es daher kein Ersatz für GPT-4o.

Sprachlich top, bei Logik hinter o3-mini

Wie GPT-4.5 konzipiert ist, zeigt sich dann auch bei den Benchmarks. Bei Logikaufgaben kann es sich deutlich von GPT-4o absetzen, liegt aber ebenfalls noch merklich hinter o3 mini (high). Bei dem Mathe-Benchmark AIME ´24 erreicht o3-mini 87,3 Prozent, GPT-4.5 36,7 und GPT-4o 9,3 Prozent. Bei sprachlichen Benchmarks wie dem MMMLU kommt GPT-4.5 auf 85,1 Prozent, während GPT-4o bei 81,5 und o3-mini bei 81,1 Prozent liegen.

Benchmark-Ergebnisse von GPT-4.5
Benchmark-Ergebnisse von GPT-4.5 (Bild: OpenAI)

Interessanterweise ordnet es OpenAI daher nicht generell als „frontier model“ ein, sondern bezeichnet es lediglich als „frontier model“ im Bereich des unüberwachten Lernens.

Fortschritte im Vergleich zu den Vorgängern sind dennoch vorhanden. Wie groß diese sind, illustriert OpenAI im Blog-Beitrag anhand der Frage, was die erste Sprache war. GPT-1 konnte 2018 noch keine sinnvolle Antwort geben, bei GPT-2 aus dem Jahr 2019 waren es einige abstrakte Sätze. Gehaltvoller wurden die Antworten dann ab GPT-3.5T (2023), GPT-4T von 2024 ist nochmals ausführlicher. GPT-4.5 setzt sich dann nochmals von den Vorgängern ab, die Antwort ist präziser und umfasst mehrere Facetten des Themas.

Ein hybrides Reasoning-Modell hat weiterhin nur Anthropic

Wie von OpenAI-Chef Altman im Vorfeld angekündigt, besitzt GPT-4.5 keine Reasoning-Fähigkeiten, das kommt erst mit GPT-5. Damit liegt es hinter Claude 3.7 Sonnet von Anthropic. Dieses Modell kombiniert die klassischen LLM-Fähigkeiten mit einem Reasoning-Modell, das bei Logik-Aufgaben Vorteile hat.

Wo gibt es GeForce RTX 5090, 5080 oder 5070 Ti zu kaufen? Unser RTX-50-Verfügbarkeits-Check informiert über (absurd teure) Listungen.