ChatGPT Operator: OpenAIs KI-Agent kann eigenständig den Browser bedienen

Andreas Frischholz
40 Kommentare
ChatGPT Operator: OpenAIs KI-Agent kann eigenständig den Browser bedienen

Mit Operator hat OpenAI die Vorschau eines KI-Agentensystems für ChatGPT vorgestellt. Der Assistent ist in der Lage, eigenständig einen Browser zu steuern, um autonom Aufgaben wie Online-Shopping zu übernehmen.

Bis dato haben nur Nutzer von ChatGPT Pro – also dem Abo für 200 US-Dollar pro Monat – einen Zugang. Die Anzahl der Nutzer ist damit deutlich begrenzt. OpenAI will so Feedback sammeln und damit dann die Entwicklung vorantreiben.

GPT-4o Vision als Grundlage

Hinter dem Operator steckt das Modell Computer-Using Agent (CUA). Grundlage ist die Vision-Funktion von GPT-4o, damit der Agent erkennt, was auf dem Bildschirm passiert. Optimiert wurde das Modell durch erweitertes Reinforcement Learning. So wurde CUA darauf trainiert, mit grafischen Benutzeroberflächen zu interagieren. Die Fähigkeiten umfassen etwa das Klicken auf Schaltflächen, das Bedienen von Menüs oder die Texteingabe in Formulare.

Über einen integrierten Browser kann sich Operator auf diese Weise im Web bewegen. OpenAI zufolge kann der Agent den Nutzer bei unterschiedlichen Aufgaben unterstützen. Als Beispiel nennt man etwa die Planung eines Abendessens: Per Prompt-Eingabe kann man sagen, dass man ein bestimmtes Gericht essen möchte und der Assistent ein Rezept heraussuchen und die Zutaten in eine Einkaufsliste packen soll. In der Präsentation identifiziert der KI-Agent dann auf der genannten Rezept-Webseite die Zutaten und packt sie bei dem Lebensmittelhändler in den Warenkorb.

Entscheidend wirkt hier, dass OpenAI bereits direkt mit Partnern zusammenarbeitet. In der Präsentation werden zumindest explizit bestimmte Anbieter genannt, zusätzlich nennt OpenAI verschiedene Unternehmen wie Instacart, OpenTabe oder Uber, mit denen man bei der Entwicklung zusammenarbeite.

2025 als Jahr der Agenten

Grundsätzlich ist der Operator laut OpenAI bereits in der Lage, selbst Fehler zu bemerken und zu korrigieren. Wenn es nicht gelingt, soll der Nutzer die Kontrolle zurückerhalten. Noch befindet sich das System aber in einer frühen Entwicklungsphase, dementsprechend würden auch noch Limitierungen existieren.

OpenAI sind derweil nicht die ersten, die ein solches System vorstellen. Letztes Jahr hat bereits Anthropic einen Agenten vorgestellt, der selbständig Computer bedienen kann. Google arbeitet mit dem Projekt Astra ebenfalls an komplexeren Agenten, die Nutzer im Alltag unterstützen sollen. In Microsoft 365 sind derweil Copilot-Agenten abrufbar.

Grundsätzlich handelt es sich bei Agenten um KI-Systeme, die komplexere Aufgaben in mehreren Schritten autonom erledigen können. Praktisch alle KI-Anbieter haben solche Systeme in der Entwicklung. 2025 wird daher auch als Jahr der KI-Agenten erwartet, heißt es in einer Analyse von Platformer-Autor Casey Newton.