Agenten-KI für ChatGPT-Pro-Nutzer: OpenAI Operator kommt nach Europa

Der Operator ist OpenAIs Agentensystem, das selbständig einen Web-Browser bedienen kann, um Aufgaben wie Online-Shopping für Nutzer zu übernehmen. Nun ist die Vorschauversion auch für ChatGPT-Pro-Nutzer in der EU verfügbar.
ChatGPT Pro ist die Abo-Variante, die 200 US-Dollar monatlich kostet. Laut OpenAI erweitert man mit diesem Schritt die Testphase, um die Operator-Fähigkeiten kontinuierlich zu verbessern. Perspektivisch sollen auch Nutzer der kostenpflichtigen Plus-, Team- und Enterprise-Abos den Zugang erhalten und man will den Agenten direkt in ChatGPT integrieren. Bis dato läuft der Operator als eigenständiges Tool.
Agent surft eigenständig im Netz
Bei den Agenten handelt es sich um KI-Systeme, die komplexere und mehrstufige Aufgaben erledigen, indem diese in einzelne Schritte unterteilt werden. Das Ziel ist, dass die KI-Assistenten komplette Arbeitsabläufe übernehmen können.
Im Fall des Operators bedeutet das: Der Agent ist in der Lage, selbständig einen Web-Browser zu bedienen, um sich für den Nutzer im Internet bewegen zu können. Als Beispiel nennt OpenAI das Thema Online-Shopping: Erklärt man dem Operator, man möchte ein bestimmtes Gericht essen, sucht der Assistent eigenständig die Zutaten auf einer Rezept-Webseite und ordert diese dann bei einem Lebensmittelhändler.
Damit so etwas möglich ist, kooperiert OpenAI mit verschiedenen Internetdiensten. Dazu zählen InstaCart, Booking, Expedia, Uber und Stubhub. Das System agiert zwar autonom, Nutzer können aber jederzeit eingreifen.
Angepasstes GPT-4o -Modell mit Reinforcement Learning
Technisch basiert der Operator auf dem Computer-Using Agent (CUA). Dabei handelt es sich um ein Modell, das die Vision-Funktion von GPT-4o als Grundgerüst nutzt und durch Reasoning-Fähigkeiten ergänzt, die mittels Reinforcement Learning erweitert worden sind. CUA wurde darauf trainiert, mit grafischen Benutzeroberflächen zu interagieren. So ist es in der Lage, herkömmliche Bedienelemente wie Schaltflächen, Menüs und Texteingabefeldern zu nutzen; es braucht also keine spezifischen APIs, sondern agiert unabhängig. Der Web-Browser ist aber direkt integriert.
Eher Demo als Assistent
Den Operator bezeichnet OpenAI derzeit noch offiziell als Research Preview, es ist also eine Vorschauversion. Diesen Eindruck hinterlässt das Tool in den Berichten, die Nutzer auf Plattformen wie Reddit teilen. Dort wird das Agenten-System vor allem als Tech-Demo bezeichnet, die zwar interessant sei, aber noch zu viele Mängel habe und Fehler produziere.
OpenAIs zweites Agenten-System ist Deep Research. Dieser Assistent ist in der Lage, umfangreiche Rechercheberichte zu erstellen. Diese liefern eine ordentliche Qualität, wie etwa die Tests von ComputerBase zeigen. Fehler und falsche Informationen sind aber ein Problem, sodass man das Tool im Endeffekt nur Nutzern empfehlen kann, die Berichte für Themen erstellen wollen, mit denen sie so vertraut sind, dass sie auch unscheinbare Fehler zuverlässig erkennen.

