ChatGPT: GPT-4o-Sprachmodus mit Echtzeit-Gesprächen und Emotionen verzögert sich
Bei OpenAIs Spring-Update-Event beeindruckte vor allem der neue Sprachmodus von ChatGPT, der durch die multimodalen Verbesserungen im GPT-4o-Modell möglich ist. Verfügbar ist dieser allerdings noch nicht und der Start verzögert sich auch.
Das erklärte OpenAI in einer Ankündigung auf dem Discord-Server. Innerhalb der Alpha-Phase sollten die neuen Sprachfunktionen Ende Juni einer kleinen Gruppe von ChatGPT-Plus-Nutzern bereitgestellt werden. Abonnenten der kostenpflichtigen Version erhalten neue Funktionen generell früher.
Nun nennt OpenAI aber Ende Juli als Termin, man benötige noch Zeit. So arbeiten die Entwickler derzeit noch daran, dass das Modell die Inhalte erkennt, zu denen es keine Antworten geben soll. Ebenso wird die Infrastruktur auf die Skalierung vorbereitet, die erforderlich ist, um Millionen von Anfragen in Echtzeit zu beantworten.
Der grundsätzliche Fahrplan bleibt aber wie gehabt: Mit einer kleinen Gruppe an Nutzern will OpenAI zunächst Feedback sammeln. Die laufend verbesserten Sprachfunktionen werden dann einer immer größeren Anzahl an Nutzern bereitgestellt. Bis Herbst sollen alle ChatGPT-Plus-Nutzer die neue Sprachfunktion nutzen können.
Authentische AI-Assistenten durch neue Sprach- und Videofunktionen
Dasselbe gilt für die Bildschirm- und Videofreigabefunktion. Durch diese ist der Chatbot in der Lage, entweder die Inhalte auf dem Bildschirm oder die Aufnahmen der Kamera zu erfassen und diese zu verarbeiten. OpenAI präsentierte diese Funktion mit zwei Smartphones, die eine Art Gespräch führten. Microsoft zeigte derweil auf der Entwicklerkonferenz Build 2024, wie der auf GPT-4o basierende Copilot-Assistent in der Lage war, einen Minecraft-Spieler mit Ratschlägen zu unterstützen.
In ChatGPT ist GPT-4o zwar schon verfügbar. Bis dato beschränkt sich der Einsatz aber auf die Textfunktionen.
Generell soll ChatGPT mit den neuen Sprachfunktionen als eine Art authentischer Gesprächspartner wirken. Ein Aspekt ist, dass Antworten schneller erfolgen. Die durchschnittliche Reaktionszeit soll bei 320 Millisekunden liegen, was in etwa der von Menschen entspricht. Bis dato sind es im Schnitt einige Sekunden, die benötigt werden, um eine Antwort zu berechnen. Ein weiterer Punkt sind die Emotionen. So konnte der AI-Chatbot in den Vorführungen etwa überrascht oder sarkastisch wirken.
Praxistest steht noch aus
Die neuen Sprach- und Videofunktionen beeindruckten zwar bei den Vorführungen. Noch muss sich aber zeigen, inwieweit die Inhalte aus den Präsentationen tatsächlich auf den Alltag übertragen lassen. Generell zeigen sich schnell die Lücken und Schwachstellen im System, wenn eine große Anzahl an Nutzern die Funktionen testen – und die Fähigkeiten mit teils ausgefallenen Prompt-Eingaben ausreizen.
Wie schnell so etwas nach hinten losgehen kann, verdeutlichte unter anderem das Debakel rund um Googles neue AI-Suchmaschine. Google rechtfertige die teils katastrophalen Antworten mit ungewöhnlichen Suchanfragen der Nutzer.