News
Apps

Sprachmodus von GPT-4o: Emotionen für ChatGPT starten in die Alpha-Phase

31.7.2024 14:47 Uhr

Der Schritt in die Alpha-Phase ist geschafft, OpenAI verteilt den neuen Sprachmodus von ChatGPT an erste Nutzer der kostenpflichtigen Plus-Variante. Nach und nach sollen weitere kommen. Im Laufe des Herbsts soll der neue Sprachmodus dann für alle ChatGPT-Plus-Abonnenten verfügbar sein.

Emotionen für ChatGPT

ChatGPTs neue Sprachfähigkeiten stellte OpenAI im Mai beim Spring-Update-Event vor. Aufgrund des überarbeiteten GPT-4o-Modells soll der Chatbot künftig wie ein authentischer Gesprächspartner wirken. Neben schnelleren Antwortzeiten, die mit 320 Millisekunden in etwa auf dem Niveau von Menschen liegen sollen, will man das vor allem über Emotionen erreichen. Bei der Vorführung wirkte der Chatbot etwa überrascht oder reagierte sarkastisch.

We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024

Eigentlich sollte der Start der Alpha-Phase längst erfolgt sein, OpenAI musste den Termin aber verschieben. Der Grund waren Sicherheitsmechanismen sowie die Skalierbarkeit der Infrastruktur, die nötig ist, um Millionen von Anfragen in Echtzeit zu beantworten.

Meldungen zu GPT-4o

Nun können also erste Plus-Nutzer den neuen Sprachmodus verwenden. Wer ausgewählt ist, erhält die Information per Mail und über einen Hinweis in der App.

GPT-4o ist im Grundgerüst zwar schon länger verfügbar. Dabei handelt es sich bis dato aber nur um die Textfunktion. Neben dem Sprachmodus verzögert sich auch noch der Start der Bildschirmaufnahme-Funktion. Diese beeindruckte bei der Präsentation besonders, weil ChatGPT so etwa auch Aufnahmen der Kamera auswertete und damit auf Geschehnisse im Raum reagieren konnte.

Whistleblower kritisiert OpenAIs Trainingsbedingungen

Bei der Ankündigung beschreibt OpenAI auch nochmals die Testphase. Mehr als 100 externe Personen wären in Red Teams tätig gewesen, um Fehler und Sicherheitslücken in den neuen Modellen zu entdecken. Um die Privatsphäre von Menschen zu schützen, habe man das Modell darauf trainiert, nur mit den vier Stimmvorlagen zu sprechen – Deepfakes will man so also verhindern. Darüber hinaus gibt es wie üblich Richtlinien, die die Ausgabe von gewalttätigen oder urheberrechtlich geschützten Inhalten blockieren.

Klar ist die Botschaft: Man nehme Sicherheit ernst und beachte auch die aktuelle Marktlage, die geprägt ist von Diskussionen rund um Sicherheitsaspekte wie eben Deepfakes oder Copyright-Verstößen der KI-Firmen.

Der Haken: Interne Stimmen lassen anders verlauten. So erklärten drei mit den Vorgängen vertraute Personen der Washington Post, OpenAIs Sicherheitsteam fühlte sich im Frühjahr unter Druck gesetzt, das Testprotokoll zu beschleunigen. Oberstes Ziel war demnach nicht, Schwachstellen zu identifizieren. Stattdessen sollte der Starttermin im Mai eingehalten werden.

Die After-Show-Party zur Ankündigung wurde etwa bereits geplant, bevor überhaupt klar war, ob das Modell – also GPT-4o – sicher ist. „Wir haben bei dem Prozess grundsätzlich versagt“, sagte eine der Personen der Washington Post.

OpenAI erklärte in einer Stellungnahme hingegen, man habe bei den Sicherheitstests keine Abkürzungen genommen. Das Unternehmen sei sich aber bewusst, dass es sich im Vorfeld des GPT-4o-Starts um eine stressige Phase gehandelt habe.