Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

Andreas Frischholz
146 Kommentare
Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen
Bild: pixabay.com / Tumisu

OpenAI verbessert die Voice Engine. Das Modell ist im Kern bereits seit 2022 verfügbar. In der neuesten Ausbaustufe ist es in der Lage, mit 15-sekündigen Sprachfetzen die Stimme zu klonen. Aufgrund von Sicherheitsbedenken ist das Tool aber noch nicht offiziell verfügbar.

Auszüge, die OpenAI in einem Blog-Beitrag bereitstellt, wirken bereits beeindruckend. Anhand der rund 15 Sekunden langen Erzählschnipsel wird gezeigt, wie sich damit komplett neue Audio-Spuren generieren lassen, die möglichst realistisch und emotional klingen sollen.

Ende letzten Jahres hat OpenAI begonnen, die Voice Engine mit einer kleinen Gruppe zu testen. Im Rahmen wurden potenzielle Anwendungen entwickelt. Zu diesen zählen:

  • Übersetzungen: Audio-Aufnahmen in Podcasts oder Videos lassen sich so einfach mit den Originalstimmen übersetzen, sodass die Anbieter ein größeres Publikum erreichen können. Zumindest die automatisierte Übersetzung auf Deutsch klingt aber nach wie vor etwas hölzern.
  • Als Lernhilfe: Unterrichtsinhalte können so mit einer vertrauten Stimme maßgeschneidert für bestimmte Gruppen angepasst werden. In Kombination mit GPT-4 ist auch es möglich, personalisierte Antworten in Echtzeit zu erstellen.
  • Medizin: Denkbar sind Anwendungen für Personen mit Sprachproblemen oder diejenigen, die versuchen, ihre Sprachfähigkeiten wieder zu entwickeln.
  • Entwicklungshilfe: Wenn Entwicklungshelfer in entlegenen Regionen arbeiten, können Inhalte für die Mitarbeiter vor Ort leichter in den jeweiligen Landessprachen aufbereitet werden.

Noch befindet sich die Voice Engine in einer Testphase, ein Veröffentlichungstermin steht noch nicht fest. Denn vor dem Start steht zunächst die Sicherheit im Fokus, vor allem mit Blick auf Desinformation und das aktuelle Wahljahr. „Wir sind uns bewusst, dass das Erzeugen von Sprache, die menschlichen Stimmen ähnelt, ernsthafte Risiken mit sich bringt“, heißt es in dem Blog-Beitrag. Daher will man sicherstellen, dass die Software nicht missbraucht wird.

Drohende Gefahren: Politischer Missbrauch und Betrug

Partner, die die Voice Engine nutzen dürfen, müssen etwa die explizite Erlaubnis der Person einholen, die die Stimme einspricht. Zuhörer müssen zudem erfahren, dass Aufnahmen künstlich erstellt worden sind. Hinzu kommen technische Maßnahmen wie Wasserzeichen, damit sich prüfen lässt, ob sich in einer Aufnahme um eine synthetische Stimme handelt.

Um vor politischen Missbrauch zu schützen, soll eine Reihe von Stimmen gesperrt werden. Fälschungen von Politikern existieren bereits. So gab es in den USA eine Telefon-Kampagne, bei der ein Stimmklon von Präsident Joe Biden verwendet wurde. Mit den Anrufen sollten Wähler der Demokraten offenbar von einer Teilnahme bei den Vorwahlen abgehalten werden.

Selbst wenn OpenAIs 15-Sekunden-Technologie die Risiken nochmals deutlich erhöht, das Klonen ist auch heute schon möglich. Das Unternehmen spricht sich daher auch für Konsequenzen aus. Dazu zählt die Abschaffung von auf Stimmen basierten Authentifizierungsmaßnahmen, um etwa einen Zugang zu Bankkonten oder sensiblen Daten zu erhalten. Zudem wären Aufklärungskampagnen über potenzielle Betrugsmaschen erforderlich, um die Öffentlichkeit vor den Gefahren zu sensibilisieren.

Voice Engine seit 2022 in der Entwicklung

Entwickelt hat OpenAI die Voice Engine in 2022, zunächst war diese aber nur über die Text-zu-Sprache-API abrufbar. Später war das Modell dann die Grundlage, um die Sprachfunktionen in ChatGPT umzusetzen. Über den Chatbot lassen sich so die Prompts via Sprache eingeben und auch als Sprache ausgeben, sodass es möglich ist, eine Art Unterhaltung zu führen.