News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

Andy · 31. März 2024

OpenAI verbessert die Voice Engine. Das Modell ist im Kern bereits seit 2022 verfügbar. In der neuesten Ausbaustufe ist es in der Lage, mit 15-sekündigen Sprachfetzen die Stimme zu klonen. Aufgrund von Sicherheitsbedenken ist das Tool aber noch nicht offiziell verfügbar.

Zur News: Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

ChrisMK72 · 31. März 2024

Mit den drohenden Gefahren der neuen KI-Möglichkeiten werden wir uns wohl zwangsweise in Zukunft noch etwas mehr beschäftigen müssen.

Bin schon fast neugierig, wie die ersten großen "erfolgreichen" KI-Skandale aussehen mögen.

PS: Schöne freie Tage, für die, die haben.

Brati23 · 31. März 2024

Schon ein heftiges Missbrauchspotential vorhanden. Brauchst Kontrollfragen um sicher zu sein ob die echte Person am Telefon ist. Enkeltrick in neuen Dimensionen.

Danke Dir auch einen schönen Tag.

Axxid · 31. März 2024

Dank KI Tools sind die meisten heute genutzten Identifikationsmethoden hinfällig. Da müssen sich Anwälte, Politiker und IT-Experten (extrem wichtig, wird also wahrscheinlich ignoriert) zusammentun und eindeutige und rechtlich sicherere Methoden definieren, die immer noch die Privatsphäre schützen.

Djura · 31. März 2024

Ab sofot keine Sprachis via Messenger und Co. mehr versenden. Und nicht telefonieren. Lässt sich im beruflichen Umfeld nur schwer vermeiden.

CDLABSRadonP... · 31. März 2024

Bzgl. des Missbrauchspotentials muss wohl kaum mehr etwas gesagt werden.

Bzgl. der Möglichkeiten für Kunst sei hingegen noch gesagt, dass schon frühe Versionen ähnlicher Technologien dafür genutzt wurden, um Songs von anderen (verstorbenen) Interpreten singen zu lassen, während die Band weiterspielte. Das ist natürliche eine tolle Sache.

(ähnliches gilt für den Austausch von Stimmen von Synchronsprechern im Nachhinein)

Problematisch ist dabei aber natürlich, dass hingegen selbstverständlich die Verwertungsindustrie, auch gerne Contentmafia genannt, Sturm läuft.

cmi777 · 31. März 2024

Wieder die OpenAI Marketingmasche: “das ist so krass, wir wollen und können es nicht veröffentlichen”

OpenAI und Altman treiben das seit ChatGPT 1. Warnen wie krass ihre Software ist, damit den Hype befeuern und letztendlich dann doch veröffentlichen.

Das eine Menschheit, die bereits heute nur zu gern auf irgendwelche Billos bei YouTube, Telegramgerüchte und Facebookposts hört, eher schlecht auf Deepfakes vorbereitet ist, hat doch niemanden davon abgehalten, es trotzdem zu veröffentlichen.

luckysh0t · 31. März 2024

Bei solchen Meldungen muss ich immer an das Video mit Morgan Freeman denken..

DFFVB · 31. März 2024

Die machen auch alles, dass sie bald verboten werden?

Ben99 · 31. März 2024

Ist das nicht ziemlich "alt"? Mit VoiceCraft gibt es doch schon ein OpenSource Modell, das von nur 3 Sekunden die Stimme klonen kann?

Hamburger85 · 31. März 2024

Axxid schrieb:
Dank KI Tools sind die meisten heute genutzten Identifikationsmethoden hinfällig. Da müssen sich Anwälte, Politiker und IT-Experten (extrem wichtig, wird also wahrscheinlich ignoriert) zusammentun und eindeutige und rechtlich sicherere Methoden definieren, die immer noch die Privatsphäre schützen.

Es wird doch schon an der digitalen Identität gearbeitet und dann wird es eine neue sichere Methode geben...

charmin · 31. März 2024

Gruselig. Das hat in den falschen Händen ein derart hohes Misbrauchspotenial, sowas darf imo nicht den freien Markt erreichen.

ChrisMK72 · 31. März 2024

Ich sehe neben Missbrauchspotential aber auch noch andere "Gefahren". Personalabbau, falls man das als Gefahr sieht. Je nach Blickwinkel natürlich.

Was is mit Nachrichtensprechern?
Da braucht man doch bald nur noch einen Text eingeben, der dann mit den dazugehörigen Bildern und Videos halt die passende Sprachausgabe bereitstellt. Je nach Bedarf auch mit den Stimmen bekannter Nachrichtensprecher, denen man noch einmalig Betrag X (entsprechend wenig, gegenüber den Personalkosten, die man einspart) für das Copyright (auf die Stimme) zahlt.

Glaub Nachrichtensprecher, wird nicht gerade mehr ein Job mit Zukunftspotential.
Für Liveberichterstattung braucht man dann eher Moderatoren. Aber die typischen "Vorleser" (z.B. Tagesschau und co.) sind wohl bald hinfällig.

KarlsruheArgus · 31. März 2024

Den ersten Punkt in der Aufzählung mit dem Übersetzten von Videos und Podcasts find ich nicht valide.
Das selbe gilt auch für Syncros von Filmen, Serien etc..

An die Bandbreite von professionellen Moderatoren und Sprechern wird auch in den nächsten Jahren nix rankommen, die Fortschritte die Ich bisher verfolgen durfte sind absolut unterirdisch das klingt nicht "etwas hölzern" sondern ist qualitativ für die Tonne und vor allem leblos.

Bestes bsp. sind die US Präsidenten wie Sie Minecraft zocken, anfangs hört man es nicht raus aber nach spätestens 2min. merkt man die nicht vorhandene Bandbreite der Stimmen.
Oder die aktuellen Übersetzungen auf YouTube wie bspw. beim E-KFZ Channel Carmaniac.

DerMond · 31. März 2024

charmin schrieb:
Gruselig. Das hat in den falschen Händen ein derart hohes Misbrauchspotenial, sowas darf imo nicht den freien Markt erreichen.

Sehe ich auch so und dennoch feiert jeder Seppel den KI Kram. Was auch immer da noch kommt, zu 95% wird damit nichts gutes getrieben.

KI ist eines der Dinge auf die ich mein ganzes Leben lang, ohne jegliche Einschränkungen, verzichten könnte.

Splatter0815 · 31. März 2024

Dann muss eben ein properitäres Format her, also keine MP3 oder MP4 usw. Nur abspielbar mit der richtigen Software. Es muss immer klar sein das eine KI spricht, alle paar Sekunden vielleicht ein ich bin KI generiert oder so.
Ist dann nicht mehr komfortabel, aber ersichtlich das es KI ist.
Dann ist es auch ein Monopol, aber so muß es dann eben sein.

Wie soll das dann weitergehn wenn niemand mehr sicher ist wer was gesagt hat.
Kommts gut an im Volk, ich wars. Kommts schlecht an beim Volk, das war ne KI, nicht ich...
...

ChrisMK72 · 31. März 2024

Splatter0815 schrieb:
Wie soll das dann weitergehn wenn niemand mehr sicher ist wer was gesagt hat.

Das wird auf jeden Fall interessant zu beobachten sein.

edenjung · 31. März 2024

Interessant, dass OpenAi erst jetzt damit um die Ecke kommt.
Ich weiß noch, wie ich Anfang letzten Jahres die ganzen Meme-Videos mit den amerikanischen Präsidenten bzw. deren Stimmen gesehen habe.
Oder die Videos wo Dagoth Ur aus Morrowind Modding erklärt oder Tierlists macht.
Klar elevenlabs.io ist jetzt nicht so bekannt wie OpenAi, aber für mich persönlich war das die erste wirkliche Begegnung mit KI Produkten.

Und schon damals habe ich gesagt, dass das sehr einfach missbraucht werden kann. Aber auch zu coolen Dingen führen kann. Man könnte zum Beispiel Morrowind komplett vertonen, da wird sicher bereits an mods gearbeitet die das machen. Oder andere Spiele.

Aber wie gesagt, da gibt massiv Missbrauchspotenzial.
Trotzdem interessant, wie das ganze erst so richtig auf dem Schirm der Leute aufschlägt, wenn OpenAi das ankündigt. Da merkt man schon, dass die eine Marke geworden sind. Leider leiden dann andere Entwickler wie elevenlabs darunter, denn die finden in den Medien überhaupt nicht statt. Was schade ist, denn deren Programm ist verdammt gut und schon lange am Markt.
Klar die verbinden das dann mit Chat GPT aber wie gesagt, man sollte auch die Konkurrenz erwähnen in so einem Bericht. @Andy
Da könnt ihr ja nochmal in den Artikel die bestehenden Anbieter von solcher Software einpflegen.

Ayo34 · 31. März 2024

Im Moment ist da Elevenlabs führend und da kann jeder seine Stimme sehr sehr professionell klonen. Sogar die deutsche Sprache ist verfügbar. In wenigen Minuten bekommt man schon sehr gute Ergebnisse und für fast perfekte Ergebnisse braucht man 3-4 Stunden im Tonstudio. Auch das ist dort möglich. Muss da aber ca. 1 Monat warten bis man seine Stimme bekommt.

Am Ende ist es also schon da und aufhalten kann man es sowieso nicht. Man muss eher die Frage wie man damit umgeht in der Zukunft. Man müsste z.B. anfangen, dass man sich mit seinem Mobiltelefon als "echt" authentifizieren kann. Wenn dann eine Person von wo anders anruft oder nicht verifiziert ist von seinem Phone, dann müsste einfach eine Warnung auftauchen, dass man sich bei wichtigen Dingen eventuell vergewissern sollte. Also z.B. eine bestimmte Nachfrage stellt.

Ergänzung (31. März 2024)

ChrisMK72 schrieb:
Das wird auf jeden Fall interessant zu beobachten sein.

Anfangen auf seriöse Quellen zu setzen und nicht jedem Tweet und TikToker vertrauen. Außerdem müsste man vielleicht eine Plattform einführen wo "Persönlichkeiten" ihre Veröffentlichungen/Aussagen als echt deklarieren können. Dort könnten dann Medien sehen, ob sie die Nachrichten direkt übernehmen können oder ob es gesondert überprüft werden muss auf Plausibilität.

Bunny_Joe · 31. März 2024

Ihr hättet wenigstens die Demos im Artikel verlinken können:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

Vor allem die Sprachübersetzung, noch ein paar Jahre bis es ausgereift ist und alle Hollywood Filme werden in allen Sprachen der Welt verfügbar sein mit den original Stimmen der Schauspieler.

Youtube, Podcasts etc. genau so.

News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

Tagträumer

Vice Admiral

Lt. Commander

Fleet Admiral

Lt. Commander

Commodore

Lieutenant

Commander

Rear Admiral

Cadet 4th Year

Cadet 4th Year

Fleet Admiral Pro

Vice Admiral

Rear Admiral Pro

Lt. Commander

Lt. Junior Grade

Vice Admiral

Admiral

Vice Admiral

Ensign