News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

wontiii · 2. April 2024

germanrule schrieb:
Ich finde das ist nicht vergleichbar, Bahn und Auto haben Mobilität bezahlbar und schneller gemacht. Vorher konnten die meisten Leute sich das Reisen doch kaum leisten.
Ernste Frage, welche großen Probleme lösen KI-generierte Fotos/Videos/Audios? Gibt es noch nicht genug Medien zum konsumieren? Sind diese zu teuer für den Massenmarkt?

Ich glaube das Resultat ist, wir verblöden noch mehr und üben uns weiter im sinnlosen Kosnum und Materialismus bis der Klimwandel viele dazu zwingt wieder das Hirn einzuschalten.( hoffen wir mal)

Ergänzung (2. April 2024)

Magellan schrieb:
Hat halt wie immer beim Thema KI seine zwei Seiten. Es bietet auch tolle Möglichkeiten, so ist man bei Stimmen für Marketing, für Werbefiguren, bei Synchronstimmen usw nicht mehr abhängig von einzelnen Personen, für kleine Content Creator wird es sehr viel einfacher (zu finanzieren) überhaupt Vertonungen zu generieren usw.

Jeder Mensch mit einem Smartphone ist ein Content-Creator mehr oder weniger. Meiner Meinung nach einer der sinnlosesten Berufs-Bezeichnungen die es je gab. Harter Grabenkampf mit Influenzern steht auf der Tagesordnung. Von daher sehe ich da weniger was vorteilhaftes für Mensch und Gesellschaft.

Magellan · 2. April 2024

wontiii schrieb:
Meiner Meinung nach einer der sinnlosesten Berufs-Bezeichnungen die es je gab.

Nun ich habe den Begriff verwendet weil er eben recht weit gespannt ist - wir beauftragen z.B. Content Creator für die Erstellung von Clips für TikTok usw (also Content für eigene Kanäle), aktuell für uns eine der effizientesten Arten der Werbung gemessen an Kosten und Reichweite.

Aber ich denke dabei nicht nur an Social Media, Hörspiele lassen sich so z.B. viel einfacher umsetzen, man kann Charaktere erschaffen die eine eigene Stimme erhalten ohne langfristig abhängig zu sein von einzelnen Sprechern, man kann sehr einfach Indie Spiele vertonen, man kann seinen Tracks eine Stimme geben usw. usf. - Möglichkeiten gibt es mehr als genug.

Die (finanzielle) Hürde für eine Vertonung ist halt ungleich geringer als wenn man professionelle Sprecher beauftragen muss.

Weyoun · 2. April 2024

Alioth schrieb:
Und aus 5h Voice samples?

Wenn man zuvor fleißig hunderte an Beispielen aufzeichnet (alle möglichen Stimmungslagen inklusive), dann kann eine KI die Stimme vermutlich deutlich besser imitieren. Nur mit dem trockenen englischen Humor wird es nicht leicht, weil der schon bei echten Menschen nicht immer einfach so zu erkennen ist.

Alioth schrieb:
Die 15 sekunden waren nur ein plakatives Beispiel - daran würde ich mich nun wirklich nicht aufhängen!

Ich würde mich nie aufhängen, ich mag weder Erstickung noch Genickbruch.

Wer mit 15 Sekunden wirbt, muss sich daran auch messen lassen.

Foxley · 2. April 2024

Ab sofort Codeword ausmachen.

Alioth · 2. April 2024

@Foxlex

Machst du ab heute so?

capitalguy · 2. April 2024

heute traf auf einem mann der sah aus und sprach wie hellmuth karasek. auch der habitus war ganz arg ähnlich.
ok, der mann hatte graue harre, aber davon mal abgesehen war er wirklich sehr, sehr ähnlich.
man sieht es geht auch ohne eine ki.

cal1s · 3. April 2024

1991 haben bei Terminator 2 noch alle gelacht bei dieser Technologie ... Bald haben wir alle nichts mehr zu lachen, wenn das so weiter geht.

samuelclemens · 25. Januar 2025

In Sachen Sicherheit würde ich an sowas denken wie digitale Wasserzeichen (nicht hörbar) im Audiofile oder Stream unterzubringen. Das könnte zumindest überall dort im Hintergrund abgefragt werden wo es digital eingesetzt wird zb Über Smartphones, Abspielgeräte jeglicher Art usw.
ZB also im Smartphone optional einstellen das sofort gewarnt wird wenn ein Anrufer eine KI generierte Stimme einsetzt.
Würde zumindest die gröbste Flut an der Casual User front abdecken.
Natürlich sieht es komplett anders aus wenn Tekkies selbstgebaute (unzensierte) KI Stimmkloner einsetzen.

Hat sich in dem Bereich eigentlich inzwischen was getan in Sachen Offline Stimmen klonen mit KI?

andy_m4 · 25. Januar 2025

samuelclemens schrieb:
In Sachen Sicherheit würde ich an sowas denken wie digitale Wasserzeichen (nicht hörbar) im Audiofile oder Stream unterzubringen.

Was die Frage von Authentizität einer Kontaktperson angeht, so ist das doch im Prinzip ein gelöstes Problem, seit wir Public-Key-Krypto-Verfahren haben. Damit kann man den eignen generierten Content signieren und mein Gegenüber kann mit meinen Public-Key checken, ob ich wirklich ich bin.

Da braucht man also im Prinzip gar keine Verrenkungen machen, in dem man versucht solche Serivces zum Wasserzeichen zu zwingen (was ja auch nicht zuverlässig funktioniert, wie Du selbst angemerkt hast; denn spätestens wenn jemand die "KI" selbst betreibt, dann kann er das umgehen).

Man muss diese Verfahren nur endlich mal konsequenter anwenden.

samuelclemens · 26. Januar 2025

@andy_m4 Ein Wasserzeichen, zb in Form eines Codes über die gesamten Länge des generiertes Audiostreames oder Files in einer nicht hörbaren Frequenz wäre universeller einsetzbar.
Ähnlich wie diese Markierungen die jeder Drucker auf einem Ausdruck hinterlassen die Behörden dann zurückverfolgen können.
Endgeräte brauchen dann nicht unbedingt zurückverfolgen zu wen Das Wasserzeichen gehört. Es reicht wenn man weiss das da ein KI Wasserzeichen drinn ist. Das geht bei digitalen Bildern/Videos genauso mit nicht wahrnehmbaren Pixeln die zusammen ein Code ergeben.

Bei jeder art von Authentifizierung muss der andere auch immer Zugang zum Gegenstück haben.
Das ist bei Freunden, Familie, Bekannten oder Behörden ja noch machbar.
Aber was ist wenn jetzt jemand einen wegen einem Notfall von einem Fremden Telefon oder Handy anruft.
Oder die sim Karte des Gerätes geklont/ geklaut wurde...

Am sinnvollsten wäre also eine Kombination beider Ansätze.

Krik · 26. Januar 2025

@samuelclemens
Wasserzeichen sind einfach manipulierbar/zerstörbar. Das hält keinen Gauner auf.
Die werden zum Beispiel bei Kinofilmen eingesetzt - und die nächste Ripper-Gruppe filtert die beim Transcodieren einfach raus, falls sie nicht ohnehin beim Konvertieren zerstört werden.

samuelclemens schrieb:
Aber was ist wenn jetzt jemand einen wegen einem Notfall von einem Fremden Telefon oder Handy anruft.

Dann sagt man was, das nur die Gegenstelle und man selber kennt.

@andy_m4 hat schon recht. Wir haben bereits seit langem sehr gute und quasi fälschungssichere Authentifizierungsmaßnahmen. Beim Anruf von einem Fremdhandy könnte man bspw. dort per NFC seinen Perso scannen lassen und sich so sicher identifizieren. So was geht alles, aber es wird nicht umgesetzt.

samuelclemens · 26. Januar 2025

Ihr denkt ja immer nur an Handy zu Handy.
Das jeder Anrufer auch eine vertrauenswürdige Person sein muss und das selbige auch immer in der Lage ist sich sicher zu authentifizieren.
Aber es gibt tausend andere Wege Klonstimmen missbräuchlich einzusetzen.
Mit einer guten Soundanlage kannst sogar dem Nachbarn vormachen Merkel und Trump würden im Nebenzimmer gerade .... 😱
Und in der Unterhaltungsindustrie ja sowieso. Wie will man zb ein Podcast Authentifizieren mit dem Autoradio?

Ein herausfiltern eines Wasserzeichens verändert aber auch immer das Produkt an sich in einer weise das man zumindest erkennt das es manipuliert wurde. Bei Filmen hat der Konsument in der Regel kein Interesse daran zu erkennen ob es ein illegaler Rip ist.
Man muss KI Produkte an sich sicher identifizieren können. Nicht wer oder wie sie gefälscht wurden.

Die Authentifizierung des Gegenübers kann natürlich eine gute Ergänzung zum Sicherheitskonzept sein. Analog zb zum Falschgeld. Nur die wenigsten Gauner sind versiert genug eine größere Bandbreite an Sicherheitsmaßnahmen zu überwinden.
Je schwerer desto besser.

Krik · 26. Januar 2025

samuelclemens schrieb:
Wie will man zb ein Podcast Authentifizieren mit dem Autoradio?

Public-Key-Authentifizierung, Signierung.

samuelclemens schrieb:
Ein herausfiltern eines Wasserzeichens verändert aber auch immer das Produkt an sich in einer weise das man zumindest erkennt das es manipuliert wurde.

Warum? Wenn man das Wasserzeichen durch z. B. Rauschen ersetzt, wie soll man das vom Rest des Rauschens im Film oder Musiktitel unterscheiden?

samuelclemens schrieb:
Man muss KI Produkte an sich sicher identifizieren können.

Ja, das will jeder. Bisher hat aber noch keiner einen Weg gefunden, das auch 100% zu gewährleisten. Es gibt eigentlich schon einen Weg, indem man die Kette vom Erzeuger bis Konsumenten durchweg verschlüsselt oder signiert. Kommt beim Konsumenten das nicht an, dann ist das Produkt pauschal nicht sicher.
Ähnlich wird das ja auch beim DRM-Schutz in der Filmindustrie gemacht.

samuelclemens schrieb:
Die Authentifizierung des Gegenübers kann natürlich eine gute Ergänzung zum Sicherheitskonzept sein.

Das ist nicht nur eine Ergänzung sondern eine der Grundlagen eines Sicherheitskonzepts. Das besteht immer aus

Vertraulichkeit (Zugriff durch autorisierte Nutzer),
Integrität (Daten sind intakt),
Verfügbarkeit (es muss halt funktionieren),
Authentizität (Echtheit, Überprüfbarkeit und Vertrauenswürdigkeit von Daten und Nutzern),
Verbindlichkeit (ein Vorgang findet statt, weil er so gewollt wurde),
Zurechenbarkeit (eine Handlung kann jemanden eindeutig zugeordnet werden)
und Resilienz (Widerstand gegen Ausspähen, Zerstörung und Sabotage).

andy_m4 · 26. Januar 2025

samuelclemens schrieb:
Ähnlich wie diese Markierungen die jeder Drucker auf einem Ausdruck hinterlassen die Behörden dann zurückverfolgen können.

Du hast doch das Beispiel schon selbst gebracht, wenn sowas nicht mehr funktioniert:
Nämlich wenn jemand seine eigene KI betreibt.

samuelclemens schrieb:
Aber was ist wenn jetzt jemand einen wegen einem Notfall von einem Fremden Telefon oder Handy anruft.

Ja. Notfälle kann es natürlich immer geben. Aber in dem Fall weiß man dann zumindest, das man vorsichtig sein muss und nicht einfach auf Verlangen 100 € überweist (oder was auch immer der Gegenüber probiert).

samuelclemens schrieb:
Oder die sim Karte des Gerätes geklont/ geklaut wurde...

Üblicherweise sind die Private-Keys nicht an eine SIM-Karte gebunden.
Das Problem des Verlustes hat man natürlich trotzdem. Weshalb gängige Verfahren auch immer die Möglichkeit der Revocation haben.
Man hat dann zwar immer noch die Zeit-Lücke zwischen Verlust und bemerken des Verlustes. Aber die hast Du an anderer Stelle auch. Nämlich wenn Du Deine Bankkarte verlierst und die Zeit bis Du die Karte gesperrt hast.

samuelclemens schrieb:
Man muss KI Produkte an sich sicher identifizieren können. Nicht wer oder wie sie gefälscht wurden.

Wie willst Du das denn sicher stellen?
Bei Hardware geht das noch so einigermaßen, weil man sowas wie einen Drucker nicht selbst bauen kann und die Manipulation eines vorhandenen Druckers mit Aufwand verbunden ist (und es da auch nicht viel Möglichkeiten des Missbrauchs gibt, weil der Aufwand i.d.R. in keinem Verhältnis zum nutzen liegt).
Ähnlich auch beim Falschgeld. Der Aufwand um ein nennenswertes Resultat zu erzeugen ist zu hoch, als das es sich lohnt.
Bei Software, die man beliebig manipulieren kann sieht die Sache anders aus.

samuelclemens schrieb:
Aber es gibt tausend andere Wege Klonstimmen missbräuchlich einzusetzen.

Richtig. Da braucht man dann andere Mittel. Aber es ging ja jetzt explizit um Geschichten wie "Jemand ruft mich an und versucht den Enkeltrick abzuziehen".

samuelclemens schrieb:
Mit einer guten Soundanlage kannst sogar dem Nachbarn vormachen Merkel und Trump würden im Nebenzimmer gerade .... 😱

Ja. Man darf auch mal den gesunden Menschenverstand einsetzen. :-)

samuelclemens schrieb:
Wie will man zb ein Podcast Authentifizieren mit dem Autoradio?

Weiß nicht wie Du das machst. Aber ich hole mir Podcasts von der jeweiligen Internetadresse. Und das ist eben dadurch abgesichert, das nur der "Inhaber" der Internetadresse dort Sachen reinstellen kann. Außerdem ist da sogar als zusätzliche Absicherung ein TLS oben drauf.
Das ist also im Prinzip die Art von Absicherung, die ich auch vorgeschlagen hab.
Wie gesagt: Die Technik ist da. Man muss sie nur benutzen.

btw hast Du ja auch beim Wasserzeichen ein Problem. Was ist, wenn jemand das Wasserzeichen über nen Orginalton legt, um vorzutäuschen, das das eine Fälschung ist?
Letztlich entbindet Dich also das Wasserzeichen nicht davon, Deine Daten vor Manipulation zu schützen. Und wenn Du das eh machen musst, dann kannst Du es gleich zur Authentifizierung einsetzen.

samuelclemens · 26. Januar 2025

@andy_m4 Wir drehen uns im Kreis. Beide Ansätze sind eine gute Möglichkeit mehr Sicherheit reinzubringen und beides wird munter der Bequemlichkeit und Profitmaximierung halber missachtet.

Es gibt aber noch einen dritten Ansatz, nämlich KI einzusetzen um Content oder Streams in Echtzeit auf Authentizität zu prüfen. Quasi, Feuer mit Feuer bekämpfen. Aber ich denke diese Technik steckt noch in den Kinderschuhen.

In Zukunft wird man jedoch jeglichem digital ausgelieferten Content, Nachrichten oder eben auch Kommunikationswegen nicht mehr trauen können. Noch viel weniger als es ohnehin schon immer der Fall war.
Früher oder später wird man sich Wege überlegen müssen wie man KI Manipulationen sicher und unkompliziert erkennen kann. Unabhängig von dem Nachweis von wem oder woher es stammt.
Wenn das nicht gelingt wird man nur noch dem trauen können was man selbst vor Ort gesehen oder gehört hat.
Und natürlich werden welche trotz aller Bemühungen immer Wege finden sämtliche Sicherheitsmaßnahmen zu umgehen.
Aber es ist ein großer unterschied ob das dann nur solche sind die sich wirklich gut auskennen oder jedermann ohne jegliches Vorwissen seine Umgebung damit beglücken kann.

andy_m4 · 26. Januar 2025

samuelclemens schrieb:
Wir drehen uns im Kreis.

Blödsinn. Du hast nur keine "Lust" auf die Argumente einzugehen.

samuelclemens schrieb:
Beide Ansätze sind eine gute Möglichkeit mehr Sicherheit reinzubringen

Du hast immer noch nicht dargelegt, warum "Dein" Ansatz signifikant Sicherheit bringt.

samuelclemens schrieb:
Es gibt aber noch einen dritten Ansatz, nämlich KI einzusetzen um Content oder Streams in Echtzeit auf Authentizität zu prüfen.

Naja. Im Augenblick ist das aber noch nicht absehbar.
Und wir können ja schön bei der Malwareerkennung beobachten, wie solche Ansätze seit Jahrzehnten scheitern.
Die Leute vergessen nämlich immer bei Software, das nicht nur Du das testen kannst, sondern der Bösewicht auch. Und optimiert dann sein "Faken" so lange, bis es nicht mehr erkannt wird.

samuelclemens schrieb:
In Zukunft wird man jedoch jeglichem digital ausgelieferten Content, Nachrichten oder eben auch Kommunikationswegen nicht mehr trauen können.

Ja. Aber das ist nicht grundsätzlich Neues. Nachrichten wurden schon immer manipuliert. Der KI-Kram bringt da sicher eine neue Qualität rein. Aber wie gesagt, das grundsätzliche Problem ist nicht neu.

samuelclemens schrieb:
Aber es ist ein großer unterschied ob das dann nur solche sind die sich wirklich gut auskennen oder jedermann ohne jegliches Vorwissen seine Umgebung damit beglücken kann.

Naja. "Jedermann" macht ja nicht deshalb keine schlimmen Dinge, weil über all und an jeder Ecke der Hersteller dafür sorgt, das es nicht geht.
Ich kann mir einfach in einem Baumarkt einen Hammer besorgen, den nehmen und damit jemand auf den Kopf hauen. Warum mach ich das nicht? Jedenfalls nicht deshalb, weil der Hersteller eine Mechanik eingebaut hat, die das verhindert. Sondern weil ich eine moralische Grundhaltung habe, die dem entgegen steht. Und weil ich mit Konsequenzen rechnen muss.

samuelclemens · 26. Januar 2025

andy_m4 schrieb:
Blödsinn. Du hast nur keine "Lust" auf die Argumente einzugehen.

Du bist der Meinung das nur explizit eine lückenlose Authentifizierung und damit auch einhergehenden Komplettüberwachung und zurückzuverfolgen sämtlicher Vertriebs und Verteilungswege die einzig wahre Lösung bietet.
Ich bin der Meinung das der kombinierte Einsatz verschiedener Sicherheitsmaßnahmen, worunter selbstverständlich auch Authentifizierung gehört, da wo es möglich ist, zu einem größtmöglichen Erfolg führen kann.
Ich habe nie behauptet das nur ein Wasserzeichen das einzig Wahre ist. Aber es ist eine weitere Hürde mit der ein Sicherheitskonzept arbeiten kann.
Wie auch immer, wir werden hier eh zu keinem Konsens kommen.

andy_m4 schrieb:
Ich kann mir einfach in einem Baumarkt einen Hammer besorgen, den nehmen und damit jemand auf den Kopf hauen. Warum mach ich das nicht? Jedenfalls nicht deshalb, weil der Hersteller eine Mechanik eingebaut hat, die das verhindert. Sondern weil ich eine moralische Grundhaltung habe, die dem entgegen steht. Und weil ich mit Konsequenzen rechnen muss.

Aber es ist ein Unterschied ob der Baumarkt ums eck nem Jugendlichen mit gefälschtem Ausweis einem einfach ne Automatikwaffe verkauft mit der Ausrede sich damit ja nur vor Einbrechern schützen zu wollen.
Was bei uns glücklicherweise nicht der Fall ist.

andy_m4 schrieb:
Ja. Aber das ist nicht grundsätzlich Neues. Nachrichten wurden schon immer manipuliert. Der KI-Kram bringt da sicher eine neue Qualität rein. Aber wie gesagt, das grundsätzliche Problem ist nicht neu.

Auch hier hat man das Jedermanns Problem.
Will ein Profi eine Fakenews mit Beweisvideo verbreiten war das bisher immer mit enormen aufwand verbunden.
In Zukunft wird jedermann, sei es die oder der Ex, täuschend echt aussehende Videos, Bilder und Tonmitschnitte ohne jeglichen eigenen Aufwand oder Vorkenntnissen verbreiten können.
Und nur die wenigsten werden das was sie sehen und hören in Frage stellen. Geschweige denn irgendwelche Authentifizierungsverfahren durchgehen bevor sie reagieren oder sich ne Meinung zum gesehene bilden.
Was in der Masse auch nicht mehr real praktikabel wäre.

Elderian · 26. Januar 2025

Ich habe so den Verdacht, dass Du nicht verstehst, was Authentifizierung genau bedeutet und wie das erreicht wird. Sonst würdest Du auch verstehen, warum Dein Wasserzeichen dafür nicht geeignet ist.

Weiterhin taugt es nicht, um zu erkennen, was eine KI erstellt hat, und was ein Mensch.

samuelclemens · 26. Januar 2025

@Elderian Ich habe auch nie behauptet das die bisher eingesetzten Wasserzeichen/Methoden dafür verwendet werden sollen. Da wird man sich neue Möglichkeiten ausdenken müssen.
Und Authentifizierung erfordert immer einen gesicherten, lückenlosen Vertriebsweg. Was in der Praxis einfach nicht machbar ist bei der Bandbreite an Verteilungswegen und Einsatzmöglichkeiten gefälschten Materials.
Nochmal: Ich rede hier nicht explizit vom Enkeltrick oder ähnliches, das von Handy zu Handy durchgeführt wird.
Da ist Authentifizierung natürlich eine sehr gute Wahl. Weil beide Endgeräte dafür eingerichtet sind.

Es ist ohnehin völlig wurscht wer nun hier recht hat.
Entschieden wird eh an anderen Stellen.

Also, von mir aus kann das Thema hier erst mal ruhen. Sonst diskutieren wir in Tagen noch um den Brei herum.

Edit: Im übrigen hatte ich den Thread hauptsächlich wegen einer Frage wiedererweckt die immer noch im Raum steht. Das wäre aber jetzt eher wie Öl ins Feuer gießen also belasse ich es dabei. ☮️🕊️

Elderian · 26. Januar 2025

Ähm... Hast Du nicht? Was genau war dann der Inhalt Deines ersten Posts hier, mit dem Du den Thread nach acht Monaten aus dem Schlaf geholt hast?

Und nein, Authentifizierung, wenn richtig gemacht, braucht keine lückenlose Überwachung. Ich muss, bei einer PKI-Infrastruktur einmal sicherstellen, dass der Public Key echt ist. Ab dann ist es egal, auf welchen Weg eine authentifizierte Nachricht mich erreicht.

News Neues OpenAI-Modell: „Voice Engine“ kann mit 15-sekündiger Sprachaufnahme die Stimme klonen

Cadet 3rd Year

Fleet Admiral

Admiral Pro

Lt. Junior Grade

Ensign

Commander

Lt. Junior Grade

Lt. Junior Grade

Admiral

Lt. Junior Grade

Fleet Admiral

Lt. Junior Grade

Fleet Admiral

Admiral

Lt. Junior Grade

Admiral

Lt. Junior Grade

Lt. Junior Grade

Lt. Junior Grade

Lt. Junior Grade