Voice clone und Text to speech offline für Win

Boon_NRW · 16. November 2024

Hallo,
gibt es eine Software, mit der ich eine Stimme clonen kann und die mit dieser Stimme längere deutsche Texte vorliest und als Audio Datei speichern kann?
Ich meine Programme für den PC und keinen Online Dienst, bei dem man begrenzte Zeichen zur Verfügung hat.

balabolka habe ich ausprobiert, aber da kann man keine geklonte Stimme importieren oder erzeugen (soweit ich das gesehen habe). Die wenigen vorhandenen Stimmen sind nicht ansprechend und hören sich auch sehr künstlich an. Keine Betonung usw.

Würde mich über Tipps freuen.
Danke
Boon

Espero · 16. November 2024

Boon_NRW schrieb:
geklonte Stimme importieren

Lokal offline ist mir keine Software bekannt.

Ansonsten ist man offline unter Win mit Balabolka noch immer halbwegs passabel unterwegs. Online gibt es sicherlich bessere TTS.

Boon_NRW · 21. November 2024

Okay, aber woher bekommt man dann vernünftige Stimmen? Die Katja und Hedda sind ja furchtbar.

Espero · 21. November 2024

Schau mal hier rein:
TTS-Stimmen zum Ausprobieren:
http://ttssamples.syntheticspeech.de/

Ich habe selbst schon vor einigen Jahren mittels Balabolka viele Bücher für unterwegs (z. B. Autoradio) umgesetzt. Das geht durchaus passabel und hat auch oft seinen ganz eigenen schmunzelhaften "Charme", wenn die Stimmungen von Inhalten sich so gar nicht in der Stimme widerspiegeln.

Diejenige Stimme, die mir zur Verfügung stand und die ich unter Balabolka genutzt hatte, war "Steffi 2" von Nuance.

MechanimaL · 28. November 2024

@Boon_NRW Das geht, Du brauchst aber entsprechend deutsche Modelle. Wenn Dein PC mit einer geeigneten Hardware insb. Grafikkarte mit 6GB + VRAM ausgestattet ist, kannst Du bspw. E2F5-TTS anwenden. Du kannst es via https://pinokio.computer oder manuell installieren (siehe weiter unten). E2F5 benötigt nur ein kurzes Sample der gewünschten Stimme. Es gibt noch Tortoise TTS, da weiß ich aber nicht, wie es aktuell mit deutschen Modellen aussieht, da braucht man auch mehr Trainings-Zeit und längere Audio, sowie höhere Hardwareanforderungen, um ein Model zu trainieren.. Das hatte ich vor einem Jahr mal getestet, da gab's nur die Möglichkeit englische Stimmen zu trainieren. Zurück zu E2F5-TTS, siehe dieses Video:

Installation manuell: https://github.com/SWivid/F5-TTS

und deutsches Model + vocab txt Datei: https://huggingface.co/marduk-ra/F5-TTS-German/tree/main

(beide müssen in die entsprechenden Ordnern ("ckpts" und "data") abgelegt und dann in der Gradio App unter "Custom" per Pfad eingetragen werden.

Installation Pinokio:

(siehe ab dieser Stelle)

Diese Programme sind in gewisser Weise häufig noch etwas eingeschränkt. Es kann also sein, dass Du bspw. deine Texte stückchenweise vertonen musst.

Suche

Voice clone und Text to speech offline für Win

Boon_NRW

Cadet 3rd Year

Espero

Commander

Boon_NRW

Cadet 3rd Year

Espero

Commander

MechanimaL

Lieutenant

Ähnliche Themen