Lokale automatische Generierung von Untertiteln? AI vielleicht?

Shader

Lt. Commander
Registriert
Aug. 2005
Beiträge
1.914
Ich schaue Filme meistens immer in Englisch und mit Englischen Untertiteln an, jedoch gibts ab und an Filme wo keine Englischen Untertitel dabei sind.

Die gewünschte Sprache der Untertitel ziehe ich mir aus dem Netz und ich nutze dann SubSync um die Untertitel mit der Filmdatei zu synchronisieren. Leider brauche ich das extra Tooling denn die "Open Subtitles" sind oft nicht synchron mit meinem Originalfilm (tja die Untertitel sind immer für "ich hisse die Piratenflagge" gemacht).

SubSync funktioniert recht gut ist aber ist nicht perfekt.

In Zeiten von AI wundere ich mich gibts für Linux (Manjaro) eine lokale AI Möglichkeit mit der man anhand einer .mkv Filmdatei automatisch Untertitel generieren lassen könnte?
Ich weiß solche Tools gibts Tonnenweise als Cloudlösung aber das kommt nicht in Frage weill 1) Die Filmdatei viel zu groß und 2) Es wäre eine Verbreitung des Filmmaterials und das ist nicht legal

Ich frage mehr als Interesse/des Ausprobierens-Wegens und ich AI lokal noch nie ausprobiert habe.

Mein System könnte für AI auch nicht der Beste sein.
32 GB RAM, Radeon RX 6900 XT, Ryzen 5 5800X3D, 2 TB SSD.

PS:
Ich habe im Netz nach Filme und Untertitel erstellen/nachladen gesucht, habe aber kein Howto gefunden das sich da auf eine lokale AI bezieht.
 
  • Gefällt mir
Reaktionen: nutrix
Die Frage ist eher, wie gut die Qualität dieser Untertitel ist. Wenn ich mir die automatisch generierten UT bei Youtube anschaue, wird mir schlecht.
 
  • Gefällt mir
Reaktionen: Ranayna und CPat
Danke für die Antworten.

Interessant das VLC in die Richtung geht, ich hoffe sehr das man die Untertitel sich automatisch erstellen kann und dass die Funktion nicht auf das Anschauens des Videos/Films beschränkt ist.

Weil mit VLC bzw. dem PC schau ich keine Filme, Filme kommen auf eine externe Platte und diese steckt am Blu-Ray Player.

Whisper sieht mir jetzt nicht danach aus als könnte man das mit einer mkv oder mp4 Datei füttern.
 
Die Whisper Variante für Win hätt ich auch gern ausprobiert aber die Exe schlägt bei der prüfung auf auf VirusTotal.com alarm.
Weiss da einer mehr dazu zu sagen?

Zwischenablage02.jpg

Oder kennt wen eine Linux Variante die ich in einer VM Testen könnte?
 
Shader schrieb:
Ich frage mehr als Interesse/des Ausprobierens-Wegens und ich AI lokal noch nie ausprobiert habe.
Ich verweise an der Stelle mal auf noScribe.
Wie bei KI-Kram häufig üblich, sind die Voraussetzungen ein funktionierendes Python3, pip und venv. Also nix, was eine gängige Linux-Distribution vor Probleme stellt.
 
  • Gefällt mir
Reaktionen: Shader
Interessant wäre ein KI Tool das auch heruntergeladene subtiles mit einbezieht bzw diese an das Video anpassen könnte.
Das Problem wurde ja schon angesprochen das srt Dateien aus dritt quellen oft nicht synchron zum vorliegenden Videofile sind oder sogar nur in anderen sprachen vorliegen als die, die man braucht.
Die Idee wäre also zb die srt Datei zu korrigieren indem es die Zeitindexe anpasst anhand der gesprochenen stellen im Video. Die KI müsste inzwischen ja in der Lage sein einen inhaltlichen Bezug herstellen zu können ohne das der exakt derselbe Wortlaut vorliegt.🤔
Zumindest würde es die Qualität erheblich verbessern wenn man ne Schnittstelle zu subtiles Datenbanken einbauen würde als zusätzliches Option.

Zum Thema Datenschutz & Co bei online Transkription würde ich bemerken das nicht zwangsläufig das komplette Video hochgeladen werden müsste.
Ein Client könnte die Audiospur exportieren und nur diese zum übersetzen hochladen. Wenn man jetzt hergeht und das Audiofile in ein paar dutzend kleiner Stücke teilt und durcheinanderwürfelt...
Nur das benutze Client wüsste anhand eines key Schlüssels wie die Transkribierten Teilstücke wieder in die richtige Reihenfolge gehören. Und die "Cloud" kann mit tausenden winzigen, komplett anonymisierten Audioclips auch nichts weiter unredliches anfangen.
So, oder so ähnlich könnte ich mir eine Anwendung vorstellen die auch urheberrechtlich geschütztes Material online übersetzen könnte ohne den Datenschutz allzu sehr zu strapazieren.
Schließlich sind "Clips" bis zu einem gewissen Grad ja immer noch erlaubt soweit ich weiß...

Abartig faszinierend finde ich diese KI Audio zu Audio Übersetzungen mit original geklonten Stimmen.
Ich mein Sly auf deutsch reden zu hören mit seiner Originalstimme und das auch noch lippensynchron ... hat schon was...
Offline dürfte das noch Jahre dauern bis so was funktioniert. Aber die Onlinetools leisten schon erschreckend gute Arbeit. Konnte es leider bisher nur mit stark limitierten online KI Tools testen.
So was als Hardwarelösung verbaut in Endgeräten wie TV, PC, Laptop, Handy usw wär schon was feines. Statt alles mögliche im Vorfeld zu übersetzen könnten die Endgeräte in Zukunft in Echtzeit alles in jede Sprache mit jeder gewünschten Audiokonfiguration übersetzen.
 
Zuletzt bearbeitet:
samuelclemens schrieb:
Offline dürfte das noch Jahre dauern bis so was funktioniert.


Naja...da geht offline schon einiges...
Viele verstehen nicht, dass nur das trainieren von AI abartig viel Leistung benötigt, das generieren von Inhalten braucht zwar immernoch viel Leistung, ist aber.mit Consumer Hardware mittlerweile echt gut zu erledigen.
Schau dir mal nur an. Wieviele Modelle es für Bildgenerierung auf z.b. Civitai gibt, für unterschiedlichste Zwecke, oder eben auch direkt StableDiffusion.
Whisper generiert dir Zeitgenaue Untertitel, je nach Sprache mit einer extrem hohen Genauigkeit.

Sobald meine 5090 da ist, will ich in das ganze Thema tiefer einsteigen und eben auch dieae Live Faceswap Geschichte versuchen.
 
  • Gefällt mir
Reaktionen: oicfar
Azghul0815 schrieb:
Sobald meine 5090 da ist, will ich in das ganze Thema tiefer einsteigen und eben auch dieae Live Faceswap Geschichte versuchen.
Ich hätte dazu schreiben sollen für die Standard Consumer Hardware.
Ab 1000 Euro nur für ne GPU hört der Spaß auf. Da muss es sich schon lohnen. Entweder man ist eh Hardcore Gamer der so was im Repertoire hat oder man benötigt es gewerblich.
Was kostet dann der ganze Rechner wenn schon allein die GPU bei 2500 € anfängt!?

Schon allein Text zu Text läuft nicht mehr im Ansatz in der Qualität wie man es von deepl oder chatgpt gewohnt ist. Audio zu Text dürfte schon zu anspruchsvoll sein für GPUs unter 500 €. Zumindest in Echtzeit.
Von Audio zu Audio und dazu noch stimmen klonen in Echtzeit will ich gar nicht reden.
Bis man sowas in Zukunft standardmäßig in Endgeräte einbauen könnte dürften Jahre vergehen.

Wohlgemerkt, ich rede hier von Echtzeit Verarbeitung. Nicht 12h für ein 20 Minuten Video!

Mit meiner GTX 1060 6GB gelingen mir jedenfalls keine großen Würfe. Und wesentlich mehr wirds beim nächsten Rechner in ein/zwei Jahren auch nicht mehr werden bei den aktuellen Preisen.
Vielleicht wirds ja in diesem Segment ja möglich werden die KI Modell über extern an mietbare Hardware zu betreiben, verschlüsselt.🤔
 
Zuletzt bearbeitet:
Azghul0815 schrieb:
Danke. Kannte ich bisher noch nicht.

Habe mir das https://github.com/hacksider/Deep-Live-Cam soeben eingerichtet und schaue mir was man in den Videos so machen kann. Habe aber nur eine 4060 Ti 16GB da.
 
  • Gefällt mir
Reaktionen: Azghul0815
samuelclemens schrieb:
Mit meiner GTX 1060 6GB gelingen mir jedenfalls keine großen Würfe. Und wesentlich mehr wirds beim nächsten Rechner in ein/zwei Jahren auch nicht mehr werden bei den aktuellen Preisen.
Aktuell hab ich ne 4070 ti s drin.
Das ist obere Mittel Klasse. Ok, bei KI aber nicht viel Langsamer als eine 4060 ti mit 16GB. Kommt halt auf den Speicher an.
Das deine 6 GB bei einer GPU die quasi 4 Generationen alt ist, kein Land mehr sieht hat nichts mit Highend Hardware zu tun. Die Karte ist 8.5 Jahre alt....ein Samsung S7 sieht heute in der Android Welt auch ohne KI kaum noch Land
Ergänzung ()

oicfar schrieb:
Danke. Kannte ich bisher noch nicht.
Kam noch nicht dazu, wollte es aber unbedingt mal testen. Stell ich mir im Teamscall witzig vor
 
Azghul0815 schrieb:
Kam noch nicht dazu, wollte es aber unbedingt mal testen. Stell ich mir im Teamscall witzig vor
Live-Kamera habe ich noch nicht ausprobiert.

Habe paar Videos mit einem anderen Gesicht umrendern lassen. Ja, es ist ok. Wicht ist, was für Ausgangsvideo man hat.

Ich habe alles manuell installiert. So wie es auf der GitHub Seite steht. Ging relativ schnell. Es müssen ins der Summe paar GB Runtergeladen werden. Vorteil war, dass ich Visual Studio als auch CUDA schon drauf hatte. Sonst wäre der Setup umfangreicher gewesen.
Ergänzung ()

Meine NVidia wird so zwischen 50-90% ausgelastet.
1737315912213.png
 
  • Gefällt mir
Reaktionen: Azghul0815
@Azghul0815 Die 1060 tut's dennoch zu 90%. Mehr brauch ich im Grunde nicht.
Mal schauen, der nächste PC ist erstmal nur wegen dem Windoof 11 geplant. Vielleicht kann ich sogar die olle 1060 einbauen und in 2-3 Jahren kann ich durch die Ersparniss dann was halbwegs vernünftiges für KI einbauen.
Ich weiss nicht ob es sich jetzt lohnt was mit 16 gb zu holen wenn ich in drei Jahren dann doppelt oder dreimal soviel fürs selbe Geld bekomme... 🤔
Ich kenn mich leider im GPU Markt nicht so aus.
 
samuelclemens schrieb:
Vielleicht wirds ja in diesem Segment ja möglich werden die KI Modell über extern an mietbare Hardware zu betreiben, verschlüsselt.🤔
Datenverarbeitung auf verschlüsselten Daten geht nicht, weil die "meaningless" sind (das ist ja der Witz bei Verschlüsselung). Ein paar einfache/eingeschränkte Operationen gehen, wenn Du eine abgeschwächte Verschlüsselung nimmst. Also weder sind Deine Daten stark verschlüsselt noch taugt das, um da ein KI-Modell drauf laufen zu lassen.

Theoretisch wäre es noch denkbar die ganze VM "verschlüsselt" zu betreiben. Auch das wird eher schwierig. Wenn Du das System und die Hardware nicht verifizieren kannst (und die nicht unter Deiner Kontrolle ist) hast Du aus der VM heraus auch keine Möglichkeit zu überprüfen, ob es sicher ist. Weil auch der Teil der Securiity kann ja dann nur emuliert sein.

Wenn also ein Anbieter mit Encrypted-Cloud-Computing um die Ecke kommt, würde ich also dem gegenüber erst mal skeptisch sein, statt da im Begeisterungsmodus meinen Kram hochzuladen. :)
 
  • Gefällt mir
Reaktionen: samuelclemens
@andy_m4 Naja, eine andere Idee wäre, wie gesagt, das Audio oder Videomaterial in hunderte oder tausende winzige Clips per Client zu zerstückeln, mischen und damit den externen Server füttern. Das Puzzle kann dann nur der eigene Client zusammensetzen.
Ich weiss, die Datenstücke wären mit etwas aufwand dennoch wiederherstellbar. Deshalb auch nichts für wirklich brisantes Material.

Mit verschlüsselt meinte ich aber eher das die Files vor und nach der Bearbeitung auf dem Server verschlüsselt gelagert werden. Somit wäre man wenigstens vor Leaks etwas geschützt. Natürlich ist es dann immer noch eine Vertrauensfrage zum Betreiber der Server.
 
samuelclemens schrieb:
Interessant wäre ein KI Tool das auch heruntergeladene subtiles mit einbezieht bzw diese an das Video anpassen könnte.
Das Problem wurde ja schon angesprochen das srt Dateien aus dritt quellen oft nicht synchron zum vorliegenden Videofile sind oder sogar nur in anderen sprachen vorliegen als die, die man braucht.
Die Idee wäre also zb die srt Datei zu korrigieren indem es die Zeitindexe anpasst anhand der gesprochenen stellen im Video.
Abgesehen von in eine andere Sprache übersetzen, genau das macht das Tool SubSync, nur ohne KI sondern ganz Klassisch. Hat aber auch eine Weile gedauert und viel Recherche gebraucht bis ich das Tool gefunden habe. Vorher Gaupool und so probiert aber ganz schnell aufgegeben weil die Zeit ist mir zu kostbar manuell Zeitindexe anzupassen.
Aber SubSync hat Grenzen, z.b. kürzlich Rock the Kasbah mit Englischen Untertiteln, was hat gefehlt? Wenn die Leute Afgahnisch gesprochen haben.

In Zeiten von Streaming ändern sich die Gegebenheiten wieder, wie bindet man da andere Untertitel ein? K.A.
Für meine Anforderung Englisch ist Streaming scheint es keine Probleme zu geben, als ich Prime hatte hat der meiste Inhalt Englisch und Englische Untertitel, Ausnahmen gabs aber auch da (Tribute von Panem z.b.).
Apple TV was ich zur Zeit nutze ist bislang in der Hinsicht tadellos.

Weitgehends mache ich um Streaming ein Bogen, die Fragmentierung und Audio geht mir da auf den Geist.
 
Zurück
Oben