Dragonball schrieb:
hab hier ne fette cpu und gpu.
Warum kann ich das Video da nicht durchjagen!
Weil die KI Demos auf "huggingfaces spaces" eben nur experimentelle demos sind um erstmal zu gucken. Normal soll man dann die ki modelle runterladen und auf eigener hardware laufen lassen.
Frag mich aber nicht wie. Das gaze gedöhns ist alles auf englisch und eher auf linux kentnisse ausgelegt.
Bisher hab ich es auch nur bei einigen textbasierten LLMs zum laufen gebracht offline.
Je nach art der KI text, video, audio oder bildgenerator und was weisss ich noch alles ist es jedes mal ein anderes workaround.
Wie sind noch jahre von Anwenderfreundlichen "runterladen, einfügen und fertig" entfernt. Und bei "fetter hardware" spreche ich von mindestens 32 VRAM auf der GPU.
Die im übrigen bei online Modellen keine Rolle spielt wie bei den online demos.
Bei Videos muss nämlich nicht nur das Audio übersetzt und mit einer synthetischen Stimme übersetzt werden sonder auch das Videobild selber analysiert und manipuliert werden.
Da gibt es auch wieder zwei ansätze wegen dem lippensynchron. Entweder die KI passt den Wortlaut an die Lippenbewegungen an oder es manipuliert das Videobild frame für frame an den lippen. Das sieht man dann übrigens sogar wenn es schlecht gemacht ist.
ZB bewegt sich dann der Kiefer obwohl die lippen geschlossen bleiben usw...
Ich würde bei den reinen Untertitels bleiben. Die YT KI Untertitel übersetzungen sind jedoch nicht die besten. Da gibts es bestimmt andere Untertitel übersetzer die das besser können.
Aber auch da gibts keine anwenderfreundlichen fix und fertig lösungen for free.