KI Text to Video Generator

rob94

Cadet 2nd Year
Registriert
Dez. 2022
Beiträge
16
Hallo zusammen,

ich suche für meine Idee, fachliche Ideengeber, die mir Denkanstöße geben können, wie diese technisch realisierbar wäre.
Und zwar geht es bei der Idee grob um einen Text to Video Generator, der mit Hilfe von KI menschliche Bewegungen und die Interaktion mit der Umgebung bildlich wiedergeben soll. Bspw. Mensch springt, läuft, tanzt etc.

Hat jemand Erfahrung in dem Bereich und kann hier konkrete Tipps geben welche Komponenten für so etwas notwendig sind?

Vielen Dank!

LG Rob
 
rob94 schrieb:
wie diese technisch realisierbar wäre
Mit Rechenleistung und Datenmassen die du sehr wahrscheinlich nicht hast.

Weiß ja nicht wie du dir das vorstellst, aber meinst du wirklich einfach so etwas wie https://openai.com/dall-e-2 zaubern zu können bzw. dann noch in Form von Videos, also auch noch zeitlich zusammenhängende Bilder?

Falls du das was dort dahintersteckt auch noch überhaupt nicht kennst kannst du anfangen dich in Machine Learning bzw. Neural Networks in ihren breiten Ausprägungen einzulesen.
 
Mich würde erstmal ein Prototyp interessieren, der im konkreten einen digitalen Avatar abbildet und eine Vielzahl an verschiedenen menschlichen Bewegungen simulieren kann, auch gerne losgelöst von einer Umgebung. Das sollte doch bei Weitem nicht so komplex sein wie Dall E oder?
 
rob94 schrieb:
Das sollte doch bei Weitem nicht so komplex sein wie Dall E oder?
Oh doch, unterschätze das bloß nicht.
Vorallem brauchst du Rechenleistung und dann noch viel mehr Rechenleistung.
 
  • Gefällt mir
Reaktionen: rob94
Ich habe früher (verdammt lang her) mal mit einer Software experimentiert, die hieß Anim8or. Heute gibt es wohl professionellere Software für solche Zwecke. Aber wenn du bereits einen bestehenden Renderer benutzen kannst, brauchst du dich ja nur noch um den Text to Renderer Teil zu kümmern.
 
  • Gefällt mir
Reaktionen: rob94
rob94 schrieb:
eine Vielzahl an verschiedenen menschlichen Bewegungen simulieren kann
Alleine das ist ohne jegliches AI Gedöhns schon kompliziert genug, wenn es natürlich aussehen soll. Motion Capturing für Spiele z.B. wird nicht ohne Grund gemacht. Natürliche menschliche Bewegungen sind hochkomplexe Abläufe.
 
Absolut. Das ist so wie manche an Spieleentwicklung interessiert sind, aber direkt ein MMORPG machen wollen und schon an Pong scheitern würden.
 
  • Gefällt mir
Reaktionen: Asghan
Text to Video Generator, der mit Hilfe von KI menschliche Bewegungen und die Interaktion mit der Umgebung bildlich wiedergeben soll.

Wenn ich das schon Lese, HOLY! Wenn du nur ein Strichmännchen Animieren möchtest, das nur 3-4 Zustände hat, okay. Aber soll es einen Menschen in Form von Comicformat oder so wiedergeben, gäbe es massive viele Zustände, die dann auch z.B. dem Text "Mensch soll Springen" als Vorlage definiert werden sollte. Und da reden wir nur von Springen. ^^
 
rob94 schrieb:
Mich würde erstmal ein Prototyp interessieren, der im konkreten einen digitalen Avatar abbildet und eine Vielzahl an verschiedenen menschlichen Bewegungen simulieren kann, auch gerne losgelöst von einer Umgebung. Das sollte doch bei Weitem nicht so komplex sein wie Dall E oder?
Doch ist es und erst recht, wenn man keine Ahnung von KI oder Programmieren oder generell IT hat. Ich fürchte daher, die Pornos nach eigenem Drehbuch werden warten müssen, bis das jemand anders erfindet.
 
  • Gefällt mir
Reaktionen: NJay
Hast du dein anliegen mal vorsichtig in eine Suchmaschine getippt? Das ist in den letzten 6-12 Monaten ein extremaktives Thea zu dem sehr viel geschrieben wird.
Artikel:
https://text2video-zero.github.io/
modelle dazu mit doku:
https://github.com/Picsart-AI-Research/Text2Video-Zero (demo dazu:L https://replicate.com/cjwbw/text2video-zero)
https://github.com/sibozhang/Text2Video

Auto1111 Plugin:
https://github.com/kabachuha/sd-webui-text2video
Als google "cloud plugin": https://github.com/camenduru/stable-diffusion-webui-colab
SAM und was sich da in den letzten wochen drum herum entwickelt hat kann da auch hilfreich sein:
https://github.com/Hedlen/awesome-segment-anything

und so weiter.. was du vor hast ist viel arbeit. Du wirst Modelle nach trainieren muessen.
 
  • Gefällt mir
Reaktionen: rob94
Danke dir. Das ist nicht der Plan. Ich möchte die Idee nur mal grob umreisen, um ein besseres Verständis davon zu bekommen was möglich und was dafür notwendig ist und anschließend mit einem entsprechenden Team und ggf. dem notwendigen Kapital an der Umsetzung arbeiten.
 
rob94 schrieb:
Ich möchte die Idee nur mal grob umreisen, um ein besseres Verständis davon zu bekommen was möglich und was dafür notwendig ist und anschließend mit einem entsprechenden Team und ggf. dem notwendigen Kapital an der Umsetzung arbeiten.
Ja, dann setz dich auf deinen Hosenboden, wenn du damit Geld machen möchtest. Das heißt auch, dass du selbst recherchierst und dir notwendiges, nicht zwingend fachliches, Wissen aneignest über den Stand der Wissenschaft und Technik usw. usf.
Damit kannst du dann ein Konzept erarbeiten, dass Hand und Fuß haben muss und dich damit wiederum dann auf die Suche nach Team und Finanzierung begeben.

Ich finde sowas ehrlich gesagt scheiße dreist hier zu fragen. Klar ist ein Forum zum Fragen da, aber quasi hier mit einer "Idee" zu kommen (ich garantiere du bist nicht der Erste mit dieser "Idee") und dann ohne jegliche Eigenleistung nach einer möglichen Umsetzung zu fragen die man grundsätzlich auch noch kommerzialisieren will ist in meinen Augen einfach dreist.
 
  • Gefällt mir
Reaktionen: BeBur und madmax2010
Ich fürchte, dafür bist du in einem Forum verkehrt. Die möglichen Ansätze wurden genannt. Eine Art ChatGPT2Video existiert nach meinem Wissen nicht. Nicht umsonst, wurde für realistische (wenn denn das das Ziel ist?) bisher immer Motion-Capture Technik verwendet und der Avatar + Hintergrund anschließend über die Aufnahme gerendert.

Das wäre IMHO bleeding edge Technologie, für die man ein StartUp in der Film/Gaming Branche gründen kann. Die dafür notwendigen Vorüberlegungen sprengen jeden Rahmen, denke ich.

Um es mal ganz grob zu umreißen:
Du brauchst eine KI, die Text verstehen kann
Du brauchst eine oder mehrere KI, die Videos generieren können

Dafür benötigt du massig Trainingsdaten (Millionen Videos mit entsprechender Verschlagwortung seiner Abschnitte) + Rechenzeit zum Training.

Du brauchst Leute, die das Trainingsmaterial sichten und welche, die die Trainingsergebnisse validieren.

Und noch viel Zeugs mehr, schließlich habe ich keine Ahnung von KI.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: rob94 und BeBur
rob94 schrieb:
was dafür notwendig ist und anschließend mit einem entsprechenden Team und ggf. dem notwendigen Kapital an der Umsetzung arbeiten.
Du wirst warten müssen, bis es Text2Video als fertigen Service gibt und den dann nutzen. Das Risikokapitel für ein Startup um sowas selber zu entwickeln wird dir niemand zur Verfügung stellen. Das ist ein hochkompetitiver Bereich in dem du glaubhaft machen müsstest, gegen Google, NVidia, Meta, Pornhub und Co. bestehen zu können.
 
Danke schon mal an die konstruktiven Kritikgeber in diesem Thread!
 
Zurück
Oben