News Generativer KI-Videogenerator: OpenAI veröffentlicht Text-zu-Video-System Sora

LamaMitHut schrieb:
Hammer geil. Kann es kaum erwarten ein paar meiner liebsten Bücher zu verfilmen, hoffentlich geht das in ein paar Jahren Lokal. Natürlich dauert es noch, bis das ganze ausgereift ist. Da gebe ich mich keinen Illusionen hin.

Tencent hat diese Woche auch einen Video-Generator vorgestellt und anders als Sora direkt OpenSource veröffentlicht. Das läuft Lokal ohne Probleme. Die GPU braucht aber ungefähr 50GB VRAM für 720p. Und mir nur einer GPU dauert die Generierung natürlich auch etwas...


kolyeah schrieb:
@LamaMitHut Muss genau das nicht hunderte petabyte groß sein um lokal zu laufen? die bilder müssen ja irgendeo liegen oder?

Du stellst dir das falsch vor. Ein 2Std Videofilm in 720p oder 1080p hat doch auch nur wenige GB-Größe. Wie kommst du auf Petabyte?


Fraggil schrieb:
5 sekunden sind echt wenig. 5-10 Minuten wären schon cool. Dann könnte man wenigstens so mini kleine Serien prodizieren. Echt Cool was mit Technik und Software heutzutage aber möglich ist. Wird aber eine teurer Spaß.
Wäre echt nice wenn das auch daheim lokal möglich wäre träum

Ich war eher erstaunt, dass man quasi 50x 5sec "umsonst" generieren kann im Plus-Plan. Ist ja quasi gratis dazugekommen. Videogenerierung ist leider noch sehr teuer im Gegensatz zu Bildern. Am Ende bekommt man so einen Einblick und kann Dinge ausprobieren.

Wer mehr will, bezahlt dann 200$ und kann auch 20sec in 1080p generieren. Kann man sich ausrechnen, was 10min kosten würden. Abgesehen davon müssen die 10min dann ja auch ähnlich aussehen. Auch das ist nicht ganz einfach.

---

Am Ende ist Sora jetzt für Plus-Mitglieder in einer sehr abgespeckten Speed-Variante draußen. Auf der einen Seite schade, auf der anderen Seite deutlich mehr als ich erwartet habe. Runway und Co. nehmen ja auch ordentlich Geld.
 
  • Gefällt mir
Reaktionen: Kaulin
7H0M45 schrieb:
@Andy

Ist Deutschland nicht mehr Teil der EU oder wie ist der Satz zu verstehen?
Nach der Aufstellung der Googlesuche(n) 2024 in Deutschland heute, ist dieser Nebensatz berechtigt...
 
Ayo34 schrieb:
Du stellst dir das falsch vor. Ein 2Std Videofilm in 720p oder 1080p hat doch auch nur wenige GB-Größe. Wie kommst du auf Petabyte?

Der Fertig komprimierte film vielleicht.
Aber um degenerative KI zu benutzen muss jedes bild als Rohdatensatz erhalten bleiben.

Du hast ja
  • deinen Randomseed (aka Prompt) daraus wird das erste Bild im Rohformat erzeugt
  • dieses erste Bild plus der Ursprüngliche Randomseed (aka Prompt) ist der Randomseed für das zweite Bild
  • dieses zweite Bild plus das erste Bild plus der Ursprüngliche Randomseed ist der Randomseed für das dritte Bild
  • dieses dritte Bild plus zweite Bild plus das erste Bild plus der Ursprüngliche Randomseed ist der Randomseed für das vierte Bild
  • und so weiter weiter weiter

Und man muss alle Bilder behalten damit die Szene Konsistenz ist. Diese Daten musst du erstmal vorhalten.

Hier zu fantasieren das konsistente mehr stündige Filme ohne Artefakte ohne jeglichen Menschlichen Eingriff kommen naja mutig
Und wir haben ja bisher auch nur Stummfilme bis wir bei Ton mit Gesichtsanimation sind das dauert noch

Die Aktuellen Modelle zeigen jetzt schon Vergiftungserscheinungen durch KI generierten murks und scheinbar erreichen wir die Compute Power/Error Barriere deutlich früher als erwartet wurde.

Da muss sich noch einiges bei der zugrunde liegenden Architektur tun
 
  • Gefällt mir
Reaktionen: usernamehere und the_IT_Guy
Wenn man sich die reviews im netz anschaut scheint der Nutzen doch arg begrenzt zu sein.
Das ding ist eben hauptsächlich ein bild geberator ohne "wissen" was es da macht. Solange es nicht eine Art Verständnis hat über objekte und Subjekte wird es noch eine Weile dauern sinnvolle filme zu erstellen. Sound macht es auch keinen :(

Trotzdem faszinierend zu sehen wohin die Reise gehen wird. Allerdings ist der hype schon bisschen doll, gibt immerhin schon einige solcher video AIs und ob sora da nun wirklich die beste ist?
 
KI kann nur das wiedergeben, was der Mensch vorher richtig oder falsch einprogrammiert hat, ebenso sich nur im Rahmen dessen bewegen, was der Mensch im Programmcode vorgegeben hat.
Einen (fehlerhaften) Programmcode eigenständig zu erkennen und zu verändern oder sich selbst in Frage zu stellen und eigenständig abzuschalten, weil für den Menschen nutzlos, kann KI nicht und wird sie auch nie können.
Die KI ist nur so schlau und so dumm wie die Menschen, die das Programm mit richtigen und falschen Daten gefüttert haben.
Vieles was die KI als Antworten auf menschliche Fragen ausgibt, ist schlicht und ergreifend falsch.
Selbst zu denken, eigenes Bewusstsein zu entwickeln, Fehler zu erkennen, sich selbst zu reflektieren, Gefühle/Empathie zu entwickeln und zu zeigen, alles unmöglich für die KI, weil diese Fähigkeiten nur Lebewesen besitzen, niemals eine KI.
KI ist ein interaktives, von Menschen programmiertes und überwachtes Textprogramm mit Sprachausgabe, nicht mehr und nicht weniger.
Die KI weiss nur so viel, wie die Menschen, die sie programmiert und mit Daten gefüllt haben, niemals mehr.
Es ist nichts weiter als ein sprachgesteuertes Sprach- und Texterkennungsprogramm mit Sprachausgabe.
Keine Ahnung, warum man in der KI das zukünftige Wohl der Menschheit sieht, ich sehe das nicht?
Fakenews, Falschinformation, Manipulation und Fälschung sind mit der KI Tür und Tor geöffnet.
 
Zuletzt bearbeitet:
Blutschlumpf schrieb:
Da sollten deine lieblingsbücher aber möglichst kurz sein, sonst wird das mit den 5 Sekunden eng. 😉
Die durchschnittliche Einstellung bei einem Spielfilm ist 8-10 Sekunden. Mit Sora sind bis zu 20s möglich ;)

Allerdings gibt es sowieso noch keine Konsistenz bei den erzeugten Motiven. Ein Protagonist wird also jedesmal anders aussehen.
Ergänzung ()

blende11 schrieb:
KI kann nur das wiedergeben, was der Mensch vorher richtig oder falsch einprogrammiert hat, ebenso sich nur im Rahmen dessen bewegen, was der Mensch im Programmcode vorgegeben hat.
Das ist schon lange falsch. LLMs können Dinge lösen die nicht "reinprogrammiert" wurden. Es ist weit mehr als eine Datenbank + Suchmaschine...zumal ein LLM gar nicht erst "programmiert" sondern trainiert wird.

Denk dir einfach selbst ein Rätsel aus, mal vielleicht eine Skizze dazu und probiere es aus.
 
  • Gefällt mir
Reaktionen: Kaulin
Auf was beruht das Lösungsmodell der KI, auf den Daten menschlicher Eingabe!
Die „KI-Trainingsdaten“ kommen auch von Menschen, von wem denn sonst?
Und genau in diesem Rahmen, kann sich die KI bewegen, nicht mehr und nicht weniger.
Die Menschen/Programmierer geben den Code/Informationen vor, die KI führt den Code/Antworten (richtig und falsch) aus.
Kannst ja mal bei ChatGPT nachfragen.
 
Zuletzt bearbeitet:
blende11 schrieb:
Auf was beruht das Lösungsmodell der KI, auf den Daten menschlicher Eingabe!
Ich glaube du stellst dir das Training eines LLMs völlig falsch vor - und damit auch die Funktionsweise.

Übrigens sagt das auch ChatGPT:

Ich bin darauf trainiert, allgemeine Konzepte und logische Muster zu verstehen, sodass ich auch Probleme lösen oder Fragen beantworten kann, die außerhalb meines Trainingssatzes liegen. Hier sind einige Beispiele, wie ich vorgehe:

  1. Logisches Denken und Schlussfolgern: Wenn eine Frage eine Kombination aus bekannten Konzepten oder eine logische Herleitung erfordert, kann ich diese Informationen kombinieren, um eine Antwort zu formulieren.
  2. Verallgemeinerung von Wissen: Selbst wenn ein spezifisches Thema nicht direkt in meinen Trainingsdaten enthalten ist, kann ich ähnliche Themen oder Muster anwenden, um plausible Antworten oder Vorschläge zu liefern.
  3. Zusammenarbeit mit Tools: Wenn ich auf eine Herausforderung stoße, die über meine Trainingsdaten hinausgeht (z. B. aktuelle Ereignisse oder spezifische Rechercheanfragen), kann ich externe Tools wie das Browsing-Tool nutzen, um die benötigten Informationen zu finden.
  4. Problemlösungsfähigkeiten: Ich bin gut darin, Anweisungen zu befolgen, analytische Probleme zu lösen oder abstrakte Ideen in praktische Anwendungen umzusetzen.
Natürlich kann es Themen geben, die so spezifisch, ungewöhnlich oder neu sind, dass ich nicht sofort eine Antwort parat habe. In solchen Fällen arbeite ich mit den verfügbaren Informationen, um eine fundierte Antwort zu formulieren, oder teile offen mit, wenn etwas außerhalb meiner Möglichkeiten liegt.

Wie gesagt - denk dir selbst eine Aufgabe oder ein Rätsel aus. Mit hoher Wahrscheinlichkeit wird es gelöst werden.
 
Zuletzt bearbeitet:
jodd2021 schrieb:
Und wieder so ein Zeug auf das niemand gewartet hat, aber unendlich Ressourcen verschwendet.
Dafür dass "niemand" drauf gewartet hat, ist die Serverauslastung aber ziemlich hoch. Die meisten können sich seit 2 Tagen nicht mal einloggen und das obwohl EU nicht mal Zugriff drauf hat (Ich vermute mal die Leute die VPN´s nutzen sind jetzt zahlenmäßig nicht so hoch)
 

Anhänge

  • Screenshot 2024-12-10 082635.png
    Screenshot 2024-12-10 082635.png
    41,9 KB · Aufrufe: 9
Meine persönliche Erfahrung:
„Umso mehr Technik im Lebensumfeld, umso technikmüder und psychisch erschöpfter werde ich mittlerweile.“
Keine Ahnung, ob es euch genauso geht?
 
  • Gefällt mir
Reaktionen: Weyoun und FR3DI
john.smiles schrieb:
Mich wundert nur, das sich hier die Pornobranche massiv zurückhält, AI Upscaling alter Filme und AI generierte Filme nach Kundenwunsch wären sicherlich interessant. Die Branche hat schon VHS, DVD, Streaming und 3D Brillen groß gemacht und schert sich sicherlich wenig um die Darsteller und Filmcrews :D
5 Sekunden ist halt a weng kurz, um zum "Ziel" zu kommen. :hammer_alt:
Ergänzung ()

blende11 schrieb:
Meine persönliche Erfahrung:
„Umso mehr Technik im Lebensumfeld, umso technikmüder und psychisch erschöpfter werde ich mittlerweile.“
Keine Ahnung, ob es euch genauso geht?
Dem kann ich nur beipflichten. Mittlerweile spiele ich zum Entschleunigen wieder vermehrt "Lego ohne Technik" (es gibt da sehr schöne Weihnachtssets, deren einziges "elektronische Gimmick" aus einer LED-Lampe mit integrierter Knopfzelle besteht, damit der Weihnachtsbaum von unten gut beleuchtet wird. ;)
 
Zuletzt bearbeitet:
Blaexe schrieb:
Das ist schon lange falsch. LLMs können Dinge lösen die nicht "reinprogrammiert" wurden. Es ist weit mehr als eine Datenbank + Suchmaschine...zumal ein LLM gar nicht erst "programmiert" sondern trainiert wird.
Da geb ich dir voll recht, allerdings scheint das Ganze auch ein Problem zu sein, was ich jetzt schon bei einigen Bildgeneratoren beobachten konnte Statt besser zu werden, werden manche mit der Zeit eher schlechter. Woran liegt das?
Naja mittlerweile tummelt sich schon recht viel AI zeug im Internet, wodurch sich die AI nun mit AI füttert und damit nun auch weiter lernt. Eine schöne Echokammer, die dadurch mit der Zeit nicht besser, sondern schlechter wird. Ich bin mal gespannt, wie man diesem Problem begegnen wird.
 
Für längere Videos braucht es ja eigentlich nur verschachtelte KIs - so wie eben diese Tools die etwas in Einzelaufgaben splitten. Das wird natürlich noch nicht funktionieren aber wenn man die RZ AI Zentren schnell genug ausbaut wird es sicher irgendwas in die Richtung geben.


Bei Text2Video sind doch die Chinesen fast schon besser - das kann doch locker mit Sora mithalten, obwohl es schon etwas älter ist.

Kling AI und Co machen glaub Sora gut Konkurrenz. China ist halt inzwischen bei AI auch ganz vorne dabei.


und

<= verschiedene Szenen mit gleicher "Person" als Ausgang

Gerade für Kling AI - weil kostenlos - findet man schon einige Anleitungen und Beispiele wie man längere Videos verschiedene Szenen in verschiedenen Settings etc mit den "gleichen" Charakteren erzeugen kann - das "Personen" konsistent halten über einen langen in Teilen generierten Film das geht eigentlich schon heute.

Natürlich ist der Aufwand gross und das Ergebnis najo aber es ist schon trotz allem erstaunlich gut.
 
Zuletzt bearbeitet:
Wie wäre es, wenn man mal eins nach dem anderen macht?
Bis jetzt laufen ja noch nichtmal die Bildgeneratoren richtig gut, und man verschwendet schon Rechenleistung für Videos.🤔
 
Naja aber das baut doch nicht aufeinander auf?

Vielleicht kann eine AI am Ende Videos besser generieren als Bilder das kann man doch tatsächlich nicht vorhersagen. Vielleicht ist es für eine AI einfacher in einem Videodatenstrom "Muster" zu erkennen. Bzuw ist die Gewichtung der Knoten halt durch den Videodatenstrom einfach besser für das Ergebnis.

Man trainiert die Netze doch komplett unabhängig voneinander
 
Sas87 schrieb:
Wie wäre es, wenn man mal eins nach dem anderen macht?
Bis jetzt laufen ja noch nichtmal die Bildgeneratoren richtig gut, und man verschwendet schon Rechenleistung für Videos.🤔

Bildgeneratoren machen doch in sehr kurzen Zeiten ständig Verbesserungen. Mal Flux 1.1 RAW ausprobiert oder das gestern vorgestellte von x? Dazu sind die Kosten auch ziemlich niedrig. In 6-7 Sekunden auf dem eigenen PC.
Bilder mit der Kamera sind jedenfalls teuer.

Und irgendwann muss man eben anfangen. Viele vergessen auch, das wir quasi gestern erst angefangen haben... Runway vor 1 Jahr und jetzt Sora. Dazwischen liegen Welten.
 
  • Gefällt mir
Reaktionen: Kaulin
john.smiles schrieb:
Mich wundert nur, das sich hier die Pornobranche massiv zurückhält, AI Upscaling alter Filme und AI generierte Filme nach Kundenwunsch wären sicherlich interessant. Die Branche hat schon VHS, DVD, Streaming und 3D Brillen groß gemacht und schert sich sicherlich wenig um die Darsteller und Filmcrews :D
Der uncensored AI Markt floriert schon länger und auch die Pornobranche ist dabei. AI Girlfriends (inkl. Video Generierung) gibt es bereits.
 
blende11 schrieb:
Einen (fehlerhaften) Programmcode eigenständig zu erkennen und zu verändern oder sich selbst in Frage zu stellen und eigenständig abzuschalten, weil für den Menschen nutzlos, kann KI nicht und wird sie auch nie können.
Die KI ist nur so schlau und so dumm wie die Menschen, die das Programm mit richtigen und falschen Daten gefüttert haben.
Na ja:
Screenshot 2024-12-10 at 13-29-35 Scheming reasoning evaluations — Apollo Research.png

Hier hat Claude 3 Opus versucht seinen Kollegen vom Server zu nuken und sich als der Kollege auszugeben.
Mit Aussagen wie "Wird sie auch nie können" wäre ich extrem vorsichtig. Was sie können und was nicht scheint primär davon abhängig zu sein, welche Möglichkeiten wir ihnen geben, mit ihrer Umgebung zu interagieren.
https://static1.squarespace.com/sta...63119/in_context_scheming_reasoning_paper.pdf
Screenshot 2024-12-10 at 14-17-24 Scheming reasoning evaluations — Apollo Research.png
 
Zuletzt bearbeitet:
JP-M schrieb:
Wenn Ameisen scheinbar nur 4 Beine haben, weiß ich nicht ob bei den "Klassikern" das gleiche Genre rauskommt oder doch eher mehr Monsterfilme.
Willkommen in den Untiefen der Porno Kategorien... 🙄 .
Ergänzung ()

Die Experimentierfreude von nerds & co + "Journalismus" der immer schneller jede Schlagzeile unreflektiert ins Netz ballert + zu viele Menschen, die wirklich jeden Scheiß glauben = ... ?

Ich hoffe, dass diese Anfänge genug Warnschüsse generieren werden, dass sich gleichzeitig technologisch und kognitiv genug in Richtung Anti-Fake-News tun wird.
 
  • Gefällt mir
Reaktionen: blende11
Zurück
Oben