Veo 3 und Flow: Wie sich Googles neues KI-Video-Modell im Alltag schlägt

Andreas Frischholz
89 Kommentare
Veo 3 und Flow: Wie sich Googles neues KI-Video-Modell im Alltag schlägt
Bild: Google

Google Video-Modell Veo 3 lässt sich seit Freitag auch über die neue Flow-App nutzen. ComputerBase hat das Modell ausprobiert und im Alltagstest zeigt sich: Der Fortschritt im Vergleich zu den Tests mit OpenAIs Sora und Adobes Firefly-Modell vom März sind bemerkenswert. An einigen Ecken hakt es aber immer noch.

Google Flow: Das wird benötigt

Um Flow nutzen zu können, wird ein Google-AI-Pro-Abo benötigt, das 21,99 Euro pro Monat kostet. Die Abrechnung erfolgt dann über ein Credit-System. Pro-Abonnenten erhalten jeden Monat 1.000 KI-Guthabenpunkte, Google AI Ultra-Abonnenten 12.500 KI-Guthabenpunkte.

Modell Maximale Anzahl Videos Erforderliche KI-Guthabenpunkte pro Generierung
Veo 2 – Fast 100 10
Veo 2 – Quality 10 100
Veo 3 – Fast 10 20
Veo 3 – Quality 10 100

Wie viele Guthabenpunkte verbraucht werden, hängt vom Modell ab. Veo 3 ist aufwändiger als Veo 2, neben besserer Qualität bietet es aber auch Audio-Inhalte. Hinzu kommen nochmals die Unterschiede der Fast- und Quality-Varianten, die sich ebenfalls bemerkbar machen, wie die Testläufe zeigen.

Nutzen lässt sich Veo 3 auch über die Gemini-App, dann ist der Funktionsumfang aber eingeschränkt.

Veo 3 im Alltagstest

Um zu prüfen, wie sich Veo 3 im Alltag schlägt, nutzt ComputerBase die Video-Aufgaben vom Test aus dem März.

Der Testlauf erfolgt zunächst mit Veo 3 Fast. Es ist auch das Standard-Modell in der App.

Text zu Video bei Veo 3

Erste Aufgabe ist erneut, eine Zeitraffer-Aufnahme von der Frankfurter Skyline in der Dämmerung zu erstellen. Das funktioniert, anhand der Hochhäuser und dem Fluss ist auch ersichtlich, dass es sich um Frankfurt handeln könnte. Markante Gebäude wie der Messeturm, den Adobes Firefly-KI darstellt, fehlen aber bei Veo 3.

Der Fuchs im Fluss wird in bemerkenswerter Qualität generiert, an einigen Stellen zuckt das Tier aber, Animationen beim Schütteln wirken unrund. Auffällig ist auch die Qualität der Wasserdarstellung und die Klangkulisse, die Veo 3 generiert. Diese wirkt bisweilen verzögert, beeindruckend ist es dennoch.

Abstrakte Konzepte wie das Training von KI-Modellen zu illustrieren, konnten bereits Sora und Firefly im März ordentlich lösen. Dasselbe gilt nun auch für Veo 3, ohne jedoch aufzufallen.

Veo 3 Fast und Quality im Vergleich

Interessant ist der Vergleich von Veo 3 Fast zu Veo 3 Quality. Das zeigt sich etwa bei der Aufnahme eines Mannes in einem Cyberpunk-Setting im Blade-Runner-Stil. Der komplette Prompt für dieses Video lautet: Dark cyberpunk setting in the style of Blade Runner with neon lights: 34-year-old blond man with sidecut and slicked-back hair, synthetic blue eyes, three-day beard, leather jacket and leather boots, walking through a street.

Schon bei Veo 3 Fast ist das Ergebnis wesentlich runder als das, was Sora und Firefly im März generierten. Die Fortschritte bei der Entwicklung der Modelle sind bemerkenswert, nach Artefakten und Fehlern muss genauer geschaut werden. Mit Veo 3 Quality wirkt das Ergebnis nochmals realistischer.

Besonders auffällig ist der Fortschritt von Veo 3 Quality bei der Aufgabe, den Einbau einer Grafikkarte als Video umzusetzen. Erstmals passt nun der Ablauf, die Karte wird korrekt eingesteckt. Realistisch wirkt es nach wie vor nicht, kleinere Fehler wie die Darstellung beim Mainboard-Slot existieren ebenfalls, aber der Prozess an sich passt. Bei Sora und Firefly wurde die Grafikkarte hingegen einfach nur abgelegt.

Bislang wurden Videos basierend auf Text generiert. Eine weitere Möglichkeit ist, die Aufnahme mit einem Bild zu starten. Möglich ist sowohl den ersten als auch den ersten und letzten Frame zu wählen. So lassen sich etwa Übergänge gestalten.

Wird ein Bild als Grundlage genutzt, hat Veo 3 Quality ebenfalls Vorteile, weil etwa – wie bei dieser Hundeaufnahme – die Details beim Gras erhalten bleiben. Veo 3 Fast ist in dieser Hinsicht noch nicht so ausgereift. Zusätzlich gibt es Unterschiede bei der Klanggenerierung wie einem unpassend wirkenden Bellen, das nicht zur Maulbewegung des Hundes passt.

Googles restriktive Vorgaben bei Veo 3

Einige Hinweise zu den Einschränkungen bei Veo 3: Prompts funktionieren nur auf Englisch. Ebenso wenig ist es möglich, Videos basierend auf Aufnahmen zu erstellen, die echte Personen zeigt. Ein Bild von sich selbst animieren, geht also nicht. Ebenso verweigert Veo 3 bei Aufnahmen mit Menschenmassen eine Video-Generierung. Daher war es etwa nicht möglich, das Bild eines Marktplatzes animieren zu lassen. Im konkreten Fall verweigerte Flow sogar direkt den Upload. Googles Sicherheitsmaßnahmen sind also restriktiver als die bei anderen Modellen.

Was aber etwa geht: ein Bild von sich im Ghibli-Stil umsetzen und das animieren lassen.

Bemerkenswerter Fortschritt

Was der Testlauf schon zeigt: Wie rasant sich die Modelle in vier Monaten weiterentwickeln, ist bemerkenswert, die Fortschritte von Veo 3 sind deutlich zu erkennen. Wie die Qualität ausfällt, hängt stark vom jeweiligen Prompt ab. Generell gilt: Je komplexer, desto besser. Hinweise zum Aufbau liefert Google selbst mit einem Ratgeber-Beitrag, hilfreich sind auch Tipps auf X-Kanälen wie dem von Emily. Dort gibt es eine Vielzahl an Videos samt der Prompts, die als Basis zum Experimentieren genutzt werden können.

Was bei Flow aber noch auffällt, ist das frühe Entwicklungsstadium. Veo 3 verweigert regelmäßig, ein Video zu generieren, dann erfolgt automatisch der Wechsel auf Veo 2 – mit der schlechteren Qualität und ohne Ton. Die Vorgaben bei Bild-Uploads sind restriktiv, das Storyboard-Tool für den Video-Schnitt bietet nur wenige Funktionen und wechselt bei der zweiten Szene regelmäßig auf das Veo-2-Modell. Einfach mal schnell ein komplexes Video erstellen, ist mit dem Tool aktuell nicht ohne Weiteres möglich. Selbst bei Veo 3 ist also noch einiges an Aufwand nötig, um Inhalte zu generieren, die wie die viralen Videos aussehen.

Anwendungsbereich: Social Media, kleine Clips – und AI Slop

Anwendungszweck bleibt damit vor allem der Social-Media-Bereich. Mit den Kurzvideos Stockmaterial für Reels generieren, so etwas funktioniert und die Qualität dafür ist auch bereits vielversprechend.

Allerdings richtet das auch einen Blick auf etwas, das auf Social-Media-Plattformen mittlerweile den Alltag bestimmt: AI Slop – also billig generierte KI-Inhalte, die den Feed überfluten. Welche Ausmaße das auf Plattformen wie Pinterest hat, zeigte etwa John Oliver in einer Ausgabe von Last Week Tonight. Die synthetischen Inhalte sind bereits ein Problem und mit Tools wie Veo 3 dürfte es sich eher noch verschärfen.

Unsere Bots: aktuelle RTX 50 Deals und RX 9000 Deals mit 📉Preistrend und Nintendo Switch 2 kaufen.