AI Doom & Spieleentwicklung: KI erzeugt spielbares Doom in Echtzeit

Max Doll
87 Kommentare
AI Doom & Spieleentwicklung: KI erzeugt spielbares Doom in Echtzeit
Bild: Bethesda

„Can it run Doom?“, ist eine mittlerweile banale Frage. Der Shooter-Klassiker läuft mittlerweile selbst auf Haushaltsgeräten bis hin zum Mähroboter. Im Zeitalter künstlicher Intelligenz wird aus der humorigen Frage „can it make Doom?“ Die Antwort bleibt immer gleich: natürlich. Das eröffnet eine interessante Perspektive.

Google-Forscher haben es geschafft, eine Spiele-Engine auf Basis eines neuronalen Modells zu entwickeln. GameNGen („Game Engine“) ist in der Lage, mit einer einzigen TPU Doom (1993) mit 20 Bildern pro Sekunde in Echtzeit zu generieren. Die Bildqualität liegt etwa auf dem Niveau einer JPEG-Datei. Es handele sich zwar um keine exakte Simulation, allerdings ist das neuronale Modell in der Lage, Statuswerte, Gegner, Objekte und sich öffnende Türen in der Spielwelt umzusetzen – und das auch über längere Zeiträume.

So funktioniert GameNGen

Das Modell hat zwei Bestandteile. Im groben funktioniert GameNGen so: Ein AI-Agent lernt Doom zu spielen und trainiert mit diesem Verhalten ein „Stable Diffusion Model“, das auf Basis vorheriger Frames und Aktionen Bilder generiert. Gegenüber „normaler“ Bildgeneration wurden Verbesserungen eingepflegt, durch die das Modell Zahlen sauber darstellen und sich „merken“ kann, um etwa die Munitionsmenge und Lebensenergie logisch konsistent zu halten. Das ist in Doom aufgrund des klar abgegrenzten UIs potentiell einfacher als in modernen Spielen.

Dass es noch Limitierungen gibt, verrät schon die Bildrate. Allerdings 20 Bilder pro Sekunde dynamisch und ohne größere Degradation über einen längeren Zeitraum generieren zu können, ist eine Leistung. Als größte Einschränkungen benennen die Forscher in ihrem Paper zu GameNGen das Verhalten des KI-Agenten. Es unterscheide sich vom Spieler beim Erkunden. Darüber hinaus liegt der Horizont Diffusion Modells bei nur 64 Frames, also drei Sekunden Spielzeit. Obwohl viel aus Kontext abgeleitet werden kann – ob ein Raum erkundet wurde, könne das Modell aus Lebensenergie und Munition schätzen – gebe es genug Situationen, in denen dies zu Limitierungen führe.

Langfristig Zukunftsweisend?

Erstmals ist ein KI-Modell damit in der Lage, nicht nur Bilder oder Text zu erzeugen, sondern auch eine komplexe Spielwelt und deren Regeln dazu – und das dynamisch abhängig von den Aktionen des Spielers, die den Status der Welt und damit der nächsten Bilder bestimmen, betont Theoretically Media (YouTube). Darin liege zudem ein Unterschied zu prozedural generierten Umgebungen wie in Rogue-likes. Dort werde die Welt statisch gefüllt und sei dann feststehend. GameNGen entwickelt die Welt hingegen abhängig von ihrem aktuellen Status.

Chancen sehen die Forscher für die Entwicklung von Spielen. Aktuell werden allenfalls Assets in Form von Texturen oder Dialogfetzen KI-gestützt erzeugt. Eine GameNGen wäre hingegen in der Lage, die Entwicklung stärker zu unterstützen oder gar ganz zu verändern. Denkbar wäre, dass sie ganze Level generiert oder die Entwicklung insgesamt kostengünstiger gestaltet, indem sie Spiele anhand von Beispielbildern und Beschreibungen erzeugt, heißt es in dem Paper. Das ist jedoch, räumen die Autoren ein, eine Zukunftsvision. Kurzfristig werden Chancen eher in der Erstellung von Charakteren oder Umgebungen auf Basis von Bildern gesehen, die ohne das Schreiben von Code erzeugt werden könnten.

Die Redaktion dankt ComputerBase-Leser „CyrionX“ für den Hinweis zu dieser Meldung!