Man darf da nicht zu hart urteilen. Wie Teralios schon so schön sagte, begreifen diejenigen, die hier einseitig argumentieren diese Techniken nicht bzw. haben überhaupt kein Interesse daran, dem ganzen auf den Grund zu gehen.
Die Kernskepsis lässt sich hier nämlich auf einen zentrale Frage zusammenschmelzen:
Wie kann es sein, dass ein niedrig aufgelöstes Bild durch irgendeine KI mehr Details zeigen soll?
Wenn man die Technik dahinter nicht verstanden hat oder verstehen will, dann ist es auch völlig klar, warum hier von Grund auf Skepsis herrschen muss.
Unternehmen wir mal noch ein par Erklärungsversuche:
Nehmen wir mal ein Beispiel aus der Projektionstechnik, dann wird das ganze vielleicht anschaulicher.
Die überwiegende Anzahl der heutzutage erhältlichen Beamer arbeitet mit shifting- Technik.
Die native Auflösung der meisten 4K- Projektoren ist FullHD.
Was macht man nun um auf die 4K zu kommen:
https://www.digitec.ch/de/page/pixel-shifting-das-gefaelschte-4k-7929
Und so kann man sich das ganz grob mit DLSS auch vorstellen. Wobei dort das Bild 3x geshiftet bzw. 3 x abgetastet wird.
Vorgängerframe, aktuelles Frame und zukünftiges Frame, jeweils an einer anderen Position.
Keine Magie, kein Hinzuzaubern von Bildinhalten, Qualität gleich oder ähnlich der nativen Auflösung nur deutlich "billiger" in der Berechnung. Die Informationen sind alle da, stammen alle aus der Ausgangsbasis auf welcher auch die 4K Bilder herkommen und fürgen sich über 3 Frames verrechnet zu einem hochauflösenden Bild zusammen.
Dann wird anschließend die AI Mustererkennung drübergeschickt, die den "Charakter" der 3 Bilder analysiert und diese dem angelernten Datensatz bzw. Bildcharakter annähert.
Das große, große Missverständnis beruht eben nur darauf, weil einige hier nicht verstehen, woher das Verfahren die Daten für die zusätzlichen Pixel nimmt und mutmaßen, dass die irgendwie hinzugezaubert oder hinzugeraten (passiert in letztem Schritt in begrenztem Maße) werden.
DLSS 2.0 kann nur deshalb teils bessere Ergebnisse erzielen, weil das Bild eben nicht 2x sondern sogar 3x an unterschiedlichen Stellen abgetastet wird. Also hat man in Summe tatsächlich mehr echte Information als nativ zur Verfügung, mit welcher man das Bild zusammenpuzzlen kann.
Gutes Stichwort neuer Erklärungsversuch.
Man löst die Hälfte eines Puzzles, legt also nur jedes zweite Puzzelteil an. Damit ist man theoretisch doppelt so schnell, hat aber nur die Hälfte der Auflösung.
Dann knipst man ein Foto von dem Zustand und legt nun die zweite Reihe Puzzle dazu.
Obwohl man nun in jedem Arbeitsschritt immer nur die Hälfte des Puzzles gelöst hat, hat man zum Schluss doch das nativ aufgelöste Gesamtbild.
Ganz ohne Zaubern.
Jetzt muss man sich aber vorstellen, dass es bei Computerspielen so ist, dass sich der Inhalt des Puzzles eben laufend ändert/verschiebt. Die Fehler, die dadurch entstehen können, korrigiert man, indem man eine Bewegungsanalyse durchführt und somit sicherstellt, dass die Puzzleteile an die richtige Stelle kommen, obwohl einer immer am Tisch wackelt, auf dem man das Puzzle machen soll.
Hoffe dass vielleicht bei einigen Leuten der Groschen fällt.
LG
Zero