ElliotAlderson schrieb:
Frames zu interpolieren kostet Rechenzeit. Wenn du also 3 statt einen interpolieren musst, dauert das auch 3x solange. Die Leistung sinkt also bei Ada anstatt zu steigen.
Ist jetzt nur ein theoretisches Beispiel, denn bei Blackwell funktioniert FG technisch auch anders als bei Ada.
Bei DLSS 3 wird aus Frame 1 und 2 ein Zwischenframe generiert. Bei DLSS 4 wird versucht die Zukunft vorher zu sagen und nach Frame 1 den 2-4 Frame zu generieren, anstatt einen Frame dazwischen. Das kann Ada nicht.
Siehe hier:
https://www.pcgameshardware.de/Gefo...e-281029/News/Multi-Frame-Generation-1463150/
Vielleicht bringe ich da etwas durcheinander. Korrigiert mich hier gerne. Mich irritiert es deswegen, weil hier laut dem Artikel auf Computerbase die Optical Flow Hardware der Tensor Kerne nicht mehr genutzt wird, da die Funktion nun Bestandteil des KI Modells bzw. das Transformer Modells ist. Würde man jetzt das Modell in Ada Lovelace nutzen, bleibt die Optical Flow Hardware unberührt, dennoch könnte ja das Transformer Modell auf den Tensor Kernen ausgeführt werden. Die Frage ist dann nur, ob die Ada Lovelace Tensor Kerne leistungsfähig genug sind?
@Taxxor hatte hier bereits gesagt, dass die Recheneinheiten dafür nicht schnell genug sind. Vielleicht kann man es nicht für die ganze 4000-Serie zu Verfügung stellen, aber möglicherweise für die 4090, 4080 Super und 4080?
@Stoerdienst hatte bereits eine Einordnung der TOPS durchgeführt:
Stoerdienst schrieb:
Ist halt die Frage, was da so angenommen wird.
Laut der Folie wird FP4 mit FP8 verglichen.
Laut Nvidia ADA GPU Architecture Dokument steht da folgendes:
Anhang anzeigen 1566785
(Letzte Spalte = 4090)
Quelle:
https://images.nvidia.com/aem-dam/S...idia-ada-gpu-architecture-whitepaper-v2.1.pdf
Irgendwas passt da nicht so richtig zusammen.
Eventuell schlägt wirklich die RTX5070 die RTX4090.
Dann scheint aber die Beschreibung auf der Folie nicht ganz genau zu sein, weil FP4/INT4 in der Regel den doppelten Durchsatz im Vergleich zu FP8/INT8 hat (siehe auch 4090 Whitepaper).
Stoerdienst schrieb:
Das wäre dann aber wieder realistischer, wenn man die RTX5090 mit 3352 INT4/FP4 annimmt und die RTX4090 mit 2642 INT4/FP4.
Das passt, meiner Meinung nach, ziemlich gut zusammen.
Das wäre jetzt nur für die RTX 4090. Aber so sollte es zumindest schnell genug sein um DLSS MFG ebenfalls ausführen zu können. Beim PCGH Artikel konnte ich aus der Technik von MFG auch nicht herauslesen, was genau bei der Hardware von Ada Lovelace nicht ausreichen würde. Eher im Gegenteil:
"Unser neues KI-Modell zur Frame-Generierung ist 40 % schneller, verbraucht 30 % weniger VRAM und muss nur einmal pro gerendertem Frame ausgeführt werden, um mehrere Frames zu generieren." -
Quelle
Also beim Wechsel von Ampere zu Ada Lovelace brauchte man die Optical Flow Hardware. Da das nun das Transformer Modell übernimmt, wird meines Verständnis nur noch genügend Tensor TOPS benötigt, oder? Demnach könnte es theoretisch auch auf Ampere und Turing laufen (wenn genug Tensor Kerne vorhanden wären)... mir ging es aber erstmal nur um das Verständnis, warum das für die 4000-Serie nicht gehen sollte.
Update: Vielleicht noch etwas um darüber nachzudenken. Wir wissen natürlich nicht, wie stark die KI Modell optimiert wurden. Mit Model Pruning können die Modelle nochmals verkleinert werden so, dass die Modelle auch auf mobiler Hardware laufen würden. Nvidia hat hier auch Anwendungsfälle, da sie die Hardware für Nintendo herstellen und Nintendo DLSS nutzen wollen. Siehe auch das Patent von Nintendo:
https://www.eurogamer.de/neues-nint...e-grafik-und-speicher-der-switch-2-optimieren.
Zugegeben Modell Pruning bedeutet auch, dass die Performance der Modelle schlechter werden. Ich bezweifle jedoch, dass es so schlecht wird, dass man es nicht nutzen könnte.
Update 2: Okay, habe was gefunden nach dem Hinweis von
@Hungerstreit (danke dir):
To address the complexities of generating multiple frames, Blackwell uses hardware Flip Metering, which shifts the frame pacing logic to the display engine, enabling the GPU to more precisely manage display timing. The Blackwell display engine has also been enhanced with twice the pixel processing capability to support higher resolutions and refresh rates for hardware Flip Metering with DLSS 4." -
Quelle