Die Änderungen an den SMs/ALUs sind interessant, weil sie im Kontext Gaming-Workload überhaupt nicht ins Bild passen. Jetzt haben wir also pro Shader-Partition 32 Shader, die neben FP32 auch INT32 können. Ampere und Ada hatten je 16 "reinrassige" FP32-ALUs und 16 FP32-ALUs, die außerdem INT32 beherrschen.
Der Gedankengang dahinter war, kommend von Turing, die Auslastung zu verbessern. Mit Turing war es nämlich noch so, dass es pro Partition neben den 16 FP32-ALUs noch 16 "reinrassige" INT32-ALUs gab, die also nur mit ganzen Zahlen umgehen konnten. Bei der Computergrafik sind allerdings überwiegend Fließkommaberechnungen gefragt. Nvidia hat damals auch Statistiken genannt, je nach Spielen lag das Verhältnis der FP-zu-INT-Rechenlast bei 4:1 bis 2:1. Dementsprechend hatte Turing zwar pro Shader/FP32-ALU bzw. gemessen an den TFLOPS eine hohe Gaming-Leistung, weil sich die Shader nicht mit Ganzzahlen rumschlagen mussten; die Hälfte der Single-Precision-ALUs lag aber rund 2/3 der Zeit brach.
Mit Ampere (und Ada) wurde das Problem aus der Welt geschafft, weil diese INT-ALUs jetzt einfach auch Fließkommaberechnungen anstellen, wenn es gerade keine INT-Rechenlast gibt. (Nebeneffekt war dann aber natürlich, dass allein dadurch bedingt das TFLOPS-zu-FPS-Scaling schlechter wurde, weil sich die damit pro SM verdoppelten "eigentlichen Shader" wieder selbst um die INT-Berechnungen kümmern müssen.)
Anyway, ich sehe nicht, wie es jetzt plötzlich für Gaming-Szenarien hilfreich sein soll, mehr INT-Rechenleistung bei pro SM nicht höherer FP-Rechenleistung zu haben. Ich glaube nicht, dass sich Spiele seither hin zu im Verhältnis höherer INT-Rechenlast entwickelt haben. Und damit ist das bezogen auf die Chipgröße eher ein Klotz am Bein. Hier dürften ausschließlich AI-Hintergedanken eine Rolle gespielt haben.
Abseits dessen ist die Skalierung der zusätzlichen Shader bei den verschiedenen SKUs interessant, da zeigt sich bei allen vier Modellen ein leicht anderes Bild. Ich deute das erst einmal so, dass gerade bei der 80 und den beiden 70ern auch die Bandbreite durchschlägt. Nichtsdestoweniger ist eine 5080, die ihren Vorgänger gerade einmal um ~ 15 % schlägt (und das mit RE4 durchaus auch in einem "nativen" UHD-Szenario mit entsprechend hoher Renderinglast), vermutlich die im Generationenvergleich schwächste 80, die Nvidia jemals konstruiert hat.
Schmankerl am Rande: Bei der Folie zur RTX 5070 Ti musste Nvidia den Balken zu Indy oben abschneiden, weil der Zuwachs ungewöhnlich groß ausfällt. Wieso? Weil die 5070 Ti mit 16 GB nicht in das harte VRAM-Limit läuft, dass die 4070 Ti hier offensichtlich sogar schon in WQHD mit DLSS SR hat. Da schmeckt die 5070 mit ebenso nur 12 GB direkt noch besser.