Die Änderungen an den SMs/ALUs sind interessant, weil sie im Kontext Gaming-Workload überhaupt nicht ins Bild passen. Jetzt haben wir also pro Shader-Partition 32 Shader, die neben FP32 auch INT32 können. Ampere und Ada hatten je 16 "reinrassige" FP32-ALUs und 16 FP32-ALUs, die außerdem INT32 beherrschen.
Der Gedankengang dahinter war, kommend von Turing, die Auslastung zu verbessern. Mit Turing war es nämlich noch so, dass es pro Partition neben den 16 FP32-ALUs noch 16 "reinrassige" INT32-ALUs gab, die also nur mit ganzen Zahlen umgehen konnten. Bei der Computergrafik sind allerdings überwiegend Fließkommaberechnungen gefragt. Nvidia hat damals auch Statistiken genannt, je nach Spielen lag das Verhältnis der FP-zu-INT-Rechenlast bei 4:1 bis 2:1. Dementsprechend hatte Turing zwar pro Shader/FP32-ALU bzw. gemessen an den TFLOPS eine hohe Gaming-Leistung, weil sich die Shader nicht mit Ganzzahlen rumschlagen mussten; die Hälfte der Single-Precision-ALUs lag aber rund 2/3 der Zeit brach.
Mit Ampere (und Ada) wurde das Problem aus der Welt geschafft, weil diese INT-ALUs jetzt einfach auch Fließkommaberechnungen anstellen, wenn es gerade keine INT-Rechenlast gibt. (Nebeneffekt war dann aber natürlich, dass allein dadurch bedingt das TFLOPS-zu-FPS-Scaling schlechter wurde, weil sich die damit pro SM verdoppelten "eigentlichen Shader" wieder selbst um die INT-Berechnungen kümmern müssen.)
Anyway, ich sehe nicht, wie es jetzt plötzlich für Gaming-Szenarien hilfreich sein soll, mehr INT-Rechenleistung bei pro SM nicht höherer FP-Rechenleistung zu haben. Ich glaube nicht, dass sich Spiele seither hin zu im Verhältnis höherer INT-Rechenlast entwickelt haben. Und damit ist das bezogen auf die Chipgröße eher ein Klotz am Bein. Hier dürften ausschließlich AI-Hintergedanken eine Rolle gespielt haben.
(...)