So konnte ein Streaming-Multiprocessor (SM) bei Turing pro Takt 64 Floating-Point und 64-Integer-Berechnungen durchführen, bei Ampere und Ada Lovelace sind es dann 128 FP- oder 64 FP und 64 INT-Berechnungen. Bei Blackwell macht Nvidia dann eine Mischung aus Turing und Ampere, ein SM kann 128 Floating-Point- oder 128 Integer-Berechnungen durchführen, die Integer-Seite wurde entsprechend verbessert. Und genauso ist es auch möglich, eine Mischung von FP- und INT-Operationen gleichzeitig durchzuführen, wobei nicht klar ist, ob es dann nur ein festes 64/64-Verhältnis gibt oder ob dies auch dynamisch konfiguriert werden kann.
@Wolfgang eine kurze Klarifikation hierzu:
Bei Turing hat ein SM 8 SIMD-Einheiten mit einer Breite physikalischen Breite von 16, d.h. eine SIMD-Einheit führt pro Takt die gleiche Operation auf 16 Vektorkomponenten aus. Die Hälfte aller SIMD-Einheiten kann nur Integer-Operationen, die andere Hälfte nur FP-Operationen durchführen. Da NVIDIA-GPUs immer eine logische SIMD-Breite von 32 besitzen (eine SIMD-Instruktion bezieht sich immer auf 32 Vektorkomponenten), benötigt jede dieser SIMD-Einheiten zwei Takte, um eine SIMD-Instruktion abzuarbeiten. Dadurch muss ein SM pro Takt 2 Integer-Instruktionen und 2 Floating-Point-Instruktionen herausgeben, damit seine SIMD-Einheiten ausgelastet sind.
Auf Ada hat ein SM wiederum 8 SIMD-Einheiten mit einer physikalischen Breite von 16, wobei 4 dieser SIMD-Einheiten FP- und Integer-Operationen durchführen, während die anderen 4 SIMD-Einheiten nur FP-Operationen durchführen. Folglich, damit ein Ada-SM seine SIMD-Einheiten auslastet, so muss dieser pro Takt 4 SIMD-Instruktionen herausgeben, unter welchen bis zu 2 Integer-Instruktionen sein können, während die restlichen dieser 4 Instruktionen FP-Instruktionen sein müssen.
Auf Blackwell hat ein SM wiederum 8(*) SIMD-Einheiten mit einer physikalischen Breite von 16, wobei all diese SIMD-Einheiten sowohl FP- und Integer-Operationen durchführen. Folglich, damit ein Blackwell-SM seine SIMD-Einheiten auslastet, so muss dieser pro Takt 4 SIMD-Instruktionen herausgeben, wobei es bei diesen 4 Instruktionen eine beliebige Mischung von Integer- und FP-Instruktionen sein kann.
Blackwell ist in diesem Sinne auch keine Neuerung, sondern ein "Wiederaufleben" von alten Architekturdesigns, denn bereits Maxwell funktionierte in dieser Hinsicht genauso (8 kombinierte FP/INT SIMD-Einheiten mit einer physikalischen Breite von 16).
*: Hier ist die Dokumentation etwas unklar; es könnten auch nur 4 SIMD-Einheiten mit einer physikalischen Breite von 32 sein, wobei ich dies fast ausschließen würde.