Oberst08 schrieb:
Ok, aber ist eine Shading Unit denn eine FP32 Einheit?
Es kann eine reine FP32 Einheit sein, muss aber nicht zwingend.
Bei Nvidia wird es in Streamprozessoren unterteilt, hier mal ein Bild eines solchen:
Von diesen SMs hat z.B. eine RTX3090 82 Stück.
Darin befinden sich in Summe 64 reine FP32 Cores und 64 Cores, die beides können.
Mit 82 SMs kommen wir insgesamt auf 128x82= 10496 Shading Units, die alle theoretisch 2 FP32 Berechnungen pro Taktzyklus bearbeiten können.
Die max. TFLOPS nehmen jetz zur Grundlage, dass sämtliche Shading Units FP32 berechnen.
Da die Cores, die sowohl INT32 als auch FP32 beherrschen, diese aber nicht gleichzeitig ausführen können, geht die FP32 Performance in der Praxis eben stark nach unten, wenn ein Workload auch nebenbei noch viel INT32 nutzt.
Wenn alle "FP32+INT32" Cores mit INT32 Berechnungen ausgelastet wären, hätte man dann noch 64x82x2 FP32 Berechnungen pro Takt.
Bei RDNA2 werden die Cores / Shading Units in CUs(Compute Units) untergebracht bzw in WGPs(Work Group Processors) die aus je 2 CUs bestehen.
Man hat in Summe deutlich weniger Shading Units, allerdings können diese INT und FP Berechnungen parallel ausführen.
Im Tweet ist von 16128FP32 Einheiten die Rede. Wenn das reine FP32 Einheiten sind, wäre das ca eine Verdreifachung dieser Einheiten, denn die 3090 hat davon nur 5248 wenn man die geteilten Einheiten weg lässt.
Dann wird auch klar, woher die Prognosen von doppelter Performance der 3090 her kommen.