https://www.tomshardware.com/news/amd-rdna-3-gpu-architecture-deep-dive-the-ryzen-moment-for-gpus
Die stelle
Zitate
RDNA 3 comes with an enhanced Compute Unit pair — the dual CUs that became the main building block for RDNA chips. A cursory look at the above might not look
that different from RDNA 2, but then notice that the first block for the scheduler and Vector GPRs (general purpose registers) says "Float / INT / Matrix SIMD32" followed by a second block that says "Float / Matrix SIMD32." That second block is new for RDNA 3, and it basically means double the floating point throughput.
You can choose to look at things in one of two ways: Either each CU now has 128 Stream Processors (SPs, or GPU shaders), and you get 12,288 total shader ALUs (Arithmetic Logic Units), or you can view it as 64 "full" SPs that just happen to have double the FP32 throughput compared to the previous generation RDNA 2 CUs.
This is sort of funny because some places are saying that Navi 31 has 6,144 shaders, and others are saying 12,288 shaders, so I specifically asked AMD's Mike Mantor — the Chief GPU Architect and the main guy behind the RDNA 3 design — whether it was 6,144 or 12,288. He pulled out a calculator, punched in some numbers, and said, "Yeah, it should be 12,288." And yet, in some ways, it's not.
AMD's own slides in a different presentation (above) say 6,144 SPs and 96 CUs for the 7900 XTX, and 84 CUs with 5,376 SPs for the 7900 XT, so AMD is taking the approach of using the lower number. However, raw FP32 compute (and matrix compute) has doubled. Personally, it makes more sense to me to call it 128 SPs per CU rather than 64, and the overall design looks similar to Nvidia's Ampere and Ada Lovelace architectures. Those now have 128 FP32 CUDA cores per Streaming Multiprocessor (SM), but also 64 INT32 units.
Along with the extra 32-bit floating-point compute, AMD also doubled the matrix (AI) throughput as the AI Matrix Accelerators appear to at least partially share some of the execution resources. New to the AI units is BF16 (brain-float 16-bit) support, as well as INT4 WMMA Dot4 instructions (Wave Matrix Multiply Accumulate), and as with the FP32 throughput, there's an overall 2.7x increase in matrix operation speed.
That 2.7x appears to come from the overall 17.4% increase in clock-for-clock performance, plus 20% more CUs and double the SIM32 units per CU. (But don't quote me on that, as AMD didn't specifically break down all of the gains.)
Sofern ich das verstehe ist das ws ich schrieb von 6144 alu rechen 2 operationen pro takt plus 17% bei den anderen 2 operrationen
man spricht von 2,7 fache Auslastung der alu aber generell eher 17,4% mehr von den 2 zusätzlichen Ausführungen ergeben dann 2,34 Statt 2,7
Ob amd jemals diese ungenaue 20% zusätzlichen Ausführungen von fp32 per Treiber freilegen kann ist ungewiss.
Was sicher ist das dass cache system irgendwas zurückhält und das kann im Endeffekt nur der interposer sein.
Geplant ist wie beschrieben 4 Operationen pro cu die auf einen Daten Pfad zugreifen quasi wird daraus 3 Operationen ich gehe davon aus das irgendwann 2,5 Operationen per Treiber erreicht werden können.
Amd gibt an 2,7 derzeit erreicht 2,34
Was sich auch mit den fps deckt bzw abstand vs rdna2 fp32 Leistung.
Die Energieeffizienz im idle Problematik ist noch in Beobachtung direkt nen link dazu findet man nicht.
Die Ursache kann nur sein das die spannung von den mcd nicht geändert werden kann. zumal man darauf keinen zugriff hat.
Das kann man per Treiber lösen ist aber nicht sauber und wird definitiv Probleme machen.
Aktuelle Lösung ist wirklich die hardware Beschleunigung abzustellen den das zwingt die gpu in den 3d modus womit der gesteigert wird.
ich erinnere mich an die Problematik die mal nvidia hatte bei der ersten tesla gen (g92b g80) an gpu irgendwann 2008 wo der chip nur in 3d Modus laufen konnte da der 2d Modus zu abstürzen führte
man munkelte das es an windows lag der Grund war aber ein anderer. Am ende half nur ein vbios update das die gpu dauernd im 3d modus läuft entsprechender verbrauch im idle.
Statt 50w dann 100w
richtig stromsparen konnte gpu erst ab fermi 2010