@Wolfgang
Selten, dass ich Computerbase mal korrigieren muss, aber anders als in früheren Generationen gibt es bei RDNA 3 durchaus Befehle, die Matrix-Matrix und Matrix-Vector Multiplikationen deutlich beschleunigen können. Die laufen
im RDNA 3 Instruction Set unter "Wave Matrix Multiply Accumulate" und waren vorher so nur auf den CDNA 2 Karten zu sehen. Das Verhalten und die Geschwindigkeit dieser Befehle sind absolut mit dem auf Nvidias Tensor Cores vergleichbar - nur, dass Nvidia mehr verschiedene Matrix-Größen anbietet während AMD da etwas Limitierter sind.
Die tauchten auch in den Schaubildern zu RDNA3 auf:
https://pics.computerbase.de/1/0/6/0/1/6-c1474571eb334301/7-2160.bf31b516.png
Das gesagt: es ist aber richtig, dass im Vergleich zu vorherigen AMD Generationen der Sprung hin zu diesen Beschleunigern nicht so riesig ist, wie bei Nvidia damals von Pascal zu den Turing Tensor Cores. Das liegt größtenteils daran, dass die normalen ALUs bereits v_dot Instruktionen hatten, die das Punktprodukt Vektoren in gepackten Registern in einem Takt berechnen konnten. Das machte eine Matrix-Vektor Multiplikation auch vorher schon recht fix, wenn man die Daten passend dafür strukturiert hatte