syfsyn schrieb:
Der grund ist klar um die zusätzliche fp32 ausführung machen zu können brauicht es mehr cache im cu und genau der fehlt.
Und mal wieder ist dein Beitrag weitgehend falsch. Vor ein paar Wochen behauptest du, dass der L2-Cache keine Bandbreite spart, jetzt dass es mehr braucht um die neuen Vec-Alus zu füllen.
Und wieder mal hast du hier das meiste mit viel Halbwissen versucht darzustellen und am Ende ist es wie immer weitgehend falsch.
AMD hat im Zug der neuen Vec32+32 sowohl das Registerfile als auch den L1d Cache und den L2-Cache vergrößert. Die Probleme von RDNA3 liegen auch nicht daran, das man diese nicht auslasten kann, sondern wie der zweite Pfad angesprochen wird.
Da 4K als auch KI-Berechnungen sowie RT immer wichtiger werden, gewinnt Wave64 wieder an Bedeutung. Da man nun bei AMD aber nicht einfach die Vec32 auf Vec64 "aufpumpen" wollte, weil dann Ressourcen ungenutzt sind, hat man einen zweiten Pfad in die Vec32 eingeführt. Die Vec32 verhält sich also entweder wie eine Vec32+32 oder eine Vec64.
@ETI1120 und ich hatten darüber bereits ausführlich geschrieben. Die neue Vec32 kann also entweder einen Wave64-Befehl in einem Takt ausführen, oder zwei Wave32-Befehle. Nur letzteres unterliegt einigen Besonderheiten.
1. Die beiden Befehle müssen von einander unabhängig sein. (Hürde 1).
2. Die beiden Befehle dürfen maximal 2 Vektorregister und 1 Skalar-Register ansprechen.
3. Es darf eine Konstante genutzt werden, nur muss diese Konstane bei beiden Befehlen gleich sein.
Dazu kommt, dass es nur FMA3 gibt, statt FMA4 und damit bei MAC/MAD unweigerlich ein Register zerstört wird.
All das sind Einschränkungen - ein Teil - die dazu führen, dass die Vec32 nicht immer voll ausgenutzt werden können.
Das hat nichts mit dem Cache zutun, sondern ist ein klassisches Auslastungsproblem.
Hier würde der Cache auch nicht helfen. Denn in den Shadern müsste entweder genug Daten für einen Wave64 zusammen kommen oder ein zweiter Wave32 der auch wirklich genutzt werden kann.
Taxxor schrieb:
Bei AMD würde ich da direkt mit Vega zu RDNA1 kontern
Es ist bei GPU allgemein nicht so gut von IPC zu schreiben. Wie gut eine Grafikkarte am Ende ist, hängt von der Auslastung der Shader zusammen und das ist primär abhängig davon, wie die Rechenwerke organisiert werden.
IPC-Steigerungen bei GPUs kommen in der Regel durch Änderung an der Struktur der Verwaltung der Shader.