Eli0t schrieb:
Ich denke, die können 20% auskitzeln, wenn die Shader richtig sortiert werden und jede Einheit doppelt belegt werden kann.
Es kann nicht jeder Befehl als Dual Issue ausgeführt werden.
Aus diesem Grund hat AMD die Zählweise der Shader letztendlich doch nicht geändert.
Im
RDNA3 Instruction Set Architecture Reference Guide findet man einiges zu Dual Issue.
In Abschnitt 7.6 "Dual Issue VALU" auf Seite 68 gibt es eine Kurze Einführung.
Obwohl ich mich mit der Programmierung von GPUs nicht aus kenne, fällt mir auf dass die Hälfte dieser Einführung (1 1/2 Seiten) die Grenzen und Restriktionen von Dual Issue beschreibt.
Dual Issue wird mit dem Vektor ALU Format VOPD angesprochen. Es ist eines von 9 verfügbaren Vektor ALU Formate. Es wird In Abschnitt 15.3.7 "VOPD" auf Seite 168 beschrieben
Im Prinzip besteht Dual Issue aus zwei Befehlen X und Y genannt. Beide haben jeweils zwei Quellen und ein Ziel.
Für X stehen 14 einzelnen Befehle zur Verfügung für Y 17.
Für die anderen Formate stehen teilweise erheblich mehr Befehle zur Verfügung.
Es fällt auf dass es hauptsächlich F32 (Floating Point) sind. 2 Befehle mit F16. Für Y gibt es einen Befehl (ADD) mit unsigned Integer (U32). Und dann gibt es noch ein paar Befehle im Bitformat, darunter das unvermeidliche Move. Es gibt keine Dual Issue Befehle für signed Integer.
Die einzelnen Befehle werden im Abschnitt 16.11 "VOPD Instructions" auf Seite 356 beschrieben.
Aber die Suffix Namen benennen konsistent die Zahlenformate mit denen dieser Befehl.
Eli0t schrieb:
Die HW ist nicht das Problem, aber das hast Du nicht verstanden.
Er hat sehr wohl verstanden, dass AMD die Compiler schon an Dual Issue angepasst hat.
So hat
Chips and Cheese festgestellt, dass bei der Nemes Benchmarksuite für Vulkan mit der 7900XTX in einigen F32 Grundoperationen ADD und sehr wohl ein hoher %-Satz an Dual Issue Befehlen verwendet wird. Hier steigt die Leistung im Vergleich zur 6900XT massiv.
Aber das sind offensichtlich synthetische Test. Da sind Optimierungen einfacher als in realen Programmen. Der Testcode für den Test einer einzelner CU den clamchowder in OpenCL geschrieben hat wurde vom AMD Compiler hingegen kaum auf Dual issue optimiert.
Auch die massive Streuung der einzelnen Spiele ist ein klarer Hinweis darauf, dass Dual Issue unterschiedlich häufig verwendet wird.
Natürlich kann man immer weiter optimieren, aber der Ertrag wird immer kleiner. Die Low Hanging Fruits hat AMD schon abgerntet. Da wird sicher noch was dazukommen, aber das sind über die Testsuiten gemessen ein paar Prozentle
Perdakles schrieb:
Ich Frage mich nur warum AMD laut aktuellen Gerüchten (u.a. RedGamintech, MLID und
andere) einen RDNA3+ Refresh plant welcher die Bugs in der HW angehen soll wenn du uns doch allen versichern kannst, dass die mangelnde Leistung lediglich ein Treiberproblem ist.
Was die Trefferquote angeht, sind die Helden ja nicht der Hit.
Perdakles schrieb:
Dazu passt übrigens auch, dass Navi32 bereits auf diesem Refresh basieren soll und daher so spät kommt.
Ja hört sich toll an.
Die Geschichte mit dem Bug zirkuliert seit einiger Zeit auf Twitter, Twitter ist nämlich die Haupt-Quelle von MLID.
Ich bin skeptisch was diese Geschichte anbelangt. Refresh mit neuen Features passt, Refresh mit neuem Prozess passt. Bugfixes im Refresh können die Ausbeute erhöhen, den Verbrauch ein kleines bisschen senken oder ein kleines bisschen mehr Performance bringen. Ein Bugfix in der Hardware, der deutlich mehr an Perfomance bringt? Das geht nicht gut, das impliziert nämlich, dass man defekte Hardware verkauft hat.
Es möglich, dass ein neues Feature, das mehr Performance liefert im Grunde ein Bugfix ist. Aber das Wort Bug würde gegenüber dritten nie erwähnt werden.
Und das fatale an dieser Geschichte wäre, dass dieser Fehler AMD seit über einem Jahr bekannt sein müsste. Die Anwälte würden Schlange stehen.
Perdakles schrieb:
Normalerweise arbeitet man sich vom größten zum kleinsten Chip vor. Aber schlau mich gerne auf...
Ich denke normal ist bei RDNA 3 gar nichts. AMD war bisher sehr geizig was Designs angeht. RDNA 2 gab es nur im 7 nm Node. Navi 21, 21 und 23 in N7 und Navi 24 in N6.
Der aktuelle Stand ist:
- Navi 31 GDC 5 nm (AMD), auf dem Markt
- Navi 32 GDC 5 nm (Gerücht, Angstronomics), Erscheinungstermin unbekannt
- Phonix Point 4 nm (AMD), soll ab März in Notebooks sein
- Navi 33 6 nm (AMD), soll bald in Notebooks sein
(Ich verwende hier die nm Zahlen, weil AMD so oder so keinen Standardprozess verwendet und es zudem unklar ist auf welchen Standardprozess sie ihre Anpassungen aufsetzen)
RDNA 3 wird parallel auf 2 Nodes und in 3 Prozessen ausgerollt. Ich hätte es nicht für möglich gehalten.
Perdakles schrieb:
@Taxxor Da gebe ich dir Recht. Allerdings sind es wie schon gesagt nicht nur die beiden.
Die Gerüchte zirkulieren nun Mal.
Perdakles schrieb:
Außerdem wissen wir von
AMD selbst, dass RDNA3+ definitiv existiert. Auch wenn dies nur für Strix Point bestätigt ist.
Und weil AMD RDNA 3+ im Juni für StrixPoint genannt hat, hat es IMO nichts mit Navi 32 zu tun. Bevor die ganzen Youtuber Mal wieder bloßgestellt wurden, wurde RDNA 3+ im Zusammenhang mit Navi 32 nicht erwähnt.