matty2580 schrieb:
Der Unterschied zu RDNA ist, dass die Architektur endlich für Gaming optimiert wurde.
Nicht wirklich. Wenn man sich die Whitepapers zu GCN - Vega - und RDNA ansieht, dann gibt es da so einige Stellen, an der man auf die Probleme von GCN bei Spielen eingeht und warum die Auslastung so schlecht ist, während es bei anderen Augaben weniger ein Nachteil war.
Das primäre Problem von GCN war es, dass die Wave64-Befehle nur auf EINER Vec16-ALU ausgeführt wurde und entsprechend 4 Takte benötigte. In den Papers wurde da aber auch angedeutet, dass es durchaus angedacht war, dass ein Wave64-Befehl auf allen 4 Vec16-Alus laufen soll - eine Stelle deutet es an, dass der Wave64-Befehle über alle Vec16-Alus läuft, aber pro Alu um einen Takt versetzt.
Um GCN optimal auszulasten, braucht man also pro CU 4 Wave-Befehle - egal ob jetzt 16, 32 oder 64 - also die besagten 4 Threads, macht dann bei Vega 64 - der großen - die besagten 256 Threads.
Mit RDNA hat man die 4 Vec16 durch 2 Vec32 ersetzt - was die besagte "40 %" IPC sind, die man gerne findet zu RDNA.
Von den Fähigkeiten - auch was den professionellen Markt angeht - hat sich RDNA gegenüber GCN aber nicht wirklich verschlechtert, sondern einfach nur drastisch weniger ALUs gehabt, die Gleichzeitig aber auch eine "Erhöhung" von Vec16 auf Vec32 benötigte, damit man sie optimal auslasten kann.
Die Trennung "Professionelle" und "Gameing" wurde und wird seit einiger Zeit primär durch Spieler herbei geredet. Und bitte jetzt nicht mit CDNA kommen, die Anpassunge bei CDNA gehen zu großen Teilen darauf, dass man ROPs, TAU/TMU und Co raus streicht.
AMD hatte bereits 2019 durchaus auch angedeutet, dass die CU/WGP mit der Zeit auch nach CDNA fließen kann.
matty2580 schrieb:
Das wurde bei GCN mit Absicht nicht gemacht, weil die selbe Architektur für den professionellen Bereich und für Gaming herhalten musste.
Nur das der HPC-Bereich nicht wirklich etwas mit der Gamingschwäche von GCN zutun hat, sondern wie die CU organisiert war und ist.
Der primäre Unterschied zwischen GCN und RDNA liegt für HPC nun darin, dass man statt 4 Threads pro CU nur noch 2 laufen lassen kann. Die Anpassung ist aber relativ "einfach" weil man nun halt doppelt so große Vektoren braucht, oder man lässt es bei 64er Vektoren, hat halt halbsowenige auf der CU, die aber "doppelt" schnell laufen.
Gerade neuere Benchmarks mit OpenCL und Co, die mit den RDNA-Eigenheiten nun umgehen können, zeigen auch, dass RDNA in vielen Benchmarks den GCNs nicht mehr wirklich nachstehen, sonder sich entsprechend ihrer ALU-Anzahl verhalten.
matty2580 schrieb:
RDNA könnte man auch als GCN für Gaming optimiert bezeichnen.
Könnte man, ist aber primär ein Marketing zug.