Ich hatte mich als FH-Student im Wintersemester 90/91 in eine Seminar-Serie der TU reingeschmuckelt in der verschiedene Rechnerkonzepte vorgestellt und diskutiert wurden. Der Seminarleiter galt als Experte für Vektorrechner. Zu meinem Glück wurden hier keine Details der Architekturen diskutiert, denn dann hätte ich nicht folgen können.
Ein Team derselben TU hat einen billigen Parallelrechner mit 6502-Prozessoren vorgestellt. Sie wollten damit Paradigmen zum Programmieren paralleler Rechnerarchitekturen untersuchen. Zwischen dem Seminarleiter und dem Projektleiter gab es eine heftige Diskussion über Sinn und Unsinn von parallelen Architekturen. Das Argument des Seminarleiters war die mangelnde Auslastung. Der Projektleiter hat gesagt trotz dieser mangelnden Auslastung gehört den Parallelrechnern die Zukunft, und mann muss eben an einer besseren Auslastung arbeiten. Die Diskussion endete mit dem Verweis des Projektleiters, dass auch Vektorrechner ihre theoretische Performance nur dann erreichen wenn es gelingt die Vektorregister zu füllen.
GPUs basieren auf parallelen Architekturen. Es ist nun Mal so, je mehr Shader zu Verfügung stehen, desto schwieriger wird es alle immer auszulasten.
Die Situation bei der alle theoretische Rechenleistung dauerhaft umgesetzt werden kann wird es nicht geben.
DevPandi schrieb:
Genau so wie bei NVIDIA ein Großteil der theoretischen Leistung einfach nur brach liegt.
Wenn wir die Gamingleistung (FPS) in Bezug auf die theoretische Rechenleistung in FP 32 (TFlop) setzt gilt (Daten aus der GPU-Database von TechPowerup):
- Vega erreicht weniger FPS/TFlop als Pascal.
Die Gaming Leistung von von Vega 64 und 1080 liegen sehr nahe beieinander. Die 1080 liegt 1% vorne.
Bei der theoretischen FP32-Leistung ist Vega 64 (12,66 TFlop) liegt vor der 1080 TI dran (11,34 TFlop) und erheblich vor der 1080 (8,87 TF).
- RDNA 2 hat erheblich mehr FPS/TFlop als Ampere.
Gaming Leistung: 3080 (100 %) < 6900 (106 %) < 3090 (113 %)
Theoretische Leistung: 6900 (23.04 TFlop) < 3080 (29,77 TFlop) < 3090 (35,58 TFlop)
D. h. bei der für das Gaming wichtige FP32 hatte sich das Bild von Vega bis RDNA 2 gedreht. Die theoretische Leistung kann bei RDNA erheblich besser als bei GCN umgesetzt werden. Der große Zuwachs an Shadern den die 3000er von Nvidia hatte, kommt nur zum Teil bei der Gamingleistung an.
RDNA 3 ist übrigens was FPS/TFlop betrifft ein erheblicher Rückschritt.
Vom Zuwachs der theoretische FP32-Rechenleistung um den Faktor 2,67 kommen gerade 39 % bei der Gamingleistung an.
DevPandi schrieb:
Selbst bei ADA kommen die 16 - 18 k Shader nicht wirklich auf die Straße. Bei Ampere gibt es das gleiche Problem.
Da Ada eine erheblich bessere Gamingleistung als RDNA 3 bietet, fällt dieses "Problem" bei Nvidia nicht auf.
DevPandi schrieb:
ADA ist, wie RDNA immer noch viel Zukunftsmusik.
Mir gefällt das Wort Zukunftsmusik nicht.
Welche Gamingleistung kommt bei 8k tatsächlich raus?
Es nützt mir nichts wenn Architektur A zu 8K besser als Architektur B skaliert, wenn ich erstens nicht in 8 K spiele und zweites die FPS bei 8K nicht im spielbaren Bereich liegen.
DevPandi schrieb:
AMD hätte besser getan, wenn sie einfach die CU verdoppelt hätten, aber man hat sich für etwas anderes entschieden.
Und genau dieser Punkt macht mich extrem nervös. Dass AMD auf ein Feature setzt, das nicht funktioniert, hatten wir schon lange nicht mehr.
DevPandi schrieb:
Wir werden sehen, was daraus wird. Fest steht, beide Lasten ihre CU/SM nicht wirklich aus und es liegt viel Leistung brach.
Ich denke RDNA 3 wird wieder besser reifen als Ada. Ich gehe allerdings davon aus dass AMD alle Low Hanging Fruits im Treiber schon eingebaut hat. Deshalb wird sich hier IMO nichts entscheidendes mehr tun.
Im Test bei ComputerBase sah RDNA 3 bei neuen Spielen besser aus. Wir werden sehen ob das nur Zufall war oder ob sich dieses Bild mit den neu erscheinenden Spielen bestätigt.
DevPandi schrieb:
Ein Monster mit 4096 Shadern müsste sich in der Form - gerade auch weil es eigentlich 8196 sind, da ein INT-Pfad drinnen ist - sich eigentlich zwischen 6800 und 6800 XT einordnen. Das man sich nur mit 6600 XT anlegen kann, das ist beschämend!
Vor allem wenn man bedenkt dass Intel mindestens 4 Jahre Zeit hatte für anständige Gaming-Treiber zu sorgen. Angesichts der Resourcen die Intel zur Verfügung stehen und wie Intel sie auch in die Hardware des GPU-Projekt reingebuttert wurden, ist das Ergebnis ein Debakel.
Und das fällt von außen gesehen ganz klar in die Verantwortung von Raja Koduri. Aber wir wissen viel zu wenig darüber wie es intern abgelaufen ist.
DevPandi schrieb:
Die Ideen der Teams fließen da auch hin und her. Das merkt man am Aufbau der CU und WGP.
Wie Du schon angemerkt hast, wir kennen viel zu wenig wie AMD die GPU-Entwicklung intern organisiert, wir sehen nur die Folien die AMD präsentiert und die Releases.
Klar ist dass es zwei Architekturen gibt und deshalb muss es auch zwei Teams geben, die jeweils eine Architektur umsetzen. Aber wie die Zusammenarbeit zwischen den Teams geregelt ist und was an Organisation um dieses Teams herum existiert, wissen wir nicht. Entwickeln z. B. beide Teams jeweils ihre eigenen Shader oder gibt es eine eigene Crew außerhalb dieser Teams dafür? Wir wissen es nicht.