Colindo schrieb:
Vielen Dank!
Teralios schrieb:
Der L1 wird seit RDNA1 bereits geteilt. Es gibt - wenn man es genau nimmt - nun 4 Cache-Stufen in RDNA2:
CU - 1 * L0-Cache Daten. (Bei RDNA 16 KiB)
WGP - 1 * L0-Cache Instruktionen (Bei RDNA 32 KiB)
SE - L1-Cache, für alle WGP in der SE (128 KiB bei RDNA)
GPU - L2-Cache, (4 MiB bei RDNA Navi 11)
Ne, da ging es um was anderes. Ich meinte das gleiche Paper wie du, mit dem dazugehoerigen Patent. Oder um ihn direkt zu zitieren:
Colindo schrieb:
Es geht um ein dynamisches Vergrößern des L1-Caches bei den Anwendungen, die auf der GPU nicht Latenzkritisch sind. Und das sind Spiele ja sowieso nicht, von daher würde das Vorteile bedeuten. Und ja, DeepLearning profitierte auch enorm vom vergrößerten L1-Cache.
Im Endeffekt, man packt CUs so zusammen, dass sie alle die gleichen Daten benoetigen und somit von einem geteilten L1 Cache profitieren. Das ganze eben dynamisch. Und ob das jetzt dabei ist oder nicht wuerde mich interessieren.
Teralios schrieb:
Es kommt nun der Infintie-Cache dazu als »L3«. Und genau das ist hier eben auch der Punkt, denn du ansprichst: Vorausschauend füllen. Ich spreche ja HBCC nicht umsonst ab. Wenn sie hier die Cache-Struktur sehr gut optimieren und gerade bei Bildsynthese ist es relativ klar, welche Daten man wann braucht, dann kann man hier sehr gut die Daten nach Bedarf in den Infintie-Cache als auch in den L2 schieben und von dort dann in L1 und L0.
Ist mir durchaus klar, je besser vorhersagbar das ganze ist, desto mehr kann man das optimieren.
Teralios schrieb:
Nun, klar ist PCIe ein Bottleneck, gleichzeitig kann man aber auch hier entsprechend agieren und die limitierende Bandbreite durch intelligentes Laden kompensieren.
Klar, wenn man es schafft das ganze so zu verteilen, dass PCIe nie ein Bottleneck wird ist das ganze kein Problem. Man hat dennoch einen Overhead mit dem man erstmal umgehen muss.
Teralios schrieb:
Und man sollte sich hier jetzt auch nicht zu sehr an dem Patent aufhängen. Es gibt da ein wesentlich interessanteres Paper
@Colindo hat sich das angesehen. Ich hab es nur überflogen. Es geht da nicht nur um die Verbindung der »L1«-Caches, sondern auch darum, was eine intelligente Organisation der Caches in der GPU bei »Deep Learing« an Leistung bringen kann und genau das ist der Punkt, weswegen folgende Aussage etwas »falsch« ist:
Das Paper kenne ich und das meinte ich auch. Das Patent spielt da aber mit rein, bzw. ist es halt das Patent dazu. In dem Paper geht es um die 2.3 fache Leistung bei Deep Learning.
@Colindo hat das sich aber detaillierter angeschaut. Aber ja, es ging auch um CU Clustering und damit Cache Sharing.
Dass
@Krautmaster's Aussage falsch ist, ist klar. Wenn man es schafft mit einem Cache die Leistung zu verschlechtern, dann hat man wirklich enorm viel falsch gemacht. Ein Cache erhoeht die Leistung erstmal ein gutes Stueck. Selbst bei CPUs ist das ganze schwer falsch zu machen.
Den Rest ueberspringe ich mal, ich glaube das war an wen anders gerichtet.