Interessante News! Ich bin ein bisschen spät zur Party, wurde ja schon viel erklärt und diskutiert, aber vielleicht sollten sich einige nochmal die Patente durchlesen, die letztes Jahr veröffentlicht wurden. Da wird die Technologie gut erklärt:
Patent: AMD plant mit GPUs im Chiplet-Design
GPUs im Chiplet-Design: AMD-Patente bringen den Cache ins Spiel
Was meint ihr eigentlich, warum wird Navi33 in N6 gefertigt? Ist der monolithische Die doch so anders, dass man eh eine andere Maske benötigt hätte? In den Patenten wird davon gesprochen, dass die Chiplets alle auch als eigenständige Dies funktionieren, dann aber eben mit recht geringer Bandbreite und mit externem L3-Cache.
guggi4 schrieb:
Riesiges Cache chiplet aber die speichercontroller sind auf den compute Dies? Kommt nur mir das seltsam vor?
Wie schon angesprochen ist das logisch, wenn der Cache die Dies verbindet, der VRAM aber pro GCD aufgeteilt wird. Also geht eine Abfrage an den Cache, und der hat die I/O-Verwaltung um dem richtigen GCD zu sagen, aus welchem Teil des VRAMs die Daten geladen werden müssen.
Siehe auch die Grafik aus einem der Patente
https://pics.computerbase.de/9/8/0/5/6-bdd27f887373a9aa/3-1080.fc8a7b02.jpg
Knut Grimsrud schrieb:
Allerdings kann ich mir schon vorstellen, dass es bei den im Vergleich zu CPUs kleinen Caches der jeweiligen Berechnungseinheiten (vermutlich max. 2 MiB ggü. 32 MiB L3-Cache in einer Zen3-CPU) umso wichtiger ist, dass die Anbindung an die nächste Speicherstufe umso schneller ist, d.h. die Latenz möglichst klein.
Die Caches nennst du klein? 128 MB L3 im Vergleich zu den 32 MB auf einer 8-Kern-CPU?
Übrigens brauchen GPU-Aufgaben hauptsächlich Bandbreite, Latenz ist viel unwichtiger als bei CPUs.
janeeisklar schrieb:
Bei eurer betrachtung sieht ihr den infinity$ nur als weitere $stufe (victim$) das ist bei rdna2 und dem infinity$ aber so einfach betrachtet falsch. der infinity$ kann auch als weiterer speicherpool betrieben werden, was besonders DSBR stark beschleunigen kann.
Und diese eigenschaft wird speziell dem rdna"3" design helfen.
Also so wie AMD das bisher beschrieben hat, dient der L3-Cache ausschließlich zum Puffern der verringerten VRAM-Bandbreite. Wenn ich dich richtig verstehe, meinst du, der Draw Stream Binning Rasterizer (danke für das Vermeiden obskurer Abkürzungen) könnte seine Ergebnisse auf dem Cache abspeichern, um die Daten besser zu nutzen? Hast du da eine Quelle für?
Taxxor schrieb:
Wenn wir Glück haben, wird dieser MCM Chip ca doppelt so schnell, wie eine 6900XT und zwar sowohl in Raster- als auch in RT-Performance(RT Performance eher noch etwas mehr).
Ich denke bei Rasterizer hast du Recht, bei RT sollte AMD aber analog zu Nvidias bisheriger Entwicklung entweder die RT-Cores aufbohren oder derer zwei pro CU einbauen. Das würde den Bottleneck reduzieren.