News AMD Radeon RX 7000: Navi 3X und RDNA 3 sind hybrid in 5 und 6 nm geplant

Stahlseele schrieb:
Müsste man nicht.
Man nimmt einfach chips die fehlerhaft sind und nicht so viel erreichen.
Dann kann man die fehlerhaften chips noch verwenden, hat mehr yield.
Weniger Verlust. Und trotzdem die unterschiedlichen Leistungsklassen.
Das macht man wenn ein paar defekte auf dem Chip sind sodass mal 10% deaktiviert und als eine Klasse tiefer verkauft mit 10% weniger Leistung. Z.B. bei 6900XT vs 6800XT

Aber bei den oben erwähnten unterschieden müsste schon fast die Hälfte des Chips unbrauchbar sein damit das hinkommt, was nicht passieren wird und man für eine 7800 zu 95% Chips nutzen müsste die auch eine 7900 hätten sein können.

Genau wie der Großteil der 6800er auch eine 6800XT hätte sein können, der Yield ist gut und es werden nicht viele N21 Chips anfallen die so defekt sind dass man nur 60 von 80 CUs nutzen könnte
 
Zuletzt bearbeitet:
pipip schrieb:
Der SRAM ist ja relativ teuer, da macht es schon Sinn diesen mit dem günstigeren Prozess zu fertigen. Und in 5nm wäre der Chip dann vllt nicht mal wesentlich kompakter ?!

Warum sollte SRAM relativ teuer sein? Ein Wafer SRAM kostet genauso viel wie ein Wafer Logik im selben Prozess. Wenn SRAM weniger Layer hat, vielleicht sogar weniger.

Das mit den Unterschieden in der Dichte zwischen SRAM und Logik koennte eher relevant sein. Ich habe da vor einiger Zeit einmal was dazu gesehen, kann mich aber nur dunkel erinnern; WIMRE hat SRAM da tatsaechlich bei neueren Prozessen nicht so gut skaliert wie Logik (was mich erstaunt hat, weil frueher SRAM verwendet wurde, um neue Prozesse zu demonstrieren); das waere natuerlich ein Grund, den groesseren und billigeren Prozess fuer SRAM zu verwenden.
 
  • Gefällt mir
Reaktionen: GT200b
Interessante News! Ich bin ein bisschen spät zur Party, wurde ja schon viel erklärt und diskutiert, aber vielleicht sollten sich einige nochmal die Patente durchlesen, die letztes Jahr veröffentlicht wurden. Da wird die Technologie gut erklärt:
Patent: AMD plant mit GPUs im Chiplet-Design
GPUs im Chiplet-Design: AMD-Patente bringen den Cache ins Spiel

Was meint ihr eigentlich, warum wird Navi33 in N6 gefertigt? Ist der monolithische Die doch so anders, dass man eh eine andere Maske benötigt hätte? In den Patenten wird davon gesprochen, dass die Chiplets alle auch als eigenständige Dies funktionieren, dann aber eben mit recht geringer Bandbreite und mit externem L3-Cache.
guggi4 schrieb:
Riesiges Cache chiplet aber die speichercontroller sind auf den compute Dies? Kommt nur mir das seltsam vor?
Wie schon angesprochen ist das logisch, wenn der Cache die Dies verbindet, der VRAM aber pro GCD aufgeteilt wird. Also geht eine Abfrage an den Cache, und der hat die I/O-Verwaltung um dem richtigen GCD zu sagen, aus welchem Teil des VRAMs die Daten geladen werden müssen.
Siehe auch die Grafik aus einem der Patente https://pics.computerbase.de/9/8/0/5/6-bdd27f887373a9aa/3-1080.fc8a7b02.jpg
Knut Grimsrud schrieb:
Allerdings kann ich mir schon vorstellen, dass es bei den im Vergleich zu CPUs kleinen Caches der jeweiligen Berechnungseinheiten (vermutlich max. 2 MiB ggü. 32 MiB L3-Cache in einer Zen3-CPU) umso wichtiger ist, dass die Anbindung an die nächste Speicherstufe umso schneller ist, d.h. die Latenz möglichst klein.
Die Caches nennst du klein? 128 MB L3 im Vergleich zu den 32 MB auf einer 8-Kern-CPU?
Übrigens brauchen GPU-Aufgaben hauptsächlich Bandbreite, Latenz ist viel unwichtiger als bei CPUs.
janeeisklar schrieb:
Bei eurer betrachtung sieht ihr den infinity$ nur als weitere $stufe (victim$) das ist bei rdna2 und dem infinity$ aber so einfach betrachtet falsch. der infinity$ kann auch als weiterer speicherpool betrieben werden, was besonders DSBR stark beschleunigen kann.
Und diese eigenschaft wird speziell dem rdna"3" design helfen.
Also so wie AMD das bisher beschrieben hat, dient der L3-Cache ausschließlich zum Puffern der verringerten VRAM-Bandbreite. Wenn ich dich richtig verstehe, meinst du, der Draw Stream Binning Rasterizer (danke für das Vermeiden obskurer Abkürzungen) könnte seine Ergebnisse auf dem Cache abspeichern, um die Daten besser zu nutzen? Hast du da eine Quelle für?
Taxxor schrieb:
Wenn wir Glück haben, wird dieser MCM Chip ca doppelt so schnell, wie eine 6900XT und zwar sowohl in Raster- als auch in RT-Performance(RT Performance eher noch etwas mehr).
Ich denke bei Rasterizer hast du Recht, bei RT sollte AMD aber analog zu Nvidias bisheriger Entwicklung entweder die RT-Cores aufbohren oder derer zwei pro CU einbauen. Das würde den Bottleneck reduzieren.
 
  • Gefällt mir
Reaktionen: ETI1120, Kassandra_89 und guggi4
Colindo schrieb:
Ist der monolithische Die doch so anders, dass man eh eine andere Maske benötigt hätte
Ich denke tatsächlich, dass es die Kosten sind. 5nm hat nur 70% mehr Dichte als 7nm, kostet aber 100% mehr, 6nm kostet glaube ich wenig mehr als 7nm, bringt aber auch schon 20% Dichte. In 5nm wäre der Die wohl trotz kleinerer Größe teurer und der Yield bei 6nm ist so gut, dass die 440mm^2, die gemunkelt werden, noch gut funktionieren.
 
C4rp3di3m schrieb:
Schade wieder kein HBM :(

mfg


Plot Twist: Immer wenn eine Karte mit HBM kam, war die Speichermenge nicht mehr zeitgemäß und der Preis nicht konkurrenzfähig.


Davon abgesehen, muss die Karte den Speicher effizient nutzen können, dazu genügt es leider nicht, möglichst viel und schnellen Speicher zu bieten.
 
Philste schrieb:
In 5nm wäre der Die wohl trotz kleinerer Größe teurer und der Yield bei 6nm ist so gut, dass die 440mm^2, die gemunkelt werden, noch gut funktionieren.
Das verstehe ich, aber diese Überlegung funktioniert nur, wenn der Monolith wirklich komplett anders als die Chiplets sind. Das war so in den Patenten anders formuliert. Außer dem Cache fällt mir nichts ein, was da die Ursache für sein könnte.
 
Balikon schrieb:
Wenn es Multichip wird, dann bin ich echt gespannt, wie gut das funktioniert.

Ich habe keine Ahnung wie man sich das vorstellen muss. Wird AFR genutzt, und der I/O-Die achtet auf die Frametimes? Oder analysiert der I/O-Die die anlaufenenden Daten, um die Rechenlast gleichmäßig auf die Dies zu verteilen? Oder gibt es noch ganz andere Ansätze?

Im Prinzip wie die alte Multigpu. Nur alles eine Ebene Tiefer. Und ja um Multiruckler zu vermeiden gehe ich von aus daß es eventuell so etwas wie nen Renderpipeline Ausgangscache gibt - der mehrere Bilder dann auf einmal mit sauberen zeitlichen Abständen ausspielt... Nun kann jedes GPU Chiplet für sich ein Bild rendern oder aber beide rendern zusammen an einem...
Wobei wir noch eines nicht wissen ob ein Chiplet wiederum mehrere Bereiche auf einmal parallel abarbeitet..
Desto mehr es davon gibt desto enger liegen die Berechnungszeiten beieinander - weil die Bereiche Recht klein sind die zu berechnen sind und so die Zeitunterschiede zwischen einfachen Bereichen und komplexen Bildbereichen sich angleichen...
Konkretes Beispiel Du kennst vielleicht den Cinebench - da wird eine Szene ja auch in Kacheln berechnet - manche sehr schnell andere langsam - würden die Kacheln aber noch deutlich kleiner würden sich die Berechnungszeiten je Kachel immer mehr angleichen (Extrembeispiel - jede GPU Unit berechnet einen Pixel) dann wäre es egal ob es ein einfach zu berchnender oder komplexer Pixel ist - die Zeit wäre nahezu identisch lang.
Ich bin gespannt was kommt und wie es performen wird.
Generell gehe ich von aus daß die Probleme gelöst wurden - denn alle drei großen arbeiten am Chiplet Design...
 
Zu 1. Naja hoffen darf man doch, fand die Radeon 7 mit HBM echt ein klasse Gerät.
Zu 2. Wo waren die mit zu wenig VRAM, die Radeon 7 hat stolze 16GB HBM2?
Zu 3. Warum Teuer, die Radeon 7 gab es für 749€ am Anfang, eine RX6700XT kostet 920€ gerade.
Zu 4. Also ich würde dem VRAM Bus von 4096bit immer einem 64 oder 128er der AMD/NV Krüppelklasse vorziehen.

Mit einer "neuen" Technik wie HBM bin ich bereit mehr zu zahlen, aber billig GDDR6 Karten zu Wucherpreisen nicht.
HBM kan sich ja nur durchsetzen, wenn es auch Produkte damit zu Kaufen gibt. Also gebt uns welche!

mfg
 
Balikon schrieb:
Wenn es Multichip wird, dann bin ich echt gespannt, wie gut das funktioniert.

Ich habe keine Ahnung wie man sich das vorstellen muss. Wird AFR genutzt, und der I/O-Die achtet auf die Frametimes? Oder analysiert der I/O-Die die anlaufenenden Daten, um die Rechenlast gleichmäßig auf die Dies zu verteilen? Oder gibt es noch ganz andere Ansätze?
Die frames wandern doch eh erst mal in nen buffer bevor sie ausgegeben werden. Dann landen die eben in einem zentralen Teil und die "tausende parallele pipelines" arbeiten dem zu.

Sowas Krudes wie alternate frame rendering oder interleaving und was man die letzten 25 Jahre bei Multi-GPU so hatte wird es nicht sein.

P.S.: Ich hoffe dass die alternativen nodes dann so aussehen dass die 7900XT in 5nm daher kommt und etwas langsamer dann eine 7900 in 6nm.

Dieselbe Karte mit GPUs mal in 5nm, mal in 6nm, wird ein monströser abtörn. Noch mehr silicon lottery. Sobald man herausfinden kann was verbaut ist, würde das Rückgaberecht eskalativ ausgenutzt...
 
Wie so ein Multi GPU Setup aussehen kann gibts auf Twitter zu sehen bei den Patenten


https://twitter.com/Underfox3/status/1489073622048288769?s=20&t=JRYlPkTWOKqsq7KPvjCviA



1644061738810.png
 

Anhänge

C4rp3di3m schrieb:
Mit einer "neuen" Technik wie HBM bin ich bereit mehr zu zahlen, aber billig GDDR6 Karten zu Wucherpreisen nicht.
HBM kan sich ja nur durchsetzen, wenn es auch Produkte damit zu Kaufen gibt. Also gebt uns welche!

mfg
HBM hatte ich schon auf meiner Fiji, damals gab es maximal GDDR5, also folgten GDDR5X, GDDR6 und GDDR6X.
So neu ist HBM jetzt auch nicht.
 
Ayo34 schrieb:
Der Unterschied ist, dass z.B. eine 3070 normal unter 500€ kosten würde. Das wäre ein normaler Marktpreis, wenn es den Mining-Boom nicht gäbe. Auch die 3080 hatte mal eine UVP von ~700€. Außerdem sind wir bei Preisen, die sich in Deutschland jeder leisten kann, wenn er denn soviel für ein Hobby ausgeben möchte.
Ich meine hier die Fraktion "ich habe eine 3090/6900 mit 4k in 120hz" wieso schafft mein Setup mit alles auf max nur 80 fps? Davon kriegt man doch Augenkrebs. Die Leute meine ich, die beschweren sich dann auch oft über den Preis. Wo ist das Problem auch mal mit 60 fps zu spielen. Oder die Details runter zu drehen?

Klar die letzten 16 Monate bzw. 12 sind die Preise jenseits von gut & böse. Ich mache immer noch drei kreuze das ich "nur" 800 Euro bezahlt habe für meine Karte. Ich hoffe auch das sich die Preise irgendwann abkühlen und eine 7800xt dann nach einem halben Jahr deutlich unter UVP zu bekommen ist wie das früher üblich war. Aber leider leben wir seit der Pandemie in total verrückten Zeiten. Dazu noch der Mining Boom und 0 versuche von Butterin mal auf PoS bei ETH umzusteigen.
 
Mein Gott was hat AMD da eigentlich vor? Ohne Taktsteigerung und bei selber Shaderleistung wäre es ja mindestens eine doppelt so hohe Performance wie die der 6900XT. Und die Mittelklasse soll 6900XT Leistung erhalten?

Warum eigentlich? Bisher war man glücklich wenn ein neues Flagshiff 40% mehr leistete als das alte, und war bereit irrwitzige Summen auszugeben. Was soll denn bitteschön eine 7600XT mit 5120 Shadern als UVP kosten?
 
  • Gefällt mir
Reaktionen: MGFirewater
mae schrieb:
Das mit den Unterschieden in der Dichte zwischen SRAM und Logik koennte eher relevant sein. Ich habe da vor einiger Zeit einmal was dazu gesehen, kann mich aber nur dunkel erinnern; WIMRE hat SRAM da tatsaechlich bei neueren Prozessen nicht so gut skaliert wie Logik (was mich erstaunt hat, weil frueher SRAM verwendet wurde, um neue Prozesse zu demonstrieren); das waere natuerlich ein Grund, den groesseren und billigeren Prozess fuer SRAM zu verwenden.

SRAM skalliert nur bedingt, da die Sensitivität der Ausleseschaltung und die Resistenz gegen Leckströme bei gleicher Kanallänge langsamer steigt als die minimale Kanallänge schrumpft.

SRAM als Referenz ist hauptsächlich ein Relikt aus Langkanalzeiten.
Bei Kurzkanalprozessen wird meist das klassische NAND/AND Gate oder ein Inverter genommen.
In der Doku zum Node findet sich dann meist eine Tabelle in der dann auch SRAM verglichen wird.
 
  • Gefällt mir
Reaktionen: Colindo
mae schrieb:
Warum sollte SRAM relativ teuer sein? Ein Wafer SRAM kostet genauso viel wie ein Wafer Logik im selben Prozess. Wenn SRAM weniger Layer hat, vielleicht sogar weniger.
Genau, für SRAM sind weniger Prozessschritte nötig. Sollten vor allem erheblich weniger Metal layer sein.

mae schrieb:
Das mit den Unterschieden in der Dichte zwischen SRAM und Logik koennte eher relevant sein. Ich habe da vor einiger Zeit einmal was dazu gesehen, kann mich aber nur dunkel erinnern;
TSMC gibt für Logik 1.8 und für SRAM 1.35 an.
Bei N3 ist's 1.7 für Logik und gar nur 1.2 für SRAM.

Bedenkt man dann wie groß die Caches bei RDNA2 schon waren (bei den kleinen GPUs extrem zurechtgestutzt um Fläche zu sparen) und wie groß die bei der nächsten Generation werden sollen, dann macht es definitiv Sinn die separat zu fertigen.
Nicht nur ist die density nicht großartig besser, auch hilft die bessere Effizienz/ Performance kaum weiter.
Da nimmt man dann lieber den günstigeren Prozess. Neben dem Preis spielt aber vielleicht auch verfügbare Kapazität eine Rolle.
Die wollen auch CPUs in N5 fertigen und die Konkurrenz wie Intel, TSMC, Apple und Mediatek wollen auch was abhaben.
 
  • Gefällt mir
Reaktionen: ETI1120 und Colindo
textract schrieb:
Die Verträge laufen bald aus.
Hatten die das nicht gerade erst verlängert?
Ich meine, für Athlons z.B. würde das ja noch lange ausreichen
 
Philste schrieb:
Ich denke tatsächlich, dass es die Kosten sind. 5nm hat nur 70% mehr Dichte als 7nm, kostet aber 100% mehr, 6nm kostet glaube ich wenig mehr als 7nm, bringt aber auch schon 20% Dichte. In 5nm wäre der Die wohl trotz kleinerer Größe teurer und der Yield bei 6nm ist so gut, dass die 440mm^2, die gemunkelt werden, noch gut funktionieren.
Vllt liegt es aber auch an der Verfügbarkeit. 6nm wird vermutlich eine größere Menge an Chips ermöglichen, was für ein Massenmarkt gebraucht wird.
Hier frage ich mich dann, aber wieso nicht einen kleineren Chip und da auch wieder ein Multichip Lösung. Dann hätte man mit zwei chips das komplette Line Up abgedeckt.
 
  • Gefällt mir
Reaktionen: Colindo
iceshield schrieb:
"...Multi-Chip-Modul-Design mit insgesamt 3 Dies..."
Ich hoffe ich habe Unrecht, bin ich der Einzige, der hier an Microruckler denkt? Oder hat das nichts mit dem alten klassischen "mehrere Chips auf einer GFX" zu tun?
Lg
Doch hier ich. Ich bin ganz bei dir. Könnte mir vorstellen, dass auch Software seitig von den Games viel nachträglich umgesetzt werden muss.
 
Zurück
Oben