News RTX 5000 & RX 8000: Ein Die für Blackwell, Chiplet-GPU für RDNA 4 im Gespräch

Jan

Chefredakteur
Teammitglied
Registriert
Apr. 2001
Beiträge
16.021
Neue Gerüchte besagen, dass Nvidias größter kommender Gaming-Grafikkarten-Chip „GB202“ für eine etwaige RTX 5090 erneut auf einen großen, sogenannten monolithischen Die setzen wird, während AMD bei RDNA 4 für Radeon RX 8000 auf einen MCM-Ansatz mit zwei GPU-Chiplets setzen wird. Das wäre eine Premiere.

Zur News: RTX 5000 & RX 8000: Ein Die für Blackwell, Chiplet-GPU für RDNA 4 im Gespräch
 
  • Gefällt mir
Reaktionen: aklaa, Redundanz, Quidproquo77 und 12 andere
Das würde auf erschreckende Weise sogar Sinn ergeben. Man könnte viele Probleme angehen, die unweigerlich kommen und hätte nicht sofort ein versautes Highend-Produkt.
 
  • Gefällt mir
Reaktionen: MiroPoch, Wintermute, PascalFtr und 18 andere
Das erinnert mich an die HD6000, mehr Cores als HD5000 dank 5D Design. Aber kaum ein Game konnte das nutzen und war am Ende quasi langsamer. 2x chipletts bedeutet sicher auch, eine Optimierung der Software . Ob das gut geht?? Bin gespannt... in abastrakter form war das interface in SLI/Crossfire ein Flaschenhals ob das in dem fall anders sein wird ??
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: flo.murr, Coeckchen, aklaa und eine weitere Person
Es gibt keinen effizienten Weg, zwei vollständige GPUs miteinander zu koppeln.

Entweder wirft man Leistung weg, oder verwendet ganze Funktionsblöcke nicht. Meist sogar beides.
 
  • Gefällt mir
Reaktionen: derneuemann_v2 und Quidproquo77
Am Ende ist es aber völlig egal wie der jeweilige Hersteller zum Ziel kommt, nur auf das Ergebnis kommt es an.
 
  • Gefällt mir
Reaktionen: gartenriese, InTheEnd_AI, daVinci und 32 andere
Chesterfield schrieb:
Das erinnert mich an die HD6870, mehr Cores als HD5870 dank 5D Design. Aber kaum ein Game konnte das nutzen und war am Ende quasi langsamer als die 5870.
Da verwechselst du was. Die 5870 hatte 20 SIMD-Blöcke, die 6870 derer nur 14 und war folglich langsamer.

@RDNA4: Ich glaube nicht an eine Dual-Chip-Lösung. Man hat beim großen Chip Funktionsblöcke doppelt drin, die man nur einmal bräuchte und verschwendet zusätzlich noch Fläche für Interfaces. Dazu muss das ganze über advanced packaging laufen, weil sonst entweder zu wenig Bandbreite zwischen den Chipteilen vorliegt oder man Unmengen an Strom verschwendet bei einem großen, fetten Interface. Dazu noch Skalierungsprobleme, weil entweder man zwei Command Processors hat, die sich absprechen müssen oder die Arbeit auf einen Command Processor abwälzt und dieser dann die aus seiner Sicht doppelt so vielen Recheneinheiten nicht mehr so gut ausgelastet bekommt (oder man überdimensioniert ihn, aber dann hat man wieder Fläche verschwendet ...).

Dazu kommt noch, dass AMD imho bei so einem Plan direkt auch auf drei Chips gegangen wäre, um den margenträchtigen Highend-Bereich mit abzugrasen.

Ich finde AMD würde sich das Leben hier ganz schwer machen im Vergleich dazu, einfach zwei Monolithen zu bringen und fertig. 2D-Verbrauch ist auch wieder so ein Thema bei Multi-Chip. Das läuft bei RDNA3 bis heute unterirdisch und wurde auch zurecht kritisiert.
 
  • Gefällt mir
Reaktionen: up.whatever, Quidproquo77, 9t3ndo und 6 andere
Welchen Sinn ergeben die Umfragen, was man glaubt, wenn man nicht darauf wetten kann bzw. an einem Gewinnspiel teilnimmt?
Das wäre vielleicht eine Idee für die Zukunft?

Navi 48 = 2 × Navi 44?
Navi 88
 
  • Gefällt mir
Reaktionen: Zockmock, twoface88, netGuy und 3 andere
Nvidia wird das machen was schneller und sinnvoller ist.
AMD wird das machen was günstiger umzusetzen ist.
 
  • Gefällt mir
Reaktionen: derneuemann_v2, Grestorn, Sansio und 7 andere
Chesterfield schrieb:
Das erinnert mich an die HD6870, mehr Cores als HD5870 dank 5D Design.
Die Probleme bei TeraScale sind an der Stelle aber etwas anders gelagert gewesen, weswegen es ja auch TeraScale 3 gab.

TeraScale war eine astreine VLIW-Architektur. Jeder Pixel war ein "Thread", der auf einem "Kern" lief, dieser hatte 5 ALUs, die über einen VLIW-Befehl angesprochen wurde. Das Konzept dahinter war auch nicht "Dumm", hatte nur das Problem, dass im ein Teil der ALUs brach liegen konnte. Bei TeraScale 3 wurde das auf VLIW 4 verändert (4D), weil dann in der regel r, g, b und der Alpha-Kanal abgedeckt wird. Ging auch nicht optimal auf, war aber besser.

Hier reden wir von einem Multi-Chip ansatz.
Chesterfield schrieb:
2x chipletts bedeutet sicher auch, eine Optimierung der Software . Ob das gut geht?? Bin gespannt
Jain, es kommt darauf an. 3dfx Voodoo 2 und später die VSA-100 waren für die Software (Spiel) nur wie eine GPU, hier hat der Treiber - was damals deutlich leichter war - die Zeilen auf die beiden Karten aufgeteilt. Durch diese Aufteilung gab es quasi eine fast perfekte Skalierung.

Das wird AMD für diesen Teil schwerere fallen, weil bei moderneren Spielen deutlich mehr "Kommunikation" notwendig ist, jedoch hat AMD bereits mit CDNA 2 und nun CDNA 3 erfahrungen sammeln können und auch Apple zeigt mit dem M1 und M2 Ultra, wie das gehen könnte.

Das Hauptproblem ist die Bandbreite zwischen den Chips, die sich aber durch entsprechende Nähe der Chips sowie einem passenden Interconnect gelöst werden kann - AMD hat hier seit Jahren am Infinty Fabric dahin gearbeitet.

Das zweite Problem ist der Cache und wie dieser mit den Daten umgeht und wie dann die Arbeitslast zwischen den Chips aufgeteilt wird. Da heute aber selbst AMD einen Tiled-Based-Renderer nutzt, ist auch das keine unlösbare Aufgabe, in dem man - wie z.B. Cinebench es macht - die Kacheln vorbereitet und als Arbeitsaufträge in die Queue schreibt und sich die Chips nach und nach die Kacheln abholen, so schnell wie sie eben sind. Hier ist die Frage nur, wie die Arbeit gleichmäßig aufgeteilt wird und die Wartezeit minimiert wird.

incurable schrieb:
Es gibt keinen effizienten Weg, zwei vollständige GPUs miteinander zu koppeln.
Bewirb dich mal bei AMD genau dafür, du kannst dann sicher ganz viel Geld einsparen und die Aktionäre sind dankbar.

C.J. schrieb:
azu kommt noch, dass AMD imho bei so einem Plan direkt auch auf drei Chips gegangen wäre, um den margenträchtigen Highend-Bereich mit abzugrasen.
Nein, nicht unbedingt. Gerade wenn sie hier den Treiber darauf vorbereiten müssen, dass er damit ordentlich arbeitet und sie die Auslastung nach oben korrigieren.

bei einer Mittelklassekarte kann man hier und dort mal entsprechende Probleme "verzeihen". Ein großen "Chip" wiederum, der mit den großen Nvidias konkurriert, könnte sowas das Genick brechen und damit auch AMD, weil hier deutlich weniger Verständnis ist für solche Spielereien.

Ansonsten weitgehend eine gute Ausführung, nur lässt du den Treiber außer acht, der sogar seit RDNA 3 bei AMD wieder etwas "mehr" Arbeit hat. Der Command-Processor scheint etwas entschlackt worden zu sein und ein Teil dessen Aufgaben sind in den Treiber gewandert. Das ist jetzt nur "Hörensagen" aus vielen verschiedenen Kommentaren.

Ansonsten: Nein, die Effizienzprobleme, gerade auch im 2D-Betrieb sind nicht auf den Multi-Chip-Ansatz zurückzuführen. Das zeigt sich gerade auch bei 7800 und 7900 mit "aktuellesten" Messungen. Die Probleme der Effizienz sind allgemeinerer Natur.
 
  • Gefällt mir
Reaktionen: LDNV, derfreak, zeedy und 17 andere
Chesterfield schrieb:
2x chipletts bedeutet sicher auch, eine Optimierung der Software
Also falls AMD sowas bringt, dann nur wenn die Software selbst davon nichts mitbekommt. Ähnlich wie bei Ryzen Gen1. Man wird zwar Abzüge machen im Vergleich zu einen gleich großen Chip, aber wenn Kosten pro Fläche gut genug reduziert werden, könnten wir da einen 2 mal GPU Chip plus 8 SI/L3Cache Chips sehen.
Mit RDNA5 dann die angeblich neue Architektur, mit High-End Chip.

Also CPU und GPU ist da bestimmt nicht das gleiche, aber man kann schon behaupten, AMD ist bei Chiplet-Design mittlerweile ein Pionier.
 
  • Gefällt mir
Reaktionen: LDNV, SweetOhm, Zarlak und 8 andere
Mei, an sich ist es mir ziemlich egal ob da ein Design kommt mit 100 Chiplets oder ein monolithisches. Am Ende muss das Produkt überzeugen. Klar, technisch interessant sind die Multi-Chiplet Designs, die müssen auf dem Papier aber auch überzeugen. Und leider hat das die 7000er Serie meines Erachtens nicht sonderlich (was natürlich nicht nur auf das Chiplet Design zurückzuführen ist).
 
  • Gefällt mir
Reaktionen: Quidproquo77, lynx007 und Benjamin_Blume
So ganz erschließen sich mir die Hintergründe nicht. Bei CPUs geht man seit Jahr(zehnt)en den Weg, zwecks Geschwindigkeit vieles in einem Chip (SoC) zu vereinheitlichen (z.B. goodbye North- und Southbridge), aber bei GPUs zieht man gewisse Bereiche auseinander? Vielleicht kann das mal jemand genauer erklären 🙏
 
C.J. schrieb:
Dazu noch Skalierungsprobleme, weil entweder man zwei Command Processors hat, die sich absprechen müssen oder die Arbeit auf einen Command Processor abwälzt und dieser dann die aus seiner Sicht doppelt so vielen Recheneinheiten nicht mehr so gut ausgelastet bekommt (oder man überdimensioniert ihn, aber dann hat man wieder Fläche verschwendet ...).
Wenn man nach dem Stand der Gerüchteküche geht, muss AMD ja schon einen Plan und entsprechende Implementierungen haben, wie sie Arbeit einer GPU auf mehrere Dies aufteilen - die verworfenen Navi 41/42 sollen dahingehend ja ziemlich wild gewesen sein.
Dass Multi-Chip (bei GPGPU-Anwendungen zumindest) durchaus geht, haben sowohl AMD als auch NVIDIA schon gezeigt. Dann gibt es auch noch den M2 Ultra.

Aber Navi 48 soll ja nicht annähernd so ein Monster werden, aus Kosten-/Nutzensicht erscheint mir da ein monolithischer Chip auch deutlich sinnvoller. Wobei mit der GPU-Preispolitik der letzten Generationen sicherlich Raum für Experimente drin ist ^^
 
Bei der erwarteten Größe der Chips machen Chiplets mMn weder technologisch noch finanziell einen Sinn. Der einzige Grund, den ich mir vorstellen könnte, wäre den Chip als Testballon für zukünftige, größere Chips zu verwenden. Bei einem Mittelklassenchip sind die Anforderungen nicht so hoch und evtl. Probleme lassen sich durch etwas mehr Rohpower kompensieren.
 
  • Gefällt mir
Reaktionen: LDNV, Quidproquo77, incurable und 4 andere
RTX5000 UND RDNA4 werden monolithisch.

AMD hat Probleme beim MCM von RDNA3 gehabt und die Karten lagen ~20% unter dem was prognostiziert wurde.
Von daher wollten sie sich jetzt Zeit nehmen RDNA neu zu designen, da dieselben Fehler im MCM bei RDNA4 drin waren. (RDNA4 baute auf RDNA3 auf)
Da es zeitlich nicht für RDNA4 geht, muss man aufs MCM High-End verzichten.
Die Entwicklung dauert halt mehr als nur die 2 Jahre zwischen den Releases. Man entwickelte schon für RDNA4, als RDNA2 gerade rausgekommen war.

Und RTX5000 kommt monolithisch, weil es keine Produktionskapazitäten für die "Hochzeit" der dual GPUs gibt.
Die werden alle vorrangig für die Datacenter GPUs genutzt und selbst für die sind es zu wenig.
Es dauert noch 1-2 Jahre, bis diese Kapazitäten da sind.
RTX6000 könnte dual GPUs haben...vielleicht sogar die 5090Ti...
 
  • Gefällt mir
Reaktionen: Rockstar85 und ThirdLife
Die Kosten im Verhältnis zum Nutzen sind entscheidend. Wenn AMD im Compute Bereich mit ihrem Multichiplet-Design Fuß fassen kann und dort pro Chip wesentlich mehr Umsatz generieren kann als im Consumer-Bereich, würde ich nicht davon ausgehen, dass AMD diesen Ansatz auch im Consumer-Bereich unbedingt gehen wird, wenn sie nicht zwingend müssen - die Frage ist halt wie die Kostenstrukturen zwischen MCM und einem monolithischen Design aussehen und das weiß nur AMD.

Wenn NVIDIA weiterhin beim monolithischen Design bleiben sollte bei Blackwell, was momentan auch kolportiert wird, wird AMD es ebenso solange es keinen zwingenden Grund gibt, um zumindest im Mittelklassebereich Pendants anbieten zu können.

Ich würde daher einen Navi 48 auf MCM-Basis als eher unwahrscheinlich einstufen, wenngleich die Produktionskapazitäten für MCM GPUs aus dem Compute-Bereich mit höheren Umsätzen einhergehen dürften.
 
  • Gefällt mir
Reaktionen: Quidproquo77
HardRockDude schrieb:
So ganz erschließen sich mir die Hintergründe nicht. Bei CPUs geht man seit Jahr(zehnt)en den Weg, zwecks Geschwindigkeit vieles in einem Chip (SoC) zu vereinheitlichen (z.B. goodbye North- und Southbridge), aber bei GPUs zieht man gewisse Bereiche auseinander? Vielleicht kann das mal jemand genauer erklären 🙏
Und Ryzen klammerst du aus?
Man hat kleinere günstiger zu fertigende Chiplets und lagert alles was nicht skaliert in einen Die aus, um diesen in einem günstigen, älteren Prozess zu fertigen.

Gleiches kann man mit ner GPU machen. Einziges, aber riesiges Problem:
Bei der GPU ist eine gigantische Bandbreite zwischen den Chiplets nötig. Es ist nicht einfach dies mit akzeptablen Energiemengen zu realisieren.
 
  • Gefällt mir
Reaktionen: ALPHA-S, Mcr-King und HardRockDude
HardRockDude schrieb:
So ganz erschließen sich mir die Hintergründe nicht. Bei CPUs geht man seit Jahr(zehnt)en den Weg, zwecks Geschwindigkeit vieles in einem Chip (SoC) zu vereinheitlichen (z.B. goodbye North- und Southbridge), aber bei GPUs zieht man gewisse Bereiche auseinander? Vielleicht kann das mal jemand genauer erklären 🙏
Irgendwo gibt es eine schöne Grafik von AMD, die ich aber leider nicht auf die schnelle finde.
1716828082246.png


Der Vorteil ist, kleinere Chips, mehr Ausbeute, günstigere Abnehmerpreise. Speziell wenn AMD dann pro Wafer bezahlt.
Hinzu kommt dass man dann für die I/O und L3 Cache Chips eine günstigere Fertigung nehmen kann. So kann die neuste Fertigung für die eigentlichen Chips mit den Shader verwendet werden.

So kann es am Ende sein, dass trotz des "Mehraufwandes" die Chips verbinden zu müssen, oder "kleben" wie es Intel so nennt, günstiger ist. Speziell auf die Gesamtkosten.

Auch hat AMD mal erwähnt, dass man flexibler und schneller neue Produkte auf den Markt werfen kann. So kann man Beispiel die GPU mit einem neueren Prozess schrinken und muss SI und co, welche eigenständige Chips sind, nicht anpassen. Das erspart Entwicklungskosten, für Arbeit die bei der Performance aber dann kaum was beiträgt.


das Video ist auch recht gut.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: LDNV, ALPHA-S, DonDonat und 6 andere
Hat wahrscheinlich auch viel mit der Ausbeute der Chips zu tun.

Bei einer 100% Ausbeute ist ein Mono Design überlegen da es weniger overhead gibt.

Um so geringer die Ausbeute allerdings ist um so überlegener wird ein Dual Chip Design.
 
Und man darf nicht vergessen, dass die statistische Defektwahrscheinlichkeit (bezogen auf ein(en) belichteten Chip(let)) zu- und damit die Ausbeute der Chips mit der Größe der Einzelchips abnimmt. Natürlich hat man immer etwas Spiel mit teildeaktivierten Chips aber das grundsätzliche Problem lässt sich nicht vermeiden, sondern nur optimieren.

Und dann stößt man zudem irgendwann auch noch an das Reticle-Limit.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: SweetOhm, nyster, iron_monkey und eine weitere Person
Zurück
Oben