Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

LamaMitHut · 15. Juli 2022

incurable schrieb:
Es geht um die Verteilung einer Last auf mehrere integrierte Schaltkreise, welche Maßnahmen dabei bereits angewendet wurden und welche Effekte sie erzielen konnten bzw können.

Wenn Du mehr Informationen zu Lucid suchst, findest Du sie am einfachsten unter ihrem ersten Namen LucidLogix oder in Verbindung mit ihrer Marke Hydra.

Aber die Ansätze unterscheiden sich doch wie Tag und Nacht, in vielerlei Hinsicht.

Naja, lass einfach hoffen das es funktioniert. Wäre wohl einer der größten Durchbrüche der letzten Jahre.

incurable · 15. Juli 2022

LamaMitHut schrieb:
Aber die Ansätze unterscheiden sich doch wie Tag und Nacht, in vielerlei Hinsicht.

Eben nicht, das ist ja der Treppenwitz an der Sache.

Schau Dir allein mal die im Artikel verlinkten Patente an. Das eine versucht es als innovativ zu verkaufen, dass Bausteine mit Kabeln aus einem schon Jahre vorher produktiv eingesetztem Herstellungsprozess verbunden sind.

Das andere ist eine Übung in kreativem Schreiben, die neu zu klingen versucht, indem bekannte Funktionen mit Leerwörtern wie "Chiplet" bestreut werden.
(Das ist nichts anderes wie Leute, die den Aufbau von Zen 2 und 3 für innovativ halten, weil sie sich nicht [mehr] daran erinnern, dass es für Jahrzehnte völlig normal war, dass Speichercontroller und I/O von den Rechenwerken getrennt auf einem eigenen Siliziumstückchen saßen.)

ETI1120 · 16. Juli 2022

incurable schrieb:
Eben nicht, das ist ja der Treppenwitz an der Sache.

Nur weil es auf den ersten Blick gleich aussieht, ist es nicht dasselbe. Meist tun sich ganze Welten auf, wenn man genau hinsieht. Und es sind nur die Ignoranten wie Du, die sich auf den ersten Blick verlassen.

Du hast oberflächlich betrachtet recht, dass man den IOD bei Zen 2 und Zen 3 als North Bridge auffassen könnte. Aber bei Zen 2 und Zen 3 sitzt der IOD im CPU-Sockel und nicht irgendwo auf dem Mainboard. Und hast Du die Anbindung zwischen der North Bridge und der CPU auf der einen und zwischen dem IOD und CCDs (Server) auf der anderen Seite hinsichtlich Latenz und Bandbreite verglichen?

Es geht nicht darum eine CPU in Chiplets zu zerlegen. Es geht darum eine CPU aus Komponenten zu bauen. Und hier hat Intel mit ihren monolithischen CPUs auf Serverseite bis heute keine Antwort auf Zen 2 und Zen 3 gefunden. Und das wird Intel auch nicht mehr, denn Intel wird in Zukunft wie AMD CPUs aus einzelnen Dies integrieren.

Ein Grund CPUs aus mehrere Chiplets zu integrieren ist: Analog (PHY), Speicher (Cache) und Logik (CPU- oder GPU-Logikschaltungen) skalieren mit unterschiedlichen Faktoren von Node zu Node. Analoge Schaltkreise skalieren schon lange schlecht. Der Skalierungfaktor von Speicher von 7 nm auf 5 nm ist erheblich schlechter als der von Logik. Das Chiplet-Design von Zen 2 ist die Antwort auf dieses Problem. AMD stellt die CCDs mit den Kernen, die gut skalieren mit dem teuren 7 nm Prozess her und die IOD mit den PHY, die schlecht skalieren, mit dem billigen 14 nm Prozess her.

Und wenn man bei den Chiplets hinsieht, tut sich die große Welt des Advanced Packaging auf.

Und aus dieser Welt betrachtet sind ist die Technik mit der Zen 2 und Zen 3 umgesetzt werden tatsächlich kalter Kaffee. AMD packt die Chiplets per Standard FlipChip auf ein Substrat, das wars.
Die A100 von Nvidia integrieren HBM-Speicher und GPU auf einem übergroßen Chip den man als Silizium Interposer bezeichnet. Damit steht eine hohe Verbindungsdichte bereit. Allerdings ist der Interposer teuer, da er sogenannte TSV (Verbindungen von Vorder und Rückseite des Interposer) benötigt und vor allem weil er größer als das Recticle Limit ist.
Intels Foveros basieren ebenfalls auf Interposern. Allerdings hat Intel schon aktive Chips gestapelt. Was dann 3D ist, z. B. Lakefield.
Apple verwendet ein Verfahren bei dem Speicher und SoC mit einem in Dünnschichttechnologie gefertigten organischen Interposer verbunden werden. Die mit dem so genannten Fan Outs hergestellten Organischen Interposer sind nicht so leistungsfähig wie ein aus Silizium gefertigter Interposer. Aber sie sind ermöglichen erheblich mehr Verbindungen je mm als eine Leiterplatte bzw. als ein Substrat auf dem die Packages im FlipChip Verfahren platziert werden
Bei M1 Ultra werden die beiden M1 Maxx Dies durch eine kleine Siliziumbrücke verbunden. Diese Silizumbrücke lässt sich preiswert herstellen, da sie sehr klein ist und keine TSVs benötigt. Aber sie bietet trotzdem eine enorme Anzahl an Verbindungen zwischen den beiden M1 Maxx. Der Speicher wird wie bisher über das Fanout angebunden.
MI250X von AMD verwendet wie M1 Ultra ein Verfahren das FanOut und Silizium-Brücke verwendet. AMD nennt es EFB (Elevated FanOut Bridge)
Intels EMIB ist ein äquivalent, verzichtet aber auf das FanOut und kombiniert Substrat und Bridge.
Der 3D V-Cache den AMD verwendet Hybrid Bonding um die TSVs auf dem CCD dierekt mit den Kupferkontakten im Cache-Chiplet zu verbinden. Es sind keine Microbumbs erforderlich. Damit kommt AMD auf einen Abstand von 16 µm zwischen den Kontakten. Das Verfahren ermöglich sogar einen Abstand von 9 µm.

Ein Ignorant wie Du wird argumentieren. dass die Leiterbahnen im Fanout denen in der Leiterplatte entsprechen und dass TSVs Durchkonkatierungen entsprechen. Aber sie sind nicht dasselbe. Denn mit gewöhnlicher Leiterplattentechnologie sind 2 µm Leiterbahnbreite bzw. und 10 000 Durchkontaktierungen je mm² nicht umsetzbar.

Und zurück zu den GPUs. Es ist eben ein Unterschied ob zwei Chiplets den Bruchteil eines Millimeters nebeneinander sitzen oder ein paar Zentimeter getrennt auf demselben Board oder gar in zwei verschiedenen Slots. Das sich Systeme anders verhalten wenn ihre Komponenten mit 5,6 GByte/s, 400 GByte/s (MI250X) oder gar 2,5 TByte/s (M1 Ultra) kommunizieren könnte vielleicht sogar Dir einleuchten.

Ob RDNA 3 aus 2 oder mehr GPU-Chiplets aufgebaut ist werden wir bald wissen. Aber GPUs die aus mehr als einem GPU-Chiplet aufgebaut sind werden kommen. Es ist nur eine Frage der Zeit.

incurable · 18. Juli 2022

ETI1120 schrieb:
Du hast oberflächlich betrachtet recht, dass man den IOD bei Zen 2 und Zen 3 als North Bridge auffassen könnte. Aber bei Zen 2 und Zen 3 sitzt der IOD im CPU-Sockel und nicht irgendwo auf dem Mainboard.

Lynnfield von 2009 grüßt freundlich. 👏

ETI1120 schrieb:
Und hast Du die Anbindung zwischen der North Bridge und der CPU auf der einen und zwischen dem IOD und CCDs (Server) auf der anderen Seite hinsichtlich Latenz und Bandbreite verglichen?

Nein, weil das zwar für die erreichbare Leistung des Systems wichtig ist, nicht aber dafür, ob das Konzept fangfrisch oder gut abgehangen war.

ETI1120 schrieb:
Das Chiplet-Design von Zen 2 ist die Antwort auf dieses Problem.

Ich würde anmerken, dass die bestehenden Verträge mit GF einen erheblichen Anteil an der Konzeption von Zen 2 und 3 hatten.

ETI1120 schrieb:
Advanced Packaging

Find ich technisch auch alles interessant, konzeptionell ist es halt nicht wahnsinnig innovativ.

ETI1120 schrieb:
Die A100 von Nvidia integrieren HBM-Speicher und GPU auf einem übergroßen Chip den man als Silizium Interposer bezeichnet.

Das ist fies von Dir, schließlich war AMD mit Fiji schon 2015 auf dem Markt.

ETI1120 schrieb:
Ein Ignorant wie Du wird argumentieren. dass die Leiterbahnen im Fanout denen in der Leiterplatte entsprechen und dass TSVs Durchkonkatierungen entsprechen. Aber sie sind nicht dasselbe. Denn mit gewöhnlicher Leiterplattentechnologie sind 2 µm Leiterbahnbreite bzw. und 10 000 Durchkontaktierungen je mm² nicht umsetzbar.

"Ein Ignorant wie [ich]" argumentiert das Kabel Kabel sind und Patente, die Kabel anders nennen um innovativ zu klingen dadurch nicht innovativer werden. 😜

ETI1120 schrieb:
Ob RDNA 3 aus 2 oder mehr GPU-Chiplets aufgebaut ist werden wir bald wissen. Aber GPUs die aus mehr als einem GPU-Chiplet aufgebaut sind werden kommen. Es ist nur eine Frage der Zeit.

Japp, und wenn sie da sind wird sich so mancher über die Skalierung der Lasten über mehrere Chipsletten hinweg wundern.

LamaMitHut · 5. Dezember 2023

https://www.pcgamer.com/amds-new-ch...r-graphics-cards-what-ryzen-did-for-its-cpus/

<-

Hmmm... Was ist daran jetzt neu?

incurable · 5. Dezember 2023

Auch 17 Monate später gilt weiterhin:

"Es gibt nichts neues unter der Sonne, nur frisch verpackte Ideen."

LamaMitHut · 5. Dezember 2023

@incurable

So habe ich das nicht gemeint. Wenn das ganze in der Praxis funktioniert, wäre es in der Form eine Revolution.

Ich frag mich, was jetzt dazu gekommen ist.

incurable · 5. Dezember 2023

"Wenn das ganze in der Praxis funktioniert, wäre es in der Form eine Revolution."

Wie "kalte" Fusion und Raumtemperatursuperleiter.

Nur dass in die effiziente Verteilung beliebiger Rechenaufgaben schon die eine oder anderen Milliarde mehr an Forschungsgelder geflossen ist, ohne dass dort nennenswerte Revolutionen stattgefunden hätten.

ETI1120 · 6. Dezember 2023

LamaMitHut schrieb:
https://www.pcgamer.com/amds-new-ch...r-graphics-cards-what-ryzen-did-for-its-cpus/

<-

Hmmm... Was ist daran jetzt neu?

Es ist ein anderer Aspekt der GPU der in diesem in diesem Patentantrag beschrieben wird.
Im Patentantrag US20230376318A1 wird die Aufteilung der Geometrie Engine auf mehrere Chiplets beschrieben, im Patentantrag US20230376318A1 geht es um das Aufteilen der Shader (Binning) auf mehrere Ciplets.

AMD hat einige Patentanträge und Patente in diesem Umfeld. Beide Patentanträge sind Neueinreichungen bereits erteilter Patente.

MLID hat ja im Sommer behauptet dass die angeblich gecancelte Navi 41 auf dem Patentantrag US 2022/0320042 A1 beruhen sollte.
Dass US 2022/0320042 A1 im Jahr 2024 für eine Gaming GPU gepant war, halte ich für Unsinn. Das was US 2022/0320042 A1 zeigt, ist für Gaming GPUs viel zu aufwändig. Aber das Video hat bei den üblichen Verdächtigen große Welle geschlagen.

IIRC hatte es besonders diese Grafik MLID angetan:

Ich kann hier einige Gemeinsamkeiten mit der MI300 erkennen.

MID (508) weglassen,
SED (412) => XCD,
4 statt 2 AID verwenden
anstatt dem Bridge Chip (504) einen Interposer verwenden auf dem auch die Memory Module (506) sitzen ...

Und bei der Geschichte dass AMD Navi 41 gecancelt haben soll bin ich auch sehr gespannt was da letztendlich raus kommt. Die Logik eine komplett neue Architektur nur bei den kleinsten SKUs einzuführen und als TOP-SKU die vorherige Generation beizubehalten erschließt sich mir nicht. Da muss AMD ja höllisch aufpassen keine also großen Verbesserungen einzuführen ...

LamaMitHut schrieb:
So habe ich das nicht gemeint. Wenn das ganze in der Praxis funktioniert, wäre es in der Form eine Revolution.

Es gibt zwei Herausforderungen um die Rechenwerke einer GPU in Chiplets aufzuteilen. Um als eine GPU agieren zu können

müssen sehr viele Verbindungen zwischen den Chiplets geknüpft werden. Wir reden hier von mehr als 10 000 Verbindungen zwischen zwei Chiplets.
muss die Verbindung zu den anderen Chiplets mindestens dieselbe Bandbreite haben mit der der lokale Speicher an das Chiplet angeschlossen ist. Nur dann sind alle Speichermodule für das Chiplet gleichwertig.

Um das erfüllen zu können benötigt man einen Silizium Interposer oder zumindest Silizium-Brücken.
Bei der MI250 hat AMD nur zwischen den HBM-Stacks und den GCDs Siliziumbrücken verwendet. Die beiden GCDs wurden über das Fanout gekoppelt. Damit besteht die MI250X aus 2 logischen GPUs.

Apple hat AFAIK mit dem M1 und M2 Ultra eine Multi Chiplet GPUallerdings umgesetzt. Hier ist es eine logische GPU auf 2 Dies. Bei Apple wird der Speicher (LPDDR5) per Fanout mit den APU-Dies verbunden. Bei den M1 bzw. M2 Ultra werden beide APU-Dies über eine Silizium-Brücke gekoppelt. Es stehen also ausreichend Verbindungen und ausreichend Bandbreite zwischen den beiden Dies bereit.

Das Navi 31 GCD ist nur 300 mm² groß. Navi 21 war 520 mm² groß. Hier hat AMD noch deutlich Potential zum Steigern der Die-Fläche. Aus diesem Grund denke ich dass das Aufteilen der eigentlichen GPU auf mehrere Chiplets für Gaming GPUs bei AMD so schnell nicht erforderlich ist.

Multi Die GPUs erwarte ich bei AMD zuerst bei CDNA. Es ist noch unklar aus wie vielen logischen GPUs eine MI300A oder eine MI300X besteht. Ich habe dazu von ein und derselben Person unterschiedliche Statements gelesen.

incurable · 6. Dezember 2023

ETI1120 schrieb:
Es gibt zwei Herausforderungen um die Rechenwerke einer GPU in Chiplets aufzuteilen. Um als eine GPU agieren zu können

müssen sehr viele Verbindungen zwischen den Chiplets geknüpft werden. Wir reden hier von mehr als 10 000 Verbindungen zwischen zwei Chiplets.

Die Anzahl der Verbindungen ist eine Folge der physikalischen Gegebenheiten und verfügbaren Techniken. Die Recheneinheiten selbst interessiert es nicht die Bohne, ob die Daten durch ein Ofenrohr oder 1000 Macaroni verschickt wurden.

ETI1120 schrieb:
muss die Verbindung zu den anderen Chiplets mindestens dieselbe Bandbreite haben mit der der lokale Speicher an das Chiplet angeschlossen ist. Nur dann sind alle Speichermodule für das Chiplet gleichwertig.

Der externe Speicherzugriff ist nur ein Teilaspekt des Skalierungsproblems.

Je nach Arbeitslast brauchen Recheneinheiten Zugriff auf Daten in entfernten Recheneinheiten oder deren lokalen Zwischenspeichern und schon ist es zuende mit der Skalierbarkeit. Wie gesagt, das ist alles weder Hexenwerk noch Neuland.

ETI1120 schrieb:
Apple hat AFAIK mit dem M1 und M2 Ultra eine Multi Chiplet GPU allerdings umgesetzt.

Schau Dir die Skalierung von Grafiklasten vom Mx Max zum jeweiligen Mx Ultra Modell an.

LamaMitHut · 6. Dezember 2023

@ETI1120

Vielen Dank für die Erklärung. Bin echt gespannt, was da alles kommt.

Am Ende wahrscheinlich ne Preisfrage, darum ganz bestimmt erst für die großen Geräte für die Rechenzentren / etc.

ETI1120 · 9. Dezember 2023

ETI1120 schrieb:
Multi Die GPUs erwarte ich bei AMD zuerst bei CDNA. Es ist noch unklar aus wie vielen logischen GPUs eine MI300A oder eine MI300X besteht. Ich habe dazu von ein und derselben Person unterschiedliche Statements gelesen.

Nach der Vorstellung und laut Whitepaper ist klar, dass die MI300 als eine einzige logische GPU agieren kann.
So wie es Nicholas Malaya schon für über einem Jahr auf Twitter geschrieben hat.

Der Widerspruch war, dass in einem Foliensatz über die Programmierung der APU, an dem er federführend mitgewirkt hat, GPU immer in Mehrzahl verwendet wurde. Auch das ist nun klar, die MI300 kann partioniert werden und in unterschiedlichen Konfigurationen verwendet werden.

Suche

Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

LamaMitHut

Captain

incurable

Captain

ETI1120

Captain

incurable

Captain

LamaMitHut

Captain

incurable

Captain

LamaMitHut

Captain

incurable

Captain

ETI1120

Captain

incurable

Captain

LamaMitHut

Captain

ETI1120

Captain