News Patent: AMD plant mit GPUs im Chiplet-Design

mibbio · 3. Januar 2021

shoKuu schrieb:
Sprich wir haben dann die gleiche Soße wie bei den Prozessoren? X Spiel unterstützt nur dann 50% der GPU Leistung weil nur die Hälfte der Kerne angesprochen wird?

Dem Spiel wird es relativ egal sein, wie die GPU intern aufgebaut ist. Um die sinnvolle Auslastung der Chiplets und deren Kommunikation untereinander kümmert sich die GPU selbst - das ist ja gerade der Punkt im Patent, den AMD als "schwierig" bezeichnet. Die Software merkt am Ende also gar nicht, ob es eine Grafikkarte mit monolithischem Chip oder mit Chiplets vor sich hat.

Bei Zen und deren Chiplet-Aufbau war ja auch nicht das Problem, wie viel Kerne/Chiplets die Software nutzt, sondern die Latenz bei der der internen Kommunikation untereinander war der Flaschenhals, die mit jeder Generation verbessert wurde. Die Software konnte halt nur versuchen, Berechnungen möglichst innerhalb eines Chiplets zu bündeln, um unnötig viel Kommunikation zwischen den Chiplets zu vermeiden.

eax1990 · 3. Januar 2021

Klingt ja mal vorerst interessant aber wie die Umsetzung dann in der Realität ausschaut (sofern es passiert) werden wir ja sehen.
Auf die Geschwindigkeit der Kommunikation zwischen den Chiplets wird es wohl ankommen, so schätze ich als Laie mal?
Mir schwirrt nur ganz grob im Kopf, dass man dieses Design am Ende dann zum AMD Jaguar nur als GPU macht, schön langsam pro GPU und mit enormen Latenzzeiten, wo dann in Echtzeitanwendungen nicht wirklich brauchbar sind, dafür aber in anderen Dingen zum kleinen Preis.

So ist zumindest mein Gedankengang zum Thema GPU Chiplets

Teralios · 3. Januar 2021

Colindo schrieb:
Jetzt sieht man, wie schwierig es gewesen sein muss, überhaupt einen patentierbaren Ansatz zu erforschen.

Wobei der Ansatz ja nun doch recht "klassisch" ist mit "Main/Controller" und entsprechend dann den Workern.

Wird schon spannend, was da kommt.

Robo32 · 3. Januar 2021

PietVanOwl schrieb:
Viele kleine Chiplets kosten weniger als ein Riesen Die.

Ja, es gibt dabei weniger Ausschuss, allerdings wird einiges mehr an Fläche benötigt um die gleiche Leistung zu erreichen.
Chiplets sind eben nicht der heilige Gral da sie zu viele Kompromisse erfordern und günstiger sind sie eher nur für den Fertiger was erstmal nichts über den Endpreis des fertigen Produkts welches aus mehreren Chiplets besteht aussagt.

Ich sehe da nichts für uns vor 2030 kommen und alleine durch die Inflation eher einen Preis den nur noch die wenigsten bereit sind zu zahlen.

xxMuahdibxx · 3. Januar 2021

VSA 100 is Back ...

... irgendwie halt ... zwar nicht mit seiner Scan Line Interleave Technik aber Skalierbare Prozessoren..

@shoKuu wow du beschwerst dich 2020 über etwas was schon 2000 funktionierte ... tolle logic ...
https://de.wikipedia.org/wiki/3dfx
Ganz zu schweigen davon was eine Grafikkarte mit 32* VSA 100 wirklich leisten könnte ...

@Colindo denke aber auch das die sich halt klar vom VSA Desing abgrenzen müssen weil das ja Nvidia aufgekauft hat.

@Robo32 der Vorteil kann aber dabei sein das man durch eine größere Chipfläche auch mehr Wärme besser abführen kann ..
Aktuell haben wir ja das Problem ... Leistung super ... Verbrauch OHJE ... und das alles soll dann in halber Struckturbreite auch noch so sein ?
Also von 7nm auf 5 nm oder 3nm heist ja gleiche Menge Wärme muss über 1/4 der Fläche weg.

SoDaTierchen · 3. Januar 2021

Bleibt die Frage, wann der Crosslink wir genug ist. Der Ansatz ist ja nicht neu, SLI und Crossfire sind aber technologisch gescheitert. Hier wird aber ein anderer Weg gegangen. Statt Frames auf die Chiplets zu verteilen werden Rechenaufgaben verteilt - das machen GPUs schon Recht lange so.

Idealerweise müsste man L3-Caches in Echtzeit synchron halten - eine hatte Aufgabe. Oder mit einem Kompromiss verbunden.

Viele Chiplets sind übrigens nur dann günstiger als ein monolithischer Chip, wenn der monolithische Chip entweder sehr viel Wafer-Fläche beansprucht (Geometrie) oder der Ausschuss Recht hoch ist. Preislich werden Chiplet-GPUs also eher Richtung High End laufen

BudeII · 3. Januar 2021

estros schrieb:
Die News kommt nicht auf den Punkt bzw bleibt schwammig. Wie ich das verstanden habe, möchte AMD (ganze) GPUs als Chiplets produzieren. Anders als bei den CPUs, bei denen Teile der CPU (die I/O- und 8-Kern-Einheit) gesondert ausgeführt ist. Das hätte ich in diesem Zusammenhang erwartet. So wär es jedoch eine Dual GPU auf einem Package. Geht vermutlich nicht anders, insbesondere bei der Echtzeitberechnung.

Auf der Zeichnung sind zwischen den beiden linken und dem rechten Chiplet 3 Punkte zu sehen - das heißt beliebig viele!

Klick mal auf den Link zum Patent, da sind am Anfang weitere Zeichnungen zu sehen die auch den inneren Aufbau eines Chiplets zeigen.

Die I/O-Einheit separat auszuführen gibt in diesem Umfeld keinen Sinn, es wird im Artikel ja gesagt das die Kommunikation zwischen den Chiplets und auch der CPU und dem RAM die Performance limitiert. Ein separater I/O-Baustein wäre hier ein zusätzlicher Flaschenhals.

mibbio · 3. Januar 2021

SoDaTierchen schrieb:
Der Ansatz ist ja nicht neu, SLI und Crossfire sind aber technologisch gescheitert.

Weil diese Techniken halt mehrere vollwertige Grafikkarten/-chips gekoppelt haben, wo jede Karte erstmal für sich selbst mit dem vollen Datensatz gearbeitet hat und das am Ende irgendwie zu einem gemeinsamen Bild zusammengesetzt wurde. Dadurch musst man auch auf allen beteiligten Karten immer denn kompletten, aktuellen Datensatz vorhalten.
Beim Chiplet-Ansatz dürften die Daten nur einmal vorhanden sein und die "Rechen-Chiplets" holen sich aus einem zentralen Pool dann nur den Teil, den sie gerade brauchen und tauschen dann untereinander lediglich ihre Ergebnisse aus (entweder direkt oder wieder über den Datenpool).

lynx007 · 3. Januar 2021

Ghostshield schrieb:
Ja hoffentlich kommt das auch mal, denn so könnten alle CPUs bis 8 Kerne eine GPU bekommen.

Toll, dann kann ich endlich auch mein 8 Monitore anschliesn um gleichzeitig im fullscreen bis zu 8 Spiele zu Zocken...
... sobald mir eine Lösung dafür eingefallen ist wie ich allein gleichzeitig 8 Keyboards und 8 Mäuse bedienen kann.

bensen · 3. Januar 2021

pipip schrieb:
Wie war das, HBM war ja so eine "Fehlinvestition" seitens AMD...

Wo soll jetzt der Zusammenhang sein?

Natürlich war HBM im consumer Bereich ein Fehler. AMD ist nicht ohne Grund wieder davon weg.
Da wo deutlich mehr Bandbreite gebraucht wird, macht es Sinn und wird weiterhin von allen Herstellern eingesetzt.

Klassikfan · 3. Januar 2021

Colindo schrieb:
Finde es beeindruckend, dass das Patent erst Juni 2019 eingereicht wurde. In der Community wurde diese Idee ja bereits seit 2017 diskutiert, aber besonders seit Zen2 hoch gehandelt.

Jetzt sieht man, wie schwierig es gewesen sein muss, überhaupt einen patentierbaren Ansatz zu erforschen.

Na, die Grundidee ist ja auch schon seit Jahren auf dem Markt. Nennt sich SLI bzw. Crossfire. Also einfach nur mehrere GPUs zu haben und die Rechenarbeit aufzuteilen, wäre nicht patentierbar. Und auch die praktischen Probleme damit sind ja bekannt. Stichwort Microruckler. Die werden zwar um so kleiner, je näher die GPUs einander sind und je schneller der Bus ist, aber das so hinzubekommen, daß man nichts merkt, ist schon schwer.

Andererseits dürften GPUs wegen ihrer schieren Größe einen riesigen Produktionsausschuß provozieren. Also hat man einen gewissen Anreiz, es hinzubekommen.

tochan01 · 3. Januar 2021

Nvidia verfolgt ännliches und soll wohl schon mit der nächsten gen einzug halten.

WoFNuLL · 3. Januar 2021

Ich frag mich grade eher was daran jetzt ne News ist ( bis auf das AMD endlich nen Patent dafür raushaut ) ...

AMDs erste Bestrebungen unter Raja Koduri haben genau das für NAVI angekündigt bevor Raja AMD Richtung Intel verlassen hat um dort deren GPUs zu entwickeln. AMD hatte daraufhin NAVI komplett geändert und auch das Chiplet Design erstmal verworfen gehabt.

Die Vermutung stand im Raum das das Know How bzw. die Patente dahingehend eventuell mit Raja Richtung Intel verschwunden sind und in Intel Xe einfließen. Aber gut zu hören das nun doch GPUs von AMD mit der Technik kommen ... Wundern tuts nicht AMD geht gerne Risiken als "erster" mit neuer Technik ein ... siehe Chiplet Design Zen2, breite Nutzung von HBM oder auch der 7nm Schritt ... und bis auf HBM/HBM2 im Consumer bereich hat sich das auch weitestgehend für AMD ausgezahlt.

engineer123 · 3. Januar 2021

Patent ist sehr richtig 👌

AMD powert und powert und powert👍

zum Inhalt des Patent und der tatsächlichen Einführung irgendwann in
längerfristiger Zukunft:
Dass muss AMD jetzt machen, so ist für Nvidia und Intel (wenn das Patent erteilt wird)
genau diese Struktur nicht machbar.
AMD sichert sich jetzt mit dem Patent für, glaub ich, die nächsten 20 Jahre,
diese Struktur als einziger gewerblich verkaufen zu dürfen.

Dr.Pawel · 3. Januar 2021

Interessant, aber ich glaube (hoffe) nicht das wir es mit RDNA3 schon zu sehen bekommen bei den GPUs. Da wird vermute ich noch richtig viel R&D reinfließen müssen bis das für GPUs richtig gut umzusetzen ist. Klar ist aber auch das wenn es geht sich die Fertigungskosten masssiv senken lassen. Bei GPUs ist es halt eine ganz andere Nummer als bei relativ "kleinen" CPUs.

Robo32 schrieb:
Ja, es gibt dabei weniger Ausschuss, allerdings wird einiges mehr an Fläche benötigt um die gleiche Leistung zu erreichen.
Chiplets sind eben nicht der heilige Gral da sie zu viele Kompromisse erfordern und günstiger sind sie eher nur für den Fertiger was erstmal nichts über den Endpreis des fertigen Produkts welches aus mehreren Chiplets besteht aussagt.

Im Prinzip hast du recht, aber eben nur im Prinzip. Derzeit haben wir ja einen "guten" Vergleich von Mono vs Chiplet bei Intel und AMD. Am Ende sind eben die Fertigungskosten entscheident, da nützt es nichts wenn die theoretische Leistung noch so gut ist aber die Dinger nicht zu fertigen sind da zuviel Waferkosten und damit am Ende zu teuer.
Intel geht ja nicht umstonst auch auf Chiplets (wie nenen die das nochmal, tiles?), die wollen ihre Chipausbeute entsprechend steigern.

Colindo · 3. Januar 2021

Ich habe mir das Patent mal in Ruhe durchgesehen. Folgende Dinge kann ich festmachen:

Von den Abbildungen:

Der Passive Crosslink (HBX) ist auf L3-Ebene, d.h. er scheint alle L3-Caches der einzelnen Chiplets zu verbinden.
Ein Chiplet scheint ähnlich wie Navi10/Navi22 in einem Block aufgebaut zu sein, auch wenn weniger CUs genannt werden.
Ein Chiplet repräsentiert die I/O-Kommunikation, ist allerdings anders als der I/O-Die bei Zen2/3 auch mit CUs bestückt. Dieses Chiplet ist sozusagen wie eine herkömmliche GPU aufgebaut, plus zusätzlich die HBX-Schnittstelle, an der dann alle anderen Chiplets hängen.
L3-Cache-Daten in einer Chiplet-Grafikkarte zu finden ist eine Qual, da das I/O-Chiplet suchen muss, in welchem anderen Chiplet die Daten zu finden sind. Zum Glück greift Resizable Bar auf den globalen VRAM zurück.

Aus dem Fließtext:

AMD sagt, eine Aufteilung in Chiplets wäre teuer im Sinne der Rechenressourcen, nicht im Sinne der Herstellung (@SV3N ). Da die Berechnungen synchron durch alle Shader ablaufen müssen und die Kohärenz der Daten essentiell ist, ist eine Aufteilung auf mehrere Chips sehr schwierig zu realisieren.
Außerdem werden Anwendungen so geschrieben, dass sie eine GPU ansprechen, es gibt also keine Aufteilung in unabhängige und abhängige Aufgaben, um die Parallelisierung zu erleichtern.
Die Kommunikation auf L3-Ebene erlaubt, alle Caches kohärent zu halten und für die CPU wie eine einzige GPU zu wirken. Anfragen der CPU an die GPU werden vom I/O-Chiplet weitergeleitet.
Die Chiplets werden, wie wir es schon kennen, über einen Interposer verbunden.
Die Crosslinks verbinden immer nur 2 Chiplets miteinander. Die Struktur ist also erstmal als Linie oder Ring aufgebaut, und nur in weiteren Iterationen als Stern.
Der L3-Cache kann wie ein Shared-Cache aufgebaut sein, wie AMD im Oktober in einem Patent zeigte. Dann kriegt jedes Chiplet nur einen Teil des VRAMs zum Cachen zugewiesen, und muss alle anderen Cache-Anfragen an die restlichen Chiplets weitergeben.
Die passive Natur der Crosslinks erlaubt minimale Latenzen und vermeidet dadurch einen Großteil der eingangs genannten Nachteile.

Aus den Claims (das, was tatsächlich vom Patent geschützt wird):

Eine Chiplet-GPU, bei der das erste Chiplet die Kommunikation übernimmt und die anderen nicht. Dazu kommt optional:
- Die Nutzung passiver Crosslinks
- Die Verbindung der Crosslinks nur an die L3-Caches (bzw. LLC)
- Cache-Kohärenz über mehrere Cache-Levels und Chiplets
- Die Nutzung von Interposern
- Die Sichtbarkeit als monolithische GPU gegenüber der CPU
- Eine Grafiktreiberunterstützung (ganz was neues )

Meine Vermutungen: Die häufige Nennung von L3-Cache macht eine Anwendung in Consumer-GPUs wahrscheinlicher, außer CDNA2 bekommt zukünftig auch einen L3-Cache.
Und solange Nvidia nicht auch schon Patente in Richtung Chiplets hat, wird es für sie in den nächsten 19 Jahren verdammt schwierig, um dieses AMD-Patent herum zu entwickeln.

@xxMuahdibxx Wo finde ich Infos über das VSA-Design?

Botcruscher · 3. Januar 2021

Patente und Gerüchte dazu gibt es seit R 200 anno 2000. 20 Jahre bei dem sich am Problem nichts verändert hat. Die Datenmengen sind zu groß und off-Chip zu teuer. Selbst bei 3DFX hat man um diese Problem herum gearbeitet.

PS: Und was der originale R400 alles hätte können sollen...

mibbio · 3. Januar 2021

bensen schrieb:
So einfach ist das aber nicht. Es gab einen Grund, warum man bei sli afr gewählt hat.
Auch hier können die Chiplet nicht munter alleine rechnen und benötigen nur wenige Daten.

Habe ja auch nicht behauptet, dass es einfach(er) wäre in der Umsetzung. Aber das ist ja auch der Teil, in den AMD jetzt viel Hirnschmalz stecken dürfte. Man geht aber mit dem Chiplet-Ansatz einigen Punkten aus dem Weg, die SLI/Crossfire aufgrund dessen Funktionsweise schlecht skalieren ließen.

Colindo · 3. Januar 2021

WoFNuLL schrieb:
AMDs erste Bestrebungen unter Raja Koduri haben genau das für NAVI angekündigt bevor Raja AMD Richtung Intel verlassen hat um dort deren GPUs zu entwickeln. AMD hatte daraufhin NAVI komplett geändert und auch das Chiplet Design erstmal verworfen gehabt.

Gibt es da eine Quelle zu? Das höre ich zum ersten Mal. Soweit ich weiß hat sich David Wang nach Zen2 so geäußert, dass GPU-Chiplets noch nicht sinnvoll nutzbar sind.

Dr.Pawel schrieb:
aber ich glaube (hoffe) nicht das wir es mit RDNA3 schon zu sehen bekommen bei den GPUs

Ich tippe mal auf RDNA4. Kannst mich ja in 3 Jahren darauf festnageln

Bezüglich der SLI-Vergleiche: Die Aufteilung der Renderarbeit auf 2 GPUs ist fundamental anders als die Aufteilung auf mehrere CUs. Hier erweitert AMD den letzteren Ansatz auf Chiplets, und genau das ist es, was man seit der Einführung von CPU-Chiplets 2017 erwartet. Crossfire und SLI haben damit nichts zu tun.

[wege]mini · 3. Januar 2021

shoKuu schrieb:
X Spiel unterstützt nur dann 50% der GPU Leistung weil nur die Hälfte der Kerne angesprochen wird?

In der Theorie existiert für die CPU nur eine GPU.

Vernünftig würde man es bauen, wie SLI mit Voodoo.

Eine GPU als "Verteiler" und 2-8 (dann wird die Verwaltung schwer) als Backbone. Wenn man es ordentlich macht, wird das Bild erst berechnet, dann an die CPU weiter geleitet und die CPU hat null Informationen darüber, wie viele GPUs das Bild berechnen.

Wie man die Synchronisation realisiert und ob das wirklich schneller ist, wird man abwarten müssen. Betriebswirtschaftlich sind die kleinen Chips aber auf jeden Fall sinnvoll.

Intel hätte auch nie gedacht, dass sie umdenken müssen, da AMD mit McM im CPU Markt ordentlich performet.

mfg

News Patent: AMD plant mit GPUs im Chiplet-Design

Admiral

Captain

Teralios

Gast

Fleet Admiral

Fleet Admiral

Commodore Pro

Cadet 2nd Year

Admiral

Commodore

Fleet Admiral

Banned

Rear Admiral

Lieutenant

Banned

Lt. Commander

Redakteur

Commodore

Admiral

Redakteur

Banned

Ähnliche Themen