News Patent: AMD plant mit GPUs im Chiplet-Design

xxMuahdibxx schrieb:
VSA 100 is Back ...

... irgendwie halt ... zwar nicht mit seiner Scan Line Interleave Technik aber Skalierbare Prozessoren..
Nicht wirklich. VSA100 profitierte damals von DX6 und der Tatsache, dass die GPU - grob ausgesprochen - nur noch Polygone mit Texturen versieht, die Lichtwerte darauf anwendet und das ganze dann rastert.

Der SLI-Ansatz von 3Dfx ist aber seit DX7 nicht mehr wirklich anwendbar gewesen. Entsprechend hat 3Dfx mit Rampage die GPU in zwei Teile aufgesplittet: Geometrie und Beleuchtung wird auf einem "Geometrie"-Prozessor berechnet, anschließend können die "GPU" das Bild in ihrem "SLI"-Verfahren weiter bearbeiten, zusammen mit den Pixelshader.

Deswegen hat man sich bei NVIDIA und AMD bei SLI/CF für die AFR Methode entschieden, denn bei SFR - SLI von 3dFX gehört dazu - müssen bestimmte Daten doppelt vorliegen, und zwar "GLEICH" und nicht annähernd.

xxMuahdibxx schrieb:
... irgendwie halt ... zwar nicht mit seiner Scan Line Interleave Technik aber Skalierbare Prozessoren..
Da heute sowohl AMD als auch NVIDIA mit "Tiled-Based" arbeiten, wird sogar - grob ausgesprochen - SLI sogar bereits GPU intern angewendet, nur eben nicht mir Zeilen basiert, sondern auf Kacheln.

Diese Kacheln lassen sich sogar, theoretisch, sehr gut verteilen. Moder GPUs arbeiten ja auch so, dass sie die Kacheln auf freigewordene SM/WGP verteilen und diese dann die Kachel berechnen.

Das System bietet sich sogar für Multi-GPU-Ansätze an, nur bleibt dann weiterhin das Problem der Geometrie und Beleuchtung.

SoDaTierchen schrieb:
Bleibt die Frage, wann der Crosslink wir genug ist. Der Ansatz ist ja nicht neu, SLI und Crossfire sind aber technologisch gescheitert. Hier wird aber ein anderer Weg gegangen. Statt Frames auf die Chiplets zu verteilen werden Rechenaufgaben verteilt - das machen GPUs schon Recht lange so.
Das Problem ist es nicht die Rechenaufgaben zu verteilen, würde es nur darum gehen, wären Multi-GPU als auch "Chiplets" nicht so schwer.

Ein Hauptproblem ist viel eher, dass bestimmte Daten eines Bildes auf allen GPUs vollkommen gleich sein müssen, damit das Bild ordentlich berechnet wird. 3Dfx hatte dafür bei dem Nachfolger der Voodoo 5 eine Lösung: SAGE als Geometry-Prozessor. Dieser berechnet die Geometrie und Beleuchtungsdaten, die Bildsynthese und damit Pixelshader hätten dann wieder auf einzelne "GPUs" ausgelagert werden können.

Die "Mesh"-Daten eines Bildes müssen als Grundlage gleich sein und das muss entsprechend bei mehreren GPUs synchronisiert werden. Heute kommen dann halt noch die ganzen Post-Processing-Effekte hinzu, sodass recht viel Kommunikation zwischen den Chips notwendig ist.

Da wird heute aber "unified"-Shader haben, kann man nicht einfach - wie 3Dfx bei der Rampage - ein Prozessor für Geometrie als "Controller" verwenden und dann die Pixel-Shader-Monster auf den Rest loslassen.
 
  • Gefällt mir
Reaktionen: Rockstar85, Mil_vanderMaas, Bccc1 und 10 andere
Colindo schrieb:
Ein Chiplet repräsentiert die I/O-Kommunikation, ist allerdings anders als der I/O-Die bei Zen2/3 auch mit CUs bestückt. Dieses Chiplet ist sozusagen wie eine herkömmliche GPU aufgebaut, plus zusätzlich die HBX-Schnittstelle, an der dann alle anderen Chiplets hängen.
Da hat sich AMD ja sehr verdeckt gehalten und spricht nur von einem 'primary chiplet' - wenn ich Bild 3 richtig interpretiere dann hat jedes Chiplet volle Funktionalität und könnte theoretisch alles machen - ist also im Prinzip eine monolithische GPU die lediglich noch zusätzlich das HBX Crosslink auf dem Die hat.

Dann hat jeder Chiplet vermutlich einen kleinen memory controller mit lediglich 64 oder 128 Lanes...
Colindo schrieb:
Der L3-Cache kann wie ein Shared-Cache aufgebaut sein, wie AMD im Oktober in einem Patent zeigte. Dann kriegt jedes Chiplet nur einen Teil des VRAMs zum Cachen zugewiesen, und muss alle anderen Cache-Anfragen an die restlichen Chiplets weitergeben.
Eher denn einen Teil des VRAMs zugewiesen würde ich vermuten, dass jeder Chiplet nur genügend memory lanes unterstützt um ein Bruchteil des vorhandenen VRAM anzubinden, sagen wir bei 4 Chiplets ist jeder mit 2 VRAM Dies von 8 über ein 64 Lanes Interface angebunden...
Maximaler VRAM und verfügbare Speicherbandbreite skaliert dann linear mit der Anzahl der verbauten Chiplets.

Ich sehe allerdings auch nur L2 und L3 Cache eingetragen - heißt das, dass der große L4 Cache der RDNA2 so gut beschleunigt wieder verworfen wird mit Chiplets, oder war das zum Zeitpunkt den das Patent eingericht wurde einfach noch nicht fertig entworfen?


Da Informationen bewegen eine der energiehungrigsten Operationen ist die eine GPU machen kann: Ich kann mir nicht vorstellen, dass die erste Chiplet-GPU einen Fortschritt in Sachen Energieeffizienz bedeuten wird, da dürften monolithische GPUs signifikant im Vorteil sein.
Den Cache aller Chiplets kohärent halten dürfte extrem energiehungrig sein. Naja, zumindest wird die GPU für niedrige Lasten vermutliche alle Chiplets bis auf den primären komplett deaktivieren können... wobei dann auch der Zugriff auf den VRAM der anderen Chiplets verschwinden würde falls ich oben richtig bin. Hmm.


Colindo schrieb:
Die Crosslinks verbinden immer nur 2 Chiplets miteinander. Die Struktur ist also erstmal als Line oder Ring aufgebaut, und nur in weiteren Iterationen als Stern.
Gezeigt ist ja ein Beispiel mit 4 Chiplets... ob das deren Ziel für die erste Generation an GPUs mit Chiplets ist?
 
Zuletzt bearbeitet:
Forlorn schrieb:
M1 hat 7 oder 8 GPU Kerne.
Richtig und doch auch falsch zur gleichen Zeit. Kommt nämlich darauf an, was man als "GPU"-Kern betrachten will.

AMD hat - je nach Leseart - 4 GPU-Kerne, 8 GPU-Kerne oder ganze 40 GPU-Kerne oder 80 GPU-Kerne. Frage ist halt ob man die Shader Engines, Shader Arrays, die Working Groups oder die Compute Units als Kern betrachten will.

Am Ende ist es aber dennoch eine GPU, die über ein gemeinsames Interface angesprochen wird und in dem ein Scheduler die Aufgaben auf die Kerne verteilt und auch die Synchronisation übernimmt.

Und genau hier setzt jetzt das Problem bei den Chiplets an. 3Dfx hatte damals eine gute Lösung zu DX8 Zeiten in Entwicklung: Trennung der GPU ind "Geometrie"-Prozessor und "Bildsynthese"-Prozessoren. Der Geometrie-Prozessor berechnet das Gittermodell des Bildes und die Beleuchtung, anschließend verteilt es die Aufgaben auf die Prozessoren für die Bildsynthese, nimmt die Daten dann zurück und verbindet sie und schickt sie raus.
Colindo schrieb:
Das ist ja etwas völlig Anderes als das, worum es hier geht.
Völlig anders würde ich es nicht bezeichnen, nur war bei VSA100 - DX6 - einfach noch eine andere Zeit, denn im Endeffekt waren die Bilder , die die GPU bekommen hat, zu 100% fertig und mussten nur noch gerastert werden.

Der "VSA100"-Ansatz war aber ja bereits zu DX7 schon nicht mehr lauffähig, weil die GPU nun auch die Geometrie und Beleuchtung berechnet. Die Lösung damals - wegen der Trennung in Vertex- und Pixelshader in "Sage" und den "Pixelbeschleuniger" Rampage und das ganze dann als Spectre.

Aber 3Dfx hat auch damals bereits auf den Weg hin zu "unified"-Shadern gearbeitet. Deswegen frag ich mich da auch: Wo wären wir heute, wenn 3Dfx überlebt hätte? NVIDIA hat damals - auch mit bösen Tricks, wenn man der Gerüchteküche glauben schenken darf - sehr viel Know-How bekommen, hat es aber dann nicht genutzt.

https://www.voodooalert.de/de/content/artikel/rampage.php
 
  • Gefällt mir
Reaktionen: Hatch, Cassiopea, ThePlayer und 6 andere
@Rickmer Ja, die Chiplets können auch alle gleich aufgebaut sein. Wäre auch sinnvoll, wenn man nur eine Maske braucht. Allerdings bräuchte dann jedes das volle Speicherinterface, da nur das Primary Chiplet an den VRAM angeschlossen ist, siehe Fig.1. Dass jedes Chiplet eine Teilanbindung an den VRAM kriegt, wird nicht explizit erwähnt oder ausgeschlossen. Dafür müsste man wahrscheinlich wirklich wissen, wie die Datenanbindung funktioniert

RDNA 2 hat keinen L4-Cache. Der InfinityCache ist ein L3-Cache, den es vorher bei GPUs nicht gab.

Ich könnte mir vorstellen, dass der erste Versuch mit 2 Chiplets startet. Außer die sind zu klein, dann könnten es 3-4 werden. Aber 2x 40CUs halte ich für realistisch.
 
  • Gefällt mir
Reaktionen: Rickmer
Colindo schrieb:
Gibt es da eine Quelle zu? Das höre ich zum ersten Mal. Soweit ich weiß hat sich David Wang nach Zen2 so geäußert, dass GPU-Chiplets noch nicht sinnvoll nutzbar sind.
Viele ... in etwa zum Launch Zeitpunkt der ersten VEGA Generation ... Raja himself betonte immer wieder das Vega ( hier wegen HBM ) vollen support der AMD IF hat und zukünftige GPUs hier ihre Zukunft haben würden.
Man sollte auch bedenken das die Ursprüngliche Infinity Fabric von Raja kam, sein Kind ist und für GPUs entwickelt worden ist, nun jedoch bei AMD zuerst im CPU Segment eingesetzt wird.
https://www.techpowerup.com/236697/on-amds-raja-koduri-rx-vega-tweetstorm

Auch ende 2017 wurde bereits sehr Laut darüber nachgedacht was NAVI sein wird, und zwar das Ende der Monolithischen Designs für GPUs bei AMD:
https://www.pcgamesn.com/amd/amd-navi-gpu-specifications

Da AMD nach diesem Zeitraum nie wieder in bezug auf GPUs etwas zum Thema Infinity Fabric gesagt hat, bzw. sich eine Entwicklung gezeigt hat, gab es hier und da die Vermutung das AMD ohne Raja erstmal nicht dazu in der Lage war das Ziel weiter zu verfolgen.
 
  • Gefällt mir
Reaktionen: Rockstar85
Colindo schrieb:
Ich habe mir das Patent mal in Ruhe durchgesehen. Folgende Dinge kann ich festmachen:

Von den Abbildungen:
  • Der Passive Crosslink (HBX) ist auf L3-Ebene, d.h. er scheint alle L3-Caches der einzelnen Chiplets zu verbinden.
  • Ein Chiplet scheint ähnlich wie Navi10/Navi22 in einem Block aufgebaut zu sein, auch wenn weniger CUs genannt werden.
  • Ein Chiplet repräsentiert die I/O-Kommunikation, ist allerdings anders als der I/O-Die bei Zen2/3 auch mit CUs bestückt. Dieses Chiplet ist sozusagen wie eine herkömmliche GPU aufgebaut, plus zusätzlich die HBX-Schnittstelle, an der dann alle anderen Chiplets hängen.
  • L3-Cache-Daten in einer Chiplet-Grafikkarte zu finden ist eine Qual, da das I/O-Chiplet suchen muss, in welchem anderen Chiplet die Daten zu finden sind. Zum Glück greift Resizable Bar auf den globalen VRAM zurück.
Aus dem Fließtext:
  • AMD sagt, eine Aufteilung in Chiplets wäre teuer im Sinne der Rechenressourcen, nicht im Sinne der Herstellung (@SV3N ). Da die Berechnungen synchron durch alle Shader ablaufen müssen und die Kohärenz der Daten essentiell ist, ist eine Aufteilung auf mehrere Chips sehr schwierig zu realisieren.
  • Außerdem werden Anwendungen so geschrieben, dass sie eine GPU ansprechen, es gibt also keine Aufteilung in unabhängige und abhängige Aufgaben, um die Parallelisierung zu erleichtern.
  • Die Kommunikation auf L3-Ebene erlaubt, alle Caches kohärent zu halten und für die CPU wie eine einzige GPU zu wirken. Anfragen der CPU an die GPU werden vom I/O-Chiplet weitergeleitet.
  • Die Chiplets werden, wie wir es schon kennen, über einen Interposer verbunden.
  • Die Crosslinks verbinden immer nur 2 Chiplets miteinander. Die Struktur ist also erstmal als Line oder Ring aufgebaut, und nur in weiteren Iterationen als Stern.
  • Der L3-Cache kann wie ein Shared-Cache aufgebaut sein, wie AMD im Oktober in einem Patent zeigte. Dann kriegt jedes Chiplet nur einen Teil des VRAMs zum Cachen zugewiesen, und muss alle anderen Cache-Anfragen an die restlichen Chiplets weitergeben.
  • Die passive Natur der Crosslinks erlaubt minimale Latenzen und dadurch einen Großteil der eingangs genannten Nachteile.
Aus den Claims (das, was tatsächlich vom Patent geschützt wird):
  • Eine Chiplet-GPU, bei der das erste Chiplet die Kommunikation übernimmt und die anderen nicht. Dazu kommt optional:
    • Die Nutzung passiver Crosslinks
    • Die Verbindung der Crosslinks nur and die L3-Caches (bzw. LLC)
    • Cache-Kohärenz über mehrere Cache-Levels und Chiplets
    • Die Nutzung von Interposern
    • Die Sichtbarkeit als monolithische GPU gegenüber der CPU
    • Eine Grafiktreiberunterstützung (ganz was neues ;) )

Meine Vermutungen: Die häufige Nennung von L3-Cache macht eine Anwendung in Consumer-GPUs wahrscheinlicher, außer CDNA2 bekommt zukünftig auch einen L3-Cache.
Und solange Nvidia nicht auch schon Patente in Richtung Chiplets hat, wird es für sie in den nächsten 19 Jahren verdammt schwierig, um dieses AMD-Patent herum zu entwickeln.

@xxMuahdibxx Wo finde ich Infos über das VSA-Design?
Vielen lieben Dank für die ausführliche Darstellung und die damit verbundene Mühe. Ich würde das noch in den Artikel direkt einbinden.
Auf jeden Fall eine spannende Entwicklung!
 
  • Gefällt mir
Reaktionen: Rockstar85, Creeed, Mracpad und 4 andere
@WoFNuLL Sorry, aber deine erste Quelle stützt deine Argumentation überhaupt nichts. Raja sagt dort weder, dass er IF entworfen hat noch dass es für MCM genutzt werden könnte. Das saugt sich TPU aus den Fingern. Ich kann mal schauen, ob ich eine Quelle finde, wo Infinity Fabric ursprünglich herkommt.
Deine zweite Quelle wiederholt nur meine Erwähnung der ersten Gerüchte über MCM. Das hat aber nichts mit tatsächlichen Aussagen zu tun, und erst recht nichts mit Raja.

Wenn du meinst, ich hätte etwas überlesen, dann bitte die entsprechenden Textteile zitieren.
 
  • Gefällt mir
Reaktionen: Rockstar85 und Mil_vanderMaas
Leider kann man das Chipletdesign nicht so einfach auf GPUs anwenden, so wie es bei der CPU möglich ist.
Bis dies einmal wirtschaftlich und ausgereift ist, vergehen noch so einige Jahren, wenn es überhaupt möglich ist.

Patente sind oft auch nur Platzhalter für die Zukunft, damit kein anderer der Idee zuvorkommt. Vorallem der finanzstärkere Konkurrent wie NVIDIA oder Intel könnten so eine Idee nutzen um den kleineren Konkurrenten vom Markt zu drängen, da dieser nicht die Mittel hat um diesen kostspieligen Ansatz mit zu machen.

Aber in 7nm werden wir dies nicht erleben auch nicht in 5nm. Erst bei 3nm werden die Kosten wohl so exorbitant steigen, dass man auf kleinere Chipletten setzt statt eine großen herzustellen.
 
  • Gefällt mir
Reaktionen: konkretor und Colindo
Colindo schrieb:
Allerdings bräuchte dann jedes das volle Speicherinterface, da nur das Primary Chiplet an den VRAM angeschlossen ist, siehe Fig.1. Dass jedes Chiplet eine Teilanbindung an den VRAM kriegt, wird nicht explizit erwähnt oder ausgeschlossen. Dafür müsste man wahrscheinlich wirklich wissen, wie die Datenanbindung funktioniert

Siehe den Fließtext vom Patent:
2021-01-03 11_46_51-Window.png


Ich würde das als Bestätigung sehen, dass 110 'system memory' der normale RAM ist und der VRAM in Bild 1 garnicht aufgezeichnet ist.
Der VRAM wird auf die Chiplets verteilt und daher brauch jeder Chiplet auch nur ein kleines Speicherinterface.

So zumindest wie ich es verstanden habe.

edit: 110 ist definitiv ram, nicht vram
2021-01-03 11_54_13-Window.png
 
  • Gefällt mir
Reaktionen: Tzk, downunder4two und Colindo
Colindo schrieb:
@WoFNuLL Sorry, aber deine erste Quelle stützt deine Argumentation überhaupt nichts. Raja sagt dort weder, dass er IF entworfen hat noch dass es für MCM genutzt werden könnte. Das saugt sich TPU aus den Fingern. Ich kann mal schauen, ob ich eine Quelle finde, wo Infinity Fabric ursprünglich herkommt.
Deine zweite Quelle wiederholt nur meine Erwähnung der ersten Gerüchte über MCM. Das hat aber nichts mit tatsächlichen Aussagen zu tun, und erst recht nichts mit Raja.

Wenn du meinst, ich hätte etwas überlesen, dann bitte die entsprechenden Textteile zitieren.
brauch man nich lange suchen:

https://www.notebookcheck.net/Raja-...em-is-meaningless-without-Intel.420483.0.html

...
Raja was there during AMD's move to HBM memory for its Radeon products and also was also part of the team that designed the Infinity Fabric interconnect that has found place in the Zen CPUs.
...

Wie gesagt Raja hat sehr viel für AMD getan, nicht nur im GPU Bereich wo er Federführend für das Vega und Ursprungsdesign für Navi war sondern auch für eins der Kernelemente der Zen CPUs ...
 
@Teralios mir ging es ja auch nur um die skalierbaren Prozessoren dabei.

Das die Techniken dahinter total anders sind war mir auch bewusst.
Ergänzung ()

Rickmer schrieb:
edit: 110 ist definitiv ram, nicht vram

Naja eine Grafikkarte enthält GXDDR Ram ... ist auch nix anderes als DRAM mit einer gewissen Bezeichnung.

Selbst HBM ist Dram ...
The HBM DRAM is tightly coupled to the host compute die with a distributed interface.
https://www.jedec.org/document_search?search_api_views_fulltext=jesd235
 
  • Gefällt mir
Reaktionen: Baal Netbeck
WoFNuLL schrieb:
Man sollte auch bedenken das die Ursprüngliche Infinity Fabric von Raja kam, sein Kind ist und für GPUs entwickelt worden ist, nun jedoch bei AMD zuerst im CPU Segment eingesetzt wird.
Ähm, nein. Das geht aus deiner Quelle und bleibt damit erst mal weiterhin eine Behauptung ohne Quelle von dir.

Infinity Fabric wurd 2017 von Mark Papermaster vorgestellt und damals lag auch bereits der Fokus in der Vorstellung auf der CPU. Der Infinity Fabric basiert zu dem auf HyperTransport und diesen hat AMD mit dem K8 eingeführt.

Und auch sonst sprechen die aktuellen "Gerüchte" auch gegen deine hier getroffene Aussage: Der IF wird nämlich aktuell eher Jim Keller zu geschrieben. Und das AMD den IF früher oder später als "Interconect" sowohl in-Chip als auch darüber hinaus verwendet, ist eher der logische Schluss.

Und, dass man 2017 bereits darüber nachgedacht hat, was kommt, ist wiederum nur Gerüchteküche, die von gewisse Journalisten als auch Foristen befeuert wurde - auch hier auf CB - und auch kein Nachweis dafür, dass NAVI von Koduri bereits als "Chiplet" geplant war oder nicht.

Du stellst viele Behauptungen auf, aber es sind eben erst mal primär genau nur das: Behautpungen, keine Tatsachen!
 
  • Gefällt mir
Reaktionen: jemandanders, Mil_vanderMaas, Benji18 und 4 andere
WoFNuLL schrieb:
Wie gesagt Raja hat sehr viel für AMD getan, nicht nur im GPU Bereich wo er Federführend für das Vega und Ursprungsdesign für Navi war sondern auch für eins der Kernelemente der Zen CPUs ...
Ok, dass Raja Teil des Teams war kann man so stehen lassen. Auch wenn Notebookcheck die Aussage ebenfalls nicht belegt. Aber deine Aussagen waren ja, dass Raja Chiplets wollte und AMD dies nach seinem Weggang fallen gelassen hat. Das sehe ich als unbelegt an. Auch das Raja im Besitz irgendwelcher Patente oder zwingend für Know-How notwendig war halte ich für fragwürdig.
 
  • Gefällt mir
Reaktionen: jemandanders, Mil_vanderMaas und Teralios
Denke mal auch, dass zuerst nur Profikarten damit ausgestattet werden.
Wenn die Technik dann im Griff ist, ausgereift, in Spielen vorteilhaft und kostengünstig herstellbar ist, dann kann man das ja für alle auf den Markt schmeißen.
 
  • Gefällt mir
Reaktionen: DarkerThanBlack
@Nero2019 das ist einfach so zu verstehen ...

Man entwickelt nicht mehrere GPU Chips in verschiedenen Größenordnungen für eine Modellserie ... wie z.b. RTX 3000 Serie = GA102 und GA104, GTX10xx Serie = GP100,GP102,GP104,GP106,GP107,GP108

Sondern man entwickelt einen kleineren Chip der sich dann je nach Leistungsklasse durch hinzufügen weiterer skalieren lässt.
 
  • Gefällt mir
Reaktionen: Creeed, Hatch, ThePlayer und eine weitere Person
@Teralios Was richtig ist, ist die Aussage, dass Vega bereits den IF intern nutzte, bzw. bereit war, per IF an Server angeschlossen zu werden. Naja, genau ist der damalige Tweet von Raja nicht. Und natürlich tut es hier nichts zur Sache. Aber was Seiten wie TPU daraus basteln, finde ich schon abenteuerlich...
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Benji18
[wege]mini schrieb:
Eine GPU als "Verteiler" und 2-8 (dann wird die Verwaltung schwer) als Backbone. Wenn man es ordentlich macht, wird das Bild erst berechnet, dann an die CPU weiter geleitet und die CPU hat null Informationen darüber, wie viele GPUs das Bild berechnen.
Das Problem ist halt, dass man nicht nur "Recheneinheiten" bei einer GPU hat. Damit ist es nicht vergleichbar wie bei einer CPU.

Die 3D-Pipeline besteht aus Einzelschritten, die nur schwer auf Chiplets verteilbar sind: Das wären zum einen das Rasterizing und zum anderen die ROPs (mit Blending, usw. - hier muss man auf alle Daten zurückgreifen und nicht nur die lokalen Daten des Chiplets).

Demgegenüber kann man klassische Shaderberechnung (Vertex, Fragment, Compute, ...) auf jeden Fall sehr gut auf einzelne Chiplets verteilen.

Das Patent geht auf diese Problematik überhaupt nicht ein, oder doch?

Vielleicht kann auch @Colindo was dazu sagen?
 
  • Gefällt mir
Reaktionen: [wege]mini
Zurück
Oben