News GPUs im Chiplet-Design: AMD-Patente bringen den Cache ins Spiel

Sehr interessant! Ich möchte an dieser Stelle einwerfen, dass dieses Chip-Design stark von der kommenden Fertigungstechnologie beeinflusst wird:

  1. Der Preis pro mm² Silizium in 5nm, 3nm und darunter steigt exorbitant. Damit wird es günstiger, daran zu sparen und sich stattdessen ein zusätzliches Die in >= 7nm zu leisten.
  2. High NA Belichtungsmaschinen werden laut ASML Roadmap dereinst ihre derzeitige EUV Lithografie beerben. Diese sollen deutlich wirtschaftlicher sein - jedoch um den Preis, dass sich die gleichzeitig belichtbare Fläche halbiert (stitching geht weiterhin, ist aber suboptimal).
Ergo gewinnen kleine Chiplets gegenüber großen monolithischen Designs. Diese sind aber weiterhin wichtig. So ist das größte Manko der neuen Epic Milan Prozessoren ihr veraltet hergestellter stromhungriger Interposer.
 
  • Gefällt mir
Reaktionen: Colindo
Shoryuken94 schrieb:
Falsch. Viele Chiplets erhöhen den Packaging Aufwand enorm und Themen wie Latenzen und die Kommunikation zwischen den Chips werden zum Problem. Aus dem Grund hat ein Zen Chiplet auch 8 Kerne und die Consumer CPUs 1-2 Chiplets verbaut, statt 8-16 Chiplets mit nur je einem Kern.
Ok hab da was mit Anzahl der Kerne und Anzahl der Chiplets durcheinander gebracht.
 
@konkretor Interessanter Kanal. Leider bin ich nicht auf Twitter, deswegen wäre es nicht einfach, so jemandem zu folgen. Ich profitiere davon, wenn andere auf Patente und Veröffentlichungen erwähnen, und manchmal reizt es mich, sie selbst zu analysieren. Aber oft reicht es ja, wenn man News-Artikel liest, die die Veröffentlichungen zusammenfassen.
 
  • Gefällt mir
Reaktionen: ETI1120 und konkretor
Minime9191 schrieb:
Ob Nvidia dann auch sagt „ das ist zusammen geklebt“ ?

könnte der infinity cache das mikroruckler Problem lösen ?

Entscheidend wird das Orga Chiplet sein. Dieses wird für die Ausgabe denke ich zuständig sein. Dieses wird dann fertige Bilder in einer Art Cache Pipline vorhalten und erst ausgeben wenn genug da sind und diese dann auch im gleichen Abstand... Mikroruckler kommen ja daher das z.B. du 20 Frames hast die mit 2ms oder welche Zeiteinheit auch immer ausgegeben werden... nun rechnen aber 2 Gpus die Bilder und manche werden schneller fertig als andere. Und dann hast du plötzlich Abstände von Bild zu Bild von 20 ms dann wieder 2ms - 20ms - diese ungleichen Zeitabstände nimmst du dann als Mikroruckler wahr... Und wenn es ganz übel wird und das System muss sehr lange auf ein fertiges Bild warten, dann hält es unter Umständen auch die anderen nachfolgenden Bilder zurück in der Pipeline....
 
Colindo schrieb:
Kann ich auch nicht wirklich einordnen. In jedem der Patente ist sichtbar, dass der VRAM-Zugriff über die Chiplets geht, wie du gesagt hast. Aber vielleicht sind einfach nur die Memory-Controller auf den Chiplets, so dass man die Speicherbandbreite gut mitskalieren könnte. Aber auch da ist es merkwürdig, dass der Ansatz so das Gegenteil des I/O-Dies bei den CPUs zu sein scheint.

Wie ich das verstehe soll die Active Bridge zwar Leitungen, sonst aber kein I/O enhalten. Vielleicht damit sie besser mit modernen Fertigungen skaliert?
Wie gesagt, es geht in diesen Patenten nicht darum zu zeigen wie die neue GPU aufgebaut wird, sondern zu zeigen wie man GPU-Chiplets durch ein Active-Bridge-Chiplet verbindet.

Es ist Aufgabe von Patentschriften Claims zu definieren. Aber außerhalb dieser Claims muss man nicht alles offenbaren. Wie gesagt enthalten die Patente zwei Face-To-Face-Anordnungen, AMD wird sich bei einer GPU für eine entscheiden. Vielleicht werden sie sogar bei allen GPUs dieselbe Face-To-Face-Anordnung verwenden.

Beim Vergleich mit den CPUs muss man sich die Dimensionen ins Gedächtnis rufen. Die CPU-Chiplets CCD sind im Vergleich zu den IODs Zwerge. Allerdings ist der Client-IOD kleiner als der Navi 10. Und der Server-IOD ist nicht viel größer als Navi 22.
Also wird das Active-Bridge-Chiplet sobald man eine unsymetrische 2er-Anordnung oder eine quadratische 4er-Anordnung über die Ecken weglässt, sehr goß werden. D.h. wenn das Active-Bridge-Chiplet die gesamte Breite von von einem oder mehreren GPU-Chiplets überbrükt. Auf der anderen Seite setzen die erlaubten Signallaufzeiten (Cachekohärenz) den Leitungslängen und damit den Dimensionen des Active Bridge Chiplets Grenzen.

Aber es ist klar, dass das Active Bridge Chiplet sehr groß werden kann. Dann sind eventuell den Prozessen Grenzen gesetzt und man kann gar nicht so viele Schaltkreise draufpacken.
 
konkretor schrieb:
@ETI1120 @Colindo kennt ihr diesen Twitter Kanal? Der haut immer nur so um sich mit Patenten was diverse Hersteller angeht. Oder ist das sogar jemand von euch? :heilig: :hammer_alt:


https://twitter.com/Underfox3
Nein den kenne ich nicht.

Als ich bei Techpowerup den Artikel über das Active Bridge Patent gelesen habe bin ich weiter zu Videocardz.
Von dort bin ich zu Freepatentsonline und habe mir mal das Patent angesehen.

Und dann hab ich die Suchfunktion von Freepatentsonline verwendet.
Es ist einfach herrlich das es das Internet gibt, :).
 
  • Gefällt mir
Reaktionen: Colindo und konkretor
ETI1120 schrieb:
Es ist Aufgabe von Patentschriften Claims zu definieren. Aber außerhalb dieser Claims muss man nicht alles offenbaren. Wie gesagt enthalten die Patente zwei Face-To-Face-Anordnungen, AMD wird sich bei einer GPU für eine entscheiden. Vielleicht werden sie sogar bei allen GPUs dieselbe Face-To-Face-Anordnung verwenden.
Patente brauchst du mir nicht zu erklären. Ich halte dir entgegen, dass AMD in den Patenten tatsächlich sehr viel offenbart, und dabei auch im Patent vom Dezember sehr detailliert auf den Aufbau mit Interposer eingegangen ist.

Deine "Face-to-Face-Anordnungen" kann ich aber nicht nachvollziehen. Meinst du das, was im Patent steht, also die Varianten "Face-to-Face" und "Face-to-Back", oder noch etwas Anderes?

Abgesehen von diesen, zugegebenermaßen sehr wenigen, Fakten, könnte ich mir auch vorstellen, dass AMD bei RDNA 2 irgendeine geniale Packmethode für L3-Cache entdeckt hat, die sie beibehalten wollen oder die doch weniger mit N5 skaliert. Dann könnte die Active Bridge in N7 gefertigt werden, und die GPU-Chiplets werden N5 oder noch kleiner. Aber so ganz leuchtet mir die bisher beschriebene Trennung nicht ein.
ETI1120 schrieb:
Also wird das Active-Bridge-Chiplet sobald man eine unsymetrische 2er-Anordnung oder eine quadratische 4er-Anordnung über die Ecken weglässt, sehr goß werden.
Die quadratische 4er-Anordnung kommt im Dezember-Paper vor. Da sah das Design noch ganz anders aus, als es die Bridge jetzt vermuten lässt. Bei Verwendung einer Active Bridge gehe ich von einem dünnen Streifen aus, mit jeweils einem Chiplet oben und einem unten. Das Ganze skaliert dann über die Länge.

cunhell schrieb:
Eben, Du hast absolut nichts sinnvolles geschrieben ausser halb beleidigend zu sein. Mehr gibt es dazu nicht zu sagen.
Hayda scheint gerne etwas edgy sein zu wollen, aber deswegen bitte hier nicht den Thread vollstopfen. Einfach drüber wegsehen.
 
Colindo schrieb:
Deine "Face-to-Face-Anordnungen" kann ich aber nicht nachvollziehen. Meinst du das, was im Patent steht, also die Varianten "Face-to-Face" und "Face-to-Back", oder noch etwas Anderes?
Ja, denn mit diesen Trick entstehen extrem kurze Leitungswege zwischen GPU-Chiplet und den Activ-Bridge-Chiplet.

AMD agiert nicht im luftleeren Raum sondern arbeitet bekanntlich mit TSMC zusammen. Hier kommt dann meiner Meinung nach TSMC-SoIC ins Spiel, das sehr hohe Kontaktdichten ermöglicht, ...
Colindo schrieb:
Abgesehen von diesen, zugegebenermaßen sehr wenigen, Fakten, könnte ich mir auch vorstellen, dass AMD bei RDNA 2 irgendeine geniale Packmethode für L3-Cache entdeckt hat, die sie beibehalten wollen oder die doch weniger mit N5 skaliert. Dann könnte die Active Bridge in N7 gefertigt werden, und die GPU-Chiplets werden N5 oder noch kleiner. Aber so ganz leuchtet mir die bisher beschriebene Trennung nicht ein.
Bitte einfach Mal nur die Geometrie betrachten.
Mit 2 GPU-Chiplets nebeneinander oder 4 Chiplets im Quadrat lassen sich auch im Active Bridge Chiplet extrem kurze Leitungswege erreichen.

Sobald man aber 3 GPU-Chiplets oder mehr hintereinander legt, muss das Active Bridge Chiplet dies überbrücken damit vergrößern sich die Leitungswege.
Colindo schrieb:
Die quadratische 4er-Anordnung kommt im Dezember-Paper vor.
Ja, daher auch meine Anmerkung

Aber es steht mehrfach in den Patenten das das gezeigte Prinzip auch auf andere Geometrieen angewendet werden kann. Und dass es sich nicht auf die gezeigten Geometrien beschränkt.

Colindo schrieb:
Da sah das Design noch ganz anders aus, als es die Bridge jetzt vermuten lässt. Bei Verwendung einer Active Bridge gehe ich von einem dünnen Streifen aus, mit jeweils einem Chiplet oben und einem unten. Das Ganze skaliert dann über die Länge.
Das ergibt Sinn, wenn ich wie im Beispiel gezeigt 3 GPU-Chiplets koppeln will.
Bei 4-GPU-Chiplets in Reihe sind die Leitungswege im Active Bridge Chiplet in einer Über-Eckanordnung erheblich kürzer
Bei 9-GPU-Chiplets in Reihe sind die Leitungswege erheblich länger als in einer 3 x 3 AnOrdnung. (Falls diese noch möglich ist)

Auf was ich hinauswollte:
das Active-Bridge-Chiplet kann sehr groß werden. Und daraus ergeben sich Beschränkungen für die Halbleiterprozesse.
 
  • Gefällt mir
Reaktionen: Colindo
Colindo schrieb:
AMD gibt extra an, dass es von Anfang an so designt wird, dass kein Xfire-Problem besteht. Die Software sieht nur eine GPU.
Die primären Crossfire-Probleme bestanden ja im AFR (Alternate-Frame-Rendering), SFR (Splited-Frame-Rendering) ist für Mirkoruckler ebenso wenig oder ebenso sehr anfällig für Mikroruckler, wie fast alle heutigen Grafikkarten.

Im gewissen Sinn wird auf fast jeder Grafikkarte heute sogar ein "SFR"-Ansatz gefahren weswegen sich ja die neuen "Multi-GPU"-Designs nun wirklich durch setzten könnten. NVIDIA und AMD nutzen heute beide Tiled-Based-Rendering.

Das Problem ist und war bisher die Kommunikation der Chips untereinander, und das sieht man ja auch gut an den Patenten, dass hier primör darauf eingegangen wird wie man die aktuell zur Berechnung benötigte Daten möglichst auf allen Chips zur Verfügung stellt, wobei es hier dann primär darum geht die "Teilergebnisse" auf allen Chiplets zur Verfügung zu stellen, weniger um Texturen oder Polygone.

Ich bin gespannt, wann es kommt.

Colindo schrieb:
Meine Spekulatius: AMD wird es zuerst auf RDNA bringen, denn nur da gibt es bisher einen L3-Cache. Warum da nicht weitermachen, statt bei CDNA erstmal einen L3-Cache einzuführen?
Na ja, AMD hat bereits bei der RDNA-Vorstellung angedeutet, dass "RDNA" früher oder später auch zu "CDNA" wird.

Sieht man sich den MI100 die CUs an, dann erkennt man auch, dass gewisse Ideen aus RDNA bereits nach CDNA geflosse sind. Es wäre nicht verwunderlich, wenn sich die RDNA-CU/WGP früher oder später - auch der grobe RDNA-Aufbau auch bei CDNA wieder findet, nur dass man halt TMU, ROPs und Co raus streicht auch CDNA um entsprechend mehr CU unter zu bringen.
 
  • Gefällt mir
Reaktionen: Colindo
Teralios schrieb:
Sieht man sich den MI100 die CUs an, dann erkennt man auch, dass gewisse Ideen aus RDNA bereits nach CDNA geflosse sind.
Hab gerade nochmal den alten Post rausgesucht, wo du das erläutert hattest. Es geht um die physische Anordnung der Vec16 um den LDS, ne? Das empfinde ich noch als recht milde Neuerung, da das wahrscheinlich nur ein paar Latenzen reduziert.

Viel spannender bei CDNA empfinde ich die Matrix Compute Engine à la Tensor-Core. Hoffentlich kommt davon auch etwas nach RDNA 3. Auch wenn das die Leute, die sich ein Tensor-freies FSR wünschen, ärgern könnte.
 
Colindo schrieb:
Das empfinde ich noch als recht milde Neuerung, da das wahrscheinlich nur ein paar Latenzen reduziert.
Es ist eine milde Neuerung, man sieht aber halt, dass die CU und WGP immer noch gemeinsame Entwicklungen haben.

Man wird jetzt sehen müssen wie weit CDNA irgendwann die CU von RDNA übernimmt.
 
  • Gefällt mir
Reaktionen: Colindo
@Colindo @SV3N

Es gibt wieder ein neues Patent zu GPU-Chiplets

DATA FLOW IN A DISTRIBUTED GRAPHICS PROCESSING UNIT ARCHITECTURE
United States Patent Application 20210158599

https://www.freepatentsonline.com/20210158599.pdf

Wies es schon der Titel aussagt, wird viel über den Datenfluss geredet.

Dieses Patent basiert auf dem Patent zum Active Bridge Chiplet. Grafiken 2 und 6 wurden unverändert bzw. nur mit Neunummerierung übernommen.*

Neu ist ein Command Buffer 120/403, der für alle Chiplets zugänglich ist. Er wird für die Steuerung des Programmablauf über alle Chiplets benötigt. Es wird, soweit ich es gelesen und verstanden habe, nicht erwähnt wo der Command Buffer implementiert wird.

Ich findes dieses Patent jetzt nicht so erhellend wie die 3 anderen Patente, aber ich kenne mich mit GPUs ja auch nicht wirklich aus.

Auch hier wird durchgehend von primären und sekundären Chiplets "geredet". Auch hier ist in einer zweiten Grafik des Systemaufbaus (Fig. 6) im primären Chiplet 601-1 ein Memory-Controller 610 eingezeichnet.

*) Somit ist auch hier jedem Chiplet eine Speicherschnittstelle zugeordnet. Es gibt allerdings Grafik 4 das ein abstrahiertes Processing System (400) zeigt. Es hat die beiden Processing Units 401 und 402, den Command Buffer 403, den Interconncet 440 und 4 Speicherschnittstellen GDDR 445 ... 448.
Die Processing Units können Chiplet sein. Die Speicherschnittstellen GDDR 445 ... 448 sind in dieser Darstellung nicht in den Processing Units enthalten.
 
  • Gefällt mir
Reaktionen: Colindo und SVΞN
Danke für den Hinweis, @ETI1120 . Ich denke allerdings, dass der Inhalt tatsächlich nicht soo interessant ist. Vor allem wenn es nur um weitere Details des gleichen Themas geht. Seien wir mal gespannt, wann die entsprechenden Produkte aufschlagen.
Ergänzung ()

Wenn ich es richtig verstehe, wird auch die Aufteilung der Rechenlast durch pixel-basierte Aufteilung des letzten Rechenschritts, des Shadings, dargestellt. Dabei bekommt jede Processing Unit ein Subset an Pixeln und rechnet nur auf denen. Vielleicht für den einen oder anderen, der hier mitliest, interessant.
1623047786064.png1623047817431.png
 
Zuletzt bearbeitet:
Wenn's klebt und babbt' dann hat's geklappt! Oder wie war das noch gleich, AMD?

Bin mal gespannt wie viel Leistung am Ende auf ankommt. Vielversprechend ist es jedenfalls.
 
Zurück
Oben