Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

Tzk · 5. Juli 2022

W0dan schrieb:
In erster Linie sind diese Chiplets doch nur Kostenoptimierung für AMD oder nicht?

Ja und nein. Bis zu einem gewissen Punkt ist es Kostenoptimierung, aber darüber hinaus ist die technische Machbarkeit das Problem, weil der Yield ins Bodenlose fällt. Klar könnte man GPUs mit weit mehr als 800mm² herstellen, aber es macht halt keinen Sinn...

Die Entwicklungskosten sind da noch ein ganz anderes Thema. Letztendlich wird AMD wohl ähnlich verfahren wie mit Zen, sprich ein I/O "Master" Chiplet und daran mehrere Compute "Slave" Chiplets mit den Shadern. Lässt sich halt super skalieren... Einstiegsklasse dann 1 Slave Chiplet, Mittelklasse 2, Oberklasse 3 und Highend 4. Bumms, fertig

-Ps-Y-cO- · 5. Juli 2022

@incurable
Ich hoffe du weisst wie ein Wafer aussieht und was ich mit Yield und 10mm² meine....

Dai6oro · 5. Juli 2022

Wenn das gelingt eine Meilenstein für AMD. Sie können damit den Preis drücken und kosteneffizient nach oben immer weiter skalieren ohne auf Monsterdies setzen zu müssen. Unendlich geht das natürlich aber auch nicht wegen dem Strombedarf aber das wird eine kleine Revolution sein, falls es gelingt.

DaBo87 · 5. Juli 2022

incurable schrieb:
Ich kann es gar nicht abwarten, bis jemandem auffällt, dass die Lastverteilung ein inhärentes Problem ist und ein monolitischer Prozessor bei gleicher Fläche immer Vorteile haben wird.

Und genau das "immer" ist hier der springende Punkt.
Die Vorteile, von denen Du sprichst, sind technischer Natur.

Wenns nur danach ginge, technisch das Optimum zu erreichen, würde jeder versuchen alles was geht in einen Chip, egal wie groß, zu quetschen.

Wenns nur danach ginge, wirtschaftlich das Optimum rauszuholen, dann würds vmtl. jetzt schon Chipletarchitekturen bei den GPUs geben, ungeachtet der technischen Probleme, die sich dann in Mikrorucklern etc. äußern würden.

chb@ · 5. Juli 2022

@incurable Abwarten, wieso malst du den Teufel an die Wand? Das Chiplet Design von AMD kann man nicht mit CrossFire vergleichen. AMD hat schon dran gearbeitet, dass die Chiplets untereinander schneller kommunizieren können. Intel macht es nun bei CPUs nach, Nvidia wird das selbe bei GPUs tun. Glaube kaum, dass alle umschwenken nur wegen der Kosten.

CrossFire ist tot weil es nicht ordentlich funktioniert hat, nicht weil es keine Leistung gebracht hat. Keiner wird sich den Fehler mehr geben.

Colindo · 5. Juli 2022

Tzk schrieb:
Klar könnte man GPUs mit weit mehr als 800mm² herstellen, aber es macht halt keinen Sinn...

Sobald die neuen EUV-Belichter mit High-NA kommen wird der auf einmal belichtbare Bereich auf 429 mm² sinken. Spätestens dann sind Chiplets quasi zwingend notwendig.

Vitali.Metzger · 5. Juli 2022

Na dann bin ich mal gespannt. Aber wie wir AMD kennen, liefern die in letzter Zeit auch ordentlich ab.

Chesterfield · 5. Juli 2022

guggi4 schrieb:
Sollte das nicht irrelevant sein, wenn es eine Hardwarelösung ist?

Nicht ganz. Hardwarelösungen in der Theorie ist nicht immer mit nutzen und der Praxis verbunden . Potential könnte da sein wenn die das ökosystem
( also alles drum herum ) angepasst ist . Dabei meine ich vor allem Support ,Treiber und spiele darauf optimiert

Tzk · 5. Juli 2022

Colindo schrieb:
Spätestens dann sind Chiplets quasi zwingend notwendig.

Umso interessanter ist, das man bei AMD schon von Chiplets hört, bei Nvidia aber irgendwie (noch?) nicht.

ST18 · 5. Juli 2022

Die alten Probleme sind bekannt, da wird AMD nicht die gleichen Fehler wiederholen. Da wird schon was gutes bei rumkommen.

guggi4 · 5. Juli 2022

Tzk schrieb:
Umso interessanter ist, das man bei AMD schon von Chiplets hört, bei Nvidia aber irgendwie (noch?) nicht.

Wobei High NA ja noch ziemliche Zukunftsmusik ist, erst steht GAA und dann werden die ersten Prozesse mit High NA sicher auch wieder für mobil SoCs genutzt. Da gehen noch einige Jahre ins Land, bevor das ein Problem bei Grafikchips wird

RogueSix · 5. Juli 2022

CastorTransport schrieb:
Aber vlt. gelingt AMD ja die Revolution. Es muss nur der Wille und der Markt da sein, damit man neuen Konzepten eine Chance gibt.

blackraven schrieb:
Ist das so? Dual-GPU gabs doch vorher schon, klar nicht in einem Chiplet aber da stand man doch auch schon vor dem Problem der effizienten Arbeitsteilung.

^ Bei klassischem SLI war es doch so, dass die Grafikkarten alternierend die geraden und die ungeraden Bildzeilen berechneten. Ein "früher fertig" in dem Sinne konnte es da eigentlich nicht geben. Die Arbeitsaufteilung war inhärent "effizient", da beide GPUs die gleiche Arbeit pro zugewiesener Bildzeile leisten mussten.

Im Übrigen scheint mir bei einigen Kommentaren hier ein Missverständnis von monolithischem Ansatz, single core und Chiplets vorzuliegen.

Wichtig: Auch eine monolithische GPU ist ja keineswegs "single core". GPUs sind seit vielen Jahren extrem "multi core", da jeder CU (compute unit) ja de facto ein eigener Kern ist. Eine RTX 3090 hat über 10K "cores".
Daher ist es auch von jeher eine Herausforderung, auch bei monolithischen GPUs, die compute/shader units bzw. mithin die gesamte rendering pipeline gleichmäßig auszulasten.

Hier geht es um die gleichmäßige Auslastung von Chiplets, die ihrerseits aus vielen CUs bestehen. Die Herausforderung ist also nach wie vor einerseits die Auslastung der CUs pro einzelnem Chiplet und diese Herausforderung wird nun ergänzt um die Herausforderung auch die Chiplets untereinander bestmöglich auszulasten.

Das Problem wird somit vielschichtiger, aber es wäre falsch so zu tun, also ob es bei monolithischen GPUs keine Herausforderungen hinsichtlich der Auslastung gibt. Man erinnere sich zum Beispiel nur mal an das ganze Theater damals um ASync Compute, wobei es ziemlich genau um die Optimierung der Auslastung der rendering pipeline ging.

Jan · 5. Juli 2022

incurable schrieb:
Das ist ein ganz anderes Problem.

Ich sehe darin kein anderes Problem, auch wenn die Ursache eine andere ist. Aber: Nvidia hat "bewiesen", dass man eben nicht mal so einfach die doppelte Leistung aus einem monolitischen Die holen kann - genauso wie das bei Multi-Chiplet-Ansätzen aus anderen Gründen auch nicht der Fall sein wird.

Zu deinem SLI/CF-Vergleich: Grundsätzlich passt das, aber das Umfeld ist schon ein anderes. Der Infinity Interconnet leistet schon bei CDNA 2 100 GB/s, bei SLI waren es selbst mit der HB-Bridge nur 3,x GB/s. Die neuen Packaging-Technologien machen definitiv einen Unterschied.

incurable · 5. Juli 2022

Colindo schrieb:
Doch, es ist exakt die gleiche Situation.

ILP und Ladungsverteilung sind unterschiedliche Paar Schuhe. Wobei, richtiger wäre: Das sind noch nicht mal beides Schuhe.

Ergänzung (5. Juli 2022)

-Ps-Y-cO- schrieb:
und genau das versucht man nun auszuradieren!

Es ist keine originäre Idee, eine weitere Lage Verteilungslogik (Software/Hardware) zu integrieren. Und es wird kein originäres Scheitern sein, wenn es auch diesmal zu den bekannten Nebenwirkungen führt.

Ergänzung (5. Juli 2022)

-Ps-Y-cO- schrieb:
Ich hoffe du weisst wie ein Wafer aussieht und was ich mit Yield und 10mm² meine....

Ich weiss, dass 10 kaputte Quadratmillimeter eine völlig absurde Größe ist. Vielleicht meinst Du einen Produktionsdefekt, der Recheneinheiten auf einer Fläche von 10 Quadratmillimetern nicht nutzbar macht? Und wie oft soll sowas punktgenau passieren?

Wir reden hier immerhin über GPUs, die zum überwiegenden Teil aus Cache und Recheneinheiten bestehen, die jeweils entweder redundant ausgelegt sind oder beinahe beliebig deaktiviert werden können.

Ergänzung (5. Juli 2022)

DaBo87 schrieb:
Wenns nur danach ginge, wirtschaftlich das Optimum rauszuholen, dann würds vmtl. jetzt schon Chipletarchitekturen bei den GPUs geben, ungeachtet der technischen Probleme, die sich dann in Mikrorucklern etc. äußern würden.

Hat AMD doch vor 15 Jahren alles schon durchgespielt, in ihrer letzten 'große GPUs sind plöt!'-Phase.

Wir wissen doch alle, wie das ausgegangen ist.

Ergänzung (5. Juli 2022)

chb@ schrieb:
Abwarten, wieso malst du den Teufel an die Wand

Es steht Dir frei Dich an den angeblich neuen Ideen in diesen Patenten zu erfreuen.

'Wir ziehen da mal eine zusätzliche Lage Verteillogik ein' haut mich nicht vom Hocker, ist nicht neu, und keine Lösung für die inhärenten Probleme dieser Strategie.

Colindo · 5. Juli 2022

@incurable Ich habe den Eindruck du berücksichtigst überhaupt nicht den beschriebenen Ansatz von AMD sondern schließt nur aus der Vegangenheit. Das empfinde ich als etwas oberflächlich. Du kannst gerne kritisieren, dass die Idee nicht originär sei. Wobei ich selbst das nicht nachvollziehen kann, weil "eine weitere Lage Verteilungslogik" so ziemlich alles beschreibt, was im letzten Jahrzehnt bei CPUs und GPUs Probleme gelöst hat. Aber einfach zu sagen "Ich weiß schon, dass es nichts wird" wird der Technik nicht gerecht.

Mimir · 5. Juli 2022

RogueSix schrieb:
^ Bei klassischem SLI war es doch so, dass die Grafikkarten alternierend die geraden und die ungeraden Bildzeilen berechneten. Ein "früher fertig" in dem Sinne konnte es da eigentlich nicht geben. Die Arbeitsaufteilung war inhärent "effizient", da beide GPUs die gleiche Arbeit pro zugewiesener Bildzeile leisten mussten.

Von welchem SLI sprechen wir hier? SLI und CF so wie es bis zuletzt angeboten wurde, teilte die Bildausgabe mit geraden und ungeraden FRAMES auf die GPUs auf. Nicht die Bildzeilen.

Würde man Bildzeilen oder Blöcke einer Szene auf die GPUs aufteilen, würde sich natürlich das Problem mit den schlechten Frametimes das bei SLI und CF immer das große Problem war, gar nicht erst ergeben. Auch AMDs Chiplet Ansatz wird von dem Problem folglich nicht betroffen sein.

Problem bleibt dann eben die Auslastung der GPUs und einfach allgemein die Performance (Bottlenecks) durch die Kommunikation zwischen den Chips.

incurable · 5. Juli 2022

Jan schrieb:
Nvidia hat "bewiesen", dass man eben nicht mal so einfach die doppelte Leistung aus einem monolitischen Die holen kann

Nvidia hat sich bei Ampere entschieden, die bestehende Struktur für ausgewählte Instruktionen zu verbreitern, wahrscheinlich weil das in ihren Simulationen einen im Vergleich zur Fläche und Leistungsaufnahme akzeptablen zusätzlichen Durchsatz versprach.

Ob die GPU am Ende monolitisch oder zusammengebastelt ist, hat damit grundsätzlich nichts zu tun.

mibbio · 5. Juli 2022

W0dan schrieb:
Von welchem SLI sprechen wir hier? SLI und CF so wie es bis zuletzt angeboten wurde, teilte die Bildausgabe mit geraden und ungeraden FRAMES auf die GPUs auf. Nicht die Bildzeilen.

Eben, gibt ja 2 Techniken, die beide mit SLI abgekürzt werden. Die Variante mit den Bildzeilen war das "Scan Line Interleave" von 3dfx, beschreibt also direkt den Rendervorgang während das SLI von Nvidia "Scalable Link Interface" heißt und im Grunde erstmal nur beschreibt, wie die Karten miteinander kommunizieren und wie das Bild verarbeitet wurde hing dann vom jeweiligen Betriebsmodus ab.

Man sollte also schon genau unterscheiden, was man meint, wenn man von SLI redet.

bad_sign · 5. Juli 2022

Noch nicht gelesen, aber danke für die Thematisierung

random12345 · 5. Juli 2022

v_ossi schrieb:
Btw.: Theoretisch sollten kleiner Chiplets auch die Preise drücken und ich habe lieber eine gute und bezahlbare Lösung, als eine vermeintlich perfekte aber nicht Bezahlbare.

Das wird wohl auch der Grund sein weshalb die Apple Chips so Effizient sind. Die haben aber auch die Zahlende Kundschaft. Klar hier gehts um GPU‘s, die müssen immer noch wenig können im Vergleich zu einer CPU, denke da wird besseres binning schon möglich sein 🤷‍♂️

Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

Captain

Vice Admiral

Admiral

Lieutenant

Lt. Commander

Redakteur

Admiral

Fleet Admiral

Captain

Cadet 3rd Year

Commander

Commander

Chefredakteur

Captain

Redakteur

Commander

Captain

Rear Admiral

Commodore

random12345

Gast

Ähnliche Themen