Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

Colindo · 5. Juli 2022

AMD hat einen Patentantrag zur Aufteilung der Rendering-Last auf mehrere GPU-Chiplets veröffentlicht, der interessante Einblicke gewährt. Um die Auslastung der Shader in Games zu optimieren, wird eine Spielszene in einzelne Blöcke aufgeteilt und an die Chiplets verteilt. Dabei kommt Two-Level-Binning zum Einsatz.

Zum Bericht: GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

konkretor · 5. Juli 2022

Danke für den Artikel der etwas tiefer in der Technik abtaucht.

anexX · 5. Juli 2022

Technisch sehr interessant - mal sehen ob es sich auch umsetzen lässt. ^^

incurable · 5. Juli 2022

Es gibt nichts neues unter der Sonne, nur frisch verpackte Ideen.

Ich kann es gar nicht abwarten, bis jemandem auffällt, dass die Lastverteilung ein inhärentes Problem ist und ein monolitischer Prozessor bei gleicher Fläche immer Vorteile haben wird.

Salamimander · 5. Juli 2022

Es ist aber vermeintlich einfacher einen Lastverteiler zu optimieren und skalieren zu lassen (also Single Core) als die vollständige GPU. Mal sehen wohin das führt.

Jan · 5. Juli 2022

incurable schrieb:
Ich kann es gar nicht abwarten, bis jemandem auffällt, dass die Lastverteilung ein inhärentes Problem ist und ein monolitischer Prozessor bei gleicher Fläche immer Vorteile haben wird.

Abwarten. Nvidia hat zuletzt mit Ampere "bewiesen", dass das Auslastungsproblem auch auf monolitischen Dies existiert. Vielleicht ist die wesentliche Frage am Ende nicht, welcher Ansatz effizienter auslastet, sondern welcher weniger ineffizient ist?? ;D

Chesterfield · 5. Juli 2022

Grundsätzlich heißt eine Patentanmeldungen ja erstmal garnichts. Die Frage wird sein wie die Umsetzung der Spiele dieses berücksichtigen werden. Am Ende hilft die beste Idee alleine nichts wenn nicht alle die im Boot sitzen mit ziehen.
Klingt spannend und macht neugierig aber großes sollte man (noch) nicht erwarten

CastorTransport · 5. Juli 2022

Wow. Ich sehe da für den Spielebereich so schnell nichts neues. Wäre sonst nicht schon längst was passiert?

Die Chiplets sind zu teuer, um sie "warten zu lassen", wenn man von "ineffizient" spricht. War ja ähnlich bei SLI/CF - war eine GPU früher fertig, durfte sie "ruhen".

Aber vlt. gelingt AMD ja die Revolution. Es muss nur der Wille und der Markt da sein, damit man neuen Konzepten eine Chance gibt.

v_ossi · 5. Juli 2022

incurable schrieb:
Ich kann es gar nicht abwarten, bis jemandem auffällt, dass die Lastverteilung ein inhärentes Problem ist und ein monolitischer Prozessor bei gleicher Fläche immer Vorteile haben wird.

Bloß lässt sich die Fläche nicht beliebig steigern und dann ist die Frage irgendwann nicht, was ist theoretisch besser, sondern was ist technisch machbar.

Ein 64 Kern Zen Prozessor wäre wohl auch 'besser' gewesen, war aber technisch nicht machbar.

Die komplette Industrie schwenkt doch auf modulareres Design um, warum also nicht abwarten, was uns da erwartet?

Btw.: Theoretisch sollten kleiner Chiplets auch die Preise drücken und ich habe lieber eine gute und bezahlbare Lösung, als eine vermeintlich perfekte aber nicht Bezahlbare.

rumpeLson · 5. Juli 2022

incurable schrieb:
Es gibt nichts neues unter der Sonne, nur frisch verpackte Ideen.

Ich kann es gar nicht abwarten, bis jemandem auffällt, dass die Lastverteilung ein inhärentes Problem ist und ein monolitischer Prozessor bei gleicher Fläche immer Vorteile haben wird.

Klingt plausibel, wird aber mit zunehmender Chipfläche immer unwirtschaftlicher. Sollten sich die Nachteile von Chiplets kompensieren lassen, wäre das perspektivisch schon ein großer Durchbruch.

-Ps-Y-cO- · 5. Juli 2022

@incurable
Hä?
Ein Monolitischer Prozess*or ist doch so, oder so im Vorteil! zumindest im groben (was Last angeht)
Natürlich gibt es bei einem Riesigem Monolith auch massiv Probleme
(mal die 3090Ti als bsp.: Die Size: 628 mm²)
Diese wird nicht nur extrem Warm, diese wird auch Unglaublich! Teuer.
wenn da dann mal 10mm² kaputt gehen, kann man diesen nicht einfach "schneiden" und als 3080 verkaufen.

AMD geht es aber darum, mehr Kleinere Chips, als einen Großen Ganzen herzustellen. (128Core/256Threads)
Die Yield ausbeute ist drastisch besser, Man kann die Chips untereinander Tauschen, Seine Produktvielfalt vergrößern, alles dadurch einfacher und unkomplizierter machen, und mit diesem Patentantrag dann genau deinen beschriebenen "vorteil" den ein Monolith hat, beinahe "ausmerzen" und die Last eben auf die "vielen kleinen" Chips besser Verteilen.

eine Ameisenkolonie:
10 Riesige Trümmer Ameisen wo jede 10kg last tragen kann.
oder 1000 kleine Arbeiter Ameisen wo jede nur 100g tragen kann.
ich glaube die 1000 kleinen sind Effizienter (wenn man sie vernünftig einsetzt)

blackraven · 5. Juli 2022

Hmm... interessanter Artikel.

Das bedeutet, dass der Scheduler einer GPU heute auf dem Stand ist, auf dem CPU-Software vor der Einführung der ersten Dual-Core-CPUs war. Eine feste Trennung auf mehrere Chiplets war bisher nicht sinnvoll möglich.

Ist das so? Dual-GPU gabs doch vorher schon, klar nicht in einem Chiplet aber da stand man doch auch schon vor dem Problem der effizienten Arbeitsteilung.

guggi4 · 5. Juli 2022

Chesterfield schrieb:
Die Frage wird sein wie die Umsetzung der Spiele dieses berücksichtigen werden. Am Ende hilft die beste Idee alleine nichts wenn nicht alle die im Boot sitzen mit ziehen.

Sollte das nicht irrelevant sein, wenn es eine Hardwarelösung ist?

incurable · 5. Juli 2022

Jan schrieb:
Abwarten. Nvidia hat zuletzt mit Ampere "bewiesen", dass das Auslastungsproblem auch auf monolitischen Dies existiert.

Das ist ein ganz anderes Problem. Nvidia hat bei Ampere zusätzliche Rechenwerke mit begrenzten Ausführungsmöglichkeiten eingefügt, dass diese nur funktionieren, wenn passende Lasten vorliegen, kann niemanden wirklich überraschen.

Hier geht es um das alte SLI- (Crossfire-,Lucid-)Problem: Lasten, die miteinander interagieren können, auf Bausteine aufteilen zu müssen, die nur mit großer Latenz miteinander kommunizieren.

Entsprechend werden auch die Szenarien ausfallen: Überall dort, wo Bruchteile der Last ohne Interaktion auskommen steigt die Leistung - sobald Kommunikation nötig wird, geht sie in den Keller.

Wer wissen will, wie das ausgeht, der werfe auf dem Friedhof der Geschichte einen Blick auf die Grabsteine von SLI und Crossfire.

Mimir · 5. Juli 2022

In erster Linie sind diese Chiplets doch nur Kostenoptimierung für AMD oder nicht?

Heißt, man kann mit einfacher oder doppelter (oder noch mehr) Bestückung oder teildefekten Chiplets von der Mittelklasse bis zum High End alles abdecken und alles basiert auf ein und dem selben Chiplet.

Ich denke deshalb dass es da weniger darum geht, ob ein Monolithischer Ansatz besser oder effizienter wäre. Er ist wohl einfach deutlich teurer und die Ausbeute bei der Fertigung schlechter?

Ist nur meine Vermutung auf basis meines Halbwissens...

incurable · 5. Juli 2022

v_ossi schrieb:
Die komplette Industrie schwenkt doch auf modulareres Design um, warum also nicht abwarten, was uns da erwartet?

Weil man die Pointe schon kennt weil man den Witz schon mehrfach vorgetragen bekommen hat in den letzten bald 30 Jahren.

-Ps-Y-cO- · 5. Juli 2022

@incurable
Totgeglaubte leben eben manchmal länger!
Man weiss doch über die Probleme zu SLI/CF.
Und man versucht seit jeher dagegen anzukämpfen (Stichwort: Mikroruckler, durch "keine vernünftige" kommunikation der Chips untereinander)
und genau das versucht man nun auszuradieren!

Und wie die ZEN Architektur gezeigt hat, kann das (sehr gut) funktionieren.
Und nun legt man noch eine Passendere/Effizientere Lösung auf den Tisch und Nutzt sie für GPUs.

incurable · 5. Juli 2022

rumpeLson schrieb:
Sollten sich die Nachteile von Chiplets kompensieren lassen, wäre das perspektivisch schon ein großer Durchbruch.

Meine Glaskugel sagt: Die Hersteller werden die größere Marge einstecken und die nötigen Softwareoptimierungen über kurz oder lang auf Sparflamme fahren.

Colindo · 5. Juli 2022

blackraven schrieb:
Ist das so? Dual-GPU gabs doch vorher schon, klar nicht in einem Chiplet aber da stand man doch auch schon vor dem Problem der effizienten Arbeitsteilung.

Nein, das basierte auf SLI/CF und das ist technisch in etwa so, als würde man auf einem Dual-Core-Prozessor zwei Programme parallel laufen lassen, um ihn auszulasten. Jetzt wird eine Aufgabe, also eine darzustellende Szene, komplett aufgeteilt.

incurable schrieb:
Nvidia hat bei Ampere zusätzliche Rechenwerke mit begrenzten Ausführungsmöglichkeiten eingefügt, dass diese nur funktionieren, wenn passende Lasten vorliegen, kann niemanden wirklich überraschen.

Doch, es ist exakt die gleiche Situation. Man bekommt enorm viele Shader, die ausgelastet werden wollen. In diesem Fall noch erschwert durch die schlechtere Kommunikationsmöglichkeit unter den Chiplets.

incurable · 5. Juli 2022

-Ps-Y-cO- schrieb:
wenn da dann mal 10mm² kaputt gehen, kann man diesen nicht einfach "schneiden" und als 3080 verkaufen.

Wenn Dir Deine FAB dies mit 10 defekten Quadratmillimetern liefert haben die entweder Ratten im Reinraum oder Du hast beim Design einen Fehler eingebaut.

Bericht GPU-Chiplets bei AMD: Das steckt im Patentantrag zur besseren Shader-Auslastung

Redakteur

Artikeldetektiv

Captain

Captain

Commodore

Chefredakteur

Fleet Admiral

Captain Pro

Commodore

Lt. Junior Grade Pro

Vice Admiral

Commander

Commander

Captain

Captain

Captain

Vice Admiral

Captain

Redakteur

Captain