Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsGPUs im Chiplet-Design: AMD-Patente bringen den Cache ins Spiel
Zwei neue Patente von AMD, ein mögliches Chiplet-Design von GPUs betreffend, bringen eine „Active Bridge“ und den Cache ins Spiel. Über einen für jedes Chiplet kohärenten L3-Cache sollen Daten bei Bedarf ausgetauscht werden können, während ein primäres Chiplet dabei die Organisation und Kommunikation übernehmen soll.
Es wird spannend, die Dürre der kleinen % Häppchen jedes Jahr ist endlich vorüber.
Neue Technologien, Ideen , Wettkampf, das kann nur gut werden , wenn schließlich das Mining wieder uninteressant wird sind wir über den Berg 😆
Es wird spannend, die Dürre der kleinen % Häppchen jedes Jahr ist endlich vorüber.
Neue Technologien, Ideen , Wettkampf, das kann nur gut werden , wenn schließlich das Mining wieder uninteressant wird sind wir über den Berg 😆
Hab ich das richtig verstanden..
Man baut Chiplets. Man verbindet diese mit einem Aktiven Interposer der den L3 Cache besitzt und noch ein bisschen Logik hat.
Auf diesem Interposer müssen alle Chiplets platziert werden.
Das heißt ja ich brauche für die Chips eine High End Fertigung die kleine bis mittelgroße Chips ausspuckt.
Zusätzlich braucht man noch einen Interposer der je nach Anzahl der Chiplets riesig wird und nicht in irgendeiner Bummelfertigung gemacht werden kann, weil sonst der L3 Verbrauch und der Interconnect-Verbrauch explodiert.
Das kann ich mir eigentlich nur im Enthusiasten Bereich vorstellen. Oder eben im Professionellen Bereich.
Nach Gaming klingt das definitiv nicht, auch wenns ein super interessanter Ansatz ist.
Das wird richtig interessant für Cloud Gaming.
Wenn das nicht alles in Hardware fest steht sondern via Software partitioniert werden kann laufen da problemlos mehrere Games auf einer einzigen GPU und jede Anwendung kriegt X Chiplets und Y Anteile VRAM.
Das kann dann dynamisch zugeteilt werden wer wie viel braucht.
Ich dachte Chiplet-GPUs sind noch Jahre weit entfernt.
Workload Aufteilung/Synchronisation um Mikroruckler zu vermeiden als Stichwort. Ein Chiplet design bringt ja auch nur Vorteile je mehr Chiplets es sind.... für 4 Chiplets wird sich der Aufwand kaum lohnen.
Edit: Ok ab da wohl was mit Anzahl der Chiplets und Anzahl der Kerne durcheinander gebracht.
Ich wage mal zu behaupten, dass es sich ab 2 Chiplets (Ryzen Desktop) lohnt. Bei Grafikkarten sollte es sich eigentlich viel mehr lohnen als bei Desktop CPUs da die GPUs echt massivst groß sind.
Das resultiert daraus, dass die Kosten nicht direkt proportional zur Fläche sind, sondern exponentiell ansteigen -> 2xklein ist viel günstiger als 1xgroß.
Nimm mal an du hast ein Chiplet mit 8 CUs. Nun kannst du für relativ wenig Geld alle Preisbereiche von der 8 CU iGPU bis zur 80 CU RX 6900 abdecken.
Sind nicht Anwendungen die sich über GPUs beschleunigen lassen sowieso sehr gut parallelisierbar? Da liegt es sehr nahe, dass man die Chips dann auch in kleine Einheiten teilt.
Edit: Weiterer Pluspunkt:
Sogar die teildefekten Chips können verwertet werden als z.B.: 6 CU Chips. Stört ja keinen wenn da 1/4 des Chips brach liegt.
Hätte noch einen weiteren Vorteil: man kann schneller reagieren und Erweiterungen als gesonderten Chip umsetzen.
Beispiel: nvidias Tensor Cores, statt das komplett eigene Design abzuändern, um ähnliche Rechenwerke zu implementieren, könnte man einen eigenen Chip mit den entsprechenden Funktionseinheiten erstellen.
Die haben zwar evtl. dann nicht die gleiche Leistung, aber das kann man mit einer höheren Anzahl leicht kompensieren und die Chips werden auch relativ günstig, da weniger komplex, weniger Fehleranfällig und weniger Ausschuss.
Oder auch die relativ einfachen Caches, diese kann man so auslagern von den komplexen Bauteilen. Caches brauchen viel Platz und kleine Fehler können schnell zum Ausschuss des gesamten DIE führen.
AMD scheint die clevere Lösung der ZEN-CPUs nun endlich auf GPUs zu übertragen. Mal gespannt wie gut es funktionieren wird.
Ich glaube SAM hat damit nichts zu tun. Da geht's nur um den Zugriff auf Dateien größer als 4gb vom Vram.
Aber wenn die CPU auf den Cache zugreifen könnte weiß ich nicht ob das Vorteile von den Latenzen bringt. Es müsste von Cache zur CPU und dann von CPU wieder zurück zum Cache oder Vram.
Ich glaube eher es geht darum das Multichip Design schneller darin zu machen den System vorzugaukeln da wäre nur eine gpu.
Aber das ist nur mein aktuelles Verständnis. Wie es später sein wird weiß niemand hier.
Ich denke eher das AMD sich erstmal jede halbwegs vernünftige Idee Patentieren lässt.
Füttert doch nicht alle den Troll. Nichts gegen ein bisschen subtile Trollerei, der hier ist aber doch relativ plump. Holzhammer und so... da muss man wirklich nicht drauf eingehen.
Bin auf jeden Fall gespannt. Wenn die das einigermaßen umsetzen könnten wäre das schon ein wichtiger Schritt. Wäre top, wenn man dadurch die Preise wieder senken könnte. Und nach einigen Generationen Chiplets bei Zen und nachdem man bei RDNA2 zumindest laut eigener Aussage auch schon von der CPU-Abteilung profitiert, Stichwort IC, hat man zumindest die Erfahrung...
Die Chiplets sind sehr nahe beieinander. Ich denke wenn du die auf unterschiedliche Seiten des PCBs packst, wären die Leitungen wieder zu lang. Theoretisch wäre es natürlich möglich.
Gaugaumera schrieb:
Das heißt ja ich brauche für die Chips eine High End Fertigung die kleine bis mittelgroße Chips ausspuckt.
Zusätzlich braucht man noch einen Interposer der je nach Anzahl der Chiplets riesig wird und nicht in irgendeiner Bummelfertigung gemacht werden kann, weil sonst der L3 Verbrauch und der Interconnect-Verbrauch explodiert.
Dieser aktive Interposer muss nicht groß sein. In den Abbildungen siehst du, dass der auch nur teilweise zwei Chiplets bedeckt und der Rest von Dummy-Dies bedeckt wird, um es homogen zu machen.
Im Patenttext steht auch was davon, dass der Interposer länglich aufgebaut ist und dadrauf zwei Reihen Chiplets gebaut werden. Das hatte ich aber, bis ich deinen Post gelesen habe, nicht richtig verstanden
Che-Tah schrieb:
Ein Chiplet design bringt ja auch nur Vorteile je mehr Chiplets es sind.... für 4 Chiplets wird sich der Aufwand kaum lohnen.
Beispiel: nvidias Tensor Cores, statt das komplett eigene Design abzuändern, um ähnliche Rechenwerke zu implementieren, könnte man einen eigenen Chip mit den entsprechenden Funktionseinheiten erstellen
Das ist kein Vorteil von Chiplets. Du kannst auch so einfach Rechenwerke mit auf den Die packen und musst sie nicht zwingend in die Rechenwerke integrieren. Macht Nvidia auch aktuell so. Chiplets ändern nichts daran, dass man bestimmte Funktionseinheiten entwickeln und logisch einbinden muss. AMD geht zudem eher den Weg eine möglichst felxible Architektur zu schaffen und macht genau das Gegenteil. Sie versuchen möglichst viele Funktionen zu integrieren, um den Transistoraufwand möglichst gering zu halten und von kurzen Latenzen zu profitieren.
flappes schrieb:
Die haben zwar evtl. dann nicht die gleiche Leistung, aber das kann man mit einer höheren Anzahl leicht kompensieren und die Chips werden auch relativ günstig, da weniger komplex, weniger Fehleranfällig und weniger Ausschuss.
Du erkaufst dir dafür aber auch Latenzen und ein komplexes Packaging. Und mit der Masse kann man auch nichts erschlagen, da man so fix in Energieprobleme läuft. Du musst schon ein gewisses Mittelmaß finden, wo sich Vor- und Nachteile halbwegs die Wage halten.
flappes schrieb:
Oder auch die relativ einfachen Caches, diese kann man so auslagern von den komplexen Bauteilen. Caches brauchen viel Platz und kleine Fehler können schnell zum Ausschuss des gesamten DIE führen.
Caches machen aber keinen Sinn, wenn man sie weit von der Logik unterbringt. Genau da liegt ja der Vorteil vom Cache. Kurze Wege mit wenig Energieaufwand und sehr kurzen Latenzen.
Es macht wesentlich mehr Sinn Chiplets zu entwickeln, die alle nötigen Komponenten tragen und skaliert werden können. Macht AMD bei Zen auch so. Ein Zen Chiplet enthält auch alle wesentlichen Bestandteile.
Das hat Vorteile in der Leistung und in der Fertigung. Denn so musst du nur eine Art von Chiplet fertigen und nicht 5 verschiedene. Separate Chiplets mit eigenen Funktionen würde den ganzen Ansatz zu nichte machen, da man dann wieder den Kostenvorteil auffressen würde.
Ja nee ist klaa.
Erste Benches zeigen knapp die Leistung einer RX550 für die kleine Intel DGPU.
Und auch die Grösseren haben ein etwas schmales SI für die vielen Shader.
Grafiktreiber konnten sie noch nie....
Wie schon immer wieder über die letzten 30 Jahre versucht sich Intel mal wieder an GPUs, weil
man sowas heut halt haben muss.
Und jedes Mal sind sie mit Anlauf gescheitert.
Arg viel besser wird es auch dieses Mal nicht werden.
Wer gleich vergleichbare Leistung mit NV oder AMD erwartet, der träumt
und zwar gewaltig.