News Patent: AMD plant mit GPUs im Chiplet-Design

@Colindo Danke für die Zahlen, ich wusste es nur noch grob und wollte deshalb nicht genauer sein. Zeigt eigentlich sehr gut dass es hieran auf jedenfall nicht mehr scheitert
 
  • Gefällt mir
Reaktionen: Colindo und Mcr-King
IronAngel schrieb:
Und ? Sicher die Apple Chips sind super für das was sie leisten, aber hier geht es um große GPUs. Ich denke nicht das Apple sowas zur Zeit anbietet oder in der Zukunft.

Ich denke noch fehlen die nötigen Technologien um solch ein Chiplet Design rentabel zu machen. In 5 - 10 Jahren könnte das anders sein.
Der "M1X" – erwartet innerhalb der nächsten 4~6 Monate – wird wohl wie der M1 ein monolithisches Design werden, alles in der Leistung darüber könnte Apple dann aber über Chiplets realisieren, da die Anzahl der absetzbaren Systeme dann stark abnimmt und deshalb monolithische Designs selbst bei Apples Endpreisen eigentlich immer weniger Sinn ergeben.
Die GPU des "M1X" darf in derselben Leistungsklasse wie Navi10 mobil erwartet werden, es wird aber auch bei Apple bei so einer Chiplet-Lösung um die Leistungsbereiche weit darüber gehen. Es wird spannend sein, wie anders Apples Lösung dann sein wird als die hier vorgestellte von AMD.
Realisierung innerhalb der nächsten 2 Jahre und TSMC ist ganz sicher gewillt Apple mit ihren Interposer- und Interconnect-Technologien zu versorgen.

WoFNuLL schrieb:
Da AMD nach diesem Zeitraum nie wieder in bezug auf GPUs etwas zum Thema Infinity Fabric gesagt hat, bzw. sich eine Entwicklung gezeigt hat, gab es hier und da die Vermutung das AMD ohne Raja erstmal nicht dazu in der Lage war das Ziel weiter zu verfolgen.
Das mag bei AMD auch schlicht mit dem R&D-Budget zusammenhängen.
Man hatte schlicht nicht das Geld sich um Dinge außerhalb der unmittelbaren Entwicklungsschiene zu kümmern. Nun, da der wirtschaftliche Erfolg fast eine Verdoppelung des Budgets innerhalb der letzten vier Jahre zugelassen hat, kann man auch sowas wieder angehen.

pipip schrieb:
Außerdem kostet jeder Chip in der Entwicklung, genauso die Masken für die Belichtungen und Durchläufe (Stepping). Wenn auch nur am Anfang.
Wenn man so wenig Geld hat, wie AMD vor noch nicht langer Zeit, dann ist das ein entscheidender Punkt. Zumal die Kostenentwicklung mit den neueren Nodes sehr stark angestiegen ist.
Und Masken halten nicht ewig...

hRy schrieb:
So wenig? Das sind 28*28mm
Bis ein 300mm Wafer belichtet ist vergeht ja ewig Zeit.
Tatsächlich sind es 26x33 mm². Wenn ASML mit der nächsten EUV-Belichtergeneration auf High-NA wechselt, wird sich die Fläche noch halbieren. Aber vielleicht beruhigt Dich das: TSMC wird dann wohl gut 100 Mrd. Transistoren auf der Fläche unterbringen können.

Colindo schrieb:
Kannst dir ja ausrechnen, wie lange ein Wafer dauert:
170wph sind 2,8333 Wafer pro Minute oder 21,17 Sekunden pro Wafer.
Also ca. 2½ Minuten für den typischen Wafer, der z.Z. so in einer NXE:3400 durchläuft?
Auf dem werden nämlich ein paar Hundert Dies für Mobil-SoCs belichtet.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: Forlorn und foo_1337
bensen schrieb:
Siehe oben. Scheint sich bei Intels Stückzahlen zu lohnen, sonst würden sie es nicht machen.
Es hat sich vllt gelohnt, aber spätestens seit Zen3 sieht man, dass Intel hinterher ist und letzte CB News über Rocket-Lake spricht sogar von niedrigeren Margen.
Du implizierst also dass etwas heute gut ist, was vor Jahren einmal gut und Standard war. Kannst es aber zum jetzigen Zeitpunkt nur vermuten.
Mein Meinung ist, dass Intel selbst in Zukunft da einlenken wird. Zwar die "Vielfachheit" an Produkten behalten, das aber nicht mehr über 100 verschiedene Masken und Chips.
 
shoKuu schrieb:
Sprich wir haben dann die gleiche Soße wie bei den Prozessoren? X Spiel unterstützt nur dann 50% der GPU Leistung weil nur die Hälfte der Kerne angesprochen wird?
Ich verstehe langsam wieso die Bild so erfolgreich ist. Sie besteht ja zu 80% aus Überschriften.
 
  • Gefällt mir
Reaktionen: Miuwa, Colindo, Zhan und eine weitere Person
3faltigkeit schrieb:
---Vollzitat entfernt---
bitte Zitierhinweise beachten
Eine Synchronisierung bedeutet letztlich, dass die Daten in den Caches mehrfach vorhanden (jedes Chiplet verfügt über Cache) sind. Das Resultat ist, dass der vorhandene Cache nicht besonders effizient genutzt wird (Kopie von Daten). Der Best-Case wäre es deshalb meiner Meinung nach, wenn die Aufgaben an die Chiplets so verteilt werden, dass möglichst wenig Kommunikation und Synchronisation zwischen den Chiplets nötig wird. Ein intelligentes Scheduling ist deshalb sicher Teil der Lösung.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: Mcr-King
Möglicherweise könnte man einzelne Chiplets dann für Post-Effekte oder sonstiges hernehmen.
Der Rest rendert in Zwischenzeit schon mal alles vor.
Keine Ahnung was man so veranstalten könnte.
Aber die Idee mit einem Steuerchip und weiteren Rechenchips hatte ich auch schon.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Sephiroth51, Mcr-King und pipip
hRy schrieb:
So wenig? Das sind 28*28mm
Bis ein 300mm Wafer belichtet ist vergeht ja ewig Zeit.
reicht ja auch, das wären mordsviele Transistoren bei 3nm, so einen großen Chip in 3nm werden wir lange nicht sehen.. und AMD arbeitet eh mit Chiplets.. und quadratisch sind die die's auch nicht, man will ja eine maximale Anzahl pro Wafer rausholen, daher sind die rechteckig.. was genau das perfekte Verhältnis ist, kannst per google herausfinden.

und die neusten EUV Maschinen sind schon deutlich schneller als noch die ersten Revisionen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Mcr-King
Bin wirklich gespannt ob das wirklich die Zukunft wird. Die "Schwierigkeit" klingt für mich nach dem bekannten CF/SLI Problem. Viele müssen miteinander Kommunizieren und auf den Speicher zurückgreifen. Jetzt soll ein GPU-Chiplet mit der CPU kommunizieren und den Rest GPU Haufen auch noch bändigen, damit stabile FPS herauskommen. Na dann, AMD, Herausforderung angenommen!
Bleibt zumindest Spannend das Thema zu verfolgen.
 
  • Gefällt mir
Reaktionen: Mcr-King
PietVanOwl schrieb:
Der Ansatz wird eher gewählt damit Grafikkarten nicht noch teurer werden, aber trotzdem mehr Leistung bringen können. Viele kleine Chiplets kosten weniger als ein Riesen Die. ;) MFG Piet
Und sollten sich auch besser Kühlen lassen und evtl. sollte auch der Verbrauch dadurch sinken .
 
  • Gefällt mir
Reaktionen: Mcr-King
Wenn es um Effizienz geht, sehe ich eigentlich Monolithen vorne, da man hier besser Synergieeffekte (z. B. gemeinsamer und schnell angebundener Cache) nutzen kann. Interchip-Kommunikation kostet Platz und Energie. Machen wir uns nichts vor: Das Ganze wird nur gemacht, weil die Fertigung immer teurer wird und Fortschritte bei der Fertigung seltener werden, gleichzeitig aber z. B. durch 4K hoher Rechenbedarf besteht.
 
  • Gefällt mir
Reaktionen: Colindo
ja, höhere nutzbare Fläche auf Wafer.
minimierter Ausschuß, da dann nur ein kleiner Chip unbrauchbar wird.
dazu Skalen-Effekte (mobile bis Server)

groß und schwer vs klein und wendig und viele
das war schon immer und überall ein kampf, den meistens die kleinen und wendigen gewinnen konnten.

AMD kann auch einfach an den CPU Kernen arbeiten und den Rest gleich lassen .. Macht die Entwicklung für Änderungen auch schneller (keine Gewähr auf 100% korrekte Begriffe, es geht nur um den Vorteil den sie haben dadurch)

Intel wird es wohl ab 2024/2025 auch so machen.
 
  • Gefällt mir
Reaktionen: Mcr-King
nach dem update
nun das deutet aber primär auf eine apu Lösung hin.
Den auf pcie Anbindung mit der cpu über den lahmen pcie link zu verbinden würde die gpu auch wenn diese als eine gpu vorgegaukelt wird vor windows Deutliche Latenzen verursachen.
Das man auf aktiven interposer bei mcm setzen muss war schon 2017 klar.
Die Lösung das aber ein zentraler chiplet ähnlich dem i/o DIE (bei zen2/3 cpu) eine Verwaltung der cpu als eine gpu vorgaukelt ist neu.
Aber auch durchaus logisch nur muss die Aktion auf der gpu koordiniert werden den über dem pcie bus mit der cpu zu kommunizieren würde die drawcalls explodieren lassen.
Und schon jetzt ist man bei mehr als 5000 shader am limit
Dem entgegen kann man nur mit mehr pixel was aber nicht die polygondichte verbessert sondern lediglich das alaising verringert.

Mein verdacht ist daher das ein x86 oder arm chip die drawcalls per sfr auf die gpu chiplets aufteilt und das per aktiven interposer über dem im interposer liegenden L3 cache und einen last level L4 am vram gekoppelt wird.
In Zukunft wird man aber auf HBM setzen müssen da der vram ab 16gb gddr6x und mehr deutlich zu viel Strom zieht.
Aber das wird erst Thema ab rdna 4
Gut möglich das cdna zuvor kommt. und mit rdna3 auf apu (zen 5) das zuerst umgesetzt wird.
Und das sehe ich erst 2024
rdna 2 jetzt 7nm
rdna 3 Anfang 2022 7nm+ euv reine Fertigung Verbesserung und effizienz Steigerung.
rdna 4 ende 2024 5nm euv mögliche mcm
amd wird aber refresh pro Jahr der gpu's bringen
 
  • Gefällt mir
Reaktionen: Mcr-King
auch wenn ich kaum ahnung von sowas hab :heuldoch:, finde ich solche artikel sehr interessant. es wäre noch spannender, auch mal andere forschungsprojekte von intel, amd oder nvidia zu sehen, damit man erahnen kann, wohin die reise geht. war da nicht letztens auch ein artikel über die intel-forschung, die von quanten computern berichtet hat?
 
  • Gefällt mir
Reaktionen: Mcr-King
Palomino schrieb:
Die "Schwierigkeit" klingt für mich nach dem bekannten CF/SLI Problem. Viele müssen miteinander Kommunizieren und auf den Speicher zurückgreifen. Jetzt soll ein GPU-Chiplet mit der CPU kommunizieren und den Rest GPU Haufen auch noch bändigen, damit stabile FPS herauskommen.
Unified Memory von CPU und GPU, dass heißt AMD wird hier beides auf einem Board verschmelzen, weil das Problem letztendlich immer eine Speicherkopierproblem bleibt. Die Austauschbarkeit von Hardware wird für Geschwindigkeit geopfert werden müssen.
 
  • Gefällt mir
Reaktionen: Mcr-King
syfsyn schrieb:
rdna 3 Anfang 2022 7nm+ euv reine Fertigung Verbesserung und effizienz Steigerung.
rdna 4 ende 2024 5nm euv mögliche mcm
puh, 5nm ende 2024 klingt zu spät, denke 5nm wird früher kommen bei AMD
und 6nm (mobile/)APUs sind auch schon angekündigt bei AMD

3nm wird sich bei tsmc aber auf mind. 2022 verzögern, das steht schon ziemlich sicher fest. Daher wird Apple wohl auf 4, 5 und 5nm+ setzen dieses Jahr.
2022 wird rein für Apple 3nm produziert, falls TSMC es hinbekommen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Mcr-King, Colindo und fox40phil
Colindo schrieb:
Finde es beeindruckend, dass das Patent erst Juni 2019 eingereicht wurde. In der Community wurde diese Idee ja bereits seit 2017 diskutiert, aber besonders seit Zen2 hoch gehandelt.

Jetzt sieht man, wie schwierig es gewesen sein muss, überhaupt einen patentierbaren Ansatz zu erforschen.
Naja, es wurde doch auch schon vor zig Jahren offiziell dadrüber gesprochen?! Deswegen verstehe ich den Aufbau der News hier nicht. Ich kann zwar jetzt keinen Link oder eine Quelle nachweisen, aber es war hier auf CB vor zig Jahren schon die Rede! Ich habe es ja auch immer mal wieder die letzten Jahre hier erwähnt, warum da nichts zu kommt usw.. Der ein oder andere meinte dann ja auch, dass es mit dem Wechsel vom alten GPU Chef zu Intel zu tun hat usw. - (Edit: Danke an @WoFNuLL , der das auch noch mal erwähnte)
Wieso also kein Wort dazu, dass das eigentlich schon lange geplant ist und ein Verweis auf alte Patente oder Ideen wäre echt gut.

Hoffentlich kommt Zen 4 und RDNA2 nicht erst ENDE 2022!! 2,2-2,5 Jahre ohne was wirklich neues?!
 
pipip schrieb:
Es hat sich vllt gelohnt, aber spätestens seit Zen3 sieht man, dass Intel hinterher ist und letzte CB News über Rocket-Lake spricht sogar von niedrigeren Margen.
Ja klar sind sie hinterher. Aber das hat nichts mit Chiplet im Mainstreambereich zu tun. Im Serversegment brauchen sie mehr Kerne, können es aber nicht anbieten. Dazu brauchen sie endlich ne konkurrenzfähige Fertigung und ein Chiplet-Design hilft bei den großen CPUs auch.
Die Marge wird kleiner weil die Die Size zunimmt und gleichzeitig der ASP abnimmt.

pipip schrieb:
Du implizierst also dass etwas heute gut ist, was vor Jahren einmal gut und Standard war. Kannst es aber zum jetzigen Zeitpunkt nur vermuten.
Mein Meinung ist, dass Intel selbst in Zukunft da einlenken wird. Zwar die "Vielfachheit" an Produkten behalten, das aber nicht mehr über 100 verschiedene Masken und Chips.
Was soll sich denn diesbezüglich großartig geändert haben? Mal davon ab, dass du von vor frei Jahren gesprochen hast und nicht über die Zukunft.
Das wird sich im Detail verändern, aber nicht radikal. Man bringt dann vielleicht weniger Dies, aber nicht zwingend Chiplets für die kleinen CPUs. Deine Argumente ziehen einfach nicht auf kleine Größen. Die Nachteile von Chiplets für kleine CPUs blendest du komplett aus. Gerade bei Zen 1 war das nicht unerheblich.
Dein Argument war, dass es teuer ist zwei Chips parallel zu fertigen. Und das ist einfach nicht richtig.

Nebenbei bringt AMD mit Cezanne, Lucienne und Van Gogh auch wieder mehr Dies parallel. Muss sich ja doch irgendwie lohnen. Es liegt eben an der Stückzahl.
 
Zuletzt bearbeitet:
foxio schrieb:
Eine Synchronisierung bedeutet letztlich, dass die Daten in den Caches mehrfach vorhanden (jedes Chiplet verfügt über Cache) sind.
Das wäre eher eine Redundanz. Um eine Kohärenz bei Daten zu erreichen, ist nur notwendig, dass alle Shader der GPU die Daten zum gleichen Zeitpunkt erhalten. Es bringt eben wenig, wenn der Rasterizer bereits beim nächsten Frame ist, wenn der Raytracer noch auf den letzten Strahlenflug wartet, weil sich ein Chiplet alle RT-Berechnungen geschnappt hat.
Grafikberechnungen müssen alle gleichzeitig für den gleichen Frame erfolgen, sonst werden die Berechnungen inkohärent.
syfsyn schrieb:
Denn auf PCIe-Anbindung mit der CPU über den lahmen PCIe-Link zu verbinden würde die GPU, auch wenn diese als eine GPU vorgegaukelt wird, vor Windows deutliche Latenzen verursachen.
Es geht aber nicht um eine APU. Falls dir das unklar ist: Jede GPU dieser Welt kommuniziert über den PCIe-Link mit der CPU. Das macht sie nicht zu einer APU, und macht sie nicht lahm.
syfsyn schrieb:
rdna 3 Anfang 2022 7nm+ euv reine Fertigung Verbesserung und effizienz Steigerung.
Auf deine restlichen Ideen gehe ich nicht weiter ein, aber hier würde ich sagen, dass Anfang 2022 N5 auf der Roadmap steht. Zumindest bei den CPUs ist es gesetzt. Bei RDNA3 steht "Advanced Node", aber ich denke das ist nur deswegen unklar, weil RDNA3 früher kommen könnte, und dafür auf N6.
wolve666 schrieb:
war da nicht letztens auch ein artikel über die intel-forschung, die von quanten computern berichtet hat?
Quantencomputer sind leider ein totes Thema, bis mal jemand mit echten Ergebnissen, Messungen oder sonst etwas Handfestem kommt.
bensen schrieb:
Dein Argument war, dass es teuer ist zwei Chips parallel zu fertigen. Und das ist einfach nicht richtig.
Doch, das ist richtig. Du brauchst nämlich zwei Masken anstelle nur einer. Genau das meinte pipip.


@fox40phil In der Gerüchteküche brodelte das Thema schon seit Jahren, aber die News hier dreht sich um die allererste öffentliche Nachricht dazu. Alles, was man die letzten Jahre hörte, waren unbestätigte Gerüchte. Erst jetzt ist sicher, dass AMD ernst macht.
 
  • Gefällt mir
Reaktionen: Creeed, Mcr-King und engineer123
Colindo schrieb:
Vor allem, da EUV-Maschinen nicht mehr als 800mm² in einem Schritt belichten können!
Ui. Dann wäre Nvidias GA100 mit 826mm² in TSMCs N7 Prozess (wenn N7 EUV nutzen würde) mit EUV ja schon am Limit des Machbaren angekommen. Das irgendwo bei ~800mm² einfach Ende ist was die sinnvolle Chipgröße hinsichtlich Yield/Defekten und Kosten angeht ist ja schon länger absehbar.

Danke für eine Ausführungen hier im Thread, die waren sehr lesenswert ;)
 
  • Gefällt mir
Reaktionen: Mcr-King und Colindo
Zurück
Oben