News Patent: AMD plant mit GPUs im Chiplet-Design

Forlorn schrieb:
Unified Memory von CPU und GPU, dass heißt AMD wird hier beides auf einem Board verschmelzen, weil das Problem letztendlich immer eine Speicherkopierproblem bleibt. Die Austauschbarkeit von Hardware wird für Geschwindigkeit geopfert werden müssen.
Das sehe ich nicht so, dafür könnte auch ein gemeinsamer Speicher auf dem Mainboard verbaut werden bzw. in einem gesonderten Steckplatz eingesetzt werden. Die Hardware könntest Du dann weiterhin unabhängig davon tauschen.
 
  • Gefällt mir
Reaktionen: Mcr-King
  • Gefällt mir
Reaktionen: Mcr-King und foo_1337
peter.hahn schrieb:
3nm wird sich bei tsmc aber auf 2022 verzögern, das steht schon ziemlich sicher fest. Daher wird Apple wohl auf 4 und 5nm setzen dieses Jahr.
Dieses Jahr ist sowieso N5P dran. Keine Ahnung, wo in letzter Zeit hergekommen ist, es wäre N3 eingeplant gewesen. Mehr als Risk-Production kam da nie in Frage, HVM war schon die ganze Zeit für das 2. Hj. 2022 vorgesehen.
Es wäre übrigens sehr schlecht für AMD, wenn sich N3 tatsächlich verzögerte, da Apple dann weiterhin die N4-/N5-Produktionsstraßen belegen würde. Es braucht keiner zu glauben, daß dann nicht alle anderen warten müßten...

@Nureinnickname!
Wieso glaubst Du ein Renderbenchmark wäre nichts Synthetisches?
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: Mcr-King
smalM schrieb:
Dieses Jahr ist sowieso N5P dran. Keine Ahnung, wo in letzter Zeit hergekommen ist, es wäre N3 eingeplant gewesen. Mehr als Risk-Production kam da nie in Frage, HVM war schon die ganze Zeit für das 2. Hj. 2022 vorgesehen.
Es wäre übrigens sehr schlecht für AMD, wenn sich N3 tatsächlich verzögerte, da Apple dann weiterhin die N4-/N5-Produktionsstraßen belegen würde. Es braucht keiner zu glauben, daß dann nicht alle anderen warten müßten...

@Nureinnickname!
Wieso glaubst Du ein Renderbenchmark wäre nichts Sysnthetisches?

Blender ist Synthetisch?
Oder vielleicht ein Video mit Handbrake Transkodieren und die Zeiten vergleichen.
 
  • Gefällt mir
Reaktionen: Mcr-King
wuest3nfuchs schrieb:
[...] die Rohstoffpreise[z.bsp.Kupfer [...]
Mal schauen wie sich das ganze auf unser Hobby auswirkt.
wieviele Kilogramm Kupfer erwartest Du denn auf einem Die bzw. einer Platine vorzufinden?
Ergänzung ()

snaapsnaap schrieb:
Und da ein einzelner Die 20$ kostet, sind 4 zusammen, selbst mit dem IO Die immernoch deutlich günstiger als ein großer für 200$ (reine Fantasiezahlen)
... da man ja keinerlei Kosten für Trägermaterial und Montage und keinerlei Verluste durch Montage sowie keinerlei erhöhte Kosten durch verlustfreies Testen hat. (wenn schon phantasieren, dann aber richtig)
 
  • Gefällt mir
Reaktionen: Creeed, Highskilled und Mcr-King
@Nureinnickname!
Ich wüßte jetzt nicht, daß der Blender-Port zu ARM64 schon fertig ist. Oder hat jemand schnell über Weihnachten die Unterstützung von NEON oder gar nativ Metal eingepflegt?
Handbrake-Tests sind leicht zu finden.
 
Hier ist wieder offen. Das Thema hier ist nicht Apple, bitte haltet euch dran.
 
  • Gefällt mir
Reaktionen: fox40phil, Bonanca, Tzk und eine weitere Person
smalM schrieb:
Wieso glaubst Du ein Renderbenchmark wäre nichts Synthetisches?
Weil er ein reales Szenario bearbeitet und eben kein synthetisches.

Ein Beispiel für einen synthetischen Benchmark wäre der 3DMark für die Spieleperformance von GPUs, da hier nur einzelne Bestandteile von Spielen isoliert gemessen werden, die in einem realen Spiel so nicht auftreten.

Ein Renderbenchmark wie z.B. Cinebench macht aber nichts anderes als es eben auch Blender tut und bildet somit einen Benchmark der auf reale Einsatzzwecke direkt übertragbar ist.
 
  • Gefällt mir
Reaktionen: Creeed und Teralios
bensen schrieb:
Dein Argument war, dass es teuer ist zwei Chips parallel zu fertigen. Und das ist einfach nicht richtig.
Ja und nein.
pipip schrieb:
Denn der 8 Core Chip ist bei Intel nicht nur wegen der Größe teurer (weil es selbst eine abgespeckte Version war), sondern auch weil nicht die komplette Fertigung nur diesen Chip fertigt, sondern eben nur ein Teil der Produktion. Das erhöht nämlich ebenso den Preis. Allein für HPC hatte Intel 3 Verschiedene Chips.
Außerdem kostet jeder Chip in der Entwicklung, genauso die Masken für die Belichtungen und Durchläufe (Stepping). Wenn auch nur am Anfang
Ja und nein.
@pipip @bensen
Unterm Strich, habt ihr beide recht.
Bensen geht auf die Stückzahl ein, das macht den Kohl am Ende bei der Masse für Intel nicht fett.

Trotzdem hat Pipip unterm Strich wiederum recht, wenn man das nicht abhängig von der Stückzahl macht.

Es kommt halt auf die Masse an und wie sich das am Ende amortisiert, AMD hatte den besten Weg für sich genutzt gehabt. Intel wäre aber auch mit ihren Design immer noch vorne wenn die Fertigung nicht ein Strich durch die Rechnung machen würde.

Am Ende wird sich das Chiplet Design in irgendeiner Form durchsetzen, da die Produktionsschwierigkeiten in Zukunft verstärken wird und es dadurch einfacher ist diese zu handhaben und der Ausschuss flexibler weiter verwendet werden kann.
 
  • Gefällt mir
Reaktionen: Colindo
Colindo schrieb:
Das wäre eher eine Redundanz. Um eine Kohärenz bei Daten zu erreichen, ist nur notwendig, dass alle Shader der GPU die Daten zum gleichen Zeitpunkt erhalten. Es bringt eben wenig, wenn der Rasterizer bereits beim nächsten Frame ist, wenn der Raytracer noch auf den letzten Strahlenflug wartet, weil sich ein Chiplet alle RT-Berechnungen geschnappt hat.
Grafikberechnungen müssen alle gleichzeitig für den gleichen Frame erfolgen, sonst werden die Berechnungen inkohärent
Ich kenne mich mit GPUs nicht so gut aus, verstehe aber etwas von Rechnerarchitekturen. Gehst du davon aus, dass jedes Shaderprogramm dieselben Daten verwendet und es keine Datenabhängigkeiten gibt? Für die Gültigkeit der Berechnung ist es doch unerheblich, zu welchem Zeitpunkt die Recheneinheiten die Daten erhalten? 1+1=2, das ist heute so und auch morgen. Es ist natürlich Ziel, dass die Berechnungen für einen Frame möglichst schnell abgeschlossen werden. Ich vermute, dass es Abhängigkeiten zwischen den einzelnen Berechnungen gibt ... und das Ziel eines (intelligenten) Schedulings wäre es, die Aufgaben so einzuplanen, dass sie möglichst schnell abgearbeitet werden. Im Zusammenhang mit Chiplet-Design bedeutet das meiner Meinung nach: Die Zuordnung der Aufgaben zu den Rechenressourcen erfolgt möglichst so, dass wenig Interchip-Kommunikation nötig ist, damit der Bus nicht unnötigerweise stark belastet wird, was die Perfomance beeinträchtigen könnte.
 
Sephiroth51 schrieb:
Am Ende wird sich das Chiplet Design in irgendeiner Form durchsetzen, da die Produktionsschwierigkeiten in Zukunft verstärken wird und es dadurch einfacher ist diese zu handhaben und der Ausschuss flexibler weiter verwendet werden kann.
Denke ich auch. Mit Chiplets ist AMD einfach deutlich flexibler, was die Cpu Sparte angeht. Man überlege mal wie viele verschiedene Monolithen AMD hätte auflegen müssen, wenn es die Chiplets nicht geben würde:
Auf Sockel am4 mindestens 2 Stück (8C und 16C)
Auf Sockel tr4 mindestens 3 Stück (16, 32, 64)
Und noch für Epyc nochmal 2 oder 3.

Klar kann man die Designs bestimmt noch zusammenfassen, aber das sorgt unweigerlich bei ein paar Varianten für z.b. ungenutzte Pcie Interfaces oder Dram Kanäle. Stattdessen konnte man die Chiplets länger entwickeln, ist flexibler und spart (im Fall von AMD sicher wichtig) auch Manpower.

Bei den GPUs erwarte ich in den nächsten Jahren etwas ähnliches, man entwickelt einen Chip und skaliert so über die verschiedenen Karten. Meist hat die Mittelklasse ja 50% der Shader vom Highend, der Einstieg 25% und die obere Mittelklasse 75%. Da würden sich bis zu 4 Chiplets anbieten :)
 
  • Gefällt mir
Reaktionen: Sephiroth51 und Mcr-King
Gerade deswegen ja SFR (split frame rendering)
Die Idee ist nicht neu und war von 2000 und den Entwicklern von 3dfx ins leben gerufen worden.
Allerdings unter einer eigenen api.
Natürlich kann man schlecht mehrere gpu Blöcke ohne direkten zugriff zu L1/l2 cache je chiplet die daten über dem aktiven interposer schicken das würde eine Latenz bedeuten was bei Echtzeit Berechnungen hinderlich ist
Und somit im schlimmstenfalls zu geringer Auslastung führt.
Wie in meiner Idee bemerkt müsst ein Koordinator also eine cpu dies kombinieren.
Und das mit dem pcie bus zu machen würde Latenz bedeuten neben dem zu langsamen speicherzugriff von ddr4 ~50gb/s vs pcie 32gb/S vs gddr6 bis zu 512gb/s
Das wär am ende langsamer als die ganze Sache über dem Haupt Speicher zu schicken.
Darum ist ja crossfire und sli so ineffektiv und muss von den game engines unterstützt werden.
Den noch immer gilt bei Echtzeit Berechnungen ein cpu masterthread mit drawcalls an die gpu zu liefern
Wenn das eben die cpu selber die sfr verbindet dauert es was und je mehr sfr teile desto länger dauert es.
Das würde aber die Idee hinter mcm gpu zunichte machen.
Daher die Lösung des auf der gpu mit einen co Prozessor zu erledigen nahezu ideal wäre.

Thema apu nun da bietet sich das perfekt an
Hier greift zusätzlich hma (hybrid memory access) und die cpu kann sofort auf die alu der gpu zugreifen und muss nicht den pcie link daten schicken.
Allerdings erfordert das zwangsweise HBM auf der cpu.
Was großartig für laptop und handy ist ist am x86 Desktop server Markt eher suboptimal.

sli crossfire benutzen afr was zu nachweislichen mikroruckler führt und mehr als 2 gpu desto schlimmer wird es. und je weniger wird die einzelne gpu ausgelastet.
 
  • Gefällt mir
Reaktionen: Mcr-King
Tzk schrieb:
Denke ich auch. Mit Chiplets ist AMD einfach deutlich flexibler, was die Cpu Sparte angeht. Man überlege mal wie viele verschiedene Monolithen AMD hätte auflegen müssen, wenn es die Chiplets nicht geben würde:
Auf Sockel am4 mindestens 2 Stück (8C und 16C)
Auf Sockel tr4 mindestens 3 Stück (16, 32, 64)
Und noch für Epyc nochmal 2 oder 3.
Es ging gar nicht darum ob Chiplets sinnvoll sind, sondern ob sie die Kosten für kleine 8 Kern CPUs senken. Es ist also genau ein Design mehr.
Ergänzung ()

Tzk schrieb:
Klar kann man die Designs bestimmt noch zusammenfassen, aber das sorgt unweigerlich bei ein paar Varianten für z.b. ungenutzte Pcie Interfaces oder Dram Kanäle. Stattdessen konnte man die Chiplets länger entwickeln, ist flexibler und spart (im Fall von AMD sicher wichtig) auch Manpower.
IO steckt im IO Die. AMD hat jetzt aktuell ungenutzte PCIe und DRAM-Kanäle.
 
  • Gefällt mir
Reaktionen: Mcr-King
Bei Zen2/3 ist der Grundgedanke an den Chiplets ja, dass man die ganze IO Logik, die sowieso keine 7nm Fertigung braucht in einem älteren und billigeren Prozess fertigen kann und die Rechenlogik, Caches etc. dann in 7nm. Das mit den kleineren DIEs ist eher ein positiver Nebeneffekt aber alleine deswegen würde man es denke ich nicht machen.
Bei einer GPU ist mir noch etwas unklar, was das bringen soll. Vielleicht will man in Zukunft früher auf neuere Fertigungstechnologien setzen während diese noch keine großen DIEs fertigen können. Ob sich das kostenmäßig jedoch lohnt würde ich in der jetzigen Situation eher bezweifeln, nicht so sehr wegen den Chipletkosten sondern wegen der neuen Fertigung an sich. Ich denke das Patent geht in die Richtung "patentieren wir es jetzt, vielleicht brauchen wir es ja irgendwann mal".
 
  • Gefällt mir
Reaktionen: Mcr-King
gartenriese schrieb:
Da Intel und Nvidia auch den Chiplet-Ansatz verfolgen, macht es nur Sinn, dass AMD das genauso macht. Wird vermutlich die Zukunft sein.
Irgendwie musst du in der Vergangenheit was falsch mit bekommen haben. Der einzige der drei Genannten der Chiplets produziert ist AMD. Also es macht Sinn das die anderen Beiden in Zukunft auch in diese Richtung gehen werden. Denn die Vorteile stellt AMD beeindruckend unter Beweis....
Nichts für Ungut.. Aber es so hinzustellen als wenn AMD dem Ganzen hinter her läuft sind - Fake News
Ergänzung ()

Colindo schrieb:
Finde es beeindruckend, dass das Patent erst Juni 2019 eingereicht wurde. In der Community wurde diese Idee ja bereits seit 2017 diskutiert, aber besonders seit Zen2 hoch gehandelt.

Jetzt sieht man, wie schwierig es gewesen sein muss, überhaupt einen patentierbaren Ansatz zu erforschen.
Das muss es nicht zwangsläufig gewesen sein. Auch aus taktischer Sicht kann man auch erst spät ein Patent einreichen. A) kostet es Geld und B) lässt man ja auch ein Stück die Hosen runter.. Die Konkurrenz kann sich das ja auch anschauen... Und zu früh will man der ja nicht auf den Gaul helfen...
Ergänzung ()

pipip schrieb:
Wie war das, HBM war ja so eine "Fehlinvestition" seitens AMD...

Egal. Meiner Meinung nach, geht es hier bei der Arch um Workloads zu ermöglichen, die Echtzeit passiert. Das typische Beispiel ist Gaming und wird ja auch bei RDNA seitens AMD beworben.
Ganz ehrlich ich verstehe rein technisch auch noch nicht wirklich wo die Probleme sind. Gerade die Aussage das verteilen der Parallelen Arbeit - Hä? Wie jetzt - das müsste doch gerade bei Bildern "einfach" sein... Jedes Chiplet rendert ne Kachel im Bild (ähnlich wie im Cinema Benchmark) - erst das fertige Bild kommt zur Ausgabe..
Gerade auch bei Games könnte man auch Chiplet 1 rendert Bild 1 während Chiplet 2 Bild 2 rendert usw.
Eine GPU aus mehreren Chiplets würde zukünftig nicht eben nur ein Frame rendern sondern recht viele - und erst wenn der Stream an Bildern fertig ist wird er ausgegeben... (ja im Detail muss das höllisch schnell usw. Passieren - vielleicht ist das die Schwierigkeit) aber immerhin ist es ja ein Problem das sich parallelisieren lässt..
Ergänzung ()

estros schrieb:
Wie ich das verstanden habe, möchte AMD (ganze) GPUs als Chiplets produzieren. Anders als bei den CPUs, bei denen Teile der CPU (die I/O- und 8-Kern-Einheit) gesondert ausgeführt ist. Das hätte ich in diesem Zusammenhang erwartet. So wär es jedoch eine Dual GPU auf einem Package. Geht vermutlich nicht anders, insbesondere bei der Echtzeitberechnung.
Ich verstehe deinen Einwand nicht. Generell wird AMD und alle anderen die daran forschen nur das nach draußen verlagern was Sinn macht. By the way im Schaubild steht der Vram zentral zur Verfügung (eine Art IO könnte es also durchaus geben)
Aber selbst wenn nicht - es hört sich so an das du das dann als "schlechtere" Lösung ansiehst - wieso?
Das Chiplet Design wird trotzdem seine Stärken ausspielen können. Relativ günstig GPU Chiplets weil "kleiner" Chip - aber man kann ein komplettes GPU Portfolio mit bestreiten. Also große Kostenersparnis (ok laut AMD ist das drum herum um das zum Laufen zu bekommen noch zu teuer)... Sehr gute zweitverweetung wenn ein Chiplet einen gewissen Takt nicht gehen kann kommt es halt auf die Midrange oder gar Budget GPU..
Ergänzung ()

SoDaTierchen schrieb:
Viele Chiplets sind übrigens nur dann günstiger als ein monolithischer Chip, wenn der monolithische Chip entweder sehr viel Wafer-Fläche beansprucht (Geometrie) oder der Ausschuss Recht hoch ist. Preislich werden Chiplet-GPUs also eher Richtung High End laufen
Dem würde ich widersprechen. Deine Sichtweise ist zu beschränkt. AMD ist Fertiger und will möglichst ein Vollsortiment bringen. Stand heute sind da 3-4 monolitisch Designs nötig. Die Entwicklung dieser kostet einen Haufen Geld - auch die Masken etc.. Hinzu kommt das wenn so ein Chip nicht performt nur beschränkt die Möglichkeit der Zweitverwertung besteht..
Zen macht es doch vor. Von Highend bis Budget alles möglich...
Die Komplexität des Chips macht Ihn teuer (fehlt in deiner Aufzählung). Die 64 Kerne bei Zen die wir sehen wären im Monolithischen Design meiner Meinung nach deutlich teurer..
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Mcr-King
Novasun schrieb:
Dem würde ich widersprechen. Deine Sichtweise ist zu beschränkt
Dein Widerspruch ist leider nicht nachvollziehbar, da du mein Argument nimmst, um das Gegenteil zu behaupten. Ich habe sogar in dem von dir zitieren Bereich von Ausschuss als Argument gegen monolithische Designs gesprochen.

Was du übrigens gar nicht bedenkst: Chiplet-Designs müssen das gleiche können wie monolithische Chips. Verwaltungsfunktionen werden auf einen dedizierten Chip ausgelagert, der einen zusätzlichen Fertigungsschritt und zusätzliche Forschung bedeutet. Außerdem ist die Kommunikation der Chiplets untereinander enorm kompliziert und teuer, besonders in der Entwicklung, da hier nicht mehr einfach direkt verdrahtet werden kann.

Chiplets sind per se nur unter Randbedingungen günstiger. Aber Chiplets können Skalierungsprobleme günstiger lösen. Chiplets sind dann sinnvoll, wenn ein monolithischen Chip zu teuer wird. Chiplets sind nicht grundsätzlich die bessere Lösung, wie du es hier darstellen möchtest. Deine Sichtweise ist leider zu beschränkt.
 
SoDaTierchen schrieb:
Chiplets sind nicht grundsätzlich die bessere Lösung
Das ist richtig. Chiplets sind nicht das Allerheilmittel, allerdings funktioniert das bei AMDs aktuellen Lösungen bestens. Die Skalierung bei TR und Epic liegen ja auf der Hand. Bei Ryzen hat man den Vorteil dadurch genommen, dass man die IO-Sektion im billigeren Verfahren herstellt und dadurch nur die Chiplets im teureren 7nm fertigen lässt. Dazu kommt dann noch die Skalierung zum 16-Kerner dazu und auch der Punkt, dass das gleiche Chiplet bei Ryzen, TR und Epic verwendet wird (Chiplet wegen TR und Epic eh notwendig, also Synergieeffekt bei Ryzen non APU) Das zusammen macht es lohnenswert, wohingegen Renoir monolitisch ist, um Vorteile bei der Effizienz zu nutzen und die Skalierung auf 16 Kerne nicht vorhanden ist. Bei der Größe allein lohnt sich ein Chiplet-Design nicht wirklich. Dazu kommt noch der Anspruch Richtung ULV.

Kleine GPUs werden wohl kaum auf Chiplet-Design setzen genauso wie es bei kleinen CPUs/APUs der Fall sein wird. Wäre AMD beim Mainstream-Zen bei maximal 8 Kernen geblieben, hätte es sein können, dass dann weiter auf ein monolithisches Design gesetzt werder würde, trotz der Verfügbarkeit des Chiplets dafür. Könnte nämlich dann irgendwo an der Grenze zwischen Monolith-lohnt-sich und Chiplet-lohnt-sich sein.
 
  • Gefällt mir
Reaktionen: SoDaTierchen
Novasun schrieb:
---Vollzitat entfernt---
bitte Zitierhinweise beachten
Vermutlich weil es Abhängigkeiten zwischen den "Kacheln" gibt. Stell dir vor, du willst eine reflektierende Oberfläche rendern. Dann musst du ggf. auch die Umgebung berücksichtigen.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: ThePlayer, bensen und Colindo
foxio schrieb:
Ich kenne mich mit GPUs nicht so gut aus, verstehe aber etwas von Rechnerarchitekturen.
Ich bin auch kein Experte auf dem Gebiet und wollte nur den Begriff der Kohärenz erklären. Schließlich nennt AMD diesen im Paper als besondere Herausforderung bei der Verteilung der Rechenarbeit. Wie du direkt über mir sagst, muss eine Kachel, die eine reflektierende Oberfläche hat, die richtigen Daten bekommen, um die Reflexion darzustellen.
Allerdings war mein Erklärungsansatz mit der zeitlichen Komponente inkorrekt. Wie der Wikipedia-Artikel erläutert, geht es darum, dass die Daten richtig zugeordnet werden, damit das Chiplet bei Anforderung der reflektierten Daten auch die richtigen aus den jeweiligen Caches bekommt.
bensen schrieb:
IO steckt im IO Die. AMD hat jetzt aktuell ungenutzte PCIe und DRAM-Kanäle.
Die ungenutzten Ressourcen, die brach liegen, sind bei AMD aber sehr klein. Ich denke mal du spielst auf den TR-I/O-Die an, der 8 RAM-Kanäle bieten würde, aber es werden nur 4 genutzt? Der Consumer-I/O-Die ist ja ein anderer, der nur die genutzten Funktionen bietet.
 
  • Gefällt mir
Reaktionen: Mcr-King
Zurück
Oben