News AMD Ryzen und Epyc mit Zen 6(c): Gerüchte zu Medusa Ridge, Point, Halo und Epyc „Venice“

@LamaMitHut da gilt im Prinzip das gleiche... Physisch den Cache vergrößern macht ihn langsamer, wodurch er dann halt weniger Mehrwert bringt. Generell gilt, mehr Cache gilt natürlich immer, aber verglichen mit Logik braucht er enorm viel Platz und wird teuer. Solche Maßnahmen lohnen daher nicht unbedingt.
 
  • Gefällt mir
Reaktionen: LamaMitHut
stefan92x schrieb:
@SaschaHa das sind alles gute Ausführungen, denen ich auch so zustimmen würde. Du bist allerdings auf eine Option nicht eingegangen: 3D-Cache. Es gibt nunmal Anwendungen, die enorm von Cache profitieren, andere hingegen weniger (erst recht, wenn der IF schneller/IOD besser wird).

Da wir bei Zen 5 praktisch keinen Nachteil mehr durch den 3D-Cache haben, sondern nur noch Vorteile, kann ich mir gut vorstellen, dass AMD da einfach auch stärker drauf setzen könnte. Also CCD mit begrenzt großem Cache in N3P, aber Option auf deutlich mehr Cache (in günstigerem Node) für die, die es brauchen.
Wenn AMD Zen 6/7 in N3P bzw. 2nm herstellt, darunter dann 1-2 dünne Wafer mit 64 MB SRAM in 4nm Technik.
Zu thin X3D: youtube 'ZEN 5 has a 3D V-Cache Secret'

Oben sitzen dann 8* Zen 6 plus 4* Zen 6c und später 8* Zen 7 plus 8* Zen 7c,
Letzterer vielleicht in 2* 4 Zen 7c mit shared L2 4MB plus beim Zen 7 dann 2 MB L2 je Core und das 2-fach.

Beim Zen 6 wären dann 1* DIE mit 64 MB SRAM darunter, ggf. bei den kleinen Modell nur 48 MB aktiviert. Dazu Varianten 2* SRAM DIE, also 128 MB L3 für Gamer und EPIC.

4nm wird auch beim I/O Chip (Mitte 2025 ?) selbst für Zen5 interessant, erhöht die mögliche DRAM-Anbindung. Möglicherweise ähnlich zu Krackan Point, also mit 8* CU und AI Funktionen.
Mitte 2025 ein 9700G mit Oktacore - Zen 5, RDNA 3,5 GPU und AI wäre eine interessante Ergänzung im Desktop, oder?

Der Zen 6 würde den gleichen I/O Chip in 4nm erhalten, dazu nochmals 4nm unter dem CPU-Chiplet.
Ergänzung ()

ETI1120 schrieb:
N3P bringt im Vergleich zu N3E 5 % mehr Performance bei gleicher Power oder 5 bis 10 % weniger Power bei gleicher Performance. Und zusätzlich ca. 4 % höhere Dichte.
Zen 5 hat aber 4nm, der Umstieg auf 3nm bringt zusätzlich was.
Apple nutzt noch N3E, steigt aber Mitte 2025 auf 2nm um.
AMD kann also gleich mit dem aktuellen N3P starten - Waferstart in H2'2024 lt. TSMC (nicht AMD Zen 6)
ETI1120 schrieb:
Privater L2, geteilter L3 hat sich bewährt. Was sollte der Grund sein dies zu ändern?
AMD hat seit der PS4 Kombinationen aus 4* Jaguar-Core und shared L2 à 2 MB bis 2,1 GHz im Verkauf.
Bei Desktop-Client und Notebook diesen die 'c' Cores aber nur der sparsamen Versorgung mit Rechenpower nahe IDLE, ansonsten übernehmen die big Cores.
Keep it simple...
ETI1120 schrieb:
Wenn AMD in der Lage sein sollte bei Zen 6 den L3 Cache komplett auf einen anderen Die zu verschieben, wieso nur den L3 Cache verschieben?
https://www.computerbase.de/news/pr...hots-zeigen-ueberraschende-aenderungen.89869/

Der L3 nimmt viel mehr Fläche ein als der L2, selbst aufgebohrt auf 1,5 MB je Core - wenn AMD es so angeht.
Da würden selbst 96 MB L3 in 4nm noch unter ein Chiplet in 3nm mit 8* Zen 6 plus 4* Zen 6c geometrisch passen. Beim Cache Chip unten ist etwas knifflig viele Leitungen Stromversorgung an das CPU Chiplet zu bringen, aber bei Zen 5 X3D ja schon gelöst.
 
Zuletzt bearbeitet:
RKCPU schrieb:
AMD hat seit der PS4 Kombinationen aus 4* Jaguar-Core und shared L2 à 2 MB bis 2,1 GHz im Verkauf.
Stimmt, ist aber ja eine völlig andere Architektur. Und deshalb widerspricht diese Idee diesem Wunsch:
RKCPU schrieb:
Keep it simple...
Unterschiedliche Cache-Architekturen innerhalb einer Generation sind nämlich eben nicht simple.
 
  • Gefällt mir
Reaktionen: Deinorius und ETI1120
stefan92x schrieb:
(4* Jaguar-Core )
Stimmt, ist aber ja eine völlig andere Architektur. Und deshalb widerspricht diese Idee diesem Wunsch: Keep it simple
Unter 'AMDs „Medusa“-Reihe von Client-CPUs überspringt RDNA 4 für RDNA 5 iGPUs'
kann man Idee zum Zen 6, 36 CU RDNA 5 mit zusätzlich GDDR7 sehen, wo 4* Zen 6c auf den I/O DIE wanderten.
Da stellte sich klar die Frage ob 4* 1 MB L2 plus 1* 8 MB L3 sinnhaftig wäre. Zumal eher shared Infinity Cache zusammen mit der GPU anstand. Auch beim Zen 7c für Clients und Notebooks ist der Bedarf an Performance darüber mäßig, die sollten IDLE und mäßige Aufgaben bearbeiten.
Beim EPIC muss ich möglichst stark separieren, sind ja häufig unterschiedliche Kunden dann auf eine CPU gelegt.

Die Fertigung wird immer teurer je mm² da sind Einsparungen immer zu betrachten.
 
Nun and könnte ja auch vram für die integrierte gpu in die CPU rein bringen. Das kann man sicherlich auch noch etwa schrinken. Aber das alles halt nicht mehr so stark. Cache dürfte auch nicht mehr so stark verkleinern zu können. Das heißt mehr Speicher werden wir in dem Sinne nicht sehen. Nur wenn die Kerne mehr werden würden pro die dann ja. Das drunter könnte aber zu Hitze stau führen wenn man nicht aufpasst. Von daher ist es bleibt es spannend wie AMD das alles so machen wird. So ist das ja nicht das alles so kalt bleibt. Von daher mal sehen wie AMD das machen wird. ne super Steigerung wird es dennoch nicht. Dafür ist der Sprung bei der Fertigung einfach zu klein.
 
RKCPU schrieb:
Wenn AMD Zen 6/7 in N3P bzw. 2nm herstellt, darunter dann 1-2 dünne Wafer mit 64 MB SRAM in 4nm Technik.
Zu thin X3D: youtube 'ZEN 5 has a 3D V-Cache Secret'

Oben sitzen dann 8* Zen 6 plus 4* Zen 6c und später 8* Zen 7 plus 8* Zen 7c,
Letzterer vielleicht in 2* 4 Zen 7c mit shared L2 4MB plus beim Zen 7 dann 2 MB L2 je Core und das 2-fach.
Wenn AMD den Aufbau eines CCD auf mehrere Wafer verteilen kann, ist den Kern + L2 auf einem Wafer zu behalten und dann mehrere Wafer mit L3 Cache darunter zu verteilen nur eine Option.

IMO gibt es erheblich bessere. Aber wir werden ja sehen was AMD macht. Wenn nicht in Zen 6, dann in Zen 7.
RKCPU schrieb:
4nm wird auch beim I/O Chip (Mitte 2025 ?) selbst für Zen5 interessant, erhöht die mögliche DRAM-Anbindung.
Es ist die Frage was N4P beim IOD tatsächlich bringt. Es hängt ganz davon ab wie der uncore der GPU skaliert.

An der DRAM-Anbindung wird sich dabei wenig ändern, da die durch den Sockel AM5 eingefroren ist. Lediglich durch bessere Memory Controller IP könnte AMD die Taktverträglichgkeit erhöhen.

Das was Zen 6 mit Advanced Packaging bringen könnte, wäre eine breitere Anbindung der CCDs an den IOD. Diese wird vor allem bei den Servern notwendig sein, um die höhere Bandbreite durch MRDIMMs überhaupt ausnützen zu können.

Was bei Ryzen passiert, werden wir sehen. Ein 3D Design wäre eine verrückte Option für Ryzen. Hier würden aber wahrscheinlich die Kühler schlapp machen.
RKCPU schrieb:
Möglicherweise ähnlich zu Krackan Point, also mit 8* CU und AI Funktionen.
Mitte 2025 ein 9700G mit Oktacore - Zen 5, RDNA 3,5 GPU und AI wäre eine interessante Ergänzung im Desktop, oder?
Krackan Point ist wie Strix Point ein Mobilchip. Anbetracht von 16 PCIe anstatt 28 PCIe Lanes stellt sich mir die Frage wie sinnvoll diese APUs für AM5 tatsächlich sind.

Hier wären IMO Mini-ITX oder noch kompaktere Bords (z. B. 4x4) mit aufgelöteter APU und LP2CAMM die erheblich bessere Option.

RKCPU schrieb:
Zen 5 hat aber 4nm, der Umstieg auf 3nm bringt zusätzlich was.
Du hast die dense Kerne erwähnt und im übrigen meine Frage, was ihr volles Potential sein soll, nicht beantwortet.

Das CCD von Zen 5 dense wird mit dem N3E Prozess gefertigt. Also würde es hier mit N3P keinen großen Sprung geben. Ob AMD schon auf N2 geht, werden wir sehen.

Im übrigen bei allen Spekulationen zu Zen 6, gibt es bisher kaum brauchbare Angaben zum Zen 5 dense CCD.

RKCPU schrieb:
Apple nutzt noch N3E, steigt aber Mitte 2025 auf 2nm um.
Das wird aber schwierig, wenn man die aktuelle Kommunikation von TSMC zu N2 ansieht: HVM in der zweiten Jahreshälfte 2025. Das wäre zu spät für das IPhone 17.

Auch die meisten Gerüchte zum Iphone 17 gehen AFAIK davon aus das das SoC mit N3P gefertigt wird.

Mit HVM in der 2. Jahreshälfte 2025, bedeutet, dass die ersten Produkte mit N2 erst 2026 auf den Markt kommen.

Wie es tatsächlich aussieht wird man im Verlauf der ersten Jahreshälfte 2025 besser abschätzen können.

RKCPU schrieb:
AMD hat seit der PS4 Kombinationen aus 4* Jaguar-Core und shared L2 à 2 MB bis 2,1 GHz im Verkauf.
Die low power Kerne hat AMD schon 2015 eingestellt. Noch bevor Zen draußen war.

Wieso sollte AMD ein Konzept aus alten low power Cores für general purpose Cores übernehmen?

Wenn an dem Gerücht etwas dran sein sollte, dass AMD low power Zen 5 Cores entwickelt, dann ergibt ein shared L2 Cache allenfalls für diese Cores Sinn .
RKCPU schrieb:
Bei Desktop-Client und Notebook diesen die 'c' Cores aber nur der sparsamen Versorgung mit Rechenpower nahe IDLE, ansonsten übernehmen die big Cores.
Das Problem bei den Desktop Ryzen ist komplexer. Die dense Cores auf dem CCD mit ansonsten gleicher Architektur und Firmware würden praktisch nichts daran ändern.

Wenn AMD beim Desktop den Verbrauch bei niedriger Last deutlich senken will muss IMO die Firmware mehr Einheiten ausschalten. Idealerweise die kompletten CCDs samt IF Links. So dass nur noch Teile des IODs in Betrieb sind.

Hier sind wir wieder bei einem Cluster von LP Cores auf dem IOD. So wie es einige Gerüchte für Strix Halo behaupten.

Aber um wirklich geringen Verbrauch bei niedriger Last zu erreichen, führt nichts an Notebooktechnik inklusive LPDDR vorbei.
RKCPU schrieb:
Keep it simple...
Oder frei nach Einstein, so einfach wie möglich aber eben nicht noch einfacher.

Du macht es Dir viel zu einfach. es geht nicht nur um Kerne und L3 Cache.
RKCPU schrieb:
Der L3 nimmt viel mehr Fläche ein als der L2, selbst aufgebohrt auf 1,5 MB je Core - wenn AMD es so angeht.
@stefan92x hat den kritischen Punkt genannt: Man kann einen Cache nicht beliebig vergrößern, ohne die Zugriffszeit zu verschlechtern. Deshalb ist der Cache mehrstufig und als als Pyramide konzipiert.
  • Je näher zum Kern desto schneller muss der cache sein (Latenz)
  • Je weiter weg vom Kern desto größer kann man den Cache machen (Kosten).
Ben Dicken hat auf Twitter ein richtig coole Animation gestellt.
https://x.com/BenjDicken/status/1847310000735330344

RKCPU schrieb:
Da würden selbst 96 MB L3 in 4nm noch unter ein Chiplet in 3nm mit 8* Zen 6 plus 4* Zen 6c geometrisch passen.
Weißt Du wie groß die Zen 6 Kerne werden?

Die Frage ist eigentlich viel eher, falls AMD bei Zen 6 das CCD auf verschiedene Dies verteilen kann, wird es überhaupt noch eine solche Angabe geben?

1734179958314.png

Sam Naffziger 2021 auf der DAC

Sam Naffziger et. al. im Patentantrag US 2024/0324247 A1 "Die Pair Device Partitioning":

Neither of these paired nodes contain the full set of optimized devices required for a new process node, but they do so as a pair. This approach enables an “advanced” version of the process pair to include (e.g., principally or exclusively) logic transistors that are manufactured in isolation and optimized purely to improve the performance and power efficiency of logic without the compromises needed to support devices and/or feature sets of the integrated circuit (e.g., static random access memory (SRAM) and analog devices) that would compromise performance of the logic transistors. The SRAM and analog devices, plus less optimized logic devices, can be implemented (e.g., principally or exclusively) in a “pair” technology node that is also manufactured in isolation and then 3D bonded to the advanced node. The combination of the advanced and pair node in a 3D hybrid bonded configuration can deliver a much higher performing, more efficient (e.g., for logic which is the most important contributor to technology node gains), and fully functional (e.g., SRAM and analog) technology node for a SoC design.

[0031] Benefits obtained from the above results can include avoiding the manufacturing compromises required to balance a process optimization window delivering the full suite of analog, SRAM, and logic devices in an advanced technology node. The advanced node can focus (e.g., principally or exclusively) on optimizing the logic devices.

These logic devices are the most important contributors to performance and performance/Watt. Additionally, the combination of the node pairs can provide a denser, higher performance, and more power efficient technology than a one-size-fits-all technology node with all devices in a single FEOL.

Die Frage, die mich viel mehr als alle Spekulationen über die Anzahl der Kerne und die Größe des L3 Caches interessiert, ist wann AMD WoW Hybrid Bonding verwenden kann und wie fein initial die Unterteilung werden kann.

Herumspekulieren welche Konfigurationen was bringen, verkneife ich mir, da ich als Laie keine Vorstellung davon habe, was umsetzbar ist und was nicht, bzw was die Auswirkungen sind.

Das oben ist einer von 5 Patentanträgen, die sich die Zeichnungen und große Teile des Texts teilen. Es ist also nicht nur eine Idee, sondern ein Konzept in das AMD Zeit und Aufwand investiert hat. Einige Aspekte wie Backside Power Distribution Network stehen frühestens mit A16, also besten falls Zen 7 bereit.

Der Kern der ganzen Sache ist aber wann WoW Hybrid Bonding und mit welche Fehlerrate für die HVM bereit steht.

stefan92x schrieb:
Stimmt, ist aber ja eine völlig andere Architektur. Und deshalb widerspricht diese Idee diesem Wunsch:
Wie schon oben erwähnt für LP Kerne könnte diese Konfiguration einen Sinn ergeben, aber nicht für die General Purpose Kerne.
stefan92x schrieb:
Unterschiedliche Cache-Architekturen innerhalb einer Generation sind nämlich eben nicht simple.
Genau.

Ganz davon abgesehen hat AMD über mehrere Generationen im Grunde nichts an dieser Cache-Architektur geändert. Lediglich die Fortschritte der Prozesse genützt, um die einzeln Caches zu vergrößern oder die Anbindung zu verbreitern.

RKCPU schrieb:
Unter 'AMDs „Medusa“-Reihe von Client-CPUs überspringt RDNA 4 für RDNA 5 iGPUs'
Ich habe von AMD noch nichts dazu gehört.
Viel interessanter ist die Frage ob und wann die Xilinx IP in die Decoder der CPUs und GPUs einfließt.

Bevor wir spekulieren wie ein potentieller Nachfolger von Strix Halo aussieht, warten wir doch besser ab, was Strix Halo den tatsächlich ist. Es ist ja nicht mehr lange bis zur CES.

RKCPU schrieb:
Die Fertigung wird immer teurer je mm² da sind Einsparungen immer zu betrachten.
Ich bin davon überzeugt die Ingenieure von AMD finden Antworten. Fallen diese Antworten so aus, wie Du es Dir vorstellst?
 
  • Gefällt mir
Reaktionen: Deinorius
ETI1120 schrieb:
Ich bin davon überzeugt die Ingenieure von AMD finden Antworten.
Fallen diese Antworten so aus, wie Du es Dir vorstellst?
Hallo ETI1120,

danke für die sehr ausführlichen Antwort.

Unter youtube 'ZEN 5 has a 3D V-Cache Secret' mit Hybrid Bonding und neu vor 2 Wochen 'Why Hybrid Bonding is the Future of Packaging' mit thinned 3D Cache unten.
Es müsste für AMD also nicht bei einem 3D SRAM Chip enden.

Was beim Zen 6 möglich wäre - und die Gerüchte grob abdeckt:
  • 8* Zen 6 plus L3 in N3E oder N3P = wie gewohnt ODER
  • 8* Zen 6 ohne L3 plus 4* Zen 6c plus thinned L3 unten ab 48 MB
  • 16 * Zen 6 ohne L3 in eher N3P und thinned L3 unten um 64-96 MB
  • 32 * Zen 6c ohne L3 und in 2nm, dazu thinned L3 unten ab 64 MB

Ein 'klassisches' 8* Zen 6 Chiplet und bei X3D gestapelt mit 96 MB L3,
der baugleich zu EPIC unter 16 Core Zen 6, wäre wohl die beste Synergie für beide Zielgruppen.

ETI1120 schrieb:
Es ist die Frage was N4P beim IOD tatsächlich bringt.
AMD fehlt eine (große) AI Unit in der Chiplet - Produktreihe.
https://www.computerbase.de/news/pr...nd-in-arbeit-am5-koennte-laenger-leben.88887/

Zudem sind 2* CU RDNA 2 veraltet, 4* CU RDNA 3.5 gibt's bereits beim Ryzen 8500G:
https://www.computerbase.de/news/pr...u-erblickt-heimlich-das-licht-der-welt.85456/

Klar hier die Zen4c, aber dort mal 4* Zen4c plus 4 MB L3 im Vergleich zu 4* Zen 4C mit shared L2 4 MB betrachtet spart deutlich Silicium-Fläche und würde mit einem Oktacore Chiplet gut harmonieren.
Einstieg wären dann 6* Zen 6 plus 4* Zen 6c Costumer, dann Oktacores plus Zen 6c in der I/O Unit.

Der 'alte' 6nm I/O wäre dann noch für ?700, ?800X3D und ?900X3D und ?950X3D interessant.
ggf. reicht es dann für AI viele CPU-Power ?!
Vielleicht noch OEM-Versionen 9600, die mit Grafikkarte verkauft werden.

AM5 hat mit 128 Bit DDR5 Limits, da ist 8* Zen * plus 4* Zen *c und Budget DRAMs vernünftiges Limit.
Bei Games kompensiert ja der X3D die begrenzte Bandbreite gut, egal ob DDR4 auf AM4 oder eben DDR5 auf AM5.

Das mal kurz Anmerkungen zu den vielen Details aus Deinem Beitrag.
 
RKCPU schrieb:
Unter youtube 'ZEN 5 has a 3D V-Cache Secret' mit Hybrid Bonding und neu vor 2 Wochen 'Why Hybrid Bonding is the Future of Packaging' mit thinned 3D Cache unten.
Dass Hybrid Bonding die Zukunft ist, ist schon sehr lange klar. Das hat z. B. Sam Naffziger in seinem Vortrag bei der DAC im November 2021 unmissverständlich klar gemacht.

Wenn ich mir die neusten Produkte und Patentanträge anschaue, dann hat AMD beim Advanced Packaging den Fokus gewechselt:
  • Mit der MI200 ist AMD vom einem Silizium Interposer auf EFB gewechselt. EFB ist eine Siliziumbrücke, die in ein Fanout eingebettet ist.
  • Es gab viele Patentanträge von AMD zu Fanout.
  • Es gab viele Patentanträge von AMD zu aktiven Dies, die als Brücke per Hybrid Bonding zwei Basis Dies verbinden.
  • Bei fast allen Patentanträgen mit Die Stacking, waren die Dies mit dem höchsten Verbrauch unten.
  • Die MI300 ging eine ganz andere Richtung
    • Die MI300 ist von EFB wieder zurück auf einen Silizium Interposer gewechselt.
    • Die Dies mit dem höchsten Verbrauch sind oben.
    • Bei der MI300 werden 2 XCD Dies bzw 3 CCDs auf einem Activ Interposer Die (AID) platziert. Dabei füllen die beiden XCD bzw. die 3 CCDs die Fläche des AID aus.
  • Im September wurden 5 Patentanträge zu 3D Die Stacking publiziert
    • Sie zeigen wie mit Hybrid Bonding Chipstacks erstellt werden.
      • Eine Basistechnologie die notwendig ist um das umzusetzen, ist Hybrid Bonding Wafer on Wafer (WoW). Dabei werden nicht einzelne Die per Hybrid Bonding verbunden, sondern komplette Wafer.
      • Eine andere erforderliche Basistechnologie sind Nano TSVs. D. h. TSV mit einem Pitch der kleiner ist als 1 µm.
      • Das Verwenden von Backside Power Distribution Networks ist eine Option.
    • Die Brücken sind bis auf eine obskure Ausnahme als AIDs ausgeführt. Die AIDs sind natürlich unten, unmittelbar über dem organischen Substrat.
    • Die Dies mit der höchsten Wärmeerzeugung sind in allen Beispielen ganz oben.
    • Es gibt mehrere Konzepte wie die Power nach oben gebracht wird.
    • Wann setzt es AMD um? Keine Ahnung. Wie gesagt deuten 5 gestellte Patentanträge und 12 vorläufige Patentanträge auf die verwiesen wurde auf größere Anstrengungen in diese Richtung hin.
    • Die Frage ist IMO wann Hybrid Bonding WoW zur Verfügung steht, Zen 6, Zen 7 oder erst Zen 8?
    • Wie auch immer, ohne Hybrid Bonding WoW wäre das komplette Herauslösen des L3 aus dem CCD zu teuer.
  • Interposer Glaskern
    • Es gibt inzwischen 2 Patenanträge (der erste ist inzwischen ein Patent) zu Interposern mit Glaskern.
    • Es tauchen auch Gerüchte auf, dass AMD auf Interposer mit Glaskern wechselt.
Warum gab es diesen Richtungswechsel?

Eines der Probleme von Fanout und organischen Interposern ist die geringe Verwindungssteifigkeit. Je kleiner der Pitch und je größer die resultierenden Chhips, desto problematischer sind Verzug und Verwindung.

Die Kerne unten im Package zu haben, funktioniert nur dann, wenn man die Fläche über den Kernen frei hält. Dies sorgt aber für eine starke Begrenzung der für Die stacking verfügbaren Fläche.

Interposer mit Glaskern sind sehr steif und eignen sich damit hervorragend als Träger für Dies mit kleinem Pitch. Eine Herausforderung ist allerdings die Bruchempfinglichkeit von Glas. Hier sind Schäden und unerwünschte Spannungen aus dem Herstellungsprozess kritisch.

Die Montage von Dies auf eine starre Fläche (Interposer) ist viel einfacher als mehrere Dies in zwei Ebenen miteinender zu verbinden. Selbst wenn man die untere Ebene fixiert, ergeben sich mehr Abweichungen als bei einem Interposer der aus einem Stück gefertigt wird.

RKCPU schrieb:
Es müsste für AMD also nicht bei einem 3D SRAM Chip enden.
Wir sind doch längst darüber hinaus wie es die MI300 zeigt.
Bis Zen 6 kommt, vergeht noch mehr als ein Jahr.

Schauen wir Mal was die MI350 bringt.

RKCPU schrieb:
Ein 'klassisches' 8* Zen 6 Chiplet und bei X3D gestapelt mit 96 MB L3,
der baugleich zu EPIC unter 16 Core Zen 6, wäre wohl die beste Synergie für beide Zielgruppen.
Wenn AMD die Anzahl der Kerne bei EPYC weiter erhöhen will, wird dies mit CCDs mit 8 Kernen immer aufwändiger. Hier sehe ich den Druck die Anzahl der Kerne je CCD zu erhöhen. Nicht bei den Ryzen.

AMD benötigt ein Chiplet mit 8 Kernen für den Desktop. 6 und 8 Kerne ausschließlich mit umgewidmete Mobilchips abzudecken, ist nur ein Kompromiß.

In dem Moment in dem 3D-Stacking mit Wafer on Wafer umsetzbar ist, werden die Karten vollkommen neu gemischt. IMO bringt das erheblich mehr Änderungen als damals Zen 2.

Das gilt für die CCDs und noch viel mehr für die bisher monolithischen APUs.
Bei den APUs belegen die IO-Funktionen ein beträchtlichen Teil des Dies. Hier gibt es viel mehr Potential für einen mehrschichtigen Aufbau. Außerdem ist das Powerbudget kleiner, was die Herausforderungen bei der Zufuhr von Power und der Abfuhr der Wärme schrumpfen lassen.

RKCPU schrieb:
AMD fehlt eine (große) AI Unit in der Chiplet - Produktreihe.
Fehlt der wirklich?

1734291645793.png

Victor Peng AMD FAD 2022

Beim FAD 2022 hatte ich den Eindruck, dass AMD mit der XDNA-NPU für die APUs, Ryzen und EPYC plant, also überall. Entweder hat mein Eindruck getäuscht oder AMD hat die Pläne geändert.

David McAfee hat in einem Interview im Sommer 2023 gesagt, dass eine NPU im Desktop nicht erforderlich ist, weil beim Powerbudget des Desktops die dGPU alle AI-Aufgaben übernehmen kann. Von der Rechenleistung her, sehen die NPUs gegen die Midrange Nvidia GPUs kein Land. Bei den AMD GPUs ist es nicht so extrem, weil diesen die Matrixkerne fehlen.

Es ist natürlich klar, dass David McAfee im Sommer 2023 so etwas sagt, wenn Ryzen 7000 keine NPU hat. Aber nun haben wir Ende 2024 und AMD hat auch bei Ryzen 9000 auf die NPU verzichtet.

RKCPU schrieb:
Zudem sind 2* CU RDNA 2 veraltet, 4* CU RDNA 3.5 gibt's bereits beim Ryzen 8500G:
Die beiden CUs sind nur vorhanden, damit der Rest der GPU, d.h Bildausgabe und Decoder, funktioniert.

Bei den Desktop-CPUs mehr CUs einzubauen ist die reine Verschwendung. Für Office PCs reicht die bisherige iGPU dicke. Wer sich für eine große iGPU interessiert holt sich eine APU. Wer viel Grafikleistung braucht, baut so oder so eine Grafikkarte ein.

RKCPU schrieb:
Der 'alte' 6nm I/O wäre dann noch für ?700, ?800X3D und ?900X3D und ?950X3D interessant.
ggf. reicht es dann für AI viele CPU-Power ?!
Es ist auf alle Fälle ein neues IOD fällig, wenn AMD auf Advanced Packaging wechselt.
Die Frage ist, muss es N4P sein oder genügt nicht auch N6. Eine NPU und größere GPU wären Argumente für NP4. Aber wie gesagt bei beiden stellt sich die Frage, ob beides für die CPUs sinnvoll ist.
Wenn man sich den IOD anschaut dann fällt eben auf wie viel Fläche der Uncore der GPU (Decoder etc.) einnimmt. Wenn das mit N4P skaliert, könnte sich N4P lohnen.

Wird das IOD dieselben Funktionen haben, wenn AMD CCDs und APUs komplett neu gestalten sollte?

RKCPU schrieb:
AM5 hat mit 128 Bit DDR5 Limits, da ist 8* Zen * plus 4* Zen *c und Budget DRAMs vernünftiges Limit.
David McAfee hat sich ziemlich zurückhaltend bzw. eher ablehnend zu dense Kernen im Desktop geäußert.

Ich sehe nur keine Gründe dafür dense Kerne im Desktop zu verwenden. Gerade beim Desktop mit seinen sehr hohen Frequenzen macht sich der Nachteil der niedrigen Frequenzen der dense Kerne bemerkbar.

RKCPU schrieb:
Bei Games kompensiert ja der X3D die begrenzte Bandbreite gut, egal ob DDR4 auf AM4 oder eben DDR5 auf AM5.
Die Frage ist, welche Bandbreite das Speicherinterface zum Hauptspeicher haben müsste, damit eine Non-X3D CPUs dieselbe Game-Performance erreicht, wie die entsprechende X3D Variante.

Dem 7700XT hat DDR5 SDRAM und erheblich mehr CPU-Takt nicht geholfen um am 5800X3D mit DDR4 vorbeizukommen. Wobei sich der Sweetspot beim SDRAM von 3600 MT/s bei AM4 auf 6000 MT/s bei AM5 erhöht hat.

Wenn ich es richtig verstehe hebeln die Games mit ihren "wilden" Speicherzugriffen, die meisten Mechanismen aus, mit denen der Zugriff auf den Hauptspeicher beschleunigt wird.

CUDIMM bringt erheblich höhere Transferraten, also muss AMD den Sweetspot massiv anheben. Und dann steht auch erheblich mehr Bandbreite zur Verfügung. Es sollte für 24 Zen 6 Cores reichen.
Ob die nun über 2 x 12 wie es MLID sagt oder 3 x 8 erreicht werden, spielt für die Bandbreite keine Rolle.
 
Zurück
Oben