News AMD Zen 5: Hochauflösende Die-Shots zeigen überraschende Änderungen

davidzo schrieb:
Btw, bei Anandtech und 3Dcenter wird schon spekuliert dass diesmal der Cache unter dem Chip untergebracht ist:
Wen auch der 3DCenter-Link interessiert:
https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13626054#post13626054
davidzo schrieb:
Das würde thermisch total viel Sinn machen und die fehlende Ansteuerungslogik könnte deshalb in den unteren Layern versteckt sein die bisher nicht fotografiert wurden.
Die nur 9000 vorhandenen TSVs sind also gar keine TSVs sondern wohl nur einfache Power Vias oder ander Strukturen. Die echten TSVs sind auf der Unterseite.

Das macht es aber schwierig die Leistungen vom Infinityfabric sowie die ganzen Power Leitungen durchzuleiten und im Package anzuschließen. Vias dafür im Cache-DIE haben zusätlzlichen elektrischen Widerstand und parasitäre Kapazität. Das würde den Effekt haben dass Zen5x3d pro Takt eher mehr verbraucht als vanilla Zen5, dafür aber ähnlich taktet.
Die größte Frage wäre aber, was das dann für Strix Halo und Turin-X bedeutet. Generell ist Turin-X das, was am meisten Aufschluss bringen sollte. Für dort wäre es enorm attraktiv, wenn AMD es hinbekommen würde, die Kommunikation zwischen den V-Caches der CCDs zu beschleunigen und sei es auch nur die Kommunikation zwischen manchen.

Um nochmal zu dem zurückzukommen, was FritzchensFritz tatsächlich gefunden hat: Der L3-Cache braucht jetzt weniger Fläche. Wahrscheinlich wurde dafür auf Erfahrungen zurückgegriffen, die ursprünglich durch Zen 4C gewonnen wurden. Dass der frühere Trick jetzt immer noch greift, dass das V-Cache-DIE eine höhere Cache-Dichte besitzt als im eigentlichen CCD, ist damit aber wirklich ziemlich vom Tisch. Vielleicht muss es diesmal sogar in einem aktuellen Verfahren gefertigt werden und N7 reicht nicht mehr aus.
 
  • Gefällt mir
Reaktionen: konkretor und Gortha
Ich find solche Die-Shots immer faszinierend. Zum einen, weil sie einen Blick auf den eigentlichen Chip ermöglichen, um zu sehen, was da so drauf ist und wie diese einzelnen Bereiche angeordnet sind und zum anderen, weil sie einfach wunderschön aussehen. ^^
 
  • Gefällt mir
Reaktionen: Sherman789, konkretor und Icke-ffm
davidzo schrieb:
Genau, der CPU-DIE wird abgeschliffen, dann kommt der Cache-DIE drauf und wird gebondet. Das was man sieht ist dann nicht mehr der Wafer vom CPU-DIE wie sonst sondern der Wafer vom Cache-DIE.
Das suggerieren zwar die ganzen Hochglanzbilder, die das AMD Marketing verbreitet, ist aber falsch.

Den richtigen Aufbau hat AMD in einer Vielzahl von Patenten beschrieben und in den Vorträgen zum 3D V-Cache auf der ISSCC 2022 und Hot Chips 2022 gezeigt.

1728305657193.png


Sowohl das CCD als auch das Cache Chiplet werden bis auf wenige µm abgeschliffen, damit das ganze Stabilität bekommt werden die Chiplets und das Dummy Silizium auf ein Support Silizium aufgebracht.

Da das Support Silizium genau um die Dicke der beiden Chiplets reduziert wurde, ist zwischen den Zen-Kernen und dem Kühler genau dieselbe Höhe an Silizium wie bei einem CCD ohne 3D V-Cache.

Im Vergleich zu einem CCD ohne 3D VCache beeinträchtigen nur die beiden Grenzschichten die Wärmeabfuhr zu Kühler.

Die große Vorteile dieser Anordnung ist, dass alle CCDs mit oder ohne 3D V-Cache dieselbe Metallisierung haben und dass keine TSVs durch das strukturelle Silizium (grün) geführt werden müssen. Ein weiterer bisher nicht genutzter Vorteil ist, dass die dieselben Cachechiplets mehrfach gestapelt werden können.

davidzo schrieb:
Btw, bei Anandtech und 3Dcenter wird schon spekuliert dass diesmal der Cache unter dem Chip untergebracht ist:
Das würde thermisch total viel Sinn machen und die fehlende Ansteuerungslogik könnte deshalb in den unteren Layern versteckt sein die bisher nicht fotografiert wurden.
Wieso sollte die Ansteuerungslogik zum Cache Chiplet wandern?

3D V-Cache unten und das CCD oben (auf der Rückseite des Cache-Chiplets) ist IMO für Ryzen und EPYC eine unpraktikable Anordnung.

davidzo schrieb:
Die nur 9000 vorhandenen TSVs sind also gar keine TSVs sondern wohl nur einfache Power Vias oder ander Strukturen. Die echten TSVs sind auf der Unterseite.
Aus dem Patentantrag US 2020/0350292 A1 Die Stacking For Multi-Tier 3D Integration

AMD hat in allen Patentanträgen zu Hybrid Bonding und 3D Stacking mehrere Cache Layer.

1728307225387.png

Der rote Pfeil gibt die Blickrichtung der Die Shots an.

Was man sieht ist nur die Vorderseite des TSV (135).

Der Interessante Teil an dem die Leitungen beider Dies Verbunden werden Eine Verbindung im Detail (Kästchen).

1728308257854.png

Die Bondpads sind breiter als das eigentliche TSV (hier TDV)
davidzo schrieb:
Das macht es aber schwierig die Leistungen vom Infinityfabric sowie die ganzen Power Leitungen durchzuleiten und im Package anzuschließen. Vias dafür im Cache-DIE haben zusätlzlichen elektrischen Widerstand und parasitäre Kapazität. Das würde den Effekt haben dass Zen5x3d pro Takt eher mehr verbraucht als vanilla Zen5, dafür aber ähnlich taktet.
Es kommt eben darauf an welcher Die die meisten Verbindungen zum Substrat hat.

Bei der MI300 sitzen die HBM Memory Controller und alle Schaltkreise für die externen Infinity Fabrics Links unten im IOD. Bei Ryzen und EPYC haben die CCDs die meisten Verbindungen zum Substrat.

davidzo schrieb:
Thermisch sollte ein aktiver DIE nicht anders sein als ein passiver Dummy aus silizium. Im Gegenteil glaube ich wäre es gut da ein paar Copper Pillars für die thermische Ableitung einzubauen. Silizium mit Kupferstrukturen ist sicher besser als nur Silizium. Mal sehen was AMD sich dazu ausgedacht hat, die haben ja in Interviews schongesagt dass explizit Hotspots und Wärmeausdehnung ihre Forschungsfelder sind
Dazu hat AMD einen Patentantrag: US20230197563A1 Semiconductor chip device integrating thermal pipes in three-dimensional packaging

1728309336977.png
 
  • Gefällt mir
Reaktionen: CDLABSRadonP..., ILoveShooter132, jo0 und 17 andere
@ETI1120

Ich liebe solche Tech Deep Dives von dir <3

Musste ich mal sagen ^^
 
  • Gefällt mir
Reaktionen: CDLABSRadonP..., konkretor und Asghan
ETI1120 schrieb:
Das suggerieren zwar die ganzen Hochglanzbilder, die das AMD Marketing verbreitet, ist aber falsch.

Den richtigen Aufbau hat AMD in einer Vielzahl von Patenten beschrieben und in den Vorträgen zum 3D V-Cache auf der ISSCC 2022 und Hot Chips 2022 gezeigt.
Stimmt, ich kann mich vage an die Folie erinnern. Die Röntgenbiolder von Fritzchens fritz sehen aber anders aus, mit fetten Linien zwischen cache Chiplet und dummy.

Naja, wird schon richtig so sein.

ETI1120 schrieb:
Wieso sollte die Ansteuerungslogik zum Cache Chiplet wandern?
Das habe ich nicht gemeint. Sie wandert nur ggf. von M0 nach M5,6 oder gar M14,15, also näher an den Cache ran, wenn dieser wirklich unter den DIE gestackt wird. Damit wäre der Teil in den Layern die Fritzchen freigelegt und poliert hat schon nicht mehr sichtbar. Ich meine die Logik die bisher bei Zen3 und Zen4 die breiten Streifen zwischen den Cachzellen benötigt hat.
Es könnte aber genau so gut so sein wie High Yield spekuliert, dass diese Logik bei Zen3+4 überdimensioniert war und mit einer verbesserten Anordnung nicht mehr in dem Maße gebraucht wird.
ETI1120 schrieb:
Aus dem Patentantrag US 2020/0350292 A1 Die Stacking For Multi-Tier 3D Integration
Vorsicht mit Patenten. Die zeigen auch viele Lösungen die man zwar ausprobiert hat oder gerne hätte aber nicht so umsetzt hat.

ETI1120 schrieb:
Es kommt eben darauf an welcher Die die meisten Verbindungen zum Substrat hat.
Genau, so sehe ich das auch. Wenn der Cache unten wäre, müsste der durchlöchert sein von Vias für Power für die Cores und ggf. auch das Infinity fabric. Ich gehe ja davon aus dass Anders als Zen3+4 die 64MB im Vcache DIE größer sind als die 32MB im Zen5 DIE, also der Vcache-Die ungefähr dieselben Abmessungen hat wie der ganze CCD (in einem Prozess mit weniger Layern). Wenn der Vcache Die dagegen kleiner ist als der CCD oder gar aus mehreren layern gestackt, dann hat man das Problem den Luftspalt mit Copper pillars oder c4bumps zu überbrücken, bzw. müsste man den Vcache wie eine Emibbrücke sonst vorher in das package einbringen. Egal welche Arts von Bumps zur Überbrückung das sind wäre eine silicon interposer sicher besser. Bumps erzeugen elektrischen Widerstand und parasitäre Kapazität, habe aber keine Ahnung ob das nennenswerte Auswirkungen auf die Taktbarkeit des IF oder einen nennenswerten vpltagedrop für die core power delivery hat.
ETI1120 schrieb:
Bei der MI300 sitzen die HBM Memory Controller und alle Schaltkreise für die externen Infinity Fabrics Links unten im IOD. Bei Ryzen und EPYC haben die CCDs die meisten Verbindungen zum Substrat.
Genau, das wurde im 3DC ja schon erwähnt, dass Mi300a ja dieselben Zen4 CCDs verwendet und die eben nicht direkt auf dem Package sitzen. Damit ist zumindest prinzipiell bewiesen dass schon Zen4 chiplets auch durch einen Base-DIE hindurch verdrahtet werden können und nicht nur für die Positionierung direkt auf Substrat gedacht sind.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Glasreiniger
NEO83 schrieb:
Hoffe es wird hell am Ende des Tunnels ... meine Intel Aktien würden es danken :D
Hoffe ich auch, allerdings ist es mir recht, wenn der Tunnel sich noch etwas in die länge zieht. Umso mehr Anteile erhalte ich.
Ergänzung ()

BAR86 schrieb:
Ich bin gern ein "Überflieger". Aber nicht als Person, sondern als Leser.
Ich überfliege/scanne gerne Texte und Berichte.
Da geht vieles was in 1h Video gezeigt wird (etwa irgendwelche Vorstellungen) oft in 2 min.
Eine alternative wäre noch hier im Forum nicht zu lesen und zu kommentierne, da hast du die 9 - 18 Minuten schnell eingespart.
 
  • Gefällt mir
Reaktionen: Munkman
davidzo schrieb:
Es könnte aber genau so gut so sein wie High Yield spekuliert, dass diese Logik bei Zen3+4 überdimensioniert war und mit einer verbesserten Anordnung nicht mehr in dem Maße gebraucht wird.
Oder schlichtweg, dass man sich bei den Möglichkeiten beschränkt. Ich habe nie Meldungen über solche Chips gesehen, aber ich erinnere mich an einen BIOS-Screenshot von einer AMD-Referenzplattform, bei der man einstellen konnte, wie viele Layer V-Cache aktiv sein sollten (maximal vier waren möglich). Vier Schichten würde auch z.B. zu der Patentzeichnung von @ETI1120 passen. ( https://x.com/aschilling/status/1726607803610247428 )

Die Kontrolllogik für alle diese Cache-Dies musste im CCD vorhanden sein, um das theoretisch zu ermöglichen. Wenn AMD festgestellt hat, dass es nicht (sinnvoll) ist, dass mit mehr als einem Cache-Die umzusetzen, konnten sie diesen Logik-Bereich massiv reduzieren (denn das senkt den unterstützten L3-Cache auf 96 MB, die wir ja tatsächlich sehen, von vorher maximal 288 MB - also auf nur noch ein Drittel).
 
  • Gefällt mir
Reaktionen: davidzo
stefan92x schrieb:
eigentlich braucht man da wenig vermuten, weil sich AMD recht klar zu vielen Dingen geäußert hat.
Das sehe ich nicht so. Mike Clark deutet an, dass Zen 5 vor allem von neu kompilierten Code profitieren wird. Aber wirklich konkret wird er auch nicht.

AMD hat ein paar Dinge erklärt, vieles im unklaren gelassen und ein paar Nebelkerzen gezündet.

Das brauchbarste das ich zu Zen 5 gefunden habe ist von Alexander J. Yee:
http://www.numberworld.org/blogs/2024_8_7_zen5_avx512_teardown/

stefan92x schrieb:
Im wesentlichen ist vieles deutlich breiter geworden und der Kern kann mehr parallel, gleichzeitig ist aber auch klar, dass es (noch) an Software mangelt, die das auch voll ausnutzen kann.
Es ist auch wirklich schwer Software anzupassen, wenn es zum Release keine funktionierenden Compiler.
stefan92x schrieb:
Allein schon, weil AMD (leider) spät dran ist mit Compiler-Patches etc.
Wie Alexander J. Yee es beschreibt ist es noch viel schlimmer.

AMD hat im ersten Patch für den GCC absichtlich einen Fehler eingebaut, damit man nicht erkennt, dass AMD zwei komplexe ALUs hinzugefügt hat. Es sind diese Kindereien mit denen sich AMD selbst behindert.

Die Initialen zen 5 Patches für LLVM/Clang wurden erst zum 11 September eingereicht. Das eigentliche Tuning wird aber noch Zeit benötigen.
stefan92x schrieb:
Und auch das mit dem Grundstein für nächste Generationen ist so geäußert worden, weil man von dieser viel breiteren Basis aus jetzt eben wieder ganz neu optimieren kann.
Das erzählt Mike Clark. Im Text von Alexander J. Yee lässt sich einiges an weiteren Optimierungspotential erkennen.

Ich würde gerne Mal SpecInt mit ausgereiften Znver5 vs Znver4 sehen.

Dass dies nicht zum Release möglich war, ist ein Unding.
 
  • Gefällt mir
Reaktionen: ILoveShooter132, Rockstar85 und stefan92x
LukS schrieb:
Echt interessant. Auch das Video ist echt zu empfehlen.

Kann man auch bei Videos machen. Zweifache geschwindigkeit fals man es ganz sehen will. Alternativ lass ich es oft auf normaler Geschwindigkeit und nutze die Pfeiltasten auf der Tastatur für 5 Sekunden sprünge bei Youtube. Die ersten 5-7Minuten vom Video sind eher uninteressant und kann man sich fast ganz sparen.
Das wichtigste hat Computerbase eh zusammengefasst. Im Video geht es dann halt mehr ins Detail.
Eh natürlich.
Text geht halt 1) schneller, 2) ist zitierbar 3) kann man überall ansehen (Ton ist nicht immer passend) 4) ich übersehe nichts
Ergänzung ()

Grumpy schrieb:
Mal so am Rande, weil es mir in den Fingern kribbelt:

Wer "erst" seit April 2020 hier registriert ist und schon 2.401 Beiträge hat, zeigt deutlich, wie wichtig ihm/ihr seine Zeit ist. ;) Da sollte ein 18 Minuten Video deiner auch würdig sein.
Ich helfe und diskutiere gerne, das geht in der Arbeit nebenbei ;)
Das wäre bei Informationen aus Videos auch so.
Aber Video schauen ist 100% Freizeit
Grumpy schrieb:
Ich habe mir das Video angeschaut und bin massiv imponiert von dem, was man sehen kann.
Das scheint deutlich mehr zu sein als nur ein "Refresh"! Klasse!
Also was eben vorab bekannt war, deshalb die Frage nach was neuem
Grumpy schrieb:
Was das ist? Schau das Video oder lese doch wenigstens den Artikel! Da steht es doch drinnen ...
Jep, Artikellesezeit 1 Min, Video 18
Post verfassen ob im Video was neues drin ist: 30 Sekunden.
16:30 gespart
Ergänzung ()

Brrr schrieb:
Eine alternative wäre noch hier im Forum nicht zu lesen und zu kommentierne, da hast du die 9 - 18 Minuten schnell eingespart.
Das würde keinen Sinn machen, tiefere Informationensverarbeitung passiert oft im sozialen Austausch.
Dann könnte ich also gleich sowohl Artikel und Video lassen, weiß dann aber eben nichts.
So lese ich Artikel, tausche mich darüber aus.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Brrr
blackiwid schrieb:
Eigentlich nicht. Es gab da einen Sweet-Spot, bei dem es einfach günstig war zu produzieren und auch die Entwicklung sich einfacher skalieren ließ. Davor wars die Stückzahl und danach der Aufwand, welcher es teurer werden ließ. Siehe auch die von dir erwähnten HDD. Ein Bekannter von mir, forschte über die TU Wien mit IBM vor 30 Jahren schon an neuen Werkstoffen im Bereich Magnetismus. Vorallem wegen der Wechselwirkung und der zunehmenden Instabilität der Magnetisierung durch die engeren Spuren. Und hier kommt mittlerweile auch der hohe Aufwand zu zu tragen, daß es mit dem Preis nicht weiter runter geht. Und die Stückzahl, welche sich sicher auch stark verringert hat.
 
SavageSkull schrieb:
Eine gute CPU geht ganz schnell in die 500€ aufwärts. Vor noch gar nicht so langer Zeit war das deutlich günstiger.
Temporäre Erscheinungen. Kannst du dich noch erinnern als 1998 450 Pentium II CPUs in Print Werbung von Alternate mit ~1200 Mark taxiert waren?
 
  • Gefällt mir
Reaktionen: Volvo480
lowrider20 schrieb:
Eigentlich nicht. Es gab da einen Sweet-Spot, bei dem es einfach günstig war zu produzieren und auch die Entwicklung sich einfacher skalieren ließ. Davor wars die Stückzahl und danach der Aufwand, welcher es teurer werden ließ. Siehe auch die von dir erwähnten HDD.
Das kein gutes Argument weil Strukturbreiten bei Mechanik wenig nutzt aber bei Elektronik sehr viel, deshalb werden eben SSDs schneller günstiger als Harddisks.

Außerdem haben die SSDs ihnen nen Teil des Marktes weg genommen und da sie jetzt eben Rechenzentren mit Trillionen budges als Kunden haben erhöhen sie die Marge.

Auch denk ich das die einfach in guten Zeiten massiv Leute eingestellt haben vorallem auch im Management Mittleres auch, und dann bei dem Abschwung ihrer Branche die einfach nicht vor die Tür gesetzt haben und daher ein riesiger Wasserkopf der für die alte Größe gerechtfertigt gewesen wäre aber für die neue nicht, also da kommt einiges zusammen.

Zeug das auf Waver produziert wird (was Festplatten mal die wichtigsten Teile die Platter) soweit ich weiß nicht profitieren halt nicht vom Technischen Fortschritt stattdessen machen diese Versager 20-30 Jahre an diesem HBM oder wie das heißt rum, wenn du deren Ankündigungen hörst von vor 20 Jahren dann sind wir easy 10 Jahre hinter den Ankündigungen. Es müsste schon längst der übernächste Technologie nach HBR entwickelt werden... ist aber nicht so, immer noch die gleiche Schrotttechnik wie vor 15-25 Jahren.

Hätten sie es geschafft von ihren Metall? Plattern auf Plastikplattern um zu steigen dann hätte man ne deutliche Preisreduktion gesehen.

Wir sind halt auch in ner Überflussgesellschaft und dann wird alles exzellente neue erstmal für nen gigantischen Premiumpreis verkauft mit 5000% marge oder so... früher gabs das nur bei Autos oder anderen Luxusmodelle jetzt hat jede Branche ihre Luxusmodelle. Sieht man ja auch an den Skalptern bei nem gesunden Markt mit allem an Überfluss würde Skalpting nicht funzen nur wenn das Zeug eh schon knapp ist kann man durch weitere Verknappung noch Geld verdienen künstlich ohne jeglichen Mehrwert für 3.
 
ETI1120 schrieb:
Es ist auch wirklich schwer Software anzupassen, wenn es zum Release keine funktionierenden Compiler.
Oder Intel die Softwareentwickler entsprechend gut schmiert bezahlt, damit man den Compiler nicht nimmt (und im Idealfall noch einen Compiler nimmt, der auf Intel wunderbar läuft und bei Erkennung einer AMD-CPU die Bremse anzieht, ist schon öfters vorgekommen)...
 
  • Gefällt mir
Reaktionen: Snoop7676
@Vindoriel ja sowas hat es gegeben, aber dass es nichtmal die Möglichkeit gibt, den "richtigen" Compiler für Zen 5 zu verwenden, weil AMD sich nicht rechtzeitig darum gekümmert hat, ist und bleibt nunmal ein Armutszeugnis für AMD und da gibt es keinerlei Bedarf, irgendwelche externen Faktoren verantwortlich zu machen.
 
  • Gefällt mir
Reaktionen: ILoveShooter132, Zarlak und ETI1120
Diese Trillionen und Billionen Transistoren Angaben sind für mich vollkommen utopisch.
 
Zuletzt bearbeitet:
Rock Lee schrieb:
Temporäre Erscheinungen. Kannst du dich noch erinnern als 1998 450 Pentium II CPUs in Print Werbung von Alternate mit ~1200 Mark taxiert waren?
Was auch nur 600€ sind ;)

Ne aber der P2 450 war damals auch keine CPU für normale Leute sondern eher das was man heute unter HEDT versteht. Normale Leute haben den 350er für weniger als die Hälfte genommen.

Ich denke SavageSkull bezog sich auf die fast 7 Jahre Intel 4-Kern Hegemonie. Vom i7-860 bis zum 7700k lagen die Top CPUs für Consumer PCs immer bei ca. 300$ +-50.
Für das Geld hat man jeweils die schnellste Gaming CPU bekommen die es gab, denn die HEDT CPUs waren keinen deut schneller in damaligen Games. Da konnte man sich schon irgendwie dran gewöhnen.
 
  • Gefällt mir
Reaktionen: yummycandy und Apocalypse
ETI1120 schrieb:
3D V-Cache unten und das CCD oben (auf der Rückseite des Cache-Chiplets) ist IMO für Ryzen und EPYC eine unpraktikable Anordnung.

Es macht natürlich keinen Sinn nur den Cache unter das CCD zu packen. Wenn der Cache unten ist, dann müsste auch der I/O-Die teil des Base-Dies sein. Also im Prinzip so wie bei MI300. IO-Die und Cache im Base Die und die Chiplets werden oben drauf gepackt.

Aber für die aktuelle Generation glaube ich nicht an diese Lösung, weil bisher keiner in der Gerüchteküche über die Validierung eines neuen IO-Dies etwas geschrieben hat... Aber wer weiß, vielleicht sind die Leaker schlechter, als man glaubt...

Vorteil an dieser Lösung: Wenn man schon "Advanced Packaging" macht, dann wird der IO-Die mit eingeschlossen -> bessere Idle Power und (noch) bessere Energieeffizienz-> CPU würde sich auch für den Notebookmarkt sehr gut eignen. Im Serverbereich hätte man auch Flagschiff-CPUs, die nicht nur viel Cache haben, sondern auch noch effizienter sind als die Teile mit dem "Low-Cost"-Packaging.
 
Zuletzt bearbeitet:
davidzo schrieb:
Das habe ich nicht gemeint. Sie wandert nur ggf. von M0 nach M5,6 oder gar M14,15, also näher an den Cache ran, wenn dieser wirklich unter den DIE gestackt wird.
Die Logik ist auf der Oberfläche des Wafers. Nicht in den einzelnen Ebenen der Metallisierung.

davidzo schrieb:
Damit wäre der Teil in den Layern die Fritzchen freigelegt und poliert hat schon nicht mehr sichtbar. Ich meine die Logik die bisher bei Zen3 und Zen4 die breiten Streifen zwischen den Cachzellen benötigt hat.
Es könnte aber genau so gut so sein wie High Yield spekuliert, dass diese Logik bei Zen3+4 überdimensioniert war und mit einer verbesserten Anordnung nicht mehr in dem Maße gebraucht wird.
Das Problem ist, dass reichlich wild spekuliert wird.

Es sind zu wenig Fakten bekannt, um wirklich fundiert spekulieren zu können.

davidzo schrieb:
Vorsicht mit Patenten. Die zeigen auch viele Lösungen die man zwar ausprobiert hat oder gerne hätte aber nicht so umsetzt hat.
Es sind die Patentanträge zu Hybrid Bonding und 3D V-Cache. Es gibt AFAIK keine anderen Patentanträge zu diesen Themen von AMD. Also entspricht das was in diesen Patentanträgen steht, dem was AMD umgesetzt hat.

Ob AMD die Lösung mit den Kupferpfeilern im Dummy Silzium jemals umsetzt ist in der Tat ungewiss.
In den Zeichnungen ist das Höhe Breite Verhältnis des Chipstacks massiv überhöht.

davidzo schrieb:
Genau, so sehe ich das auch. Wenn der Cache unten wäre, müsste der durchlöchert sein von Vias für Power für die Cores und ggf. auch das Infinity fabric. Ich gehe ja davon aus dass Anders als Zen3+4 die 64MB im Vcache DIE größer sind als die 32MB im Zen5 DIE,
Das ist doch genau die Aussage des Videos.


  • Bei Zen 3 waren L3 Cache und Cache Chiplet praktisch gleich groß.
  • Bei Zen 4 deckte das Cache Chiplet sowohl L3 als auch L2 Cache ab.
  • Bei Zen 5 hat sich das Verhältnis von Cache und Kernen so drastisch geändert, dass das bisherige Cache-Chiplet auch große Teile der Integereinheiten der Kerne abdecken würde.
    Das wäre mit Sicherheit problematisch.
davidzo schrieb:
also der Vcache-Die ungefähr dieselben Abmessungen hat wie der ganze CCD (in einem Prozess mit weniger Layern).
Da die Fläche des Zen 5 CCDs praktisch dieselbe ist, wie die des Zen 4 CCDs, ist das Cache Die immer noch deutlich kleiner als das CCD.

davidzo schrieb:
Wenn der Vcache Die dagegen kleiner ist als der CCD
Es ist unwahrscheinlich dass AMD das Cache Chiplets größer macht.
davidzo schrieb:
oder gar aus mehreren layern gestackt, dann hat man das Problem den Luftspalt mit Copper pillars oder c4bumps zu überbrücken, bzw. müsste man den Vcache wie eine Emibbrücke sonst vorher in das package einbringen.
OK, jetzt wird es wild. Du schmeißt hier Dinge zusammen, die nicht zusammengehören.

Gerade wenn der Cache aus mehreren gestapelten Dies bestehen sollte, wäre es von großem Vorteil, wenn der Cache-Stack, wie bisher auf der Rückseite des CCDs platziert wird. Genau aus diesem Grund zeigen alle Patentanträge von AMD mit einem Memory Stack, dass der Memory Stack auf der Rückseite des Base Dies sitzt.

Das Cache Chiplet war bisher immer kleiner als das CCD. Die freien Flächen wurden ganz einfach mit Silizium Blättchen abgedeckt. Es gibt keinen Grund dass AMD von diesem Vorgehen abrücken sollte. Es gibt keinen Grund warum AMD alles über den Haufen werden sollte und alles ganz anders als bisher aufziehen sollte.

Es gibt keinen Luftspalt. Weder zwischen den gestapelten Dies, noch zwischen Cache Chiplet und Dummy Silizium. Ein Luftspalt wo auch immer wäre fatal.

Siliziumbrücken, die Intel EMIB nennt, werden verwendet, um zwei horizontal nebeneinander angeordnete Dies zu verbinden. Den L3-Cache über Siliziumbrücken anzuschließen funktioniert nicht. Sam Naffziger hat auf der DAC im November 2021 explizit gesagt, dass ein so großer L3-Cache in einer Ebene nicht realisiert werden kann. Die daraus resultierende Verschlechterung der Latenzen würde den Zugewinn aus der Cache Größe praktisch egalisieren.

Die Siliziumbrücken sind im übrigen winzig. Sie belegen nur so viel Fläche auf beiden Dies wie sie für die Kontakte benötigen. Bei der Silzium Brücke im M1 Ultra ist der Pitch 25 x 35 µm. Der eigentliche Clou der Siliziumbrücken im Vergleich zum Silizium Interposer ist, dass die Siliziumbrücken weil sie so klein sind keine TSV benötigen. In einer Siliziumbrücke ist kein Platz für einen großen L3 Cache.

1728345672770.png

Hot Chips 33 Advanced Packaging Tutorial

Ein Interposer ergibt gar keinen Sinn. Ryzen und EPYC bei Zen 5 verwenden immer noch ein klassisches organisches Substrat. Das gilt unter Garanie auch für die Ryzen X3D und Turin X.

Microbumps bieten eine erheblich schlechtere elektrische Verbindung als die Kupfer zu Kupfer Kontakte die beim Hybrid Bonding entstehen. Mit Microbumps liese sich kein 3D V-Cache realisieren.

davidzo schrieb:
Egal welche Arts von Bumps zur Überbrückung das sind wäre eine silicon interposer sicher besser. Bumps erzeugen elektrischen Widerstand und parasitäre Kapazität, habe aber keine Ahnung ob das nennenswerte Auswirkungen auf die Taktbarkeit des IF oder einen nennenswerten vpltagedrop für die core power delivery hat.
Der L3 Cache kommt direkt auf die Rückseite des CCD. Wie bisher.

Es gibt keinen Grund für einen Interposer und keinen Grund für Siliziumbrücken.
davidzo schrieb:
Genau, das wurde im 3DC ja schon erwähnt, dass Mi300a ja dieselben Zen4 CCDs verwendet und die eben nicht direkt auf dem Package sitzen.
Das ist ein vollkommen anderen Systemaufbau. Was ich ja versucht habe zu erläutern.
davidzo schrieb:
Damit ist zumindest prinzipiell bewiesen dass schon Zen4 chiplets auch durch einen Base-DIE hindurch verdrahtet werden können und nicht nur für die Positionierung direkt auf Substrat gedacht sind.
Das beweißt rein gar nichts.

Das wäre für Ryzen und EPIC nur dann relevant wenn AMD die CCDs per Hybrid Bonding auf dem IOD stacken würde. Aber das ist reine Science Fiction.

Convert schrieb:
Es macht natürlich keinen Sinn nur den Cache unter das CCD zu packen. Wenn der Cache unten ist, dann müsste auch der I/O-Die teil des Base-Dies sein. Also im Prinzip so wie bei MI300. IO-Die und Cache im Base Die und die Chiplets werden oben drauf gepackt
Bei EPYC scheidet diese Lösung aus, weil man auf diese Art und Weise gar nicht alle CCDs mit dem IOD Verbinden kann.

Convert schrieb:
Aber für die aktuelle Generation glaube ich nicht an diese Lösung, weil bisher keiner in der Gerüchteküche über die Validierung eines neuen IO-Dies etwas geschrieben hat...
Zen 5 ist released bzw. angekündigt. Wir wissen, dass Ryzen und EPYC bei Zen 5 und Zen 4 gleich aufgebaut sind.

stefan92x schrieb:
Oder schlichtweg, dass man sich bei den Möglichkeiten beschränkt. Ich habe nie Meldungen über solche Chips gesehen, aber ich erinnere mich an einen BIOS-Screenshot von einer AMD-Referenzplattform, bei der man einstellen konnte, wie viele Layer V-Cache aktiv sein sollten (maximal vier waren möglich).
1728339937902.png

https://www.hardwareluxx.de/index.p...ssor-mit-gestapeltem-3d-v-cache-2-update.html

Die 4 Dies, die die Patente im Stack zeigen, müssen nichts mit den Plänen zu tun haben. Mit 4 Dies kann man verdeutlichen dass es beliebig viele Dies sein können.

stefan92x schrieb:
Die Kontrolllogik für alle diese Cache-Dies musste im CCD vorhanden sein, um das theoretisch zu ermöglichen. Wenn AMD festgestellt hat, dass es nicht (sinnvoll) ist, dass mit mehr als einem Cache-Die umzusetzen, konnten sie diesen Logik-Bereich massiv reduzieren (denn das senkt den unterstützten L3-Cache auf 96 MB, die wir ja tatsächlich sehen, von vorher maximal 288 MB - also auf nur noch ein Drittel).
Das könnte eine Erklärung sein. Allerdings passt eine Reduzierung von 24000 auf 9000 TSV nicht so richtig dazu.

Zudem erklärt dies nicht wieso die Schaltkreise bei den Signal TSVs nicht mehr da sind. Und außerdem sind die Strukturen die TSV sein sollen in den Reihen oben und unten ohne Abstand angeordnet. Dies ergäbe nur für GND und +UB Sinn und wäre eine komplett andere Vorgehensweise wie bei Zen 3 und Zen 4 bei denen die TSV mit Abtand plaziert werden.
 
  • Gefällt mir
Reaktionen: konkretor, Stramma, Baal Netbeck und eine weitere Person
davidzo schrieb:
Ne aber der P2 450 war damals auch keine CPU für normale Leute sondern eher das was man heute unter HEDT versteht. Normale Leute haben den 350er für weniger als die Hälfte genommen.
Ne, für Enthusiasten war dann Dual-Socket. Da lief dann Lightwave so viel schneller beim rendering drauf. :D
 
Zurück
Oben