News Intel Emerald Rapids: Analyse weist auf viel größeren L3-Cache hin

MichaG · 4. Mai 2023

Semi Analysis hat anhand der von Intel bereitgestellten Informationen zur kommenden Server-CPU-Familie Emerald Rapids eine umfassende Analyse zur Ausstattung erstellt. Demnach könnte es pro Kern mehr als doppelt so viel L3-Cache geben.

Zur News: Intel Emerald Rapids: Analyse weist auf viel größeren L3-Cache hin

[F]L4SH · 4. Mai 2023

Gar nicht mal so beeindruckend.
Da werden die USP jetzt aber echt dünn wenn es nur noch zwei Sockel, weniger Kerne und weniger Cache als bei der Konkurrenz gibt. L
Gut dass die IT immer aus Gewohnheit kauft.

bensen · 4. Mai 2023

MichaG schrieb:
AMDs aktuelle Genoa-Generation bietet als 64-Kern-Variante aber sogar 384 MB L3-Cache; hier wird Intels Nachholbedarf deutlich.

Welches Modell soll das sein?
Vielleicht zu viel wcftech gelesen? Die behaupten das merkwürdigerweise auch.

Desweiteren ist es bei AMD 8x32 MB. Der Cache ist nicht unified. Bei Intel hat jeder Kern Zugriff auf den gesamten Cache.
Ist also nicht ganz vergleichbar.

Ergänzung (4. Mai 2023)

[F]L4SH schrieb:
Gar nicht mal so beeindruckend.

Nicht? Finde ich schon.
Ob es am Ende für Genoa reicht sei mal dahin gestellt. Man hat bei der Fertigung einfach einen großen Nachteil. Bei der Effizienz bekommt man keinen Stich.

SpartanerTom · 4. Mai 2023

Für Cache-Intensive Anwendungen steht ja bei AMD nach meinem Kenntnisstand für dieses Jahr noch Genoa-X mit 3D Cache in den Startlöchern.
Aber wie immer gilt: (fast) jeder Fortschritt kommt am Ende dem Kunden zugute.

@bensen Ich vermute hier wird mit dem 96 Core (12 CCD) Vollausbau von Genoa verglichen. Das sollte man wahrscheinlich der Vollständigkeit halber erwähnen - Zu langsam

MichaG · 4. Mai 2023

Genoa: 384 MB bei 96/84 Kernen und 256 MB bei 64 Kernen. Fixed

Rickmer · 4. Mai 2023

Mich würde jetzt unglaublich interessieren, warum Intel von 4 auf 2 Die zurück gerudert ist. Das kann ja fast nur irgendwelche technischen Probleme als Hintergrund gehabt haben.

Abgesehen davon - 1493/2 = 747mm² pro Die - das ist schon dem reticle Limit nahe...

Locuza · 4. Mai 2023

@Rickmer

Am Ende des Tages wird es wie so häufig eine Mixtur aus unterschiedlichen Dingen gewesen sein.

Die Kosten/Ausbeute und die Arbeitszeit für das Packaging von SPR mit 4x Chiplets war möglicherweise eine technische Herausforderung, die sich mit EMR etwas lockert.
Demgegenüber stehen natürlich nun größere Chiplets, bei denen man eine geringere Ausbeute erwarten kann.
Neben möglichen Packaging-Herausforderungen, könnten aber auch Verbesserungen bei der Intel 7-Ausbeute dazu geführt haben, dass man sich für diesen Kompromiss entschieden hat.
Durch eine geringere Anzahl an Chiplets konnte man viel EMIB-I/O sparen und dafür in eine höhere Anzahl an Kernen investieren.
Physisch sind jetzt 66 vorhanden, bzw. für Produkte 64, immerhin ~7% mehr als bei den Top SPR SKUs.
Dank einer geringeren Anzahl an Chiplets kann man auch die Latenzen verbessern, da weniger Zugriffe über mehrere Chips erfolgen.
Der Grund oben führt auch zu einer besseren Energieeffizienz.

Am Ende steht ein Produkt, was teuer ist, aber nach Intels Meinung scheinbar einen besseren und konkurrenzfähigeren Kompromiss darstellt.
Ebenso kann man natürlich anmerken, dass EMR XCC das Produktangebot vor allem erweitert und nicht alle Angebote von SPR ersetzt.
Wer mehr Leistung möchte oder simpel upgraden, der kann bald auf EMR setzen.
Für mehrere Segmente darunter oder spezielle Anwendungsfälle bleibt SPR erhalten.

bensen · 4. Mai 2023

Auffällig ist ja, dass Saphire Rapids massive Probleme hatte und viele Revisionen und gar Redesign hatte. Intel 7 läuft ja schon länger problemlos. Was also ist/war das Problem?

Dass weniger Dies besser sind für Latenz und Effizienz mags sein, aber hätte man ja auch gleich machen können. Ich glaube schon, dass Intel 7 zu dem Zeitpunkt schon ausgereift genug war.

stefan92x · 4. Mai 2023

Locuza schrieb:
Am Ende des Tages wird es wie so häufig eine Mixtur aus unterschiedlichen Dingen gewesen sein.

Ich halte einen weiteren Punkt für möglich: Bei SPR gibt es zwei verschiedene Chiplets, da sich mit einem Design kein System bauen ließ, dass sich so wie gewünscht durchverbinden ließ.

Bei zwei Chiplets könnte es aber passen, nur eine Maske zu nutzen. Da wäre ich mal auf Die-Shots/Analysen gespannt. Würde auf jeden Fall die Produktionskosten etwas senken, wenn ich damit recht hätte.

bensen · 4. Mai 2023

Sind auch gespiegelt. War meine ich auch bei semianalysis zu lesen. Sehe da aber auch kein großes Problem drin.

HierGibtsNichts · 4. Mai 2023

Trotzdem kann intel technisch weiterhin Cache nur nebeneinander anordnen. Weiterhin hat gestapelter Cache weiterhin ein niedrige Latenz als nebeneinander positionierte Bauweise.

Locuza · 4. Mai 2023

@bensen

Ein paar weitere Gedankengänge oder Optionen.
SPR war ursprünglich mal geplant Ende 2021 an den Supercomputer Aurora ausgeliefert zu werden, als das erste oder eines der ersten Exascale Computer (Die Aurora Pläne waren ja eigentlich sogar noch älter).
Als die Entwicklung von SPR begann, musste das Unternehmen natürlich Entwicklungen abschätzen und Risikomanagement betreiben.
Die Reise fing deutlich früher an und da war man möglicherweise nicht ganz so optimistisch was die die 10 nm/ Intel 7 Fertigung angeht.
Vielleicht hat man auch das Chiplet-Packaging und die Komplexität davon unterschätzt.
Nun, ein paar Jahre später, sieht der Standpunkt und der Erfahrungswert natürlich anders aus, entsprechend hat man bei EMR eine etwas andere Richtung eingeschlagen, auch in Bezug auf die Konkurrenzsituation.
Ich meine man konnte aus den Finanzzahlen von Intel auch herauslesen, dass die 10nm Fertigung lange Zeit keine guten Yields hatte, da man geringere Umsätze und Gewinne ausgewiesen hat, dank (deutlich) gestiegener Unit Costs von 10 nm / Intel 7-Produkten.

Daneben gab es aber offensichtlich auch mehrere Probleme und Herausforderungen bei der Chipentwicklung selber.
Aber prinzipiell hat sich Intel natürlich bei jeder Aufstellung etwas dabei gedacht, ob es dann aber gut ausfällt, zeigt sich immer erst im Nachhinein.

@stefan92x

Für die Analyse wurde letztendlich aus mehreren Gründen angenommen, dass Intel bei einem gespiegelten Design bleibt.
Wobei auch deine Annahme präsent war.
Ein Chipdesign hätte ein Mask-Set eingespart, dass Binning und die Inventur vereinfacht.
Auf der anderen Seite erlaubt die Kernauslegung keine gerade Verbindung von den Mesh-Punkten.
Bei einer bloßen Drehung entsteht eine Asymmetrie, die an sich auch nicht unbedingt ungewöhnlich ist, es gibt mehrere Chipprodukte die asymmetrisch aufgebaut sind und über die Package-Ebenen passend verbunden werden.
Mit dem Mesh-Netzwerk und den EMIB-Verbindungen könnte die Situation aber heikler sein.
Es gibt auch noch einen anderen Grund der dafür gesprochen hat, aber das ordnet sich dann wohl unter Betriebsgeheimnis ein.

RKCPU · 5. Mai 2023

Taurus104 schrieb:
Trotzdem kann intel technisch weiterhin Cache nur nebeneinander anordnen. Weiterhin hat gestapelter Cache weiterhin ein niedrige Latenz als nebeneinander positionierte Bauweise.

AMD hat es per 3DCache gut gepackt bei Bedarf Mehrleistung zusätzlich für relevante Anwendungen zu liefern.

AMD hat aber sein zentrales I/O Chiplet, während Intel bei 4x CPU Chiplet quasi 4x dezentral verbinden müsste, was vielleicht nicht effizient genug gelang?

beckenrandschwi · 5. Mai 2023

Der Cache ist schon der Wahnsinn! Ebenso was die DIE Größe angeht. Da sehe ich Intel etwas vor AMD, weil hier jeweils die Hälfte der CPUs auf den 160MB großen Cache direkt zugreifen kann. Bei AMD sind es immer nur 32MB.
Wird Zeit, dass AMD auf 16 oder gar 32 CPUs pro Chiplet wechselt.

IBISXI · 7. Mai 2023

MichaG schrieb:
Genoa: 384 MB bei 96/84 Kernen und 256 MB bei 64 Kernen. Fixed

Genoa-X:

96Core, 96MB L2-Cache, 384MB L3-Cache, 768MB L3-VCache.....
Gesamt: 1248MB.

https://www.techpowerup.com/306144/amd-epyc-genoa-x-processor-spotted-with-1248-mbs-of-3d-v-cache

Philste · 7. Mai 2023

IBISXI schrieb:
Genoa-X:

96Core, 96MB L2-Cache, 384MB L3-Cache, 768MB L3-VCache.....
Gesamt: 1248MB.

Von denen jeder Kern aber weiterhin nur auf 96/97 MB zugreifen kann, was ein ganz klarer Schwachpunkt ist.

stefan92x · 7. Mai 2023

Deshalb wird die Frage wirklich spannend, wie die Latenzen ausfallen werden. Gefühlt müsste Genoa-X da deutlich besser dastehen, da die Distanz Core zu Cache kleiner ausfällt.

Philste · 3. August 2023

@MichaG Im folgenden Yahoo Finance Interview von gestern sagt Pat Gelsinger, dass Emerald Rapids "ahead of schedule" ist und in Q3 erscheint. Also wahrscheinlich auch auf der nächsten Innovation Ende September. Satz fällt ab etwa 01:58 im Video:

Ist jetzt keine Mega Neuigkeit, im Hinblick auf Intels Servergeschäft in den letzten Jahren aber durchaus bemerkenswert^^

News Intel Emerald Rapids: Analyse weist auf viel größeren L3-Cache hin

Redakteur

Rear Admiral

Fleet Admiral

Captain

Redakteur

Silent-Fanatiker Pro

Lieutenant

Fleet Admiral

Captain

Fleet Admiral

HierGibtsNichts

Gast

Lieutenant

Lieutenant

Commander

Admiral

Lt. Commander

Captain

Lt. Commander

Ähnliche Themen

Passend zum Thema