News Server-Prozessor: AMD bohrt Genoa auf 1 MByte L2-Cache pro Kern auf

guggi4 · 28. März 2022

andi_sco schrieb:
Was empfiehlst du da?

Darauf hab ich leider für Consumer Software keine gute Antwort, grundsätzlich sollte vieles, was von RAM-OC profitiert auch von größeren Caches profitieren. Spiele sind da immer ein heißer Tipp.

Falls dich HPC Workloads interessieren, hier wurde Milan-X getestet: https://www.phoronix.com/scan.php?page=article&item=amd-epyc-7773x-linux&num=1

Allgemein ist alles Richtung Rendering nicht wirklich geeignet, um Auswirkungen von Cache und Speicher zu testen.

kiffmet · 28. März 2022

eastcoast_pete schrieb:
(...) Ich finde es auch immer noch etwas seltsam, daß unter den x86 Desktop CPUs ausgerechnet die kleinen "Efficiency" Kerne bei Alder Lake wohl mit den größten L1 Cache pro Kern haben (mehr als die Power, also Cove Kerne). Hat Intel da jemals was dazu gesagt warum das so gemacht wurde?

4 Efficiency Kerne teilen sich einen Anschluss zum Ringbus, sowie den L2 Cache. Mehr L1 soll wohl dieses Bottleneck ausgleichen und die Energieeffizienz durch eine Reduktion der Speicherzugriffe heben.

Ich denke ja, dass AMD zusätzlich zum L2 Cache auch den Decoder und den "Instruction Reorder Buffer" aufbohren wird. Aus dem Zusammenspiel dieser Komponenten hat ja Apple schon kräftig IPC extrahiert, Intel folgte, sobald die 10nm SFE Fertigung verfügbar war, mit Alder Lake (hat AFAIK 6-wide Decoder in den P-Cores und 2x3-Wide in den E-Cores).

Wäre also zu erwarten, dass AMD über dieselben Stellschrauben nachzieht (Zen 3: Selber 4-Wide decoder wie Zen 2, deutlich mehr execution Ports, etwas größerer Reorder Buffer, überarbeiteter L3 Cache und Ringbus/Crossbar; Zen 4: Mehr L2 bestätigt, neuer Decoder und mehr ILP naheliegend)

Zer0Strat · 28. März 2022

@kiffmet Genau so und größere Registerfiles.

DevPandi · 28. März 2022

latiose88 schrieb:
Also 8 Kerne mit ht meinte ich. Es zeigt sich daß der 12900k sich vom ryzen 7 5800x Dank mehr Cache absetzen kann.

Dir fehlt an der Stelle ein entscheidendes Detail - ich wiederhole an der Stelle etwas: Der 12900K setzt sich vom Ryzen 7 5800X nicht durch mehr Cache ab - nicht ausschließlich - sondern weil GoldenCove ein breiteres Front- und Backend haben und damit auch das mehr an L2-Cache auch effektiv nutzen kann.

Ich verweise erneut auf SunnyCove und WillowCove: Der L2-Cache zog bei WillowCove um 768 KiB an (150 %) und wurde auf 1280 KiB von 512 KiB erweitert. Dennoch konnte WillowCove sich gemittelt nicht von SunnyCove absetzen und aggiert quasi über alle Szenarien gleich.

SunnyCove hat sich gege über SkyLake durchaus mit ca. 10 - 20 % IPC absetzten können, da hat Intel aber viel mehr getan als einfach nur L2 und L3-Cache zu erhöhen. Unter anderem wurde das OOO-Fenster vergrößert, die Sprungvorhersage kann auf mehr Daten zurückgreifen, µOPS-Cache vergrößert, Dispatch-Block vergrößert usw und es wurden auch der L2 und L3-Cache vergrößert.

Bei GoldenCove werden nun 6 statt 4 Befehle pro Takt decodiert weiter geleitet, man hat erneut an den "Caches" für die Branchprediction gearbeitet, man hat den Reoder-Buffer erweitert, eine 5 INT-ALU usw. und hat nun erneut bis zu 20 % erreicht.

Und genau das ist der entscheidende Punkt: Hier wird immer erst mal auf die Caches geschaut und viele denken hier, dass die dann das Wunder auslösen, das stimmt so aber einfach nicht.

latiose88 schrieb:
Es ist ein vorserien Modell und zeigt ein zwischen Schritt an. Also das meiste ist damit schon erledigt.

Ja, es ist ein Vorserienmodell, das ändert aber an der Stelle nichts daran, dass wir nicht genau wissen bei welchem Takt er lief und ob der Mikrocode in der CPU schon final ist oder noch angepasst werden müssen oder ob sich in dem ES vielleicht sogar ein Bug befindet, der noch behoben werden muss und ja, solche ES dienen auch dazu solche Bugs zu finden.

Da der Takt unbekannt ist, sondern nur das hier von 1,3 GHz bis 3,4 GHz getaktet werden kann, ist das Ergebniss hier nicht wirklich aussagekräftig. Genauso kann ein Fehler im Mikrocode auch eventuell das Ergebnis verhagelt haben. Genau deswegen gibt es die ES, dass man das findet und alles aufeinander abstimmt.

Wie oft sind schon Vorabbenchmarks von ES - auch bei AMD - an die Öffentlichkeit gelangt, die ein schlechtes Bild zeichneten und dann kam es doch anders, ich erinnere da mal an Zen, bei denen die ersten Resultate auch nicht "so" berauschend war und es hat dann halt doch für Haswell gereicht.

guggi4 schrieb:
Allgemein ist alles Richtung Rendering nicht wirklich geeignet, um Auswirkungen von Cache und Speicher zu testen.

Rendering ist so eine schöne Sache, da kaum Kernkommunikation notwendig ist, müssen Daten eigentlich nur intelligent durch den Prefetcher geladen und in den L2 und L1 geschoben werden und wenn sie raus gehen, sind sie auch soweit fertig, dass - selbst wenn sie im L2 liegen - eigentlich nicht mehr wirklich darauf zugegriffen wird.

Am Besten sind hier wirklich Anwendungen, die mit Zwischenberechnungen arbeiten und diese auch Zwischenlagern müssen um andere Teilergebnisse zu errechnen und darauf aufbauend dann weiter rechnen. Also ein konstantes hin und her zwischen Lese- und Schreiblast.

Zer0Strat · 28. März 2022

DevPandi schrieb:
Der 12900K setzt sich vom Ryzen 7 5800X nicht durch mehr Cache ab - nicht ausschließlich - sondern weil GoldenCove ein breiteres Front- und Backend haben und damit auch das mehr an L2-Cache auch effektiv nutzen kann.

Was Spiele betrifft, würde ich aber auch unbedingt auf den IMC schauen. Interessanterweise hat Alder Lake bezogen auf die unterschiedlichen Cache-Level deutliche schlechtere Latenzen als Zen 3.

DevPandi · 28. März 2022

Zer0Strat schrieb:
Was Spiele betrifft, würde ich aber auch unbedingt auf den IMC schauen. Interessanterweise hat Alder Lake bezogen auf die unterschiedlichen Cache-Level deutliche schlechtere Latenzen als Zen 3.

Japp, da hast du recht und danke für die Erinnerung, aber man kann nicht immer alles im Kopf habem.

Ich denk schon an so viel immer!

Ich bin ja gespannt, ob mit dem neuen IO-Die bei AMD auch am Infinity Fabric gearbeitet wurde und was da kommt!

latiose88 · 28. März 2022

Ja es scheinen aber auch Anwendung zu geben wo die schlechtere latzenz egal ist. Bei Anwendung wo weniger Bandbreiten limitert sind ,da fällt das dann nicht mehr so auf. Wobei selbst ich ein wenig durch rak Takt am Leistung profitiere. Aber im ganzen nicht so empfindlich auf die höheren Latenzen beim Cache durchaus sein kann. Woher ich das weiß weil manche CPUs da nicht so abgegnganen waren wie gedacht war.

Und ja ich habe vergessen das bei Intel mehr als nur der Cache gemacht wurde. Ich habe vergessen das dies alles zu mehr leistung führt. Das ist alles so wirkungsvoll das selbst ein 4 Kerner davon profitiert bei Vollast. Selbst also weniger Kerne hatten mehr Leistung gehabt. Also Kerne alleine scheinen hier nicht entscheidend zu sein. Bin ich froh das man noch mehr als genug Stellschrauben man nachziehen kann. Sonst würden wir nicht mehr Leistung bekommen können.

Zer0Strat · 28. März 2022

DevPandi schrieb:
Ich bin ja gespannt, ob mit dem neuen IO-Die bei AMD auch am Infinity Fabric gearbeitet wurde und was da kommt!

Laut Gigabyte Leak beträgt der IF Takt 2.4GHz. Das wäre gegenüber 1.6GHz aktuell eine erhebliche Steigerung.

Source

Beitrag · 29. März 2022

Novasun schrieb:
Ja - aber Platz ist dank Strukturen >= 14nm heute ja kein Problem mehr...

Stimmt nicht. Es ist ein Naturgesetz in der Halbleiterindustrie, dass mehr Chipfläche die Herstellungskosten erhöht - und zwar überproportional, da dann nicht mehr nur weniger Chips auf einen Wafer passen, sondern auch der Yield sinkt.
Außerdem sind SRAM-Zellen per se nicht besonders platzsparend. Will man haufenweise Cache in einen monolithischen Chip integrieren, bekommt man wegen der Wege zusätzlich also auch noch Latenzprobleme, wie von @CDLABSRadonP... bereits angesprochen.

Erst die Fortschritte in der Aufbau- und Verbindungstechnik in den letzten Jahren werden es möglich machen wirklich viel Cache zu integrieren und CPUs wie den 5800X3D zu bauen.

Was schon etwas länger möglich war, war die Integration von einem DRAM-Chip als L4 Cache im CPU-Package. Das hat Intel bei Broadwell gemacht (i7-5775C und i5-5675C). Hat wunderbar funktioniert und war in Games sehr effektiv, ging aber offenbar auch ordentlich ins Geld. Die CPUs waren nicht gerade billig und wurden von Intel recht früh wieder eingestampft.

bytzmaster · 29. März 2022

warum erhöht man eig nicht den L1 auf sagen wir mal 512kb? so viel platz kann ja das bisschen speicher net sein, oder? müsste das net mega boosten?

Colindo · 29. März 2022

@bytzmaster Es haben ja schon einige angemerkt dass die Cache-Größe die Latenz steigen lässt. Wenn dein L1 nachher viermal so lange benötigt, um auf eine Anfrage zu reagieren, bringt dir das nicht viel. Die Latenz bei Zen3 ist bei 0,9 ns.

DevPandi · 29. März 2022

Colindo schrieb:
Es haben ja schon einige angemerkt dass die Cache-Größe die Latenz steigen lässt. Wenn dein L1 nachher viermal so lange benötigt, um auf eine Anfrage zu reagieren, bringt dir das nicht viel. Die Latenz bei Zen3 ist bei 0,9 ns.

Ach, selbst wenn wir die Latenz mal außer Acht lassen: Der L1d und L1i hängen direkt am Decoder und an den Load/Store-Einheiten und schaufeln die Befehle in den Decoder und laden die Daten in die Register oder eben in den L1d.

Den L1 muss man also nur so groß wählen, dass er die direkte Versorgung sicherstellt, alles darüber hinaus ist nicht wirklich notwendig. Zumal man mit geschickten Puffern auf dem L2 auch recht schnell die notwendigen Daten aus dem L2 in den L1 schaufeln kann, wenn es so weit ist.

luckysh0t · 29. März 2022

incurable schrieb:
Vielleicht sollten wir erst abwarten, bei welchen Latenzen der größere L2 von AMD landet.

Ergänzung (28. März 2022)

Mehr L2 ist keine neue Technologie.

Das nicht, aber Zen4 ist die neue Architektur - und die betrifft es.
Bin bei meinem ersten Kommentar mit dem 3D L3 durcheinander gekommen - dachte erst das wäre der hier (mit dem 3D L3) und in dem Zuge wurde auch der L2 erweitert.

bad_sign · 29. März 2022

Zer0Strat schrieb:
Laut Gigabyte Leak beträgt der IF Takt 2.4GHz. Das wäre gegenüber 1.6GHz aktuell eine erhebliche Steigerung.

Anhang anzeigen 1202143
Source

Nur 2400MHz? Das wären ja DDR5 4800
Sollte Zen4 nicht mit 5200 kommen?

Zer0Strat · 29. März 2022

bad_sign schrieb:
Sollte Zen4 nicht mit 5200 kommen?

Ne, spricht eigentliches alles für DDR5-4800 bei der ersten Gen. Ist auch die Frage, wie gut man den IF übertakten kann. Auf guten Boards packt ein 12900K locker 6600-6800MT/s mit Gear 2. Ob's dann auch für den IF einen asynchronen Mode gibt, der sich erst bei hohen Speichergeschwindigkeiten lohnt? Leider hängt die Inter-CCD Kommunikation am IF. Könnte kritisch werden. Man kann nur hoffen, dass der IF synchron wenigstens 3GHz packt. Das wären 25% OC. Wird sportlich!

Aktuell sind es von 1600MHz nach 1900MHz ca. 19%. Und das packt nicht mal jede CPU. Mein 5900X schafft das nicht.

bad_sign · 29. März 2022

@Zer0Strat
Dachte da an diese Gerüchte
https://videocardz.com/newz/amd-zen4-epyc-genoa-cpu-for-sp5-socket-prototype-allegedly-pictured
Und wenn es 12ch Epyc schaffen sollte, dann 2ch AM5 auch

Suche

News Server-Prozessor: AMD bohrt Genoa auf 1 MByte L2-Cache pro Kern auf

guggi4

Commander

kiffmet

Lt. Commander

Zer0Strat

Gast

DevPandi

Mangoverputzer*in

Zer0Strat

Gast

DevPandi

Mangoverputzer*in

latiose88

Commodore

Zer0Strat

Gast

Beitrag

Fleet Admiral

bytzmaster

Cadet 3rd Year

Colindo

Redakteur

DevPandi

Mangoverputzer*in

luckysh0t

Commander

bad_sign

Commodore

Zer0Strat

Gast

bad_sign

Commodore

Passend zum Thema

AMD Epyc Embedded 9005 8 bis 192 Zen-5(c)-Kerne für weitere Industriezweige

Retro Im Test vor 15 Jahren Intel Core i7-980X als erste CPU mit sechs Kernen

AMD Ryzen 9 9950X3D und 9900X3D Update 2 Ab 12. März für 699 respektive 599 USD im Handel