News Server-Prozessor: AMD bohrt Genoa auf 1 MByte L2-Cache pro Kern auf

andi_sco schrieb:
Was empfiehlst du da?
Darauf hab ich leider für Consumer Software keine gute Antwort, grundsätzlich sollte vieles, was von RAM-OC profitiert auch von größeren Caches profitieren. Spiele sind da immer ein heißer Tipp.

Falls dich HPC Workloads interessieren, hier wurde Milan-X getestet: https://www.phoronix.com/scan.php?page=article&item=amd-epyc-7773x-linux&num=1

Allgemein ist alles Richtung Rendering nicht wirklich geeignet, um Auswirkungen von Cache und Speicher zu testen.
 
  • Gefällt mir
Reaktionen: andi_sco
eastcoast_pete schrieb:
(...) Ich finde es auch immer noch etwas seltsam, daß unter den x86 Desktop CPUs ausgerechnet die kleinen "Efficiency" Kerne bei Alder Lake wohl mit den größten L1 Cache pro Kern haben (mehr als die Power, also Cove Kerne). Hat Intel da jemals was dazu gesagt warum das so gemacht wurde?
4 Efficiency Kerne teilen sich einen Anschluss zum Ringbus, sowie den L2 Cache. Mehr L1 soll wohl dieses Bottleneck ausgleichen und die Energieeffizienz durch eine Reduktion der Speicherzugriffe heben.

Ich denke ja, dass AMD zusätzlich zum L2 Cache auch den Decoder und den "Instruction Reorder Buffer" aufbohren wird. Aus dem Zusammenspiel dieser Komponenten hat ja Apple schon kräftig IPC extrahiert, Intel folgte, sobald die 10nm SFE Fertigung verfügbar war, mit Alder Lake (hat AFAIK 6-wide Decoder in den P-Cores und 2x3-Wide in den E-Cores).

Wäre also zu erwarten, dass AMD über dieselben Stellschrauben nachzieht (Zen 3: Selber 4-Wide decoder wie Zen 2, deutlich mehr execution Ports, etwas größerer Reorder Buffer, überarbeiteter L3 Cache und Ringbus/Crossbar; Zen 4: Mehr L2 bestätigt, neuer Decoder und mehr ILP naheliegend)
 
  • Gefällt mir
Reaktionen: Colindo und Zer0Strat
latiose88 schrieb:
Also 8 Kerne mit ht meinte ich. Es zeigt sich daß der 12900k sich vom ryzen 7 5800x Dank mehr Cache absetzen kann.
Dir fehlt an der Stelle ein entscheidendes Detail - ich wiederhole an der Stelle etwas: Der 12900K setzt sich vom Ryzen 7 5800X nicht durch mehr Cache ab - nicht ausschließlich - sondern weil GoldenCove ein breiteres Front- und Backend haben und damit auch das mehr an L2-Cache auch effektiv nutzen kann.

Ich verweise erneut auf SunnyCove und WillowCove: Der L2-Cache zog bei WillowCove um 768 KiB an (150 %) und wurde auf 1280 KiB von 512 KiB erweitert. Dennoch konnte WillowCove sich gemittelt nicht von SunnyCove absetzen und aggiert quasi über alle Szenarien gleich.

SunnyCove hat sich gege über SkyLake durchaus mit ca. 10 - 20 % IPC absetzten können, da hat Intel aber viel mehr getan als einfach nur L2 und L3-Cache zu erhöhen. Unter anderem wurde das OOO-Fenster vergrößert, die Sprungvorhersage kann auf mehr Daten zurückgreifen, µOPS-Cache vergrößert, Dispatch-Block vergrößert usw und es wurden auch der L2 und L3-Cache vergrößert.

Bei GoldenCove werden nun 6 statt 4 Befehle pro Takt decodiert weiter geleitet, man hat erneut an den "Caches" für die Branchprediction gearbeitet, man hat den Reoder-Buffer erweitert, eine 5 INT-ALU usw. und hat nun erneut bis zu 20 % erreicht.

Und genau das ist der entscheidende Punkt: Hier wird immer erst mal auf die Caches geschaut und viele denken hier, dass die dann das Wunder auslösen, das stimmt so aber einfach nicht.
latiose88 schrieb:
Es ist ein vorserien Modell und zeigt ein zwischen Schritt an. Also das meiste ist damit schon erledigt.
Ja, es ist ein Vorserienmodell, das ändert aber an der Stelle nichts daran, dass wir nicht genau wissen bei welchem Takt er lief und ob der Mikrocode in der CPU schon final ist oder noch angepasst werden müssen oder ob sich in dem ES vielleicht sogar ein Bug befindet, der noch behoben werden muss und ja, solche ES dienen auch dazu solche Bugs zu finden.

Da der Takt unbekannt ist, sondern nur das hier von 1,3 GHz bis 3,4 GHz getaktet werden kann, ist das Ergebniss hier nicht wirklich aussagekräftig. Genauso kann ein Fehler im Mikrocode auch eventuell das Ergebnis verhagelt haben. Genau deswegen gibt es die ES, dass man das findet und alles aufeinander abstimmt.

Wie oft sind schon Vorabbenchmarks von ES - auch bei AMD - an die Öffentlichkeit gelangt, die ein schlechtes Bild zeichneten und dann kam es doch anders, ich erinnere da mal an Zen, bei denen die ersten Resultate auch nicht "so" berauschend war und es hat dann halt doch für Haswell gereicht. ;)
guggi4 schrieb:
Allgemein ist alles Richtung Rendering nicht wirklich geeignet, um Auswirkungen von Cache und Speicher zu testen.
Rendering ist so eine schöne Sache, da kaum Kernkommunikation notwendig ist, müssen Daten eigentlich nur intelligent durch den Prefetcher geladen und in den L2 und L1 geschoben werden und wenn sie raus gehen, sind sie auch soweit fertig, dass - selbst wenn sie im L2 liegen - eigentlich nicht mehr wirklich darauf zugegriffen wird.

Am Besten sind hier wirklich Anwendungen, die mit Zwischenberechnungen arbeiten und diese auch Zwischenlagern müssen um andere Teilergebnisse zu errechnen und darauf aufbauend dann weiter rechnen. Also ein konstantes hin und her zwischen Lese- und Schreiblast.
 
  • Gefällt mir
Reaktionen: latiose88 und incurable
DevPandi schrieb:
Der 12900K setzt sich vom Ryzen 7 5800X nicht durch mehr Cache ab - nicht ausschließlich - sondern weil GoldenCove ein breiteres Front- und Backend haben und damit auch das mehr an L2-Cache auch effektiv nutzen kann.
Was Spiele betrifft, würde ich aber auch unbedingt auf den IMC schauen. Interessanterweise hat Alder Lake bezogen auf die unterschiedlichen Cache-Level deutliche schlechtere Latenzen als Zen 3.
 
  • Gefällt mir
Reaktionen: DevPandi
Zer0Strat schrieb:
Was Spiele betrifft, würde ich aber auch unbedingt auf den IMC schauen. Interessanterweise hat Alder Lake bezogen auf die unterschiedlichen Cache-Level deutliche schlechtere Latenzen als Zen 3.
Japp, da hast du recht und danke für die Erinnerung, aber man kann nicht immer alles im Kopf habem. ;) Ich denk schon an so viel immer!

Ich bin ja gespannt, ob mit dem neuen IO-Die bei AMD auch am Infinity Fabric gearbeitet wurde und was da kommt!
 
Ja es scheinen aber auch Anwendung zu geben wo die schlechtere latzenz egal ist. Bei Anwendung wo weniger Bandbreiten limitert sind ,da fällt das dann nicht mehr so auf. Wobei selbst ich ein wenig durch rak Takt am Leistung profitiere. Aber im ganzen nicht so empfindlich auf die höheren Latenzen beim Cache durchaus sein kann. Woher ich das weiß weil manche CPUs da nicht so abgegnganen waren wie gedacht war.

Und ja ich habe vergessen das bei Intel mehr als nur der Cache gemacht wurde. Ich habe vergessen das dies alles zu mehr leistung führt. Das ist alles so wirkungsvoll das selbst ein 4 Kerner davon profitiert bei Vollast. Selbst also weniger Kerne hatten mehr Leistung gehabt. Also Kerne alleine scheinen hier nicht entscheidend zu sein. Bin ich froh das man noch mehr als genug Stellschrauben man nachziehen kann. Sonst würden wir nicht mehr Leistung bekommen können.
 
DevPandi schrieb:
Ich bin ja gespannt, ob mit dem neuen IO-Die bei AMD auch am Infinity Fabric gearbeitet wurde und was da kommt!
Laut Gigabyte Leak beträgt der IF Takt 2.4GHz. Das wäre gegenüber 1.6GHz aktuell eine erhebliche Steigerung.

1648486859426.png

Source
 
  • Gefällt mir
Reaktionen: Colindo, incurable, Hannibal Smith und eine weitere Person
Novasun schrieb:
Ja - aber Platz ist dank Strukturen >= 14nm heute ja kein Problem mehr...
Stimmt nicht. Es ist ein Naturgesetz in der Halbleiterindustrie, dass mehr Chipfläche die Herstellungskosten erhöht - und zwar überproportional, da dann nicht mehr nur weniger Chips auf einen Wafer passen, sondern auch der Yield sinkt.
Außerdem sind SRAM-Zellen per se nicht besonders platzsparend. Will man haufenweise Cache in einen monolithischen Chip integrieren, bekommt man wegen der Wege zusätzlich also auch noch Latenzprobleme, wie von @CDLABSRadonP... bereits angesprochen.

Erst die Fortschritte in der Aufbau- und Verbindungstechnik in den letzten Jahren werden es möglich machen wirklich viel Cache zu integrieren und CPUs wie den 5800X3D zu bauen.

Was schon etwas länger möglich war, war die Integration von einem DRAM-Chip als L4 Cache im CPU-Package. Das hat Intel bei Broadwell gemacht (i7-5775C und i5-5675C). Hat wunderbar funktioniert und war in Games sehr effektiv, ging aber offenbar auch ordentlich ins Geld. Die CPUs waren nicht gerade billig und wurden von Intel recht früh wieder eingestampft.
 
warum erhöht man eig nicht den L1 auf sagen wir mal 512kb? so viel platz kann ja das bisschen speicher net sein, oder? müsste das net mega boosten?
 
Colindo schrieb:
Es haben ja schon einige angemerkt dass die Cache-Größe die Latenz steigen lässt. Wenn dein L1 nachher viermal so lange benötigt, um auf eine Anfrage zu reagieren, bringt dir das nicht viel. Die Latenz bei Zen3 ist bei 0,9 ns.
Ach, selbst wenn wir die Latenz mal außer Acht lassen: Der L1d und L1i hängen direkt am Decoder und an den Load/Store-Einheiten und schaufeln die Befehle in den Decoder und laden die Daten in die Register oder eben in den L1d.

Den L1 muss man also nur so groß wählen, dass er die direkte Versorgung sicherstellt, alles darüber hinaus ist nicht wirklich notwendig. Zumal man mit geschickten Puffern auf dem L2 auch recht schnell die notwendigen Daten aus dem L2 in den L1 schaufeln kann, wenn es so weit ist.
 
  • Gefällt mir
Reaktionen: incurable und Colindo
incurable schrieb:
Vielleicht sollten wir erst abwarten, bei welchen Latenzen der größere L2 von AMD landet.
Ergänzung ()

Mehr L2 ist keine neue Technologie.
Das nicht, aber Zen4 ist die neue Architektur - und die betrifft es.
Bin bei meinem ersten Kommentar mit dem 3D L3 durcheinander gekommen - dachte erst das wäre der hier (mit dem 3D L3) und in dem Zuge wurde auch der L2 erweitert.
 
bad_sign schrieb:
Sollte Zen4 nicht mit 5200 kommen?
Ne, spricht eigentliches alles für DDR5-4800 bei der ersten Gen. Ist auch die Frage, wie gut man den IF übertakten kann. Auf guten Boards packt ein 12900K locker 6600-6800MT/s mit Gear 2. Ob's dann auch für den IF einen asynchronen Mode gibt, der sich erst bei hohen Speichergeschwindigkeiten lohnt? Leider hängt die Inter-CCD Kommunikation am IF. Könnte kritisch werden. Man kann nur hoffen, dass der IF synchron wenigstens 3GHz packt. Das wären 25% OC. Wird sportlich!

Aktuell sind es von 1600MHz nach 1900MHz ca. 19%. Und das packt nicht mal jede CPU. Mein 5900X schafft das nicht.
 
Zuletzt bearbeitet von einem Moderator:
Zurück
Oben