News AMD Zen 5: Neue CPUs bekommen zusätzliche AVX-Fähigkeiten und mehr

DevPandi schrieb:
Frage ist am Ende, was sie Frontend machen und die zwei INT-ALUs zu füttern, wie FP sich verbessern und was alles kommt.
Mike Clark beim Interview mit Ian Cutress (anantech)
IC: Eine der modernen Design-Entscheidungen des modernen x86-Kerns ist die Dekodierbreite des variablen Befehlssatzes - Intels und AMDs leistungsstärkste Kerne, seit Ryzen, sind 4-breit. Wir sehen jedoch duale Designs mit 3 oder 6 Breiten, die sich auf den Op-Cache verlassen, um Strom zu sparen. Offensichtlich war 4-Wide für AMD in Zen 1 großartig, und wir sind immer noch bei 4-Wide für Zen 3: Wo geht die Roadmap von hier aus hin, und aus einer ganzheitlichen Perspektive, wie verändert die Dekodierbreite von x86 die grundlegende IPC-Modellierung?
MC: Ich denke, es kommt auf den Aspekt der Ausgewogenheit zurück, in dem Sinne, dass ich denke, dass es mit der Anzahl der Transistoren und der Intelligenz, die wir in unserem Branch Predictor haben, und der Fähigkeit, ihn zu füttern, gut funktioniert hat, über vier hinauszugehen. Aber wir werden noch breiter werden, Sie werden sehen, dass wir breiter werden, und um effizient zu sein, werden wir die Transistoren am Frontend der CPU haben, damit es die richtige architektonische Entscheidung ist. Die kontinuierliche Zunahme der Transistoren, die wir erhalten, ermöglicht es uns, das gesamte Design zu verbessern, um immer mehr IPC herauszuholen.
...
IC: Worauf können sich AMD-Benutzer schließlich freuen?
MC: Es wird großartig werden! Ich wünschte, ich könnte Ihnen sagen, was alles kommen wird. Ich habe dieses jährliche Architektur-Meeting, bei dem wir alles besprechen, was vor sich geht, und bei einem dieser Meetings (ich werde nicht sagen, wann) sind das Team und ich Zen 5 durchgegangen. Ich habe viel gelernt, denn heutzutage komme ich als Leiter der Roadmap nicht mehr so nah an das Design heran, wie ich es gerne könnte. Als ich aus dem Meeting kam, wollte ich nur noch meine Augen schließen, schlafen gehen und dann aufwachen und dieses Ding kaufen. Ich möchte in der Zukunft sein, dieses Ding ist fantastisch und wird so toll sein - ich kann es kaum erwarten. Das Schwierige an diesem Geschäft ist, zu wissen, wie lange es dauert, bis man das, was man sich ausgedacht hat, bis zu einem Punkt gebracht hat, an dem man es zur Produktion bringen kann.


Also wir werden es dieses Jahr noch erfahren, ob AMD an einem ausgewogenen Design festgehalten hat und ob der letzte Absatz die echte Meinung von Mike Clark oder Marketing BlaBla war.
DevPandi schrieb:
Im Endeffekt ist jetzt vieles möglich.
Durch den Patch hat sich vieles geklärt, aber einiges bleibt offen.

Auf der Folie war übriges die Rede von "wide issue" und nicht von "wider issue".

Jetzt bleibt noch die Frage was genau "Re-pipelined front end" ist. Dass was mich beim Patch massiv wundert ist, dass es immer noch nur 4 Decoder sein sollen.
DevPandi schrieb:
Die bisher genannten 10 % IPC mancher halte ich für zu wenig, was dann aber deutlich über 30 % liegt ist zu viel.
aus 50 % mehr ALUs weniger als 10 % Integer-IPC zu holen, wäre enttäuschend.

Mit 4 ALUs zählt Zen 4 zu den schlanken Kernen und mit 6 ALU gehört Zen 5 bei weitem nicht zu den breiten Kernen.

SaschaHa schrieb:
Die größte Baustelle sehe ich aber aktuell noch beim I/O-Die, der angeblich ja von Ryzen 7000 übernommen wird. Ich hoffe, dass dieser zumindest noch etwas optimiert wird und einen besseren Idle-Verbrauch ermöglicht.
Ich bin nicht sicher, ob der hohe Idle-Verbrauch tatsächlich allein an der Hardware liegt.
SpartanerTom schrieb:
Größere (Hardware-)Änderungen kommen dann vermutlich mit Zen6.
Das was der Patch offenbart sind massive Hardware-Änderungen an den Kernen. AMD hat seit Zen das issue beibehalten.

Bei Zen 6 ändert sich das Packaging, das ist eine ganz andere Baustelle als Änderungen an den CPU-Kernen.

Auf die Performance der CPU sollten die Änderungen von Zen 6 weniger Einfluss haben als das was bei Zen 5 passiert. Die Power wird sinken, besonders beim Server. Außerdem ergeben sich neue Optionen für Chiplets.
SpartanerTom schrieb:
Interessant zu diesem Thema:
Das ist ganz nett.

Ich verstehe allerdings nicht so ganz was das mit dem Silicon Interposer und den Silicon Bridges sollte. Es ist offensichtlich das beide Technologien für Zen nicht taugen. Silicon Bridges funktionieren offensichtlich nicht bei EPYC und Silicon Interposer sind zu teuer.

bad_sign schrieb:
Ohne verbesserte Sprungvorhersage / Caches / RAM Latenz, wird davon in Spielen kaum was übrig bleiben :(
AMD hat bei allen Inkarnationen von Zen kontinuierlich die Sprungvorhersage optimiert. Es es wäre sehr verwunderlich wenn dies nicht auch bei Zen 5 der Fall wäre.

Die RAM Latenz spielt IMO spätestens mit dem 3D V-Cache nur eine marginale Rolle.

Es hat schon einen Grund, warum AMD mit der Einführung von Zen 2 bei den CCDs den L3-Cache verdoppelt hat.
crustenscharbap schrieb:
Strix Halo wird sehr wahrscheinlich nicht für den Desktop kommen.
AM5 wird nicht funktionieren. Aber es kann trotzdem ein Desktop-Produkt sein.

Mich würde eher interessieren für was Strix Halo tatsächlich vorgesehen ist.

Die Gerüchte besagen dass Strix Halo ein 256 bit Speicherinterface haben soll, aber es gibt noch keine Gerüchte zu neuen "Sockeln" fürs Notebook.
crustenscharbap schrieb:
Es ist derzeit nicht möglich viel mehr Grafikleistung mit DDR5 RAM hin zu bekommen.
LPDDR5X und T sollten einiges bringen. Mit LPCAMM wird sich die Verbreitung von LPDD5X erhöhen.
crustenscharbap schrieb:
Wir bräuchten dann DDR6 im Quad Channel, was wieder teuer ist.
Und wenn alles so läuft wie bisher, wird LPDDR6 zeitlich vor DDR6 kommen.
crustenscharbap schrieb:
Ansonsten bin ich gespannt. Vielleicht bringt ja AMD noch ne APU mit 16 CUs und RDNA 3.5.
Wieso vielleicht? 16 CU und RDNA 3.5 ist der aktuelle Stand der Gerüchte für Strix Point.
Strix Point wird noch 2024 kommen.

Quidproquo77 schrieb:
Man kann aus den vorliegenden Informationen keine IPC Steigerung über eine breite Anwendungsbasis schätzen.
Man kann schon. Niemand sagt dass Schätzungen zutreffen müssen. Sie beruhen auf Annahmen. Wenn die Annahmen nicht zutreffen, sind die Schätzungen falsch.

Im übrigen verbreitest Du auch Werte.

Hast Du Dir Mal angesehen wie viele Decoder und ALU die modernen Arm-Kerne haben? Da wirken 6 ALUs nicht sonderlich viel an.
Quidproquo77 schrieb:
AMD hat bei Zen 4 eine Folie präsentiert, aus was sich die IPC Steigerungen speisen.
Es hat trotzdem zu mehr als 10 % gereicht.
Quidproquo77 schrieb:
Mühsam ernährt sich das Eichhörnchen. Will sagen, die Verbreiterungen können auch der letzte Strohhalm gewesen sein um wenigstens eine zweistellige IPC Steigerung aufs Papier zu bringen.

Breite Kerne benötigen erheblich mehr Transistoren und macht das Erreichen hoher Taktraten schwieriger.
Mehr Transistoren bedeuten eine größere Chipfläche und damit auch höhere Kosten.

Die Herausforderung ist nicht die zusätzlichen ALUs einzubauen, die Herausforderung ist, sie auszulasten. Und die Frequenz-Regression möglichst klein zu halten.

Es ist eine vernünftige Annahme, dass wenn AMD den issue breiter macht, daraus auch einen vernünftigen Zuwachs an IPC ziehen kann. Wie viel es genau ist werden wir sehen. Aber ein 10 % IPC-Zuwachs aus 50 % mehr ALU und den dafür erforderlichem breiteren Frontend und breiterem Load/Store ist es IMO nicht vernünftig.

MaverickM schrieb:
Aber nur via Zusatz Chip.
Und er wird nur bei wenigen, sehr teuren Mainboards verbaut.

Hier helfen IMO die Gerüchte, um die neuen Boards auch nicht weiter. Es wird ein paar mehr teure Boards it USB4-Host geben.

Das hat ganz alleine AMD verbockt, in dem sie dem Zen 4 cIOD keine USB4-Host verpasst haben. Der Sockel AM5 unterstützt ASFAIU bis zu 2 USB4-Ports.
MaverickM schrieb:
Eine Integration in den I/O Die,
Ich fürchte das wird mit den bereits veröffentlichten Boards nicht helfen.

Das ist ja das absolut ärgerliche mit den 8000G, die haben 2 USB4-Ports, die mit den AM5-Mainboards AFAIK nicht nutzbar sind.
MaverickM schrieb:
idealerweise inklusive TB4 steht noch aus.
TB4 ist nur ein Label für USB4. TB4 ist nur ein reines Marketing Konstrukt.

AMD hat in Phoenix einen USB4 Host mit allen Optionen implementiert. Ganz so wie es bei PCs zu erwarten ist. Dies wird IMO auch bei den zukünftigen USB4 Hosts die AMD verbaut, der Fall sein.

ASMedia hat beim ASM4242 ebenfalls alle Optionen implementiert.

tstorm schrieb:
Moin,

keine Angabe von AMD zum erwarteten Leistungszuwachs bedeutet für mich, dass wir nun auch bei ZEN in eine Phase der minimalen Steigerungen eintreten werden und uns in naher Zukunft wahrscheinlich nur kleine Trippelschritte erwarten wie damals ab Sandy Bridge.
AMD hat Im Mai 2023 mit konservativen Performance-Angaben zu Zen 4 den Hype-Train zu Zen 4 (MLID fabulierte etwas von mehr 40 % ST Performance-Zuwachs) entgleisen lassen.

Das war das erste Mal seit langer Zeit, dass AMD vor der offizielle Präsentation irgend etwas konkretes zur Performance der neuen CPUs und GPUs gesagt hat.
tstorm schrieb:
Ich lasse mich überraschen. Bisher hat AMD aber schon im Vorfeld immer mit den dicken Steigerungen geworben, dieses Mal ist es erstaunlich still.
Wie gesagt AMD sagt gewöhnlich vor der offiziellen Vorstellung nichts.

Es waren immer die Youtuber. Und die sind jetzt sehr vorsichtig. Denn sie haben sich bei Zen 4 bis auf die Knochen blamiert.
 
  • Gefällt mir
Reaktionen: Volvo480, LamaMitHut, bad_sign und 3 andere
ETI1120 schrieb:
Ich fürchte das wird mit den bereits veröffentlichten Boards nicht helfen.

Natürlich nicht. Es ging ja aber auch - neben Zen 5 - im von mir zitierten Beitrag um neue Boards mit neuem Chipsatz.
Ergänzung ()

ETI1120 schrieb:
TB4 ist nur ein Label für USB4. TB4 ist nur ein reines Marketing Konstrukt.

Das ist mir klar. Aber ist denn jeder DisplayPort-fähige USB4 Anschluss auch TB4 "fähig", also funktionieren TB4 Geräte damit? Gebe zu, dass ich mich damit noch nicht wirklich auseinander gesetzt habe.
 
MaverickM schrieb:
Natürlich nicht. Es ging ja aber auch - neben Zen 5 - im von mir zitierten Beitrag um neue Boards mit neuem Chipsatz.
So wie ich es verstehe geht es hier nur um ein neues Label. D. h. es werden 2 Mal Promontory 21 + ASM4242 verbaut. Beide Chips sind bereits eingeführt.

MaverickM schrieb:
Das ist mir klar. Aber ist denn jeder DisplayPort-fähige USB4 Anschluss auch TB4 "fähig", also funktionieren TB4 Geräte damit? Gebe zu, dass ich mich damit noch nicht wirklich auseinander gesetzt habe.
USB4 ist nicht nur für PCs konzipiert. Aus diesem Grund hat die USB-IF einige Features für USB4-Host optional gemacht.

Optinal sind
  • 40 oder 80 Gbps
  • ThunderboltTM 3 (TBT3) Compatibility Support
  • PCIe Tunneling
  • Ich gehe davon aus dass der neue Asymetric Link Support (120 Gbps downstream) auch optional ist
Displayport Alternate Mode zu unterstützen, ist für einen USB4-Host verpflichtend. IMO ist der Displayport Alternate Mode ein Irrweg und ein Auslaufmodell. Mit USB4 wurde das Tunneling Konzept von Thunderbolt übernommen, was erheblich flexibler und leistungsfähiger.

IMO ergibt es keinen Sinn bei einem USB4 Host am PC auf eine der Optionen zu verzichten.
Ergänzung ()

Paladin-HH schrieb:
Von 5 auf 4 nm ist eine Verkleinerung der Strukturbreite von 20%
  1. Wir reden hier von Flächen, d. h. wenn eine Dimension tatsächlich um 20 % schrumpfen würde, ergäbe dies eine eine Flächenersparnis von 44%
  2. Wie schon andere ausgeführt haben sind 5 und 4 nm Namen und keine Maße.
    TSMC gibt von N5 auf N4P eine Dichtesteigerung von 6 % an. Wie viel AMD rauskitzelt steht auf einem vollkommen anderen Blatt.
Noch 3 Anmerkungen:
  1. Die Zahlen die TSMC zu den Verbesserungen zwischen zwei Prozessen nennt, beziehen sich auf ein Standarddesign (meist ein Arm-Kern) und auf einen Arbeitspunkt.
    Die Zahlen mit AMD-Kernen werden abweichen.
  2. N4P benötigt weniger Masken als N5. Also ist N4P preiswerter als N5. Außerdem wurde N4P so entworfen, dass ein Umstieg von N5 auf N4P einfach ist.
  3. Ein Umstieg von N4P auf N3E mit einem Chip, erfordert ein komplettes Redesign des Chips. Es ist also erheblich aufwändiger als der Wechsel von N7 auf N6 oder N5 auf N4P.
 
Zuletzt bearbeitet:
Zen5:love:
 
  • Gefällt mir
Reaktionen: Smartbomb und kuddlmuddl
iNFECTED_pHILZ schrieb:
Einzig die Plattform ist DAS Argument für amd momentan.
Ganz ehrlich die Plattform schreckt mich eher ab.
Beim Wechsel auf LGA hat man den Heatspreader noch dicker gemacht und die eh schon vorhandenen Hotspots noch schlimmer gemacht. Dazu sind die "modernen" Features nur auf extrem teuren -E Boards vorhanden, während die non-E Boards genau das bieten was man schon lange mit AM4 hatte.
Das Problem mit dem hohen Idle Verbrauch hat man leider auch noch nicht gelöst.

Wäre der 5800X3D nicht so eine Bombe für Spiele gewesen hätte ich den 3700X länger behalten und wäre wieder auf Intel gewechselt.
Ich finde die Intels aktuell die rundere Lösung.
 
Quidproquo77 schrieb:
Woran machst du das fest? Könnten genauso 8% sein.
An den Rohdaten - statt 4 ALUs sind es nun 6 ALUs im INT-Bereich. Im FP-Bereich soll es von 2 ALUs auf 4 ALUs hoch gehen. Ebenso, wie sich die IPC bei den ARM-Kernen von Apple in den letzten Jahren entwickelt hat und wie sich dort mit der Zeit die Verbreiterung des Kernes ausgewirkt hat und wie das in der IPC schlussendlich skaliert hat.

Die zusätzlichen ALUs gehen mit einem gewissen Transistor-Impact einher und wenn man die CPU um 50 % bei den Rechenwerken, um 25 % bei der Load/Store-Infrastrukltur und um 100 % bei den FP-ALUs(? hier ist es nicht ganz klar, weil alle etwas unterschiedlich schreiben) erweitert und am Ende im Mittel nur 10 % die IPC steigern konnte, dann ist da was gewaltig schief gelaufen im Design-Prozess.
Quidproquo77 schrieb:
Mühsam ernährt sich das Eichhörnchen. Will sagen, die Verbreiterungen können auch der letzte Strohhalm gewesen sein um wenigstens eine zweistellige IPC Steigerung aufs Papier zu bringen.
Wie @ETI1120 bereits anmerkte, gab es bei Zen 4 eine IPC-Steigerung um ca. 10 - 13 % im Mittel und Zen 4 ist in weiten kein so radilaker Umbau, wie es Zen 3 davor war oder nun Zen 5 sein wird.

Hier mal Zen 2 und Zen 3:
1707807877122.png

Zen 3 brachte im Mittel ca. 19 % IPC zu Zen 2 und man erkennt bereits am Block-Diagramm grob, welche Änderungen AMD hier vorgenommen hat.

Dann sieh dir mal Zen 4 an:
1707807993972.png

Zen 4 ist sehr nah an Zen 3 und brachte primär Veränderungen am L2-Cache sowie entsprechend an Sprungvorhersage, Anpassungen an der Buffern und Co und daraus zieht AMD bis zu 13 %.

Zen 5 wird hier nun seit Zen 3 das erste mal wieder deutlicher den Kern umbauen. Um dir einen weiteren Eckpunkt zu geben: Sieh die die letzte Bulldozer-Iteration Excavator an, streiche da mal den zweiten "Int"-Kern und setz das dann in Realtion mit Zen:
1707808392865.png

AMD hat bei Zen den zweiten Int-Kern raus geschmissen, hat den ersten Int-Kern dafür im ganzen doppelt so breit gemacht - statt 2 ALUs auf 4 ALUs. Dazu kommt dann der µ-OP-Cache, Anpassungen der Caches und Co. Am Ende stand im Mittel 52 % IPC. Wenn man sich hier dann die ganzen Eckdaten ansieht, dann sind von der theoretischen Verbreiterung um 100 % am Ende 50 % angekommen.

Eine IPC-Steigerung um "nur" 10 % im Mittel, bei einer Vergrößerung des Kernes um 50 %, wäre eher enttäuschend. Intel konnt beim Gang von SkyLake auf Sunny Cove - durch Anpassungen ähnlich wie Zen 2 zu Zen 3 - damals ca. 15 - 20 % IPC gewinne - was auch Vergleichbar mit Zen 3 ist - und aus den Änderungen von Sunny Cove zu Willow Cove - was weniger als Zen 3 zu Zen 4 ist - nur um die 5 - 10 % im Mittel und erst der große Umbau zu Golden Cove - was dann auch einer Verbreiterung des Kernes zwischen 25 - 50 % entsprach, um die 20 % IPC heraus holen im Mittel.

Das heißt, die Spanne von 20 bis 30 %, die ich hier nenne, basieren auf den Ergebnissen, die AMD, Intel, Apple, ARM und Co in den letzten Jahren bei entsprechenden Anpassungen hingelegt haben.

ETI1120 schrieb:
Durch den Patch hat sich vieles geklärt, aber einiges bleibt offen.
Das stimmt, vieles ist jetzt bekannt, einige der wichtigen Fragen bleiben allerdings auch offen. Was wir wissen ist, dass AMD bei Zen 5 jetzt den Weg eines "breiten" Kernes geht. Die Eckdaten des Backends findet man so auch beim Firestorm von Apple wieder.

Man wird abwarten müssen.
ETI1120 schrieb:
Auf der Folie war übriges die Rede von "wide issue" und nicht von "wider issue".
Ist jetzt etwas Gehoppst wie Gesprungen. ;) Im Endeffekt ist es ein Wide Issues design, aber wider issues als Zen 4. ;)
ETI1120 schrieb:
Jetzt bleibt noch die Frage was genau "Re-pipelined front end" ist. Dass was mich beim Patch massiv wundert ist, dass es immer noch nur 4 Decoder sein sollen.
Über das Frontend kannst du im GCC-Patch auch nicht wirklich etwas finden. Man wird abwarten müssen, was AMD hier macht. Es bleibt spannend.

Aber mal abwarten, was am Ende an IPC rum kommt. Ich bleib dabei, alles unter 20 % ist enttäuschend. Alles zwischen 20 - 30 % wäre gut, ab 30 % wäre es sensationell.
 
  • Gefällt mir
Reaktionen: LamaMitHut, bad_sign, Quidproquo77 und 2 andere
BAR86 schrieb:
Freue mich schon wie ein Schnitzel auf Zen5 und auch ob/wann Intel drauf antwortet.

Die Einführung von Zen hat uns allen so viel gebracht.
Aber leider auch eine Sache: Zen ist inzwischen seit bald 8 Jahren (2016) Spruchreif, so alt bin ich schon wieder geworden. Davor haben wir Jahrelang gewartet, bis das ganze endlich wieder kompetitiv wird... endlich haben wir ein starkes AMD und Intel "schläft" der weil.
Aufwachen, ich will endlich wieder einen großen Architekturschritt auch bei Intel sehen, irgendwann will ich meine CPU ersetzen und ~2025/26 ist es dann so weit. Entweder Zen 5 3D oder Arrow Lake/Panther Lake
Habe auch ein 9Jahre altes System und stelle mir vor, ende oder Anfangs 25, wenn 88003D kommt zu zuschlagen.

Glaube aber nicht an den IPC Hype. Wahrscheinlich 30% in KI Berechnung oder nur bei einem expliziten Programm, kann aber auch eine andere dumme Ausrede kommen um sich dann aus den fast versprochenen 20-30% mehr Performance heraus zu winden.

Bin gespannt und schliesse nicht aus, eine heutige Gen zu kaufen, wenn die neue raus kommt.
Ergänzung ()

Der eigentliche Knaller ist doch eher der 870er Chipsatz.
Bei der beschissenen Auswahl heute für das Geld, kann nur besser werden oder min. den Preis drücken.
 
ETI1120 schrieb:
aus 50 % mehr ALUs weniger als 10 % Integer-IPC zu holen, wäre enttäuschend.

So einfach ist es nicht. Als ich vor 3 Jahrzehnten einen Vortrag von jemandem von HP gehoert habe, wo berichtet wurde, dass sie bei einer Simulation beim Aufbohren von 1-breit auf 4-breit WIMRE 10% speedup herausbekommen haben, und ich dann eine Frage in die Richtung gestellt habe, dass ich da mehr erwartet haette, und woran der nicht so tolle Speedup liegt, kam die Antwort "We would kill each other for a speedup of 10%".

Naja, jedenfalls kosten die zusaetzlichen ALUs jetzt nicht so berauschend viel. Wenn Du aber z.B. 66% mehr ALUs auf z.B. einen Pentium Pro oder K7 (urspruenglicher AMD Athlon) schnallen wuerdest, wuerdest Du bei den allermeisten Anwendungen wohl deutlich weniger als 10% speedup sehen, einfach weil der Rest der Mikroarchitektur in fast allen Faellen zu wenig Arbeit fuer weitere ALUs bereitstellt bzw. weil das nur dazu fuehren wuerde, dass die vorherigen ALUs oefters auf Arbeit warten muessen.

Es muss also an allen moeglichen Stellen was verbessert werden, damit mehr IPC herauskommen kann. Die ALUs sind nur ein Teil davon; und da sie relativ billig sind, kann es sein, dass man da eine mehr dazugibt (also in diesem Fall 6 statt 5), auch wenn die nur 1% bringt. Viele von den Dingen, die da etwas bringen, sieht man auf den Datenpfad-Diagrammen nicht und sie werden in den ueblichen Artikeln ueber die Mikroarchitekturen nicht einmal erwaehnt. Ich habe z.B. in solchen Artikeln nichts darueber gelesen, dass Zen3 im Vergleich zu Zen2 die Latenz von Store-to-Load-Forwarding von 7 Zyklen auf 0 reduziert hat (aehnlich bei Tiger Lake und Rocket Lake im Vergleich zu Skylake).

Mich würde eher interessieren für was Strix Halo tatsächlich vorgesehen ist.

Desktop-Spielekonsole? Ansonsten scheint mir ein Spiele-Laptop das wohl vermarktbarste.
 
mae schrieb:
So einfach ist es nicht. Als ich vor 3 Jahrzehnten einen Vortrag von jemandem von HP gehoert habe, wo berichtet wurde, dass sie bei einer Simulation beim Aufbohren von 1-breit auf 4-breit WIMRE 10% speedup herausbekommen haben, und ich dann eine Frage in die Richtung gestellt habe, dass ich da mehr erwartet haette, und woran der nicht so tolle Speedup liegt, kam die Antwort "We would kill each other for a speedup of 10%".
ETI1120 hat nichts beigelegt was seine Behauptungen stützen würde.
 
mae schrieb:
Desktop-Spielekonsole? Ansonsten scheint mir ein Spiele-Laptop das wohl vermarktbarste.
Generell Thin&Light Premium-Performance. Wenn es auf jedes Gramm ankommt, will man keine dGPU verbauen müssen. Das wird sicher um Gaming gehen, kann mir aber auch gut vorstellen, dass das für professionelle Workloads ebenso gut taugt (und entsprechend für Laptops gedacht ist, die gegen Apples MacBooks positioniert werden).
 
mae schrieb:
Wenn Du aber z.B. 66% mehr ALUs auf z.B. einen Pentium Pro oder K7 (urspruenglicher AMD Athlon) schnallen wuerdest, wuerdest Du bei den allermeisten Anwendungen wohl deutlich weniger als 10% speedup sehen
Womit wir dann zu folgenden Antwort kommen:
DevPandi schrieb:
am Ende im Mittel nur 10 % die IPC steigern konnte, dann ist da was gewaltig schief gelaufen im Design-Prozess.
Genau so dein Beispiel von HP. Wenn man von 1-wide auf 4-wide umstellt und da nur 10 % heraus bekommt, dann ist etwas im eigentlichen Design schief gelaufen, weil man andere Stelleschrauben vollkommen vergessen hat.

Gehen wir doch mal zum P6 - also inklusive Pentium 3 - und K7:
1707814785229.png


1707814967138.png

Der Decoder damals war - stark vereinfacht - 3-fach aufgebaut und liefert entsprechende µOPs. Wenn man jetzt einfach das Backend von hier 2 INT-Alus (FP lassen wir mal raus) auf 4 INT erweitert, ohne den Decoder anzupassen, werden theoretisch mehr Befehle abgearbeitet, als nachkommen.

Genauso mit der Datenversorung. Wenn man nicht genug Daten nachladen kann sowie Wegspeicher, entstehen Wartezeiten - was man durch das Registerset entschärfen kann.

x86 hatte zu P6 und K7-Zeiten 8 Register, was eine entsprechende Load-Store-Infrastruktur benötigt. Hat sich mit AMD64 verbessert mit 16 und Intels APX bringt nicht umsonst jetzt die Erweiterung auf 32 Register.

In deinen Beispielen wird einfach stumpf das Backend aufgebohrt, besser nur die ALUs. Das funktioniert in der Regel nie. AMD deutet aber bereits an, dass eine weitere AGU dazu kommt, damit verbunden vermutluich auch eine weitere Load und ggf Store Einheit - damit man schneller an die Daten kommt.

Ob die zusätzlichen ALUs "verpuffen" und wir x < 10 % sehen, hängt jetzt auch davon ab, was an der Sprungvorhersagte, dem OoO-Bereich, den Caches und Co noch passiert und auch was mit dem Decoder passiert.

Du kannst einen Eimer mit einem Loch versehen und ablaufen lassen und dem eimer darüber mit zwei Löchern versehen. Irgendwann läuft der untere Eimer über. Oder du versiehst den oben mit einem Loch und unten mit zwei und der eimer ist irgendwann dauerhaft quasi leer. Beides sind Szenarien, die man nicht will.
 
  • Gefällt mir
Reaktionen: LamaMitHut, bad_sign, Quidproquo77 und 2 andere
DevPandi schrieb:
An den Rohdaten - statt 4 ALUs sind es nun 6 ALUs im INT-Bereich. Im FP-Bereich soll es von 2 ALUs auf 4 ALUs hoch gehen. Ebenso, wie sich die IPC bei den ARM-Kernen von Apple in den letzten Jahren entwickelt hat und wie sich dort mit der Zeit die Verbreiterung des Kernes ausgewirkt hat und wie das in der IPC schlussendlich skaliert hat.
Man würde die Logik zumindest nicht kopflos verbreitern, wenn es keinen Effekt hätte. Es gibt von AMD allerdings selbst keinerlei Angaben, so kurz vor Launch und die ersten ES Samples sind im Umlauf. Es wird also nicht mehr lange dauern bis ungefähre Testresultate durchsickern.
DevPandi schrieb:
Die zusätzlichen ALUs gehen mit einem gewissen Transistor-Impact einher und wenn man die CPU um 50 % bei den Rechenwerken, um 25 % bei der Load/Store-Infrastrukltur und um 100 % bei den FP-ALUs(? hier ist es nicht ganz klar, weil alle etwas unterschiedlich schreiben) erweitert und am Ende im Mittel nur 10 % die IPC steigern konnte, dann ist da was gewaltig schief gelaufen im Design-Prozess.
Ich weiß nicht. Mit Steamroller hat AMD gegenüber Piledriver auch im FE die Decoder verdoppelt, und herum kamen nur um die 5% IPC Steigerung.
DevPandi schrieb:
Wie @ETI1120 bereits anmerkte, gab es bei Zen 4 eine IPC-Steigerung um ca. 10 - 13 % im Mittel und Zen 4 ist in weiten kein so radilaker Umbau, wie es Zen 3 davor war oder nun Zen 5 sein wird.
Bei Zen 4 hat man an sehr vielen Stellen geschraubt. AMD führt das auf Folien im einzelnen auf.
DevPandi schrieb:
Anhang anzeigen 1453854
AMD hat bei Zen den zweiten Int-Kern raus geschmissen, hat den ersten Int-Kern dafür im ganzen doppelt so breit gemacht - statt 2 ALUs auf 4 ALUs. Dazu kommt dann der µ-OP-Cache, Anpassungen der Caches und Co. Am Ende stand im Mittel 52 % IPC.
Weil sich das Modul viele Ressourcen geteilt hat, im Grunde stellte ein Modul physisch nur einen Kern mit CMT dar, natürlich hat man von diesem Throughput Server- Konstrukt aus hohe Sprünge bei der Leistung pro Takt umsetzen können. Bulldozer hatte deutlich weniger ipc als ein Phenom II, aber gewollt.
DevPandi schrieb:
Aber mal abwarten, was am Ende an IPC rum kommt. Ich bleib dabei, alles unter 20 % ist enttäuschend. Alles zwischen 20 - 30 % wäre gut, ab 30 % wäre es sensationell.
Abwarten und Tee trinken. ;)
Ich wäre positiv überrascht, wenn es mehr als 15% sind. Mehr als 30% wären der Abriss und ein Novum.

Die Pipeline Stages bleiben gleich?
Gibt es dazu überhaupt noch Infos?
 
Quidproquo77 schrieb:
Bei Zen 4 hat man an sehr vielen Stellen geschraubt. AMD führt das auf Folien im einzelnen auf.
Ist richtig, aber eben viele Details, die optimiert wurden. Zen 5 ist dagegen schon ein größerer Umbau.
 
DevPandi schrieb:
x86 hatte zu P6 und K7-Zeiten 8 Register, was eine entsprechende Load-Store-Infrastruktur benötigt. Hat sich mit AMD64 verbessert mit 16 und Intels APX bringt nicht umsonst jetzt die Erweiterung auf 32 Register.
Das Problem der 8 Register bei x86 ist eher die fehlende Orthogonalität.
 
Quidproquo77 schrieb:
Mit Steamroller hat AMD gegenüber Piledriver auch im FE die Decoder verdoppelt, und herum kamen nur um die 5% IPC Steigerung.
Bei Bulldozer und Piledriver wurde ein 4-Decoder für das ganze Module verwendet. Steamroller war damals quasi die halbe Rollerückwärtss, in dem beide INT-Kerne ihren eigenen Decoder bekamen und quasi nur noch die FPU geteilt war.

Bei Steamroller wurde primär nur das Frontend getauscht, das Backend blieb aber zu Piledriver quasi gleich: 2 * AGU + 2 ALU. Dass man hier also keine wirkliche Sprünge bei der IPC hingelegt hat, ist nicht so ganz verwunderlich. Das ist im Endeffekt auch ein gutes Beispiel und zeigt auch deutlich, was ich quasi versuche zu erklären: Es bringt nichts nur das Backend oder das Frontend aufzubohren, wenn man mehr Durchsatzt erreichen will. Es muss immer beides überarbeitet werden.
Quidproquo77 schrieb:
Bei Zen 4 hat man an sehr vielen Stellen geschraubt. AMD führt das auf Folien im einzelnen auf.
Hier musst du zwischen zwei Dingen unterscheiden: Passe ich bestimmte Stellschrauben an - Buffer, Caches, Latenzen - oder wird etwas umstrukturiert.

Sieht man sich die Informationen von AMD zu Zen 4 an, dann wurde der µ-OP-Cache vergrößert. Die Buffer des L1 und L2-Caches erweitert, andere Buffer ebenso vergrößert, auch bei der Sprungvorhersage und Co. Man hat aber die Struktur von Zen 3 weitgehend beibehalten.

Zen 4 ist - wenn man es lapidar ausdrücken möchte - Zen 3 mit etwas mehr Cache, etwas größeren Buffern und AVX512.

AMD fährt bei Zen aktuell durchaus sowas wie ein Tick-Tock-Modell. Zen 1 ist redikaler Umbau, Zen 2 nimmt die Struktur und verbessert Aspekte. Zen 3 ist wieder ein Umbau, Zen 4 verbessert Aspekte. Zen 5 wird wieder ein Umbau.
Quidproquo77 schrieb:
Bulldozer hatte deutlich weniger ipc als ein Phenom II, aber gewollt.
Was damit zu erklären ist, dass AMD einen "Int-Kern" von 3 ALUs und 3 AGUs auf 2 ALUs und 2 AGU eingekürzt hat. Die dann verdoppelt und dafür den Decoder auf 4 erweitert.

Das heißt jeder einzelne Kern war auch darauf ausgelegt weniger zu schaffen.
foofoobar schrieb:
Das Problem der 8 Register bei x86 ist eher die fehlende Orthogonalität.
Das war bei x86 ein Problem, hat sich aber mit der 32-Bit-Erweiterung und später der 64-Bit Erweiterung aufgelöst, weil dann die Register vollständig für quasi alle Befehle genutzt werden konnten. Daher ist die Orhtogonalität heute kein Problem mehr.

Das Problem bleibt aber weiterhin, dass der Compiler bei 8 oder 16 Register wesentlich früher Load- und Store-Anweisungen verwenden muss und damit auch die Dateninfrastrukltur entsprechend ausgelegt werden muss.

Intel selbst beschreibt die Probleme der 16 Register deutlich in ihrem Paper zu APX und bestätigt dort im übrigen das, was ich seit nun mehr als 2 Jahren immer wieder zu diesem Thema hier geschrieben habe:

"Intel® APX doubles the number of general-purpose registers (GPRs) from 16 to 32. This allows the compiler to keep more values in registers; as a result, APX-compiled code contains 10% fewer loads and more than 20% fewer stores than the same code compiled for an Intel® 64 baseline.2 Register accesses are not only faster, but they also consume significantly less dynamic power than complex load and store operations." Quelle: https://www.intel.com/content/www/u...ical/advanced-performance-extensions-apx.html
 
DevPandi schrieb:
AMD fährt bei Zen aktuell durchaus sowas wie ein Tick-Tock-Modell. Zen 1 ist redikaler Umbau, Zen 2 nimmt die Struktur und verbessert Aspekte. Zen 3 ist wieder ein Umbau, Zen 4 verbessert Aspekte. Zen 5 wird wieder ein Umbau.
Bei dir klingt das etwas, als ob sich nur jede zweite Generation etwas signifikantes ändern würde. Man kann aber schon sagen, dass ein "Tick" eine Änderung der Mikroarchitektur und ein "Tock" eine Änderung der "Makroarchitektur" (um ein äquivalentes Wort zu erfinden) ist. Wenn wir uns das historisch anschauen, was jeweils der größte Schritt war (kleinere Optimierungen gibts immer, führe ich daher nicht auf):
  • Bristol Ridge: Neuer Sockel AM4 (Tock)
  • Zen 1: Komplett neue Mikroarchitektur (Tick)
  • Zen 2: Aufteilung in Chiplets (Tock)
  • Zen 3: Signifikant umgebauter Core (Tick)
  • Zen 4: Neue Sockel und DDR5 (AM5, SP5, SP6 - Tock)
  • Zen 5: Signifikant umgebauter Core (Tick)
  • Zen 6: Neues Packaging (? - Tock)
 
ETI1120 schrieb:
Die RAM Latenz spielt IMO spätestens mit dem 3D V-Cache nur eine marginale Rolle.

Es hat schon einen Grund, warum AMD mit der Einführung von Zen 2 bei den CCDs den L3-Cache verdoppelt hat.
Aber auch nur da (für Gamer). Das Problem ist halt, es kommt immer später
 
latiose88 schrieb:
Echt interessant.Welche Threadripper würde dir denn interessieren und hast du schon mal für wen was getestet gehabt privat oder bisher noch nicht?

Was genau willst du von mir?
 
Zurück
Oben