Als Laie mit ungesunden Halbwissen bin ich im allgemeinen vorsichtig was die Voraussagen auf die Zukunft angeht. Nicht alles was mir als Laien logisch und schlüssig erscheint, lässt sich auch realisieren. Oft steckt der Teufel im Detail oder die Dinge skalieren nicht so wie ich es erwarte. Oder manche für mich "offensichtliche" Verbesserungen sind gar nicht erforderlich bzw. zu teuer.
DevPandi schrieb:
Wenn - Achtung Glaskugel - AMD die 5 INT Alu bringt und den Decoder auf 5 oder 6 erweitert, könnten wir theoretisch ca. 25 % im Maximum erwarten, im Mittel vermutlich auch her 10 - 15 %. Nicht alles skaliert gleich gut.
Wie Du im ersten Post geschrieben hast, die Karte mit dem erweiterten Issue hat Intel schon gespielt. Zen 4 hält mit dem 4 wide issue eigentlich ganz gut dagegen.
Ich erwarte bei der issue width von AMD nur einen kleinen Schritt. D. h. auf ein 5 wide issue so wie Du es beschreibst.
Natürlich kann man auch über ein 8 wide issue spekulieren. Wie es Apple verwendet und es für einige RISC-V CPUs angekündigt wird. Bei einem Sprung von 4 auf 8 wide issue sollte schon ein merklicher IPC Zuwachs drin sein. Aber der IPC-Zuwachs würde wenig bringen, wenn der Kern bei einer Taktfrequenz von 3 GHz hängen bleibt. Hinzu kommt dass dieser breite Kern ordentlich Die-Fläche belegt, und damit teuer ist.
Eine der Kernaussagen von Mike Clark beim
AnandTech-Interview hat sich in mein Gedächnis eingebrannt:
Ich denke, IPC bekommt den ganzen Ruhm! Ich nenne es das "Rad der Leistung", weil es vier Hauptfaktoren gibt: IPC, Frequenz, Fläche und Power. In gewisser Weise sind sie alle gleichwertig, und man muss sie ausgleichen, um ein gutes Design zu erhalten. Wenn man also eine wirklich hohe Frequenz anstrebt, aber die IPC unterdrückt, kann das zu einem wirklich schlechten Design und zu mehr Fläche führen. Wenn man sehr stark auf IPC achtet und dadurch viel Fläche und viel Strom verbraucht, kann das nach hinten losgehen. Das ist also der kritische Teil, wie wir schon sagten: Wir versuchen, diese IPC zu erreichen, aber wir müssen sie auf eine Weise erreichen, die die Transistornutzung sowohl für Fläche und Power als auch für die Frequenz optimiert.
DevPandi schrieb:
Klar, habe ich etwas anderes behauptet?
Nein.
Ich habe hier einen Aspekt ergänzt.
DevPandi schrieb:
Genoa und Bergamo sind aber Zen 4 und Zen 4c, wobei wir es auch da ja noch nicht wissen.
Ich erhoffe mir mehr als ein paar Anpassungen, nämlich zwei auf unterschiedliche Lasten ausgelegte Architekturen. Wenn man den Zeitraum betrachtet und da Zen 4 nur eine Optimierung der Zen 3 Architektur ist, ist es IMO wahrscheinlich, dass AMD bei Zen 4c lediglich den Cache reduziert hat und ein paar kleinere Optimierungen vornimmt. Aber wirklich konkrete Aussagen zu Zen 4c gibt es von AMD immer noch nicht.
Von Mark Papermaster gibt es ein Statement (Wells Fargo 6th Annual 2022 TMT Summit):
... wir fügen in der ersten Hälfte des Jahres einen neuen Prozessor hinzu, den wir Bergamo nennen und der mit unserem Zen 4c ausgestattet sein wird. Wir haben unser CPU-Team personell aufgestockt und eine Version von Zen 4 hinzugefügt. Es ist immer noch Zen 4. Es führt Code so aus wie Genoa, ist aber nur halb so groß.
Ganz ehrlich nicht nehme dieses "halb so groß" nicht sonderlich ernst. Es passt nicht so recht zu den anderen Informationen zu Zen 4c (L2-Cache, ISA-Kompatibilät).
Bei Zen 5 und Zen 5c könnten mehr Unterschiede drin sein. Zen 5c könnte in meinen Vorstellungen z. B.
- auf einem 4 wide issue bleiben
- eine schlankere FPU haben, die zwar denselben Befehlsumfang hat, aber mehr Taktzyklen für die breiten Vektoren benötigt.
- eine Cache-Hierarchie haben, die auf bessere Latenzen anstatt auf größeren Cache setzt
- das CCX anders organisieren*), damit AMD einfach die Anzahl der Kerne skalieren kann und flexibler mit der Geometrie des CCX auf dem Die wird.
- ...
Vielleicht liege ich auch komplett daneben und alles was es braucht ist ein Hochleistungskern den man über die Größe des L3-Caches, variiert.
*) Meiner Meinung nach hat sich AMD mit dem aktuellen 8-Core CCX-Design in ein kitzlige Lage hineinmanövriert. Die 8 Kerne haben einen gemeinsamen Zugriff auf den L3-Cache und mit 3 Infinity Links je Kern lassen sich offensichtlich diese 8 Kerne perfomant koppeln. AMD bezeichnet die Topologie zwar als Ring, aber das ist nicht die volle Wahrheit. Beim Ring werden nur 2 Links benötigt und die
gemessenen Latenzen sind besser als es bei einem Ring zu erwarten ist. Also verwendet AMD auch den 3. Link lässt aber offen wie.
Das CCX zu verkleinern kostet Performance. Das CCX zu erweitern ist nicht trivial.
DevPandi schrieb:
Naja, eigentlich sind es ja keine FP Units, sondern in den Fall Vektor Units, aber auch das habe ich bereits ausgeführt, das der Nutzen von AVX-512 überschaubar ist und selbst AVX128 zu AVX256 ist überschaubar, aber noch realistischer.
Weil man in Alltag quasi nur in speziellen Szenarien die 512 Bit Vektoren braucht. Vektorisierubg eines Algorithmus ist schon schwer, auf einen der 16 Werte fasst fast schon eine Strafarbeit.
Hinzu kommt noch dass Intel AVX-512 als Differenzierungsmerkmal missbraucht hat. AVX-512 ist nicht nur eine Erweiterung für spezielle Anwendungen, AVX-512 steht nur für einen Bruchteil der aktuellen CPUs zur Verfügung. Und dann waren die Implementierungen von Intel nicht wirklich überzeugend. Es gab also nicht viele Argumente Software mit AVX-512 zu entwickeln.
DevPandi schrieb:
AVX512 merkst du eigentlich nur in Bildbearbeitung und Co, wenn die selbe Operatiob auf zig Pixel ausgeführt wird.
Und hier sind wir wieder bei den GPUs. Die sind für parallele Verarbeitung von Daten ausgelegt.
Viele Skeptiker argumentieren, dass wenn man tatsächlich einen großen Anteil an parallelisierbarer Last hat, ist es besser, diesen auf eine GPU zu verlagern.
DevPandi schrieb:
Es gab ja bei Zen 2 zu Zen 3 auch Änderungen am L1 und L2 Caches, den Registern, der Load/Store Infrastruktur und Co. Nur die Größe der L1 (gerade nicht sicher) und L2 blieb gleich, der Rest war ein auf Links drehen.
Darum geht es nicht.
Ich halte es für ausgeschlossen dass AMD bei Zen 4c ein CCX mit 16 Kernen realisiert. D. h. dass alle 16 Kerne gemeinsam auf einen 32 MByte L3-Cache zugreifen. Ich halte 2 CCX auf einem CCD für sehr viel wahrscheinlicher. Ich erwarte also, dass ein Kern auf 16 MByte L3-Cache zugreifen kann.
Es gibt in der SPEC 2017 INT-Suite auch Benchmarks, die sensibel auf die Cachekonfiguration sind. Diese werden auch auf einen halbierten L3-Cache reagieren. Also ist es unwahrscheinlich, dass Bergamo und Genoa dieselbe Performance bei SPEC 2017 INT haben.
Aber wie gesagt, es war nicht das Ziel von Jim Keller die Performance von Bergamo und Zen 5 vorherzusagen. Er wollte die Leistung der Tenstorrent-Kerne einordnen. Und da schadet es nicht wenn er Genoa und Bergamo auf mit derselben Leistung angibt.
DevPandi schrieb:
Und noch mal: Bitte genau lesen was ich geschrieben habe.
Das habe ich. Und ich stimme Dir weitgehend zu und fand deinen Beitrag gut. Das habe ich auch am Beitrag hinterlassen.
Du schreibst 30 % IPC sind hochgegriffen. Ich schreibe 30 % sind bei dem was ich von AMD für Zen 5 erwarte (alles Träumen abgeschaltet) unrealistisch. Da ist doch kein Widerspruch.
DevPandi schrieb:
Es gehört zu einer Diskussiob dazu, das man so viel Respekt hat nicht einzelne Passagene zu nehmen, sondern alles zu beachten.
Ich habe mir die Passagen herausgegriffen, wo ich etwas beizutragen hatte.
Wenn ich etwas schreibe, kann dies ein Widerspruch, eine Ergänzung oder einfach meinen Senf dazugeben sein.
Ich habe Dir einmal widersprochen (SPEC 2017 INT) und einmal darauf hingewiesen dass die 30 % von Jim Keller keine IPC sind. Der Rest meiner Anmerkungen fällt unter Ergänzungen und Senf.