Dai6oro schrieb:
Gehupft wie gesprungen und
@Taxxor hat da schon recht. Natürlich ist Instructions per Cycle richtig, aber per Clock ist auch gebräuchlich.
Takt/Clock ist ja das, was am Ende herauskommt, Cycle ist jeder einzelne Takt. Aber solange wir alle wissen, was gemeint ist.
Philste schrieb:
Doch überraschend wenig IPC, wenn dir Taktraten stimmen und laut Fußnote die 15% vom Cinebench kommen, müssen wir hier mit um die 5% IPC rechnen.
Also 5 % IPC ist auf jeden Fall überraschend wenig, vor allem weil AMD durchaus Sprünge von 10 - 20 % durchaus auch "angeteasert" hat. Ich denke eher, dass sich die Hauptänderungen nicht so wiederspiegeln, wie man eventuell vor einger Zeit angenommen hat.
Philste schrieb:
Jetzt fragen sich viele warum es so wenig ist. Wenn mal aber überlegt, dass AMD jetzt endlich AVX512 implementieren musste was extrem Platz braucht [...]
Ob AMD AVX512 implementieren musste? Kann man aktuell so oder so sehen. AVX512 ist teilweise schwerer zu beherrschen as ohnehin schon AVX256.
Je nachdem, wo man den Server einsetzt, profitiert man von AVX512 überhaupt nicht bis hin zu nur sehr gering. Dann gibt es Szenarien, da kann es sehr viel bringen, ist aber in der Gesamtheit fast eher "Mikro-Optimierung".
Aber aktuell gibt es gerüchte, die aktuell behaupten, dass AMD bei AVX512 den selben weg, wie bei AVX256 bis Zen 2 geht: 2 * AVX256 Vec werden zu einer AVX512 Vec verschaltet. Damit steigt der Platzbedarf erst mal nicht so extrem, weil man nur die Register-Files um entsprechende Einträge erweitern muss. Die Verbreiterung der Register von 256 Bit auf 512 Bit kann man sich aber erst mal "schenken". Es wird also mehr Platz benötigt, aber nicht so extrem.
Philste schrieb:
[...] und dazu noch der verdoppelte L2 Cache. [...] Da ist der Dichtevorteil von N5 direkt wieder futsch und für den Rest der Architektur bleibt nicht mehr viel übrig.
Ja, der braucht auch ein paar Transistoren, wobei das jetzt alles maximal spekulativ wird. N5 soll ca. 20 % Packdichte zulegen. Zen 3 hat 80,4 mm² bei 3.800.000.000 Transistoren. Macht pro mm² ca. 47.000.000 Transistoren pro mm², 20 % drauf sind ca. 56.400.000. Zen 4 Chiplet soll ca. 72 mm² haben, macht dann 4.060.8000.000 Transistoren. Das ist auf den Kern gesehen wirklich nicht viel, wobei man sagen muss, dass aktuell ohnehin die meiste Fläche für den L3 drauf geht.
Jeder Kern wird am Ende aber ca. 15 % mehr Transistoren haben können - sehr ungenau geschätz, ca. 60 % der Fläche ist L3 und reine Infrastruktur beim Zen3-Chiplet.
Wenn man jetzt beachtet, dass Zen 4 vermutlich nur das AVX512 "light" bekommt, fallen da nicht soviele Transistoren an. Der Hauptteil dürfte eher in den L2 fallen. Das ist aber nicht mal so schlimm. Transistoren kommen primär, wenn man Rechenwerke, Decoder hinzufügt, Buffer und Caches vergrößert oder auch die Rechenwerke verbreitert. AVX würde den Impact - doppelte Registerzahl, doppelt so breite Rechenwerke - drastisch erhöhen, scheint aber nicht so zu kommen, spricht halt für "Light-Ansatz". Also gehen die meisten Transitoren für den L2 vermutlich drauf.
Aber das ist alles nicht so "schlimm". Man kann ja auch an den Algorithmen arbeiten für die Sprungvorhersage usw und benötigt da nicht unbedingt mehr Transistoren.
Philste schrieb:
Ich sehe durchaus 10% single thread und 30% multithread bei Raptor Lake.
Da für die Big-Cores bereits die primäre Änderung (1280 KiB auf 2048 KiB L2-Cache) kommuniziert wurde in der Gerüchte küche, kann es passieren, dass man bei der IPC bei RaptorLake im 1T im Mittel auch nichts zu Gesicht bekommt und Intel müsste wie AMD über den Takt gehen.
Der Takt ist hier im übrigen durchaus der entscheidende Faktor: Es kann gut sein, dass AMD Zen 4 primär auf Takt ausgelegt hat und daher keine große IPC-Steigerungen untergebracht hat und von Zen 4 aus erst die IPC wieder steigert. Willow Cove brachte damals auch primär nur Takt zu SunnyCove und zog daher die Leistung.