BDR529 schrieb:
Zudem sind Intel CPUs meistens vergleichsweise stark im Geekbench. Warum auch sonst, ist das immer gleich Intels erster Anhaltspunkt, um sich zu messen?
Naja, dass sich Zen 5 und Arrow Lake dieses mal auf Augenhöhe bewegen werden, hat sich bereits seit einiger Zeit angedeutet.
AMD hat bei Zen 5 den Vorteil der AVX512-Instruktionen und das einiges an Software damit auch umgehen kann. Je nach Benchmarks wird Zen 5 davon ziehen, oder eben knapp dahinter liegen.
DrFreaK666 schrieb:
Glück für Intel dass Zen5 eher schwach ist
Zen 5 ist nicht wirklich schwach. In dem Fall zeigt sich halt, dass "Kerne" nur bedingt durch SMT "aufgefangen" werden. AMD schickt 16 Kerne ins Rennen, Intel 24. Für Intel ist das Glück eher, dass AMD aktuell noch nicht vorhat im Desktop über 16 Kerne zu gehen.
GR Supra schrieb:
Ineffizient und hoch unsicher.
SMT ist ineffizient? Die Aussage ist relativ weitgehend falsch. SMT dient in der Regel dazu, ungenutzte Ressource des Kernes zu nutzen. Mit SMT wird in der Regel die Effizienz einer CPU erhöht, weil ungenutzte Ressourcen nicht einfach verpuffen.
Und "hoch unsicher", auch das ist so nicht richtig. Ja, einige der Sicherheitslücken haben sich Gegebenheiten von SMT zunutze gemacht, gleichzeitig ist das eine Frage der Implementation gewesen. Eine saubere Implementierung von SMT ermöglicht solche Angriffe wie Spectre nicht mehr oder weniger.
Threads springen heute ohnehin zwischen den Kernen hin und her, da der Scheduler sie unterbricht, um die Ressourcen anderen Threads zuzuweisen.
DarkStarXxX schrieb:
Als Intel CPUs AVX512 hatten, war es der heißeste Scheiß den "jeder" brauchte.
Das Problem an AVX512 ist, dass volles AVX512 relativ viele Transistoren bräuchte. Intel versucht bei den E-Kernen diese Transistoren bewusst zu sparen.
AVX512 führt 32 Register ein, entsprechend aufgestellt werden muss das Register-File im Kern. Dazu muss die Anbindung sein und auch die Breite der Datenpfaden in den Rechenwerken.
Der Nutzen von AVX512 ist dabei überschaubar. Vektorisierung auf 4 und 8 Werte ist schon eine Kunst teilweise. Mit 16 Werte ist es auf CPU-Sicht noch schwieriger. Algorithmen der Mediengestaltung und Co können profitieren, auch Algorithmen die mit vielen Daten arbeiten, im "Alltag" aber eben nicht so viel.
Intel führt deswegen AVX10 ein, dass die "Befehle" von der "Breite" trennen. Damit kann Intel die Vektorpfade in den E-Kernen auf 256 Bit breite lassen, in den P-Kerne auf 512 Bit verbreitern und am anhand der Menge der "Daten" entscheiden, ob sie eben auf den E-Kernen in "2" Durchläufen ausgeführt werden, während in den P-Kernen nur einer gebraucht wird.
GR Supra schrieb:
Außerdem bedingt HT, dass eine längere Pipe unter Spannung steht, das ist ineffizient, wie ein Vorheizen ohne dann zu Backen.
Seit wann wirkt sich HT/SMT auf die Länge der Pipeline aus und was dann unter Spannung steht.
Zudem wäre es mir neu, dass Intel als auch AMD so fein granuliert die Bestandteile ihrer CPUs aktivieren bzw. deaktivieren können. HT/SMT benötigen in der Regel zwar ein paar zusätzliche Transistoren zur Ausführung, das bezieht sich aber in der Regel darauf, dass man das Registerfile mit einem "2 Satz" an Registern ausstatten muss. Dazu kommt ggf. noch "Prefix"-Bits, damit man die Register und die Befehle dem Thread zu ordnet, der läuft.
Da die Kerne in der Regel nie "so" fein granular gesteuert wird, erhöht man mit SMT in der Regel sogar die Effizienz des einzelnen Kernes, da der Output durch den zweiten Thread erhöht wird. Je nach Workload und Implementation kommt im Mittel 120 - 125 % heraus. Ja jeder einzelne Thread "leistet" dann zwar weniger, aber in Kombination mehr.
fdsonne schrieb:
Wenn eine Software SMT Threads nutzen kann, kann sie auch physische Kerne nutzen. Das heißt, es macht eigentlich keinen Sinn SMT zu nutzen wenn man auch Kerne dran bauen kann. Es sei denn, das Design gibt Limits vor.
SMT war ja auch in der Form nie dafür gedacht wirklich ein "zweiter" Kern zu sein, sondern es war immer dazu gedacht, die Auslastung der Kerne zu erhöhen. In den Kernen entstehen "Wartezeiten", weil auf Daten gewartet wird oder eine Berechnung auf eine vorherige Warte. Mit OoO und Co hat man das "minimiert". Gleichzeitig ist es aber immer noch vorhanden. SMT ist dazu gedacht, dass sich ein zweiter Thread in diese Warteschlitze "zwängt", damit kein Leerlauf entsteht.
GR Supra schrieb:
Genau so. Viele E-Cores mit kurzer Pipe und ohne HT, das ist das optimale Ziel.
Und natürlich ein OS und Software die das gut Nutzen können.
Warum ist das bitte das optimale Ziel? Weißt du überhaupt, was die Pipeline ist, was deren "Länge" bedeutet oder deren Breite?
HT hat so absolut gar nichts mit einer Kurzen "Pipe" zutun, oder mit einer langen "Pipe". Pentium 3 hatte eine kurze "Pipe". Pentium 4 hatte eine lange Pipe und das schon damals ohne HT.
Jede Stufe der Pipeline stellt einen "Arbeitsschritt" dar, denn ein Befehl durchläuft. Je kürzer eine Pipeline ist, des so mehr muss - vereinfacht ausgedrückt - in der aktuellen Stufe ausgeführt werden. Je länger die Pipeline ist, umso einfacher die Aufgaben pro Stufe, um so schneller kann die CPU takten.
Die Breite wiederum bestimmt, wie viele Befehle zur gleichen Zeit abgearbeitet werden können. Und Lion Cove wird, trotz dass es kein SMT hat, ein relativ "dicker" Kern und ist nach den aktuellen Informationen sogar etwa breiter als Zen 5. Lion Cove liefert 18 Ports mit 6 AGU, 6 ALU und 4 FP-ALU und 2 "Store"-Units. Zen 5 kommt auf "16 Ports".
Und damit merkt man auch, dass Lion Cove weitgehend so auch in Servern, dann mit HT zum Einsatz kommt.