News Modelle und Eckdaten: Details zu AMD Genoa (Zen 4) und Intel Sapphire Rapids

Hach, ich würde mir ja mal wieder eine schöne Threadripper CPU wünschen mit ordentlich Kernen, Takt und PCIe-Lanes zu einem privat erschwinglichen Preis.
 
  • Gefällt mir
Reaktionen: iWeaPonZ
C.J. schrieb:
Ich mache mir Sorgen darüber, dass die Effizienz der Kerne fast gar nicht steigt, obwohl AMD sogar frisch auf den 5nm-Prozess umsteigt.
Das ist halt die Frage. Wenn Takt und TDP gleich bleiben, aber durch besseren IO weniger Wartetakte passieren, steigt Leistung und Effizienz eben doch.
 
Wenn der IO Die bei selber Arbeit dann auch weniger braucht (da steigt der Verbrauch abseits von dem Idle verbrauch doch sicher auch erst bei Beschäftigung?), dann ist ja von der TDP auch noch Luft für etwas mehr Takt für die Kerne um noch mehr zu schaffen :-)

Also gerade beim Server, der viel IO Last hat und bisher an Grenzen stieß wird das ein wichtiges Upgrade.

Es werden ja auch nicht immer rundherum alle Aspekte bei jeder Generation verbessert. Es kann halt auch wie beim 5800X3D laufen, das ein Aspekt verbessert wird, der für eine bestimmten Art von Last besonders gut ist :D (in dem Beispiel eben sehr gut für Spiele und sonst gab es Teils sogar leichte Nachteile)

(Der Inhalt in diesem Beitrag basiert auf Spekulation NomNomNomNomNom :vernaschen: )
 
So, laut der Quelle sind das wirklich die Allcore Boosts. Wenn die stimmen, dann sieht Genoa bis auf den 96 Kerner echt mau aus.

EPYC 9454: 48C/96T 2.25-2.35 GHz, 290W
Xeon Platinum 8461V: 48C/96T 2.0-2.8GHz(all), 300W.

Das sind mal 2 Daten aus den Tabellen von YuuKi_AnS von Twitter. Bei den anderen Vergleichen sieht es ähnlich aus, rausstechen kann nur der 96 Kerner. Sapphire Rapids würde hier in dem Vergleich fast 20% höher takten und hat eine höhere IPC als ZEN4 bei ähnlichem Verbrauch. Genoa hat halt den I/O Vorteil mit mehr PCIe Lanes und 12 Channel DDR5.
 
Hat AMD ernsthaft nen 48 Kerner? das kommt mir Seltsam vor, ich dachte die sind alle nach dem Muster 8/16/32/64/128 wegen dem Chipletdesign

Edit:
Hab mal gerade bei Wiki geschaut, da gibts ja doch sehr viele "Krumme" Kernzahlen.
Der erste Takt den du aufführst ist doch der Basis Takt und der letztere der Turbotakt oder Boost?

Da frage ich mich wie da der echte verbrauch im Vergleich ausfällt. Wenn das noch immer so ist bei beiden, das die TDP dem Basistakt mit voller Auslastung entspricht, dann nehmen die beide sich ja nicht viel, AMD ist nur 250MHz schneller bei leicht geringerer TDP.Das ist wohl auch ein stück weit den insgesamt geringen Taktraten geschuldet, das die Intel da keine solchen schluckspechte sind wie im Desktopbereich :-)
 
Zuletzt bearbeitet:
C.J. schrieb:
Ich mache mir Sorgen darüber, dass die Effizienz der Kerne fast gar nicht steigt, obwohl AMD sogar frisch auf den 5nm-Prozess umsteigt.
Und warum machst du dir da Sorgen? Wieso auch mit dem Augenmerk auf HPC?

Ich verstehe deine Sorgen, bin jetzt aber fies und schreib mal ganz frech: Sie sind aber vollkommen irrational und nicht begründet, auch bei HPC.

Nicht nur in bestimmten I/O-Lastigen Szenarien verhungern die 48/64-Kerner von AMD quasi am laufenden Band, weil die Daten nicht schnell genug nachkommen, auch in bestimmten HPC-Szenarien verhungern die CPUs, weil die Daten nicht schnell genug nachgeladen werden können und der Speichercontroller quasi nicht mehr nach kommt, obwohl er 8 Kanäle hat.

In anderen HPC-Szenarien werden die Kerne nicht so stark belastet, aber der RAM und die PCIe-Lanes stellen bereits einen limitierenden Faktor dar, damit die Daten zu den GPUs kommen. Die 64 Kerne laufen dann oft nicht mal mit dem Baseclock, sondern warten auf die Daten aus dem RAM, um diese dann an die GPU weiter zugeben. Die Kerne brauchst du in solchen Szenarien nur, weil es einfacher ist, mit der schieren Anzahl an Kernen entsprechende GPU-Threads zu eröffnen und zu befüllen. NVIDIA arbeitet - ähnlich wie AMD oder auch Intel - nicht umsonst zum Teil an neuen Interconnects.

NVIDIA hat NVLink und in Grace wird der NVLink zur Verbindung der Grafikkarte und GPU verwendet. Denn die eigentlichen Kerne - auch wenn es 144 sind - werden vermutlich noch keine eigenen von NVIDIA sein, sondern es werden wohl die N2 Kerne von ARM. AMD hat mit ihrem Infinity Fabric Link auch entsprechende Sachen in der Hinterhand, die man auch in die CPU ziehen kann, was wir wohl bei CDNA3 und der HPC-APU sehen werden. Und Intel ist mit Xe Link dabei. PCIe SIG kommt aktuell mit neuen PCIe-Versionen nach, aber mich würde es in Zukunft nicht wundern, wenn wir im HPC-Bereich immer mehr die eigenen Links von AMD, Intel und NVIDIA zu sehen bekommen.

Es hat schon einen Grund, warum wir bei den Kern-Monstern von fast jedem Hersteller oft eher über die Infrastruktur hören und auch die Speichercontroller mit immer schnelleren Speicher umgehen können. Im Serverbereich war das nicht immer so.

Solche System, egal ob jetzt als I/O-Server für Datenbanken oder eben als Grundlage für HPC-Monster, rufen oft nicht die maximale Leistung des einzelnen Kerns ab, die wird auch in der Form gar nicht benötigt. Die limitierenden Faktoren sind das Speicher- als auch das PCIe-Interface. Wenn diese Punkte angegangen werden, steigt die Effizienz der CPUs von ganz alleine, weil die Kerne in diesen Szenarien immer näher an ihren eigentlichen Basistakt kommen, da die Daten schneller nachkommen und auch schneller an die GPUs verteilt werden können.

Wie wichtig der Speicher ist, kannst du dir ja mal hier in den News zu Intel Sapphire Rapids in Verbindung mit HBM ansehen oder dass Intel ebenso eine HPC-APU wie AMD in Entwicklung hat, die CPU + GPU mit HBM verbindet.

Im HPC-Bereich muss man auch die I/O-Flaschenhälse überwinden und genau das geht AMD mit Zen 4 und dem neuen I/O an. Die Effizienz steigt in diesem Zusammenhang dann ganz von alleine an, da die Auslastung der Kerne zunimmt.

Alexander2 schrieb:
Also gerade beim Server, der viel IO Last hat und bisher an Grenzen stieß wird das ein wichtiges Upgrade.
Richtig, sogar ein richtig wichtiges Upgrade. In vielen Benchmarks - Rendering, CAD und Co - wird man nicht viel davon sehen, bei Kompression wird man es durchaus merken, wenn man genug Daten zusammenbekommt um das alles Auszulasten, ansonsten wird man das eher bei den Workloads sehen, bei der die CPU nicht viel rechnet, aber die Daten für GPUs und Co aufbereitet im HPC bereich.
Alexander2 schrieb:
Das ist wohl auch ein stück weit den insgesamt geringen Taktraten geschuldet, das die Intel da keine solchen schluckspechte sind wie im Desktopbereich :-)
Im Serverbereich betreibst du die CPUs auch oft lieber im absoluten Sweetspot, als beim maximalen Takt. Gerade im Serverbereich, wenn die Dinger wirklich laufen, können 10 % mehr Performance bei 100 % mehr Verbrauch die Rechnung schnell massiv nach oben treiben, dass es sich überhaupt nicht rechnet.

Für uns zu Hause ist es egal, nicht so merkbar, wenn eine CPU halt statt 125 W nun 250 W verbraucht. Im HPC-Bereich reden wir dann aber von 250 W in der Basis und dann eben 500 W und das nicht nur auf eine CPU, sondern auf ein paar mehr und dann stehen 10 % Leistung nicht mehr im Verhältnis zu den Kosten.
 
DevPandi schrieb:
Nicht nur in bestimmten I/O-Lastigen Szenarien verhungern die 48/64-Kerner von AMD quasi am laufenden Band, weil die Daten nicht schnell genug nachkommen, auch in bestimmten HPC-Szenarien verhungern die CPUs, weil die Daten nicht schnell genug nachgeladen werden können und der Speichercontroller quasi nicht mehr nach kommt, obwohl er 8 Kanäle hat.
Nebenbei erwähnt ist genau dieses Problem auch der Grund für die Existenz der F-Serie. Da gibt's ja im Extremfall einen Achtkerner, der pro CCD 7 von 8 Kernen deaktiviert hat, damit der eine aktive Kern die maximale IO Bandbreite (und Cache) für sich allein hat.
 
Aha du willst hier weiß machen das abschalten der Kerne dazu führt das die übrigen Kerne den Cache der avmbheschalteten auch noch zur Verfügung hat. Gillt das auch bei smt und ht weil wenn diese verwendet werden brauchen diese ja ebenso cache oder nicht?

Darum müsste ja je einen psyilkalischen Kern ja dann wenn smt oder ht weg ist auch der doppelte Cache zur Verfügung haben.
Und bis 32 Kernen scheint wohl die Bandbreite wie vor vor letzen post wohl noch keine relevants zu haben weil es nicht so viele Kerne sind und damit sinkt auch die Menge die verarbeitet werden kann. Dadurch sinkt auch der Bandbreiten Bedarf. Hat man dann auch noch Anwendung die in dieser Hinsicht eh nicht so sind, dann kann sich durch das auch die CPU voll ausgefahren werden. Das würde aber auch heißen das genau dann die CPU der limitierende Faktor ist. Hier kann dann nur noch ein verbesserter bzw optimierter Technik die Leistung weiter nach vorne bringen.
Allerdings stockt gerade die weiter Entwicklung sodas man außer zu warten wohl im Moment eh nix machen kann.

Zugerne würde ich echt einen threadripper Ersatz zum 3970x gerne testen aber es gibt halt keinen Nachfolger dazu und ich kenne hier keinen der sich die pros oder die server CPUs dazu geholt hätte. Naja dann habe ich eben Pech gehabt. Wobei mir die server cpus wohl nix bringen weil deren CPU takt sehr viel weiter weg von 4 GHz sind als all die anderen cpus es je wären.
 
latiose88 schrieb:
Aha du willst hier weiß machen das abschalten der Kerne dazu führt das die übrigen Kerne den Cache der avmbheschalteten auch noch zur Verfügung hat.
Ich beziehe mich hier natürlich auf den L3, den sich alle bis zu 8 Kerne eines CCD teilen. Beim 72F3 hat jeder Kern dadurch 32 MB L3-Cache für sich allein.
 
Ja stimmt ja die L1 und L2 Cache hat jeder Kern für sich alleine.Teilt sich mit keinem anderen Kern.Aber SMT und HT teilen sich sehr wohl den L1 und L2 Cache ebenso.Wenn es z.b 16 kb L2 Cache je Kern hat.Dann wenn SMT/Ht wirklich genutzt werden würde,dann blieb jedem Psyikalischen Kern nur 8 KB an L2 Cache übrig weil ja alle logischen Kerne gleich viel dann ziehen.Damit meinte ich wenn alle Threads voll ausgenutzt werden.
Schaltet man die HD bzw SMT aus,so blieben den übrigen Threads die volle Bandbreite übrig.Also alle L1,L2 und L3 Cache.Meine Aussage ist also auch nicht falsch und deine ja ebenso wenig.
War wohl ein missverständnis weil ich gedacht hatte du meinst das selbe.Aber gut da dies ja nicht der fall ist,hat somit keiner unrecht,ist doch auch was gutes.
Und joa klar gillt das pro CCD dann.WEnn man allerdings HT oder SMT ganz schaltet dann gillt das freillich für alle gleichermaßen.

Frage mich nur ob weil ja jeder Thread dadurch mehr Cache als Bandbreite zur Verfügung hat auch genau wegen dem auch mehr Leistung abfragen kann,weil ja der Engpass nicht mehr gegeben ist.

Achja das wäre es doch,wenn man pro CCD seperat entscheiden kann schaltet man SMT ab oder an.
Das wäre dann gut für die wo ab einen gewissen Punkt der Anzahl der Threads nicht mehr opitmal umgehen kann aber man ne extra Software nicht bedienen will. So kann man dann ne krumme Anzahl an Threads dann betreiben.Das ist aber dann echt nur für Software die teilweise schlecht ist und der andere Teil der wo mit ner guten Software umgehen kann.Wenn man also so nen mischmasch betreibt ,wäre das durchaus ne gute Option wie ich finde.Ist ja aber die Frage ob man so ein Aufwand denn wirklich betreiben möchte.

Das bleibt halt jedem selbst überlassen.
 
Zurück
Oben