Bericht AMD Naples: Erste Benchmarks zur 32-Kern-CPU mit Octa-Channel-RAM

Wo habt ihr denn die 3 und 4TB RAM her? Die Folie im Bild 8 zeigt 384GB für das Intel und 512GB für das AMD System, basierend auf 16GB Modulen. Was zwar das Limit für Unbuffered RAM ist, aber natürlich lächerlich wenn man wirklich viel RAM braucht, da dann eben RDIMM oder LRDIMM verbaut wird und die werden bis 128GB pro Riegel unterstützt, 64GB Riegel gibt es schon. Neuerdings listet Geizhals auch schon 2666er RDIMM und LRDIMM, Skylake Xeon E5 dürften also auch 2666er RAM unterstützen, aber unterstützt Naples überhaupt RDIMM/LRDIMM oder warum geht AMD von 16GB Riegel aus?

Angeblich soll Naples intern aus 4 RYZEN Dies bestehen, was dann ein großes Fragezeichen hinter diese 2666 MHz beim RAM macht, dann wie wir wissen sind die bei Dual Rank (16GBsind alle Dual Rank) und Vollbestückung mit 2 DIMMs pro Channel nicht machbar, 2133 sind dann schon gut. Außerdem fragt man sich, warum AMD die tollen Schnittstellen wie wohl 10GbE und die vollen 32 PCIe Lanes bei RYZEN nicht rausgeführt hat, wenn sie auf dem Chip vorhanden sind.

Es gilt abzuwarten, aber ich denke mal das es ähnlich wie jetzt bei den Desktop CPU aussehen wird und RYZEN sich nur dann sehr gut schlägt, wenn die vielen Threads der SW weitgehend unabhängig voneinander auf je einem Teil der Daten arbeiten können, vermutlich ist es bei der Demo mit den seismischen Daten eben so, genau wie bei Cinebench oder beim Rendern. Wenn aber viel Interaktion zwischen den Thread und damit den Kernen nötig ist, dann dürfte er massive Performanceprobleme bekommen. Das zeigt sich ja jetzt schon, Spiele sind dafür ja auch ein typischen Beispiel weil sich alles dort gegenseitig beeinflusst, dass kann man auch nicht wegoptimieren, wenn eines schießt und trifft muss der andere umfallen.

Dies könnte der Preis für das CCX Konzept sein und wenn es schon bei den beiden CCX auf einem Die ein Problem ist, wird es bei vier Dies ein noch größeres Problem werden und dann hat Intel mit dem nativen 32 Kerner einen massiven Vorteil, zumal angeblich die Doppelringe durch etwas noch besseres ersetzt worden sein sollen. Bei der Bandbreite und der Latenz der internen Kommunikation dürfte Intel also vorne liegen und damit wird es eben von der Anwendung abhängen welche CPU jeweils die bessere ist. Das Problem für AMD könnte dabei sein, dass man solche Anwendungen wo viele Kerne recht unabhängig auf einem "eigenen" Teil der Daten rechnen, gerne auf GPUs verlagert und wenn die Speicherbandbreite wichtig wird, dann bedeutet es ja auch, dass nur recht kurze Berechnungen auf den Daten ausgeführt werden, sich GPUs also noch besser eigenen. Die haben nur eben weit weniger RAM, damit bleiben dann letztlich wohl Anwendungen bei denen man auch noch sehr große Daten in der Art handhaben muss als Spezialgebiet wo Naples wirklich glänzen kann und den Rest wird man abwarten müssen.
Ergänzung ()

Chismon schrieb:
ob Zen 2 schon mit PCIe 4.0 Boards kommen wird, auch wenn Pinnacle Ridge auf jetzigen (Zen1) AM4 Boards laufen wird.
Lies doch mal genau was da steht:
Es ist möglich das Zen3 einen upgedateten Sockel bekommt der auch kompatible mit den alten Zen und Zen 2 Desktop Chips (also CPUs) ist, es wird also wie bei FM2 und FM2+ so laufen, dass man sich ein neues Board kaufen und die alten CPUs drin betreiben kann, aber nicht die neuen CPUs in den alten Boards. Zen2 wird noch die jetzigen Board behalten, also auch kein PCIe 4.0 haben, denn dafür dürfte ein neuer Sockel nötig sein, die PCIe 4.0 Spezifikation ist aber immer noch nicht final.
 
Holt schrieb:
... möglich das Zen3 einen upgedateten Sockel bekommt der auch kompatible mit den alten Zen und Zen 2 Desktop Chips (also CPUs) ist, es wird also wie bei FM2 und FM2+ so laufen, dass man sich ein neues Board kaufen und die alten CPUs drin betreiben kann, aber nicht die neuen CPUs in den alten Boards. Zen2 wird noch die jetzigen Board behalten, also auch kein PCIe 4.0 haben, denn dafür dürfte ein neuer Sockel nötig sein, die PCIe 4.0 Spezifikation ist aber immer noch nicht final.

Ob für PCIe 4.0 zwangsläufig ein modifizierter Sockel notwendig sein wird, ist hier eben die Frage, zumal die offizielle PCIe 4.0 Absegnung eigentlich noch dieses Jahr (Schätzungen sprechen von Mitte 2017) passieren soll und gerüchteweise Anfang 2018 spätestens erste Boards damit herauskommen sollen. Damit wären Zen2/Pinnacle Ridge (ebenso wie Coffee und Cannon Lake) potentielle Aspiranten, falls dafür kein neuer Sockel notwendig sein sollte, sondern nur das Boarddesign an sich (sprich das PCIe Bus System) angepasst werden muss.

Folgende Aussage spräche eigentlich dagegen, dass man dafür den Sockel modifizieren muss, wenn in 2016 schon eine Demo auf einem vermutlich unmodifizierten Sockel Intels gelaufen ist.

In August 2016, Synopsys presented a test machine running PCIe 4.0 at the Intel Developer Forum. Their IP has been licensed to several firms planning to present their chips and products at the end of 2016.

Es hängt aber auch wohl davon ab, ob AMD vorausschauend den AM4 Sockel schon dafür konzipiert hat oder nicht, schätze ich 'mal, denn ausreichend Anhaltspunkte von Synopsys für das endgültige Design scheint es ja schon eine Weile zu geben.

So gesehen stimme ich Dir zu, dass Zen3 auf jeden Fall PCIe 4.0 unterstützen/haben sollte (da der modifizierte Sockel ja angekündigt wurde, aber der könnte auch nur vom Die-Shrink auf 7nm her rühren), aber ob das auch schon bei Zen2, Coffee und Cannon Lake CPUs der Fall sein wird, bleibt schwer einzuschätzen (mich würde wundern, wenn Intel nicht schon Ende dieses Jahres/Anfang kommenden Jahres mit PCIe 4.0 Boards auf den Markt kommt).
 
Zuletzt bearbeitet:
Ist zwar OffTopic, aber wer weiß, wie PCIEX 4.0 umgesetzt wird. Wenn nur der Takt verdoppelt wird, ändert sich nicht soviel.
 
tmkoeln schrieb:
Einzig Server 2016 und die geänderte Lizensierung könnte wohl Naples ausbremsen

Du meinst, dass Intel Microsoft mit Geld schmiert, damit diese die Optimierungen für die AMD Architektur halbherzig und verzögert bringen, und dazu das Lizenzmodell so gestalten, dass Intel im Vorteil ist.

Ja. Stimme zu.
 
@ Holt
Holt schrieb:
Wo habt ihr denn die 3 und 4TB RAM her? Die Folie im Bild 8 zeigt 384GB für das Intel und 512GB für das AMD System, basierend auf 16GB Modulen.

Die 3 und 4 TB stellen die Maximalbestückung der Systeme dar. 24 (intel) bzw. 32 (AMD) x 128GB Riegel.

Die Bandbreite ist ja bei Maximalbestückung mit Dual Rank Modulen immer die gleiche, egal ob 16/32/64 oder 128GB Riegel zum Einsatz kommen.

Vergessen wurde aber leider, zumindest kurz zu erwähnen, dass das Bestückungsszenario für das Intelsystem eher unglücklich war und so in der Realität nur teilweise vorkommen wird.

Denn die Intel Xeon E5 v4 reduzieren den Speichertakt von 2400MHz auf 1866MHz, wenn mehr als zwei Speicherriegel pro Speicherkanal eingesetzt werden. Ein Umstand der vermeidbar ist, wenn man nicht maximale Speicherbestückung benötigt.

Realitätsnäher wären also eher 32GB x 2 x 4 x 2 = 512GB @ 2400MHz im Intelsystem gewesen. Dann wäre auch die Gesamtspeichergröße der Systeme gleich.

Allerdings konnte sich so AMD nochmal 20-30% mehr Leistung im Vergleich zu Intel bescheinigen. Jeder Hersteller macht es eben wie es ihm gefällt. :rolleyes:
 
viele Rechenkerne > alles andere
 
Chesterfield schrieb:
beeindruckend... viel hilft viel ;) ... für server sicher ne überlegung wert wenn man sieht das AMD in Anwedungen echt nicht schlecht aufgestellt ist

Pfff... ich bau was, das was besonders gut kann und demonstriere
mit einer darauf ausgelegten Anwendung / Benchmark, wie viel
besser das ist als ein System, das nicht darauf ausgelegt ist.

Das war schon der Trick mit Async auf der 480, aber außer bei
vielleicht 5 Spielen gibts da eigentlich wenig greifbaren Nutzen.

Fakten werden geschaffen indem man das in alltäglichen Szenarien
von Fachleuten unabhängig testen lässt. Ansonsten ist das für
meine bescheidene Meinung einfach nur Zahl-Klauberei und ein
Papiersieg in einer isolierten Disziplin. Ich bitte euch.
 
D708 schrieb:
Ist zwar OffTopic, aber wer weiß, wie PCIEX 4.0 umgesetzt wird. Wenn nur der Takt verdoppelt wird, ändert sich nicht soviel.

http://www.tweaktown.com/news/46190/pcie-4-feature-16gt-new-connector-arrive-2017/index.html
Mal eben den doppelten Takt über einige Zentimeter zu übertragen ist extrem aufwendig, da ändert sich eine ganze Menge an Dingen für die Signaltreiber und auch die Anforderung ans Boarddesign erhöht sich ungemein. Das es da neue Designs für die Slots geben wird ist da nur eher ein Detail am Rand.
Es würde mich wundern, wenn PCIe4 kurzfristig nach Beschluss der Spezifikation sofort breit ausgerollt wird.
 
D708 schrieb:
Ist zwar OffTopic, aber wer weiß, wie PCIEX 4.0 umgesetzt wird. Wenn nur der Takt verdoppelt wird, ändert sich nicht soviel.
Der Takt wird verdoppelt, aber 16GHz (ist glaube ich DDR Übertragung und damit wohl nur jeweils die Hälfte, aber 8GHz ist auch schon im Microwellenbereich) sind eine Menge Holz und man hat schon beim Sprung von PCIe 2.0 auf PCIe 3.0 die Verdoppelung von 5 auf 10 gescheut und dafür lieber die Bitkodierung von 8b10b auf 128b130b geändert um diese zu vermeiden. Was meinst Du warum die Spezifikation sich so verzögert? Wohl kaum weil das mal eben so mit ein paar kleinen Änderungen getan ist, sondern wohl vor allem weil es immer noch Probleme gibt die gelöst werden müssen, mit einem vertretbaren Aufwand.

Bei 10GBASE-T Ethernet hat man die Frequenz gegenüber GBASE-T nicht mal einfach verzehnfacht, sondern weit weniger stark angehoben und vor allem die Signalmodulation viel aufwendiger gestaltet, somit kann man mehr Daten bei gleicher Frequenz zu übertragen, was dann bei NBASE-T auch genauso gemacht wird um auch mehr Daten über alte Kabel zu bekommen die keine höheren Frequenzen erlauben. Da ist aber der Aufwand für die Signal Codierung und Decodierung hoch, irgendwann wird man diese Weg aber auch bei PCIe gehen müssen, oder muss dann eben eine optische Verbindung nutzen, nur ist dann der Aufwand auf den Mainboards und Karten wieder sehr hoch, Wandler für optische Datenübertragung sind eben auch sehr teuer, noch zumindest. Vielleicht kommt man auch zu dem Ergebnis, dass man PCIe 4.0 so gar nicht sinnvoll machen kann, weil man zu viele Signalverstärker auf dem Weg zu den den Slots braucht, die zu viel Geld, Energie und Performance kosten und für PCIe 5.0, wo man ja auch noch hin will, dann sowieso was ganz neues her muss und bläst dann PCIe 4.0 ab und bringt dafür dann PCIo 1 mit optischen Anschlüssen direkt vom Die der CPU, wie Intels große Skylake Xeons es für Omnipath bekommen sollen. Bevor die PCIe 4.0 Spezifikation nicht final verabschiedet ist, halte ich alles für möglich.
Agent500 schrieb:
Die 3 und 4 TB stellen die Maximalbestückung der Systeme dar. 24 (intel) bzw. 32 (AMD) x 128GB Riegel.
Das ist mir vollkommen klar, nur zeigt die Folie in Bild 8 eben "Total memory capacity (16GB DIMMS) und nicht 128GB DIMMs, also kann man nicht einfach unterstellen das wirklich 128GB DIMMs (die RDIMM oder LRDIMM sind) unterstützt werden, wieso sollte AMD sonst nur von 16GB DIMMs, also dem Limit von UDIMM reden?

Agent500 schrieb:
Die Bandbreite ist ja bei Maximalbestückung mit Dual Rank Modulen immer die gleiche, egal ob 16/32/64 oder 128GB Riegel zum Einsatz kommen.
128GB DIMMs sind kein Dual Rank, die haben meines Wissens mindestens 8 ranks, aber bei RDIMM und LRDIMM sollte dies egal sein, dafür sind die Register ja eben auch da, nämlich um den internen Aufbau der Riegel gegenüber dem RAM Controller zu verstecken und so mehr Kapazität zu ermöglichen.

Agent500 schrieb:
Vergessen wurde aber leider, zumindest kurz zu erwähnen, dass das Bestückungsszenario für das Intelsystem eher unglücklich war und so in der Realität nur teilweise vorkommen wird.
Ebnen und warum wohl? Damit hat sich AMD bei allen lächerlich gemacht die sich ein wenig damit auskennen, denn die würden doch nie 16GB DIMMs nehmen wenn sie viel RAM realisieren müssen, bei der Intels Plattform die RDIMM und LRDIMM unterstützt schon mal gleich gar nicht. Also warum bringt AMD sowas? Die haben doch auch von RDIMM und LRDIMM gehört, die werden wissen das nicht nur ich über sowas stolpere und obendrein darüber stolpere, wieso angeblich 2400MHz gehen sollen, aber bei Intel nur 1866, obwohl Intel DDR4 1600/1866/2133/2400 angibt, womit die 1866 eben wohl bei Vollbestückung sind. Nur Tabelle bei Vollbestückung (4DIMM) für RYZEN nur 2133 für SR und gar nur 1866 für DR (und die 16GB Riegel sind alle DR, mindestens) in dieser Folie:



Das passt also auch nicht zusammen, denn entweder hat ein Die nur einen Dual Channel RAM Controller und dann wäre bei Vollbestückung, also 2 DIMM pro Channel nur 1866 mit 16GB Riegel möglich, oder der Chip selbst kann durchaus Quadchannel und damit auch 2400 wenn vier DR RAM DIMMs an jedem Die hängen, aber AMD hat das für AM4 so nicht freigegeben. Der Heimanwender hat also einen Chip bezahlt der viel mehr könnte als der darf, nämlich dann nicht nur mehr PCIe Lanes (die man dringend brauchen könnte), vermutlich intern 10GbE, sondern dann auch ein Quadchannel RAM Interface. Oder AMD hat bei der Angabe des Speichertaktes mit zweierlei Mass gemessen.

Agent500 schrieb:
Denn die Intel Xeon E5 v4 reduzieren den Speichertakt von 2400MHz auf 1866MHz, wenn mehr als zwei Speicherriegel pro Speicherkanal eingesetzt werden. Ein Umstand der vermeidbar ist, wenn man nicht maximale Speicherbestückung benötigt.
Eben und für 512GB auf einem Dual-CPU E5v4 braucht man nicht alle 3 maximal möglichen DIMMs pro Kanal, da reichen 32GB oder 64GB DIMMs, die es massenweise zu kaufen gibt, nur eben nichts als UDIMM.

Agent500 schrieb:
Allerdings konnte sich so AMD nochmal 20-30% mehr Leistung im Vergleich zu Intel bescheinigen. Jeder Hersteller macht es eben wie es ihm gefällt. :rolleyes:
Nur warum greift ein Hersteller zu solche Tricks die auch noch sehr durchsichtig sind? Ich fürchte AMD hat da Mist gebaut, der Speichercontroller von RYZEN scheint ja sowieso eine Zicke zu sein und kommt dann wohl nur mit UDIMM klar. Jedenfalls glaube ich das Gegenteil erst, wenn es bewiesen ist. Damit wären die 4TB dann hinfällig und ebenso sind wohl auch keine 512GB RAM@2400 machbar. Außer Naples beruht schon auf der nächsten Revision des Dies, dann bekommen die Heimanwender erstmal wieder die Beta Version angeboten und demnächst kommt dann schon das erste Upgrade, zum Frust der Early Adopters. Jedenfalls ist das ganze mit dem RAM so erst einmal unstimmig und wirkt sehr konstruiert, was man nur macht, wenn man es nötig hat.
 
@ Hope

Sehr ausführliche Antwort. :)

"Total memory capacity (16GB DIMMS)" beschreibt die Speicherkapazität des Demo-Setups. (Siehe Folienüberschrift)
Das ist natürlich nicht gleich maximal möglicher Speicherkapazität.

Es ist natürlich wesentlich günstiger und einfacher in der Realisierung 24 + 32 x 16GB Dimms zu nutzen, als mit 64GB oder 128GB LRDIMMS zu arbeiten, die erst seit kurzer Zeit verfügbar sind.
Bei Maximalbestückung, das wollte AMD ja zeigen, macht es eben keinen Unterschied in der Leistung bezogen auf die Speicherbandbreite, ob nun 512GB oder 4TB im System stecken.

Du hast Recht, das mit den Dual Rank war ungenau ausgedrückt, bezogen auf Module größer als 16GB. Ich wollte damit aussagen, dass die Speicherbandbreite "ab" Dual Rank bei Naples nicht mehr weiter sinkt. Die Speichertaktrate lag ja bei 2400MHz. Soweit ich weiß ist zudem 2667MHz im Gespräch, vermutlich SR.

Ob sich AMD damit gleich lächerlich gemacht hat, denke ich nicht. Wer sich auskannte musste vielleicht schmunzeln. Aber das ist bei Grafikkarten oder Prozessorpräsentation auch nicht anderes und wird seit 20 Jahren so gemacht. Jeder Hersteller zeigt sich so gut er kann, nett ist aber, wenn die News kurz darauf verweisen.

Das Ryzen bei vier Ranks auf einem Channel nur noch DDR4 1866MHz unterstützt höre ich zum ersten Mal. Wäre 2017 echt ein bisschen schwach. Bin aber auch seit dem AMD X2 S.939 im Desktop nicht mehr bei AMD. Sowas kann also auch an mir vorbeigehen. ;)

Auf der anderen Seite brauchen die wenigsten Anwendungen im Consumermarkt wirklich viel Speicherbandbreite. Takt und Kerne sind da, wie du weißt, viel wichtiger. AMD hat mit Ryzen schon sehr vieles richtiggemacht. Erst recht, wenn man bedenkt, was mit einem Flop passiert wäre. ;)

Dass die Hersteller nicht immer in allen Märkten das raushauen, was sie können, ist ja normal. Intel macht das doch genauso schon seit Jahren. Die Haswell-E Xeon E5 Prozessoren hätten beim Speicher (2C x DR) locker auch 2400MHz verkraftet, laufen aber nur mit 2133MHz, die aktuellen Broadwell-E könnten auch 2667MHz, laufen aber nur mit 2400MHz usw. Die Hersteller halten sich da immer noch was in der Hinterhand. Ich find das verständlich.
 
Zuletzt bearbeitet:
Ob solche CPUs auch in Workstations landen werden?
 
Wird es die CPU's einzeln geben oder nur in Verbindung mit einem entsprechenden System?
Bei den Preisen für die Speichermodule bei Vollausbau ist die CPU wahrscheinlich ne fast kostenlose Dreingabe.
 
Es wird an Chips für PCIe4 gearbeitet, aber verabschiedet ist der Standard wirklich noch nicht. Die Spec ist einfach nur schon auf einem Stand, an dem man an entsprechenden Geräten arbeiten kann, da sich an den wesentlichen Punkten nichts mehr ändern wird. Das zeitgleich an PCIe5 gearbeitet wird ist auch normal, bei vielen Dingen in der Technik wird bei den letzten Handgriffen an einem Standard oder Produkt gleichzeitig schon an den beiden nächsten Generationen gewerkelt.
 
Zuletzt bearbeitet:
kisser, nicht die c't macht die Normen, sondern für PCIe ist die pci-sig.org zuständig und die haben die PCIe 4.0 Spezifikation noch nicht veröffentlicht, auch wenn heise dies angesichts erster Prototypen auf Basis des Entwurfs der Norm und er Nachricht, dass parallele auch schon an PCIe 5.0 gearbeitet wird, offenbar entgangen ist. Das man schon gleich an PCIe 5.0 arbeitet, deutet auch eine größere Änderung z.B. an den Slots hin und damit diese dann auch für die nächsten Generation taugen, wird eben schon gleich mit daran gearbeitet.
 
Es spielt keine Rolle, dass die Spec derzeit nicht veröffentlicht ist. Sie ist fertig und internen PCI-SIG Membern zugänglich.
 
Zurück
Oben