News AMD Epyc: Rome mit 64 Kernen als 9‑Chip‑Prozessor enthüllt

Hopsekäse schrieb:
Dass da AMD für die Vorführung ausgerechnet ein schlechtes ES benutzt, wo ja noch bestimmt viel mehr ginge, finde ich etwas sehr "zurechtgelegt".
Genauso die Gedanken zur Leistungsaufnahme anhand der TDPs... Der Sockel macht maximal 225W also muss die Effizienz ja ~2x so gut sein... Gleichzeitig soll es aber ein ES sein wo es noch Taktreserven gibt. Das passt irgendwo nicht so richtig zusammen. Also wartet doch mal richtige Infos ab und füllt nicht jede noch vorhandene Wissenslücke gleich wieder mit der besten überhaupt möglichen Option... Dann seid ihr nicht enttäuscht wenn es schlechter ist als gedacht und könnt euch freuen, wenn es doch toll ist.
"Ein gutes Pferd springt nicht höher als es muss..."
Der direkte Konkurrent CL-AP wurde als Konzept und nur mit Hochrechnung zur Leistung einen Tag zuvor vorgestellt. Wäre ich AMD würde ich mein neues Topprodukt zeigen und live demostrieren, dass seinen direkten Konkurrenten schlagen kann. Da bei diesem noch keine Taktraten bekannt sind, würde ich mein Produkt so einstellen, dass es knapp davor liegt und mir noch eine Reserve aufhaben, falls Intels Kleber doch besser als erwartet ist, mehr Takt bei CL-AP herauskommt oder man doch mehr als 48 Kerne zum Laufen bekommt.
Ansonsten gebe ich dir Recht: Abwarten bis beides am Markt ist und dann kann fundiert diskutiert werden.
 
Ned Flanders schrieb:
...Dein Hauptkritikpunkt war doch das es zuviel NUMA Nodes bei Epyc gibt. Das muss dich doch jetzt total freuen, dass nicht nur alle Kerne die gleiche Entfernung zum RAM bekommen, sondern auch noch eine CPU die Leistung bringt die du bei Intel nur mit zwei Sockeln hinbekommst (sprich mehr NUMA) nodes). Ist doch Bombe! Warum kein Wort mehr darüber. Die Lösung ist doch jetzt eleganter als eine Vergößerung der CCX, bei der das Problem weiterhin bestanden hätte. Jetzt kannst du noch CCX sagen die "klebe ähnliche Latenzen" haben. Da hat sich ja aber offenichtlich auch etwas getan, denn wenn die Chiplets keine RAM Controler mehr haben, haben sie einen eigenen IF Takt. Und der wird bestimmt nicht niedriger sein als 2666MHz, das Maximum bei Epyc1.
Natürlich hast du recht. Die NUMA-Charakteristik wurde erheblich verbessert. Das ist sicherlich gut und homogener. Das steht doch hier sowieso überall. Muss ich das alles auch nochmal explizit mit-trompeten, nur damit sich irgendwer dann nicht irgendwelche Gedanken zu irgendwelchen Absichten macht? Nervig...
Kann ich das dann bitte wenigstens einmal pauschal machen? *tröööt* Sehr gut, dass die Architektur jetzt homogener ist!

Der Gedanke zum IF-Takt ist sehr interessant und kann auch Verbesserungen bringen, die für den Consumer-Markt interessant sind. Die Situation bleibt aber mit 4er-CCXen prinzipiell erstmal dieselbe. Wir hatten die Zahlen ja im anderen Thread. Über's IF zum anderen CCX zu gehen schlägt dort ca. 55ns auf (+61% gegenüber lokalem L3). Und der Speicher hängt prinzipiell dahinter. Um zwischen den CCXen homogen zu werden, müssten diese 55ns in Richtung 0 sinken.
Wie im anderen Thread bereits gesagt, ich denke, die für den Consumer, insbesondere Spieler, interessantere Variante wären 8er-CCX mit direkt angeschlossenem Speichercontroller, nicht hinter dem IF damit beide 4er-CCX ran kommen.
Um bei der Speicherlatenz richtig weit runter zu kommen (potenziell weiter als Intel), muss mMn der IF-Schritt zwischen L3 und RAM-Controller ganz weg und das ist selbst wenn die Consumer-CPUs ihre eigenen Dies bekommen (sehr wahrscheinlich) mit AMDs hier gezeigtem Ansatz wohl sehr unwahrscheinlich.

Generell schließen sich ein größeres CCX und diese Variante aber nicht aus. Bei dem Desing können sie ja beliebig große CCX dran hängen. Nur dass der RAM-Controller mit rein geht ist sehr unwahrscheinlich. Dann könnten immernoch die inter-CCX-Latenzen eliminiert werden und das Design würde trotzdem funktionieren.
Es würde sogar lokal das IF entlasten, weil es nur noch für Kommunikation zu RAM und anderen Chips benutzt würde und lokale Kommunikation nicht mehr übers IF ginge.
Anhand der Anzahl der Chips ist aber natürlich ausgeschlossen, dass die CCX größer als 8 Kerne würden. Und 6 o.Ä. geht auch nicht mehr. Wahrscheinlich sind das wieder 4er-CCX...
Ich hätte 8er-CCX in beiden Varianten noch besser gefunden.
 
Taxxor schrieb:
Ein nur knapper Sieg in einer gut skalierenden Anwendung bei 64 7nm gegen 58 14nm Kerne schaut jetzt aber erst mal nicht so toll aus.
Die CPUs kommen erst nächstes Jahr raus. Der Test wurde mit einem Engineering-Sample gemacht. Wenn man dann noch mit einbezieht, dass die ganze Anbindung über einen separaten Chip abläuft, ist das umso erstaunlicher.

Zudem solltest du das Wichtigste nicht vergessen: Das ganze kommt aus EINEM Sockel, sprich man bekommt 128 Kerne auf ein 2-Sockel-Board. Der Platz- und vorallem die Preisersparnis durch die Halbierung der nötigen Sockel ist enorm. Bei einem langsameren Intelsystem brauchst du 2 Server mit gesamt 4 CPUs der teuersten Xeon Platinum bei denen der Stückpreis aktuell 16.000(!) Euro beträgt, um auf die Leistung eines 2-Sockel EPYC "Rome" Servers zu kommen.
(4-Sockelsystem lasse ich jetzt mal außen vor, weil diese auch in der Regel deutlich mehr HEs benötigen als 2-Sockel-Systeme.)

Grad mal bei Dell einen Basisserver (16GB RAM, eine HDD, also ohne irgendeine Ausstattung) mit zwei 8180M zusammengeklickt:
1541615019155.png


Nachdem der erste EPYC schon gut in diesem Benchmark abgeschnitten hat, ist der Benchmark nicht besonders Latenzen-abhängig. Das bedeutet im Umkehrschluss, dass man von den großen und wichtigsten Zen2-Core-Verbesserungen nicht wirklich was sieht hier. Vielleicht verpuffen die auch wieder teilweise durch den Controller-Chip.
Bei der Spieleleistung ist aber gerade das Thema Latenzen das, was aktuell die Ryzen-CPUs nicht vor die Intel kommen lässt. Deshalb kann man hier keinerlei Rückschlüße auf die Desktop-CPUs ziehen, außer, dass sie sicherlich nicht langsamer oder gleich schnell wie die "Alten" sind ;)
 
Die 4er-CCX waren für den 14nm Prozess ideal um möglichst schnell und risikoarm alle Produktsegmente von Mobil bis Server besetzen zu können. Die Strategie hat bei AMD perfekt funktioniert.
Für 7nm könnten 8er-CCX technisch besser sein, ob die Entwicklungsdauer und -risiken dies rechtfertigen ist eine andere Frage. Vielleicht sehen wir 8er-CCX ja in späteren Entwicklungen, vielleicht schon für den nächsten AM4- Desktop Chip
 
IBISXI schrieb:
Ich dachte die Latenz wäre hauptsächlich vom Speichertakt und den Speichertimings abhänging.

Ist sie ja auch, aber DDR1 400MHz gabs halt als CL2. Außerdem hatte der Athlon64 keinen L3 Cache wie die heutigen. Dort nachzuschauen ob die Daten vorliegen kostet eben auch Zeit.
 
rg88 schrieb:
Zudem solltest du das Wichtigste nicht vergessen: Das ganze kommt aus EINEM Sockel, sprich man bekommt 128 Kerne auf ein 2-Sockel-Board. Der Platz- und vorallem die Preisersparnis durch die Halbierung der nötigen Sockel ist enorm.
Bei den vielen Antworten auf meinen Post hätte ich diesen mehr konkretisieren sollen^^
Was ich mit "nicht so toll aussehen" meinte, ist die pro Kern Leistung und damit die ersten Rückschlüsse auf die kommenden Ryzen.

Klar wir kennen keine Taktraten, und dass es nur ein Prototyp ist, habe ich beim Schreiben des Post auch überlesen, aber ich hätte schon gedacht, dass man bei gleicher Kernzahl schneller ist.

Mit 28 zu 30sek ist man 7% schneller in diesem speziellen Benchmark(welches zudem noch auf Linux lief wo AMD sowieso etwas besser ist), benötigt dafür aber auch mit 64 zu 58 10% mehr Kerne.

Dieser Prototyp sollte also im Takt noch recht deutlich unter dem Xeon liegen, damit es im Mainstream bei 8C vs 8C gut aussieht.

Hier hoffe ich auch, dass AMD wirklich den Takt extra so gewählt hat, dass man den Xeon knapp schlägt, um in ein paar Monaten noch mehr glänzen zu können.

(Schon krass, dass wir mittlerweile so weit sind, dass man die Differenz an Kernen schon in Prozenten angeben kann^^)
 
  • Gefällt mir
Reaktionen: s0UL1
Nixdorf schrieb:
Die Befürchtungen hier fußen darauf, dass nun bei jedem Speicherzugriff ein IF-Hop (Infinity Fabric) zum I/O-Die hinzukommt, wo es bei Zen 1 einen direkten Zugriff gab. Die Latenz für den Speicherzugriff bei Ryzen 2000 liegt zwischen 60 und 75ns, die für einen IF-Hop bei 67-75ns. Das ist grob von hier abgelesen, als Cross-CCX minus Intra-CCX; von den Die-to-Die-Werten will ich jetzt mal gar nicht sprechen. Selbst wenn AMD die Latenz deutlich verbessert, könnte sich immer noch ein schlechterer Wert als bei Zen 1 mit direktem Zugriff ergeben. Ob das ein Thema in Spielen wird, das wird sich erst noch zeigen müssen.
Ergänzung ()


Ja klar doch, wie Threadripper dann halt: bis zu 64 Kerne mit 8 Chiplets, bis zu 32 Kerne mit 4 Chiplets, darunter dann z.B. zwei Chiplets und zwei Spacer.

P.S.: Bitte die Full-Quotes kürzen, das sehen die Mods nicht gerne.

Worauf fußen deine Befürchtungen? AMD hat klar gesagt, dass man sich um die Latenzen gekümmert hat. Ich habe in einigen Beiträgen vorher ein Video dazu gepostet. Aufgrund des Designs muss sowohl die Core to Core Kommunikation als auch der Speicherzugriff über den Interposer, alles staut sich, die Latenzen steigen. Wie man dieses Problem nun löst und sogar schneller als ein monolithischer Chip sein kann, geht man in diesem Video nach. Um auf den Punkt zu kommen, meine Erwartungen sind, das AMD Intel-Latenzen erreicht und bestenfalls diese sogar noch leicht unterbieten kann.
 
Taxxor schrieb:
Dieser Prototyp sollte also im Takt noch recht deutlich unter dem Xeon liegen, damit es im Mainstream bei 8C vs 8C gut aussieht.
Gerade der Rückschluss auf den Desktopmarkt lässt sich durch das neue Chip-Konstrukt absolut gar nicht ziehen.
Außer, der Desktop bekommt auch einen Zusatzchip, dann eventuell. Mit integriertem Speichercontroller ist die Technik vollkommen verschieden.
Ergänzung ()

Taxxor schrieb:
Hier hoffe ich auch, dass AMD wirklich den Takt extra so gewählt hat, dass man den Xeon knapp schlägt, um in ein paar Monaten noch mehr glänzen zu können.
Glaub ich nicht.
Ich denke, dass man da schon gut am oberen Ende der ES' war. Aber sicherlich nicht absolut am Limit. Ein Absturz bei so einer Präsentation wäre der Super-GAU. Da geht man lieber auf Sicherheit. Und die Server sind eh recht niedrig getaktet in der Regel, siehe aktuelle Epyc-Modelle.
Ist sicherlich auch nicht grundlos, dass zuerst die Epycs kommen. Die Fertigung wird noch etwas brauchen, bis die hohen Taktraten drin sind, die man für den Desktop braucht. Vorallem braucht man dort Massen
 
Taxxor schrieb:
Mit 28 zu 30sek ist man 7% schneller in diesem speziellen Benchmark(welches zudem noch auf Linux lief wo AMD sowieso etwas besser ist), benötigt dafür aber auch mit 64 zu 58 10% mehr Kerne.

Das kann man meiner Ansicht nach so auch nicht vernünftig vergleichen, da keinerlei Angaben zum Stromverbrauch gemacht wurden (oder ich hab sie überlesen). Denn wenn das intel System dabei doppelt so viel Strom zieht ist das schon eine Hausnummer und gerade aufgrund der besseren Fertigung, erwarte ich hier doch einen deutlichen Unterschied der für AMD spricht.
Ansonsten muss man sich einfach noch in Geduld üben, ich finde den Ausblick aufjedenfall sehr positiv, da man defintiv vor intel sein wird.
Zumal ich davon ausgehe, dass es dann auch noch ein 48 Kerner mit höheren Taktfrequenzen geben wird, wenn jemand für seine Applikationen, mehr Singlecoreleistung benötigt.
 
  • Gefällt mir
Reaktionen: max9123
Mr_Tee schrieb:
Worauf fußen deine Befürchtungen?
Das sind nicht meine Befürchtungen. Ich versuche, das zu erklären, was von Gamern im Thread an Zweifeln kommt. Für mich ist das alles kein Thema, weil ich primär Anwender bin und mir für die gelegentlichen Games sichere 60fps mit einer RX 580 reichen; und das schafft der 2700X im Schlaf.

Mr_Tee schrieb:
AMD hat klar gesagt, dass man sich um die Latenzen gekümmert hat.
Das kann man auch so interpretieren, dass die hohen Latenz-Aufschläge für den Wechsel zum jeweils anderen Die wegfallen. Jedenfalls rettet es Gamer nicht, wenn AMD Latenzverbesserungen auf einem Event verkündet, welches mit Gaming nicht das Geringste zu tun hat. Da geht es erst einmal nur um die Latenzprobleme der ersten EPYC-Generation.

Mr_Tee schrieb:
Wie man dieses Problem nun löst und sogar schneller als ein monolithischer Chip sein kann, geht man in diesem Video nach.
Das Butterdonut-Video kenne ich. Zum gegenwärtigen Zeitpunkt gibt es aber noch keine Hinweise darauf, dass dieses Konzept mit Zen 2 bereits umgesetzt wird. Vor allem könnte ein aktiver Interposer auch zu teuer für Ryzen in der Herstellung sein. Das kann kommen, aber vielleicht nicht schon mit Zen 2, sondern erst eine oder zwei Iterationen später. Oder es kommt jetzt, aber erstmal nur für EPYC, und für Ryzen dann später oder nur in einem Edelprodukt in der 9900K-Preisklasse. Wer weiß?

Und ich bitte darum, all den Konditional in den obigen Formulierungen nicht zu überlesen. Es kann auch alles Friede, Freude, Eierkuchen sein.

Nachdem all diese Erwartungsdämpfer raus sind, kann ich natürlich auch nur sagen, dass ich dennoch das Beste hoffe.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Ned Flanders
Mr_Tee schrieb:
Wie man dieses Problem nun löst und sogar schneller als ein monolithischer Chip sein kann, geht man in diesem Video nach.
Das Video von Jim war echt gut, aber dir wird sicher aufgefallen sein, dass Rome keinen teil-aktiven Interposer nutzt, wie im Video dargestellt war. Dafür benötigt es zwingend den von Jim angesprochenen Silizium-Die unter den Chiplets, wie bei Fiji und Vega. Rome hat da nach wie vor die grüne Platine.
 
  • Gefällt mir
Reaktionen: nazgul77 und Ned Flanders
Colindo schrieb:
Das Video von Jim war echt gut, aber dir wird sicher aufgefallen sein, dass Rome keinen teil-aktiven Interposer nutzt, wie im Video dargestellt war. Dafür benötigt es zwingend den von Jim angesprochenen Silizium-Die unter den Chiplets, wie bei Fiji und Vega. Rome hat da nach wie vor die grüne Platine.
In dem Bezug lest mal folgende Unterhaltung auf Twitter. Auch oberhalb meines verlinkten Posts:
https://twitter.com/CDemerjian/status/1060321877263040512
 
  • Gefällt mir
Reaktionen: Colindo
@max9123
Durchaus richtig, was du sagst. Dass der Benchmark Latenzen usw. ausblendet, meinte ich ja damit, dass das "organisatorische" ausgeblendet wird, weil eben alles in den L1 passt.
Wenn nur die SIMD-Breite erhöht wurde, dann erklärt das natürlich, warum die FP-Änderungen sich nicht zeigen.
Dann kann man aber mal kritisch hinterfragen, warum es dann ausgerechnet dieser Benchmark ist und eben kein ähnlicher, der die breiteren Einheiten auch nutzt.

Mehrleistung durch 7nm ist dann aber immer noch nicht zu sehen. Natürlich kann die komplett zugunsten der Effizienz geopfert worden sein.

@Ned Flanders
PCGH (http://www.pcgameshardware.de/AMD-Zen-Architektur-261795/News/Ryzen-3000-7-nm-Aufbau-Design-1268791/) hat hier einen einen interessanten Gedanken zu den Desktop Zen2 geäußert: MCM mit IO-Chip, wobei der IO-Chip noch eine kleine GPU beinhaltet. Für Speicherlatenzen sicher weniger optimal, würde aber möglicherweise neue Kundenkreise ansprechen. Mal schauen. Wollte ich nur mal in den Raum werfen, weil wir ja beim Thema waren.
 
  • Gefällt mir
Reaktionen: Ned Flanders
@Hopsekäse

Merci für den Link. Ja, ich denke genau darauf wirds wohl rauslaufen. Die Modularität hat ja jetzt einen ganzen Batzen an Optionen. Beispielsweise könnte man für den OEM Markt ein Package mit Compute Chiplet + I/O Die mit Vega GPU + 8GB HBM rausbringen. Das wäre quasi ein System in a Package und zwar komplett. Das würde die Kosten für Boards dramatisch reduzieren und auch sehr kompakte und trotzdem starke Systeme erlauben. Finde den gedanken faszinierend.

Für den Retailmarkt würde ich mir aber in der Tat ein SOC nach altem Schema in 7nm wünschen. Schlicht wegen der RAM Latenzen. Aber womöglich machen wir hier ein drama um die Latenzen und am Ende ist das alles Quark weil der Hop zum IO Chip so schnell ist, das es keine Rolle spielt. Man muss sich ja mal überlegen wie weit der RAM grundsätzlich vom IMC weg ist... auf dem Board. Und da gibts trotzdem noch Latenzen die um den Faktor zwei niedriger sind als bei aktuellen AMD Ryzen -- Übertakteter Kaby Lake grob 35ns vs übertakteter Ryzen bei grob 60ns. Da müsste das ja eigentlich in einem Package auch realisierbar sein.

Ziemlich innovative Zeiten gerade!
 
  • Gefällt mir
Reaktionen: Hopsekäse
Mir ist noch eine besonders dämliche Schlagzeile zum I/O-Die eingefallen: AMD stuck on 14nm!

Hopsekäse schrieb:
Für Speicherlatenzen sicher weniger optimal, würde aber möglicherweise neue Kundenkreise ansprechen.
Korrekt. Es gibt einen Haufen Anwender, die nur "Bild" brauchen, und für die ist die iGPU bei Intel immer noch ein Kaufargument.

Ned Flanders schrieb:
Beispielsweise könnte man für den OEM Markt ein Package mit Compute Chiplet + I/O Die mit Vega GPU + 8GB HBM rausbringen.
Bis jetzt war das thermisch meist Quatsch, aber mit 7nm wird das langsam eine reale Möglichkeit. Wenn sich wirklich bei gleicher Leistung der Verbrauch halbiert, dann kann man 8 Kerne mit 3,6 GHz in weniger als 40W unterbringen. Eine sparsame, kleine Vega passt dann tatsächlich daneben. Kein richtig dickes Teil, denn der HBM erzeugt auch noch Verlustleistung. Aber ja, vom TDP-Budget aus betrachtet kann man das machen.
 
Muss ja nicht Dick sein, einfach für alles was aktuell i3 - i5 von den OEMs DELL abgedeckt wird und überall rumsteht. Der HBM ist natürlich teuer, aber man spart ja wie gesagt am Board gewaltig (keine RAM Leiterbahnen mehr nötig) und den RAM spart man auch noch. Dafür wäre das Ding halt super klein realisierbar. Der Preis ist das man keinen RAM mehr nachrüsten kann was aber bei 95% der rumstehenden Kisten eh nie gemacht werden wird.
 
Ned Flanders schrieb:
keine RAM Leiterbahnen mehr nötig

Ah, Trick! Das HBM nicht nur für die Graka, sondern gar nix mehr sonst. Das war im ersten Beitrag nicht klar raus gekommen. Klar, das vereinfacht das Board noch mehr. Bisher brauchte HBM allerdings immer einen Interposer, das macht es wieder teurer. Wahrscheinlich ist die kostengünstigste Lösung, zwar die iGPU im I/O-Die zu haben, aber das RAM wie gehabt separat. Da ist dann die Grafik lahm, aber für das Büro wird es reichen.
 
Stimmt, ohne Interposer ganz einfach so gehts nicht. Wäre vieleicht was für Apple. Deren Marge ist hoch genug ;-)
 
8 Cores per CCX für den "Desktop" Ableger.
8 Core CCX + Controller, der dann im Bios respektive von AMD selbst (CBS) für den IF einen eigenen Multiplier anbietet. Das wäre sehr sehr geil.
 
Zurück
Oben