News Prozessorgerüchte: AMD Epyc 2 „Rome“ wird angeblich ein 9-Die-Chip

https://semiaccurate.com/2018/10/29/more-details-about-amds-rome-cpu-leak/
Remember when SemiAccurate told you about the arrangement of AMD’s Rome? Now we have more exclusive news about that CPU and it is better than we originally thought.

In our initial reveal we said there were 9 die or more specifically 8+1 dies with 8x 8-core CCXs and one IOX. What we didn’t know at the time is the arrangement of the cores, interconnects, memory, and socket minutia. We said we were making an educated guess about the arrangement and guessed wrong. That said the end result is Rome is a much better CPU than SemiAccurate thought it would be.

hmm , was immer das heißen mag ...
 
scooter010 schrieb:
Bin ich der Einzige, den das an eine klassische Northbridge erinnert, nur, dass diese nun im CPU Package ist?

ja doch, so kann man es durchaus auch sehen.
 
MK one schrieb:
vielleicht ein Level 4 Cache auf dem System Controller ?
Das wäre ein Traum, aber bestimmt nicht war... :heul:
scooter010 schrieb:
Bin ich der Einzige, den das an eine klassische Northbridge erinnert, nur, dass diese nun im CPU Package ist?
Wie es zur Zeit auf dem Die gelöst ist, würde es mit solch einer Lösung eben ausgelagert werden, aber immerhin noch im Package.
 
MK one schrieb:
hmm , was immer das heißen mag ...

Naja, die haben anfangs spekuliert das Rome eine Monster-CPU wird. Nun sieht es wohl so aus, als ob Rome eine Mo..Mo..Mo...Mooooonster-CPU wird. :freaky::daumen:
 
  • Gefällt mir
Reaktionen: v_ossi, knoxxi und Ozmog
Bärenmarke schrieb:
Ähm, der Sprung von den Katzen auf Zen ist gigantisch und bei den Konsolen ist/sind günstige Produktionskosten sehr wichtig. Und bei den Waferpreisen sehe ich das eher kritisch, aber da wird man sich wohl überraschen lassen. Kommt ja auch drauf an wie sich Sony und Microsoft preislich platzieren wollen, zu den Preisen einer normalen PS4 oder Xbox wird das so nicht machbar sein.

Klar, über 50% IPC-Zuwachs beim gleichen Takt sind toll, und mehr Takt haben werden die Kernen sehr wahrscheinlich auch. Ebenso sind günstige Produktionskosten seit der letzten Generation besonders wichtig geworden (keine Subventionierung mehr). Was ja auch einer der Gründe ist wieso sich Sony und Microsoft auf einen Die mit etwa 350 mm² Fläche beschränken und die TDP zügeln. Richtig ist natürlich auch dass wir uns überraschen lassen müssen.

Meine Überlegung beruht auf folgenden Punkten. In 14/12nm bei GloFo gefertigt benötigt Ryzen mit 8 Zen Kernen ~213 mm², für 4 Kerne demnach ~106 mm². Wenn wir nun davon ausgehen dass Sony und Microsoft wegen der Produktionskosten wieder auf ~350 mm² Dies setzen hätten wir noch 244 mm² für die GPU übrig (350 - 106). Dies entspricht in 14/12nm gefertigt in etwa dem Polaris Chip aus der RX480/RX580/RX590 welcher ~232 mm² hat.

Wenn wir von der RX590 mit 2304 Shadern ausgehen und dieser einen Takt von 1600 Mhz geben, würden wir auf ~7,3 TFlops kommen. Das entspricht:
  • etwa 5,6 mal so viel Leistung wie die Xbox One (in 28nm bei TSCM gefertigt)
  • etwa 4 mal so viel Leistung wie die PS4 (...)
  • nur etwa 1,7 mal so viel Leistung wie die PS4 PRO (in 16nm bei TSMC gefertigt was 14/12nm von GF entspricht)
  • nur etwa 1,2 mal so viel Leistung wie die Xbox One X (...)
So ein geringer Sprung gegenüber den Refresh-Konsolen dürfte schwer zu verkaufen sein. Die Xbox One X schneidet so gut ab weil sie durch die kleinen Jaguar Kerne, welche in 16nm gefertigt werden und schon in 28nm gefertigt kleiner waren als die 14nm Zen Kerne, mehr Fläche für Compute Units zur Verfügung hat (40 gegenüber 36 bei Polaris).

Um einen angemessenen Sprung zu liefern ist deshalb 7nm in meinen Augen unabdingar. Weitere Punkte:
  • eine stark verbesserte Grafik ist leider nach wie vor eines der Zugpferde. Die schnelleren Zen Kerne sind da eher zu vernachlässigen. Eine schnellere GPU ist wichtiger. Wobei die Zen Kerne natürlich die GPU etwas entlasten, da Compute Tasks die aktuell wegen der schwachen Jaguar Kerne auf der GPU ausgeführt werden, potentiell wieder auf der CPU ausgeführt werden können etc.
  • die Frage ist ob Sony und Microsoft 4K als Standardauflösung anvisieren, was deutlich mehr Rechenleistung benötigen würde um gleichzeitig auch visuell einen ordentlich Sprung zu machen. Zum Vergleich die Xbox 360 und PS3 haben hauptsächlich 720p berechnet. Die PS4 nutzt dagegen 1080p. 1080p hat doppelt so viele Bildpunkte wie 720p. Um dies zu wuppen und grafisch gleichzteitig einen starken Sprung nach vorne zu machen benötigt die PS4 6 mal so viel Rechenleistung wie die PS3. 4K ist dagegen keine Verdoppelung der Bildpunkte, sondern eine Vervierfachung! Selbst wenn die PS5 also 6 mal so viel Rechenleistung hätte wie die PS4, was 10,8 TFlops entsprechen würde, ist ein grafischer Sprung wie von der PS3 zur PS4 nicht zu erwarten sofern 4K als Standardauflösung anvisiert wird.
  • eine weitere Unbekannte ist ob Sony weiter auf VR setzen möchte. Sofern sie dies tun wird vermutlich die Auflösung angehoben was mehr Leistung benötigen würde. Wobei Sony natürlich durch ihr geschlossenen System einen Vorteil gegenüber allen anderen VR-Brillen Anbietern hat. Wenn sie Augentracking in ihre Brille einbauen würden, würden die Entwickler Foveated Rendering nutzen um die Rechenleistung stark zu minimieren, da den Entwicklern ein vorhandenes Augentracking garantiert ist.
Wegen der Punkte gehe ich aktuell davon aus dass die nächsten Konsolen Anfang 2020 angekündigt werden und zum Weihnachtsgeschäft 2020 in den Läden stehen. Bei der Fertigung gehe ich nicht nur von 7nm, sondern sogar 7nm+ mit EUV aus (TSMC hat diesen Monat gerade den Tape-out des ersten 7-nm-EUV-Chips verkündet). Durch den EUV-Anteil sollten die Kosten etwas gesenkt werden können. Außerdem dürfte der 7nm Prozess in 2020 yield technisch noch eine Ecke besser ausgereift sein.

Meine Glaskugel orakelt aktuell:
  • 8 Zen Kerne mit 2,5 bis 3 Ghz. Ryzen 1700/2700 mit 3 Ghz sind ja sehr effizient. In 7nm gefertigt etwa 106mm² Fläche.
  • Navi GPU mit ~10,8 TFlops mit gesenkter Taktrate für bessere TDP und deaktivierten CUs für besseren yield (so wie aktuelle Konsolen es auch schon machen). Etwa 242mm² wenn wir von Vega 64 ausgehen (12,5 TFlops, 484 mm²) und diesen in 7nm fertigen (Vega 20 in 7nm hat mehr, vermutlich wegen der Extrafunktionalität für Deep Learning und Compute).
  • zusammen wären dies 348 mm² was der PS4/PRO zum jeweiligen Launch entspricht.
  • gepaart vermutlich mit 16 GByte GDDR6 an 256 bit wie die aktuellen Konsolen, und einer Bandbreite von 448 GB/s bis 512 GB/s (Tendenz eher zu 448 GB/s um durch günstigere Chips Kosten und in Zukunft evtl auch Strom/Abwärme zu sparen (1,35V vs 1,25V). Es gibt zwar auch 576 GB/s aber die Chips dürften wohl viel zu teuer sein). Die Xbox One X hat 12 GByte an 384 bit für 326 GB/s.

Aber gut, vielleicht hast Du mit den 4 Kernen recht. Sollte die Standardauflösung nach wie vor 1080p betragen würden 4 Zen Kerne + 7 TFlop wohl für einen guten Sprung ausreichen, und Sony und MS könnten wie bei den aktuellen Konsolen in ein paar Jahren eine 4K Konsole in 7nm nachreichen. Es gibt ja auch die PS5 Gerüchte die einen Start für 2019 erwarten, woran ich zwar nicht glaube, aber 7nm wäre zu dem Zeitpunkt utopisch was für 14/12 nm sprechen würde.

Wobei ich es wie beschrieben für schwer zu verkaufen halte, aber lassen wir uns überraschen. :o)


DonL_ schrieb:
Die Subor Z Plus besteht aus einer etwas größeren Ryzen APU Die und schlägt die anderen beiden Konsolen um Längen, wenn diese Konsole 12 oder 16GB Speicher hätte, wäre das schon ein erheblicher Sprung zu den jetzigen Konsolen, da die Subor Z Plus praktisch mit 8 GB, nur Bandbreiten limitiert ist.

[...]

Klar, die Zen Kerne in der Zubor Z+ fahren natürlich Schlitten mit den Jaguaren aus den aktuellen Konsolen, aber der GPU-Part entspricht mit 4 TFlops bloß einer PS4 Pro (4,12 TFlops) und verliert gegen die Xbox One X (6 TFlops). Der Die scheint von der Größe her vergleichbar zu den aktuellen Konsolen zu sein. Geschätzt wird zwischen 300 mm² (user in foren) und maximal 390 mm² (anandtech), ist also in 14/12nm nicht mehr viel Platz vorhanden um mehr Leistung rauszuholen.

Wie oben beschrieben halte ich so einen geringen Sprung für schwer zu verkaufen, aber lassen wir uns überraschen.
 
  • Gefällt mir
Reaktionen: Nixdorf und Bärenmarke
Zuletzt bearbeitet:
Damit wäre doch dann wohl auch geklärt, wie ein Ryzen 3000 mit 16 Kernen aussehen würde.

Weiterhin 4 Kerne pro CCX und 8 Kerne pro Die, beim Ryzen dann ein 14nm System Controller, der kleiner ausfällt als bei Epcy und links und rechts daneben je ein 8C Die.

Wenn man weiterhin einen einzigen Die für alles nehmen möchte, dann muss das sogar zwingend so sein, da die Dice bei Epyc doch vermutlich so designed sind, dass sie nur über den Controller kommunizieren und nicht direkt untereinander.

Und wenn ich das so richtig verstanden habe, übernimmt der System Controller auch das Scheduling der einzelnen Threads, oder?
Damit wäre man weniger abhängig von der Software, was doch sehr gut klingt.
 
Zuletzt bearbeitet:
zum jetzigen zeitpunkt ist das ganze ein interessantes konzept - aber mehr auch erstmal nicht!
keiner weiß wie gut einzelne 7nm chips wirklich performen und wie deren verbrauch/tdp aussieht.
wie das ininity fabric bezüglich performance/latenzen in so einem konzept skaliert/performt ist ebenfalls reine spekulation.

was ich mir gut _vorstellen_ kann ist dass es z.b. einfacher ist aus einzelnen 7nm-quadcore-chips höhere taktraten herauszukitzeln als aus octacores - einen vorgeschmack wie da die verlustleistung skaliert haben wir ja exemplarisch an intels i9-9900k gesehen.
meine meinung: so ein many-cores-ansatz steht und fällt mit dem "system contoller" bzw der infinity fabric...

auch wenn "mehr" kerne erstmal gut klingt, so finde ich dass wir inzwischen in eine entwicklung gleiten in der nichtmal die heute schon verfügbaren many-cores ihre "ps auf die strasse" bringen können. im anwendungsbereich skalieren viele kerne bekanntlich wesentlich besser als in games.
solange also die verbreiteten engines nicht massiv auf 8+ cores ausgelegt und optimiert werden, bringt es wenig noch mehr kerne hinzuklatschen.
das dürfte vor allem gelten da es immer schwieriger wird über reine architekturverbesserungen wesentliche ipc steigerungen zu verwirklichen.
weiterhin kommt dazu dass auch taktratensteigerungen bisher vor allem aus verbesserten fertigungsprozessen resultieren und auch hier wird es immer aufwendiger und teuerer größere sprünge zu realisieren...
 
Irre sind auch >250mm² "nur" für diese IF / IO / SI Sache. Klar, die werden zwischenzeitlich recht günstig zu fertigen sein und wenns sein muss auch lange auf 14nm bleiben können.

Denkbar auch dass man die CCX Dies da um diesen Controller herum dann bis je 16C und mehr skalieren lässt, den Controller aber recht ähnlich hält.

Dieser System Controller dürfte ja schon etwas in Richtung GPU Frontend gehen, oder? Also die Verwaltung von Threads auf diverse Rechenwerke und SI.
 
  • Gefällt mir
Reaktionen: C4rp3di3m
Krautmaster schrieb:
Irre sind auch >250mm² "nur" für diese IF / IO / SI Sache. Klar, die werden zwischenzeitlich recht günstig zu fertigen sein und wenns sein muss auch lange auf 14nm bleiben können.

Denkbar auch dass man die CCX Dies da um diesen Controller herum dann bis je 16C und mehr skalieren lässt, den Controller aber recht ähnlich hält.

Dieser System Controller dürfte ja schon etwas in Richtung GPU Frontend gehen, oder? Also die Verwaltung von Threads auf diverse Rechenwerke und SI.

Macht es denn Sinn, wenn er eigenen Cache (Level 4) zum Zwischenspeichern erhält, um die Latenzen zu senken?
 
Naja, ich bezweifel, dass es für den Consumerbereich viel Sinn macht, dieses Konzept zu benutzen.
Erstens hat man verdammt viel Cache verbaut und zweitens wird die Speicherlatenz größer sein bei diesem Design.
Zudem weiß ich nicht ob "One Die for all" überhaupt notwendig ist. Das war bei Gen1 aus der Not heraus geboren. Jetzt hat man aber höhere Stückzahlen und mehr Kapazitäten zur Verfügung. Zudem müsste man ja auch mehrere Controller-Dies fertigen, hat also eh mehrere Dies.

Dieses Chiplet Design für Epyc und Threadripper klingt sinnvoll. Für AM4 eher nicht.
Allerdings wäre man flexibler, wenn man auf AM4 16 Kerne abieten will. Man könnte dann auch recht einfach günstigere 8 Kerner anbieten.
 
bensen schrieb:
Naja, ich bezweifel, dass es für den Consumerbereich viel Sinn macht, dieses Konzept zu benutzen.
Erstens hat man verdammt viel Cache verbaut und zweitens wird die Speicherlatenz größer sein bei diesem Design.
Mehr Cache ist doch immer schön, oder nicht?
Und die Latenzen werden vermutlich trotzdem besser sein, als aktuell bei Zen+.
Muss man sehen ob man dann lieber die Latenzen für Ryzen noch weiter senken möchte und dafür vom "One Die for all" Konzept weg geht.
 
Taxxor schrieb:
Mehr Cache ist doch immer schön, oder nicht?
Und die Latenzen werden vermutlich trotzdem besser sein, als aktuell bei Zen+.
Muss man sehen ob man dann lieber die Latenzen für Ryzen noch weiter senken möchte und dafür vom "One Die for all" Konzept weg geht.
Ja genau, warum dann nicht 128MB?

Warum sollten die Latenzen niedriger sein als bei Zen+?
 
Was AMD da anscheinend alles so aus dem Hut zaubert. Schon interessante Sache mit diesem IF-Hub. das koennte noch ganz interessante Produkte geben.
Endlich wieder spannende Zeiten x)
 
@BlackMonday Deine Gedanken zur nächsten Konsolengeneration klingen ganz gut; könnte mir durchaus vorstellen, dass du damit 'recht nah' dran bist.

Aber du unterschätzt mMn noch, wie sehr die Jaguar Kerne die aktuelle Generation einbremsen. Ein paar Beispiele:
- AC Unity wurde -soweit ich das richtig in Erinnerung habe- 'entvölkert', weil die CPU nicht mit den ganzen NPCs in der Stadt klar gekommen ist.
- Just Cause 3 bricht in physiklastigen Szenarien (z.B. Explosionen) aus den gleichen Gründen mit der Framerate ein.
- Genau so wie The Witcher 3, sobald man nach Novigrad reitet.

Das Marketing kann zut Not auch die fehlenden TFLOPS wieder wett machen. *HUST* Gigarays *HUST* Und was die Upgrade-Konsolen Pro und X alleine zu leisten im Stande wären, kann man nicht mit letzter Gewissheit sagen, denn es werden immer noch die Basis Konsolen 'mitgeschleppt'.

Ein Red Dead Redemption 2 sieht mMn fantastisch aus und läuft auf der One X schon in nativem 4k. Wenn ich mir aber vorstelle, was mit 8 Zen Kernen auf 2,5-3 Ghz (statt mit 8 Jaguar Kernen auf 2,3 Ghz), 8-10 TFLOPS (statt aktuell 6) und 16GB GDDR6 Speicher (statt aktuell 12) noch möglich wäre... dabei muss man ja bedenken, dass die Auflösung nicht mehr erhöht wird, also sämtliche Rohleistung in zusätzliche grafische Features oder eine stabilere Framerate fließen kann.
 
bensen schrieb:
Warum sollten die Latenzen niedriger sein als bei Zen+?
Weil das so ziemlich der größte Punkt ist, an dem man aktuell bei Zen schrauben kann. Alleine durch die 7nm Fertigung dürften die Latenzen schon sinken, dann noch Architekturverbesserungen, vor allem eben am IF, der ja dann bei so einem Controller Die die Kommunikation übernimmt.
 
Der 9. Chip wird wohl ein aktiver Interposer sein, wie er seit geraumer Zeit durch die Gerüchteküche geistert.
Einzig logische Konsequenz. Große 7nm-Dice sind zu teuer und über die "klassische" Infinity Fabric wäre der Verdrahtungsaufwand zwischen allen Dice wohl viel zu groß und unwirtschaftlich.
Denke das Konzept wird funktionieren :)

Zudem kann man weiterhin mit der "2-Masken-für-alle-Segmente"-Strategie fortfahren: Eine Maske für den APU-Die und eine für Desktop-, HEDT- und Server-CPU-Dice.
Das heißt, beim Desktop bleibt es bei 8 Kernen wie bisher. Reicht auch noch mindestens eine Generation vollkommen aus.
Zu hoffen ist nur, dass die Latenzen besser werden und die Taktraten ordentlich nach oben gehen, bei guter Effizienz. Bei letzterem hab ich bei einem so kleinen Die eigentlich keine Bedenken. Beim Takt hingegen wirds interessant wie sich TSMCs erster 7nm-Prozess schlagen wird.

Ich drücke AMD auf jeden Fall die Daumen, dass man einmal ein überzeugendes Produkt auf den Markt bringen kann, ohne dass die Fertigung das Ganze wieder versaut durch schlechte Effizienz (GF 32nm -> Llano/FX), Taktraten(AMD 65nm -> Phenom, GF 14nm -> Zen) oder schlechte Verfügbarkeit (TSMC 40nm -> HD 5850/5870).
 
  • Gefällt mir
Reaktionen: Ned Flanders
@yummycandy

Wenn das Ding 2020 in Betrieb gehen soll kann ich mir eherlich gesagt nur ROME vorstellen. Aber genial schon, dass quasi eine der ersten Informationen zu der neuen Architektur die man überhaupt hat die ist, dass sie in einem oberen TOP500 System verbaut wird (100 PetaFlops wären aktuell Platz 2).

@rg88

Ich glaub auch eher an einen aktiven Interposer (Switch) als an ein quasi Auslagern des Speichercontrolers. Klar, Interposer sind teuer, aber das hier ist auch ein Segment wo man das gut machen kann. Quasi ein 'externes' Mesh und wie du sagst, können sie bei One-Die bleiben.
 
  • Gefällt mir
Reaktionen: DonL_ und rg88
Zurück
Oben