News Prozessorgerüchte: AMD Epyc 2 „Rome“ wird angeblich ein 9-Die-Chip

Krautmaster schrieb:
Irre sind auch >250mm² "nur" für diese IF / IO / SI Sache. Klar, die werden zwischenzeitlich recht günstig zu fertigen sein und wenns sein muss auch lange auf 14nm bleiben können.
Wissen wir doch noch gar nicht. Die Quelle ist Twitter und das Bild sieht jetzt für mich nicht so wirklich nach ner AMD-Folie aus. Eher 2 Minuten Photoshop ;)

Falls das Teil wirklich so groß wird, dann wird da noch mehr drin stecken als nur der Router des aktiven Interposer. Durchaus möglich, dass da ein großer Lvl4-Cache dazu kommt.
 
Also 8 Die (ähnlich wie Zeppelin Die) und einen grossen fetten aktiven Interperposer als IF-Mesh für alle Die könnte ich mir schon vorstellen. Der hätte dann aber eine Größenordnung von ca. 600-800mm^2, da alle 8 Die darauf Platz nehmen würden. Die IF ist ja grundsätzlich Mesh-fähig und dass würde die Latenzen gering halten und den Energieverbrauch über den IF ebenfalls und die Kosten sowieso.
Die Memorycontroller sollten aus Latenzgründen auf den Die bleiben, also für jeden Die einen Memorycontroller.
 
  • Gefällt mir
Reaktionen: yummycandy
Ned Flanders schrieb:
Ich glaub auch eher an einen aktiven Interposer (Switch) als an ein quasi Auslagern des Speichercontrolers. Klar, Interposer sind teuer, aber das hier ist auch ein Segment wo man das gut machen kann. Quasi ein 'externes' Mesh und wie du sagst, können sie bei One-Die bleiben.

Das macht für mich auf alle Fälle Sinn, also bleibt der Speichercontroller und die PCIE Anbindungen bei den CCX und bei den Serverprozessoren kommt ein Interposer dazwischen?!
 
Dummsday schrieb:
Wie kommst du auf Mesh? Ein aktiver Interposer ist ein Router, wozu sollte da ein Mesh nutzvoll sein?
Ergänzung ()

Ned Flanders schrieb:
Quasi ein 'externes' Mesh und wie du sagst, können sie bei One-Die bleiben.
Nix Mesh ;) Der Sinn hinter einem aktiven Interposer liegt ja gerade darin, dass man so ein Konstrukt eben nicht braucht
Ergänzung ()

Ned Flanders schrieb:
Quasi ein 'externes' Mesh und wie du sagst, können sie bei One-Die bleiben.
Ist halt noch die Frage ob das dann bei den Desktops auch so wird wie bisher und der Speichercontroller bei den Server und HEDT Systemen nur nicht genutzt wird, oder ob man gleich ganz darauf verzichtet und auch für AM4 einen externen Controller aufbringt um die 7nm-Chips von der Größe her zu minimieren.
Aber das halte ich für unwahrscheinlich. Dafür sind die Stückzahlen für die MCMs wohl zu gering und der Mehraufwand den normalen Massen-CPUs nicht angemessen
 
Zuletzt bearbeitet:
Also ich hab letztes Jahr mal gelesen (s.u), dass die IF-Fabric auch als Gitter, d.h. Mesh ausgelegt werden kann und das in Vega auch realisiert wurde. Bei Epyc wird die IF ja für Punkt zu Punkt Verbindungen zwischen den Die genutzt, bei 8 Die auf einem Chip würde das aber problematisch, aufgrund des hohen Verdrahtungsaufwandes. Lösen könnte man das über einen aktiven Interposer, denke ich mir so :-)

https://www.hardwareluxx.de/index.php/news/hardware/prozessoren/41272-fuer-vega-und-ryzen-infinity-fabric-als-grundgeruest-der-neuen-architekturen.html

.....Im Falle der Vega-Architektur soll der Infinity Fabric als Mesh, also in einer Gitterstruktur ausgeführt werden. Dies liegt vor allem daran, dass in einer GPU tausende von Shadereinheiten mit Daten gefüttert werden müssen und eine effiziente Verteilung der Daten ist über ein Mesh am besten möglich ....
 
DonL_ schrieb:
Macht es denn Sinn, wenn er eigenen Cache (Level 4) zum Zwischenspeichern erhält, um die Latenzen zu senken?
Je größer der Cache umso mehr Latenz zum nächsten Level soweit ich weiß. Aber macht natürlich dennoch Sinn da die Hitrate dann steigt.
 
würde ich nicht so sehen , ich denke es wird nur einen 7 nm Die geben , dafür aber 3 verschiedene IO chiplets
und warum nicht den Speichercontroller auslagern ? AMD hat mittlerweile genug Erfahrungen mit dem MCM Design

PS : Intel macht übrigens ähnliches mit dem PCH
bga.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: user2357
bensen schrieb:
Erstens hat man verdammt viel Cache verbaut und zweitens wird die Speicherlatenz größer sein bei diesem Design.
Denke die Latenz wird denke etwa wie bei TR ausfallen wenn erst ein Die zu Die Hop nötig ist um an dem RAM zu kommen.
Vorteil des neuen Designs ist aber dass man was Bandbreite angeht nicht auf den Speicher Controller einer Die limitiert wird sondern ggf jede CPU Die für sich nahezu die volle Bandbreite abrufen kann.

Auch ist eine halbe Bestückung möglich, ohne Einbußen da das SI immer noch dieselbe Mächtigkeit hat.

Das MCM Design hat große Vorteile wenn es darum geht granulare Workloads abzufackeln, Rendern zB da hier kaum ein Thread mit einem anderen abkönnen muss. Auch VMs lassen sich recht easy auf einzelne Die pinnen.

Denke nach wie vor reden die Kerne innerhalb einer Die mit ihrem L2/L3 am schnellsten miteinander. Die zu Die ist dann nur noch über den Controller möglich, dafür aber konstant bzw erstmal egal wie viele Die da dran hängen.

Bleibt also der Vorteil dass man nun vermutlich jede Die mit recht hoher Bandbreite ansteuern kann, die minimale RAM Latenz steigt lässt sich aber ggf durch L3/L4 abfangen, die durchschnittliche Latenz ist vermutlich sogar berechenbarer als aktuell und ähnlich.

Wie sich das Design in Datenbanken schlägt, wird sich zeigen. Ich denke wenn ein workload möglichst kleine Latenz fordert, dann wirds eng, außer der Cache arbeitet perfekt. Granulare Jobs und Benchmarks, parallelisierte Aufgaben und Virtualisierung könnte das aber super aufgehen. Cinebench wird rocken.
Ergänzung ()

Denke es wird eine Stern Topology sein. Interessant wäre sowas wie Star + Ring. Mesh halte ich für unwahrscheinlich und nicht wirklich sinnvoll. Ggf noch wenn man unbegrenzt viele dieser CPU koppeln will. Also Mesh zwischen den einzelnen Controllern.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Ned Flanders
Wenn ich mich nicht irre, sollte ein aktiver Interposer die Latenzen gut drücken können. Wer mehr dazu wissen will, kann sich folgende Videos anschauen. AdoreTV hat das mal vor einiger Zeit ganz gut zusammengefasst:

 
Krautmaster schrieb:
Denke die Latenz wird denke etwa wie bei TR ausfallen wenn erst ein Die zu Die Hop nötig ist um an dem RAM zu kommen.
Vorteil des neuen Designs ist aber dass man was Bandbreite angeht nicht auf den Speicher Controller einer Die limitiert wird sondern ggf jede CPU Die für sich nahezu die volle Bandbreite abrufen kann.
Es gibt Vor- und Nachteile eines Zwischenschrittes, zwischen CPU-Cores und RAM. IBM hat das ganze schon vor ein paar Jahren durch. Interessant sind dabei die Kehrseiten von DDR4 und warum alle auf DDR5 warten. -> https://www.nextplatform.com/2018/08/28/ibm-power-chips-blur-the-lines-to-memory-and-accelerators/
 
Immerhin wissen wir jetzt warum Jim Keller bei Intel eingestellt wurde.
Ein intelligent schaltendes Fiber inklusive Thread dispatcher und async scheduler welches über eine AI trainieren wird. Letzeres ist haubtsächlich marketing.
Sie nennen es "Intelly Fiber" "Intel i Fiber"
 
Zuletzt bearbeitet von einem Moderator:
Also für mich sieht dieses 8+1 Schema nicht schlüssig aus. Ich sehe, sofern es einen mittigen Controller gibt, eher folgende 3 Möglichkeiten:

a) 8+1 DIEs in einem 3x3-Raster
b) 4+1 DIEs mit einem ähnlichen Aufbau wie hier, bei dem man jedoch rechteckige DIEs mit doppelter Länge hat
c) 6+1 DIEs, ähnlich wie b), aber wo auch noch die Ecken genutzt werden
 
SaschaHa schrieb:
Also für mich sieht dieses 8+1 Schema nicht schlüssig aus. Ich sehe, sofern es einen mittigen Controller gibt, eher folgende 3 Möglichkeiten:

a) 8+1 DIEs in einem 3x3-Raster
b) 4+1 DIEs mit einem ähnlichen Aufbau wie hier, bei dem man jedoch rechteckige DIEs mit doppelter Länge hat
c) 6+1 DIEs, ähnlich wie b), aber wo auch noch die Ecken genutzt werden
Abgesehen von den Tatsachen, warum sollte das symmetrisch sein?
 
  • Gefällt mir
Reaktionen: bensen
ich sehe die Version mit dem System Controller in der Mitte und je 2 rechteckige Die s zu jeder Seite als am wahrscheinlichsten an , angenommen man nutzt einen aktiven Interposer , je kleiner dessen Fläche ist , desto günstiger läßt er sich produzieren , ich weiß auch nicht ob der System Controller tatsächlich so groß ist , wie dargestellt , ich denke er wird kleiner sein .
Natürlich kann man bei den 8 C Chiplets die Anordnung auch verändern , meinetwegen der Cache in der Mitte und die Cores rund herumso das ein fast quadratisches Chiplet entsteht , wie auch immer , man kann sich sicher sein das wenn ein Interposer genutzt wird ( ob aktiv oder nicht ) die fläche so klein wie möglich gehalten wird
 
Taxxor schrieb:
Weil das so ziemlich der größte Punkt ist, an dem man aktuell bei Zen schrauben kann. Alleine durch die 7nm Fertigung dürften die Latenzen schon sinken, dann noch Architekturverbesserungen, vor allem eben am IF, der ja dann bei so einem Controller Die die Kommunikation übernimmt.
Wow, was für eien Begründung. Das IF schneller wird ist logisch, das wird ein Ziel sein. Hat man den Memorycontroller Offdie, wird die Latenz aber wieder größer. Wie das dann im endeffekt aussieht wird man sehen.
Und warum sollte die 7 nm Fertigung die Latenzen drücken? Der Takt des IF hat herzlich wenig damit zu tun.

@Krautmaster
Für Threadripper und Epyc hat das Design eher Vorteile. Offdie Latenzen hatte man da ja vorher auch.
und auch bei Epyc kann jeder Kern auf den vollen Speicher zugreifen. Teils dann eben mit höherer Latenz.

Ich sprach aber explizit vom AM4, da kann das nur nachteilig sein.


Kennt were die Speicherlatenzen bei IBM? Die haben den Speichercontroller doch afaik seit dem Power58 Offdie mit nem L4 DRAM davor.
 
Zuletzt bearbeitet:
bensen schrieb:
Kennt were die Speicherlatenzen bei IBM? Die haben den Speichercontroller doch afaik seit dem Power5 Offdie mit nem L4 DRAM davor.
Seit dem Power9 witzigerweise nicht mehr. Die Latenzerhöhung beim Power8 lag laut IBM 1ns höher. Link hab ich vorhin hier gepostet.
 
SaschaHa schrieb:
a) 8+1 DIEs in einem 3x3-Raster
b) 4+1 DIEs mit einem ähnlichen Aufbau wie hier, bei dem man jedoch rechteckige DIEs mit doppelter Länge hat
c) 6+1 DIEs, ähnlich wie b), aber wo auch noch die Ecken genutzt werden
Ich finde die Vorstellung schon schlüssig, dass die Anordnung so gewählt ist, dass jeder Die gleich weit vom System Controller entfernt ist.

Bei einem 3x3 Raster wäre das gar nicht möglich

Und die anderen Vorschläge würden voraussetzen, dass man mehr als 8 Kerne pro Die hätte, was wenig wahrscheinlich ist.
 
bensen schrieb:
Für Threadripper und Epyc hat das Design eher Vorteile. Offdie Latenzen hatte man da ja vorher auch.
und auch bei Epyc kann jeder Kern auf den vollen Speicher zugreifen. Teils dann eben mit höherer Latenz.

Ich sprach aber explizit vom AM4, da kann das nur nachteilig sein.
Wenn AM4 vorerst auch bei maximal 8C bleibt, dann bräuchte man es ja sowieso nicht, da man nur einen Die hätte.

Wenn dort aber 2 Dice eingesetzt werden, dann macht doch ein System Controller genau so viel Sinn, wie bei Threadripper und Epyc, da man hier dann auch so oder so Offdie Latenzen hat.
Und wenn dann ein System Controller die Threads verwalten sollte, anstatt dass sie wahllos auf die zwei Dice verteilt werden, hätte das doch auch Vorteile
 
Zurück
Oben