Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsProzessorgerüchte: AMD Epyc 2 „Rome“ wird angeblich ein 9-Die-Chip
Irre sind auch >250mm² "nur" für diese IF / IO / SI Sache. Klar, die werden zwischenzeitlich recht günstig zu fertigen sein und wenns sein muss auch lange auf 14nm bleiben können.
Wissen wir doch noch gar nicht. Die Quelle ist Twitter und das Bild sieht jetzt für mich nicht so wirklich nach ner AMD-Folie aus. Eher 2 Minuten Photoshop
Falls das Teil wirklich so groß wird, dann wird da noch mehr drin stecken als nur der Router des aktiven Interposer. Durchaus möglich, dass da ein großer Lvl4-Cache dazu kommt.
Also 8 Die (ähnlich wie Zeppelin Die) und einen grossen fetten aktiven Interperposer als IF-Mesh für alle Die könnte ich mir schon vorstellen. Der hätte dann aber eine Größenordnung von ca. 600-800mm^2, da alle 8 Die darauf Platz nehmen würden. Die IF ist ja grundsätzlich Mesh-fähig und dass würde die Latenzen gering halten und den Energieverbrauch über den IF ebenfalls und die Kosten sowieso.
Die Memorycontroller sollten aus Latenzgründen auf den Die bleiben, also für jeden Die einen Memorycontroller.
Ich glaub auch eher an einen aktiven Interposer (Switch) als an ein quasi Auslagern des Speichercontrolers. Klar, Interposer sind teuer, aber das hier ist auch ein Segment wo man das gut machen kann. Quasi ein 'externes' Mesh und wie du sagst, können sie bei One-Die bleiben.
Das macht für mich auf alle Fälle Sinn, also bleibt der Speichercontroller und die PCIE Anbindungen bei den CCX und bei den Serverprozessoren kommt ein Interposer dazwischen?!
Ist halt noch die Frage ob das dann bei den Desktops auch so wird wie bisher und der Speichercontroller bei den Server und HEDT Systemen nur nicht genutzt wird, oder ob man gleich ganz darauf verzichtet und auch für AM4 einen externen Controller aufbringt um die 7nm-Chips von der Größe her zu minimieren.
Aber das halte ich für unwahrscheinlich. Dafür sind die Stückzahlen für die MCMs wohl zu gering und der Mehraufwand den normalen Massen-CPUs nicht angemessen
Also ich hab letztes Jahr mal gelesen (s.u), dass die IF-Fabric auch als Gitter, d.h. Mesh ausgelegt werden kann und das in Vega auch realisiert wurde. Bei Epyc wird die IF ja für Punkt zu Punkt Verbindungen zwischen den Die genutzt, bei 8 Die auf einem Chip würde das aber problematisch, aufgrund des hohen Verdrahtungsaufwandes. Lösen könnte man das über einen aktiven Interposer, denke ich mir so :-)
würde ich nicht so sehen , ich denke es wird nur einen 7 nm Die geben , dafür aber 3 verschiedene IO chiplets
und warum nicht den Speichercontroller auslagern ? AMD hat mittlerweile genug Erfahrungen mit dem MCM Design
Denke die Latenz wird denke etwa wie bei TR ausfallen wenn erst ein Die zu Die Hop nötig ist um an dem RAM zu kommen.
Vorteil des neuen Designs ist aber dass man was Bandbreite angeht nicht auf den Speicher Controller einer Die limitiert wird sondern ggf jede CPU Die für sich nahezu die volle Bandbreite abrufen kann.
Auch ist eine halbe Bestückung möglich, ohne Einbußen da das SI immer noch dieselbe Mächtigkeit hat.
Das MCM Design hat große Vorteile wenn es darum geht granulare Workloads abzufackeln, Rendern zB da hier kaum ein Thread mit einem anderen abkönnen muss. Auch VMs lassen sich recht easy auf einzelne Die pinnen.
Denke nach wie vor reden die Kerne innerhalb einer Die mit ihrem L2/L3 am schnellsten miteinander. Die zu Die ist dann nur noch über den Controller möglich, dafür aber konstant bzw erstmal egal wie viele Die da dran hängen.
Bleibt also der Vorteil dass man nun vermutlich jede Die mit recht hoher Bandbreite ansteuern kann, die minimale RAM Latenz steigt lässt sich aber ggf durch L3/L4 abfangen, die durchschnittliche Latenz ist vermutlich sogar berechenbarer als aktuell und ähnlich.
Wie sich das Design in Datenbanken schlägt, wird sich zeigen. Ich denke wenn ein workload möglichst kleine Latenz fordert, dann wirds eng, außer der Cache arbeitet perfekt. Granulare Jobs und Benchmarks, parallelisierte Aufgaben und Virtualisierung könnte das aber super aufgehen. Cinebench wird rocken.
Ergänzung ()
Denke es wird eine Stern Topology sein. Interessant wäre sowas wie Star + Ring. Mesh halte ich für unwahrscheinlich und nicht wirklich sinnvoll. Ggf noch wenn man unbegrenzt viele dieser CPU koppeln will. Also Mesh zwischen den einzelnen Controllern.
Wenn das Ding 2020 in Betrieb gehen soll kann ich mir eherlich gesagt nur ROME vorstellen. Aber genial schon, dass quasi eine der ersten Informationen zu der neuen Architektur die man überhaupt hat die ist, dass sie in einem oberen TOP500 System verbaut wird (100 PetaFlops wären aktuell Platz 2).
Wenn ich mich nicht irre, sollte ein aktiver Interposer die Latenzen gut drücken können. Wer mehr dazu wissen will, kann sich folgende Videos anschauen. AdoreTV hat das mal vor einiger Zeit ganz gut zusammengefasst:
YouTube
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
An dieser Stelle steht ein externer Inhalt von YouTube, der den Forumbeitrag ergänzt. Er kann mit einem Klick geladen und auch wieder ausgeblendet werden.
Denke die Latenz wird denke etwa wie bei TR ausfallen wenn erst ein Die zu Die Hop nötig ist um an dem RAM zu kommen.
Vorteil des neuen Designs ist aber dass man was Bandbreite angeht nicht auf den Speicher Controller einer Die limitiert wird sondern ggf jede CPU Die für sich nahezu die volle Bandbreite abrufen kann.
Immerhin wissen wir jetzt warum Jim Keller bei Intel eingestellt wurde.
Ein intelligent schaltendes Fiber inklusive Thread dispatcher und async scheduler welches über eine AI trainieren wird. Letzeres ist haubtsächlich marketing.
Sie nennen es "Intelly Fiber" "Intel i Fiber"
Also für mich sieht dieses 8+1 Schema nicht schlüssig aus. Ich sehe, sofern es einen mittigen Controller gibt, eher folgende 3 Möglichkeiten:
a) 8+1 DIEs in einem 3x3-Raster
b) 4+1 DIEs mit einem ähnlichen Aufbau wie hier, bei dem man jedoch rechteckige DIEs mit doppelter Länge hat
c) 6+1 DIEs, ähnlich wie b), aber wo auch noch die Ecken genutzt werden
Also für mich sieht dieses 8+1 Schema nicht schlüssig aus. Ich sehe, sofern es einen mittigen Controller gibt, eher folgende 3 Möglichkeiten:
a) 8+1 DIEs in einem 3x3-Raster
b) 4+1 DIEs mit einem ähnlichen Aufbau wie hier, bei dem man jedoch rechteckige DIEs mit doppelter Länge hat
c) 6+1 DIEs, ähnlich wie b), aber wo auch noch die Ecken genutzt werden
ich sehe die Version mit dem System Controller in der Mitte und je 2 rechteckige Die s zu jeder Seite als am wahrscheinlichsten an , angenommen man nutzt einen aktiven Interposer , je kleiner dessen Fläche ist , desto günstiger läßt er sich produzieren , ich weiß auch nicht ob der System Controller tatsächlich so groß ist , wie dargestellt , ich denke er wird kleiner sein .
Natürlich kann man bei den 8 C Chiplets die Anordnung auch verändern , meinetwegen der Cache in der Mitte und die Cores rund herumso das ein fast quadratisches Chiplet entsteht , wie auch immer , man kann sich sicher sein das wenn ein Interposer genutzt wird ( ob aktiv oder nicht ) die fläche so klein wie möglich gehalten wird
Weil das so ziemlich der größte Punkt ist, an dem man aktuell bei Zen schrauben kann. Alleine durch die 7nm Fertigung dürften die Latenzen schon sinken, dann noch Architekturverbesserungen, vor allem eben am IF, der ja dann bei so einem Controller Die die Kommunikation übernimmt.
Wow, was für eien Begründung. Das IF schneller wird ist logisch, das wird ein Ziel sein. Hat man den Memorycontroller Offdie, wird die Latenz aber wieder größer. Wie das dann im endeffekt aussieht wird man sehen.
Und warum sollte die 7 nm Fertigung die Latenzen drücken? Der Takt des IF hat herzlich wenig damit zu tun.
@Krautmaster
Für Threadripper und Epyc hat das Design eher Vorteile. Offdie Latenzen hatte man da ja vorher auch.
und auch bei Epyc kann jeder Kern auf den vollen Speicher zugreifen. Teils dann eben mit höherer Latenz.
Ich sprach aber explizit vom AM4, da kann das nur nachteilig sein.
Kennt were die Speicherlatenzen bei IBM? Die haben den Speichercontroller doch afaik seit dem Power58 Offdie mit nem L4 DRAM davor.
a) 8+1 DIEs in einem 3x3-Raster
b) 4+1 DIEs mit einem ähnlichen Aufbau wie hier, bei dem man jedoch rechteckige DIEs mit doppelter Länge hat
c) 6+1 DIEs, ähnlich wie b), aber wo auch noch die Ecken genutzt werden
Für Threadripper und Epyc hat das Design eher Vorteile. Offdie Latenzen hatte man da ja vorher auch.
und auch bei Epyc kann jeder Kern auf den vollen Speicher zugreifen. Teils dann eben mit höherer Latenz.
Ich sprach aber explizit vom AM4, da kann das nur nachteilig sein.
Wenn AM4 vorerst auch bei maximal 8C bleibt, dann bräuchte man es ja sowieso nicht, da man nur einen Die hätte.
Wenn dort aber 2 Dice eingesetzt werden, dann macht doch ein System Controller genau so viel Sinn, wie bei Threadripper und Epyc, da man hier dann auch so oder so Offdie Latenzen hat.
Und wenn dann ein System Controller die Threads verwalten sollte, anstatt dass sie wahllos auf die zwei Dice verteilt werden, hätte das doch auch Vorteile