News Skylake-SP: Der Ringbus ist tot, es lebe das Mesh

duskstalker · 16. Juni 2017

https://www.bit-tech.net/hardware/2017/06/16/intel-core-i9-7900x-and-x299-chipset-revie/8

hier gibts n review. leistung ist i.o., aber leistungsaufnahme und hitze gehen durch die decke.

Krautmaster · 16. Juni 2017

Im Prinzip sollte doch Intel genau wie AMD ebenso Multi Chip Designs bringen können, nur halt mit 2x18C zB.

QPI bzw Socket Interconnects gibt es ja genauso
https://itpeernetwork.intel.com/intel-mesh-architecture-data-center/

Dann wären heute noch beide Die zwar größer aber möglich sollte das doch sein.

Ergänzung (16. Juni 2017)

duskstalker schrieb:
https://www.bit-tech.net/hardware/2017/06/16/intel-core-i9-7900x-and-x299-chipset-revie/8

hier gibts n review. leistung ist i.o., aber leistungsaufnahme und hitze gehen durch die decke.

Hm? Leistungsaufnahme ist doch gut, wie ein X1800. Klar, OC geht durch die Ecke da man eben alle Kerne auf hohen Takt pushed.

Edit : ah okay I see, das ja schon gegen den 4 GHz OC X1800.
Da ist Prime aber auch kritisch da AVX der Skylake sehr gestresst wird. Ein realer Test, wie Handbrake, wäre besser.

Besser als viele wegen der Tim dachten.

The fact that you can get a 10-core CPU to 4.6GHz with relative ease at less than 1.25V with a decent cooler is remarkable, and we have no doubt that it's the lack of solder between the heatspreader and core that's holding things back.

Klar würde mehr gehen aber ich wurde ja direkt nieder gemacht als ich 4,5 GHz auf allen 18 Kernen für möglich hielt. Kommt auf die Spannung an die man braucht. Broadwell braucht recht viel.

Anon-525334 · 16. Juni 2017

Sehe ich eine andere Leitungsaufnahme als du? Der ist meilenweit von 1800x entfernt. Mal schaun was cb misst

Krautmaster · 16. Juni 2017

Siehe meinen edit. Hatte noch gesehen dass es sich um den 4Ghz Ryzen handelte.

Allerdings sieht man bei CB auch gut dass man auf Prime AVX wenig geben muss was das angeht. AVX Leistungsaufnahme dürfte da schon stark übers Ziel hinausschießen.

Nutzt Prime auch AVX 512?

Edit. Aber ja, die Leistungsaufnahme @ Vollast ist in dem Test schon recht hoch. Auch idle ist die Plattform durch anderen Sockel und Boards nicht sehr sparsam. Klar, die TDP ist ja auch deutlich höher als zb bei AM4, so wird auch Threadripper da deutlich mehr brauchen.

Holt · 17. Juni 2017

Krautmaster schrieb:
Innerhalb eines CCX hat Ryzen halbe Latenz des Ringbuses.

Und ähnlich wie bei Intels Mainstream 4 Kernern: wie der Test von Tomshardware belegt.

Krautmaster schrieb:
Beim Ring is die Latenz immer gleich groß

Nicht wirklich, da ist bei deren Test vermutlich ein Fehler passiert, denn im Ring gehen die Daten pro Takt eine Station weiter und daher brauchen sie unterschiedlich lange, je nachdem wie viele Stationen zwischen den beiden Kernen liegen. Beim Zweifachring können sie den kürzeren Weg nehmen, da die Richtung der beiden Ringe entgegengesetzt ist. Bei den Doppelring der großen Dies müssen sie dann ggf. über eine der beiden Verbindungen, was zusätzliche Takte kostet.

Krautmaster schrieb:
bei AMD von einem CCX zum nächsten aber noch mal größer. Da bin ich mal auf Threadripper gespannt wie die Latenz von Modul zu Modul ist.

Das bin ich auch, aber besser als zwischen den beiden CCX eines Dies kann es keineswegs sein, bestenfalls wird es gleich gut werden, aber selbst das wäre schon eine positive Überraschung, ist der Abstand zwischen den Dies auf der Platine des Chips ja doch wohl recht groß.

Krautmaster schrieb:
beim Mesh hingegen wie du sagst, ggf als Art Schieberegegister.

Mir ist noch nicht klar, wie die Daten sich dort bewegen, wie beim Ringbus immer nur einen Schritt weiter, wie ein Bauer beim Schach oder können die wie ein Turm auch in eine Richtung bestenfalls über die ganze Breite gehen, also von ganz links nach ganz rechts oder ganz oben bis ganz unten, wenn der Weg frei ist?

Krautmaster schrieb:
AMD müsste sofern möglich auch am besten eine CCX belasten und erst dann auf die zweite ausweichen, bei Modulen sogar innerhalb einer Die um erst dann auf eine andere auszuweichen. Bei Multi Sockel gibt's dafür Numa.

NUMA wird von den meisten Betriebssystemen und vielen Programmen unterstützt, für die AMD CCX gibt es da nichts vergleichbares, wobei man aber eigentlich auch nichts anderes als bei NUMA machen müsste, von daher könnte AMD auch jeden CCX als einen eigenen NUMA Node definieren, nur dann würde SW die nicht NUMA aware ist, auch nur auf einem CCX laufen, also nur auf maximal 4 Kernen und gerade die meisten SW die Heimanwender nutzen, fällt in diese Kategorie.

Krautmaster schrieb:
Auch hat Mesh wenig damit zu tun wie hoch die Yield ist.

Das ist eine interessante Frage, vielleicht nämlich schon. Wenn ein Ring wegen eines Herstellungsfehlers unterbrochen wird, dann kann man den Die vermutlich nicht mehr nutzen, da sonst die Latenzen zwischen den beiden Kernen nahe der Unterbrechung sehr hoch wären. Die Mesh hätte dann ein Loch, aber der Kern der dort liegt wäre vermutlich sowieso defekt und müsste in jedem Fall deaktiviert werden. Die anderen Kerne daneben würden aber von der Unterbrechung weit weniger als beim Ring betroffen sein.
kann

Krautmaster schrieb:
Einzelne Kerne werden relativ immer kleiner also muss ein neues System der Kern zu Kern Kommunikation her.

Eben, sonst bringt es irgendwann nichts noch mehr Kerne auf die CPU zu packen, da diese gar nichts mehr schaffen, wenn sie an Daten kommen weil die Busse schon voll ausgelastet sind.

Krautmaster schrieb:
Im Prinzip sollte doch Intel genau wie AMD ebenso Multi Chip Designs bringen können, nur halt mit 2x18C zB.

QPI bzw Socket Interconnects gibt es ja genauso

Klar, nur wären diese CPUs dann noch größer und deren Leistungsaufnahme ebenso. Daher setzt Intel da lieber auf Multi-Sockel Systeme und die Zahl der Sockel ist ja nicht nur auf 2 beschränkt. MCM ist vor allem sinnvoll, wenn die einzelnen Dies klein sind.

Krautmaster schrieb:
Da ist Prime aber auch kritisch da AVX der Skylake sehr gestresst wird.

Vor allem mit AVX2, daher gibt es dafür auch einen eigenen Grundtakt der unter dem eigentlichen Grundtakt liegt. Die Performance bei 256 AVX2 Befehlen ist dafür aber auch sehr hoch.

Krautmaster schrieb:
aber ich wurde ja direkt nieder gemacht als ich 4,5 GHz auf allen 18 Kernen für möglich hielt.

Mal geistern 4,3GHz und mal 4,5GHz als maximale Boost für Skylake-X durch die Gerüchteküche, die 4,5GHz sollten aber auf jeden Fall für Kaby Lake-X gelten. 4,5GHz könnten im OC schon drin sein, aber um die auf 18 Kernen zu schaffen, müssten die Spannungsversorgung und die Kühlung richtig massiv ausgelegt sein. Das wäre wohl eher wie das ganze Extrem OC: Schön um zu zeigen das es geht, aber von Alltagstauglichkeit so weit weg wie das Mondauto von einer Familienkutsche.

Krautmaster schrieb:
Nutzt Prime auch AVX 512?

Gute Frage, derzeit unterstützt es ja nur Knights Landing, erst mit dem Skylake-X wird es in wirklich größerem Stil in CPUs eingeführt werden, wobei wohl beiden nicht alle subsets unterstützen.

Volker · 17. Juni 2017

Krautmaster schrieb:
Edit. Aber ja, die Leistungsaufnahme @ Vollast ist in dem Test schon recht hoch. Auch idle ist die Plattform durch anderen Sockel und Boards nicht sehr sparsam. Klar, die TDP ist ja auch deutlich höher als zb bei AM4, so wird auch Threadripper da deutlich mehr brauchen.

Die Plattform X299 ist dieses Mal auch mehr Beta als früher zum start, man merkt das sie das vorgezogen haben., laufen so fast in die gleiche falle wie AMD. Allerdings läuft RAM besser, aber Leitungsaufnahme hat natürlich nirgendwo Fokus, erstmal zählt immer volle Leistung .. bei 140 Watt-CPUs + Anhang schaut da ohnehin kaum einer drauf. Aber ja, die 165er dann werden ordentlich fressen, aber das wird mit Threadripper bei 180 Watt ja auch keinen deut besser. Das ist einfach eine ganz andere Liga.

Xedos99 · 17. Juni 2017

Cool ! Endlich mal wieder massive Kühler im Tower !

Schluß mit dem Boxed Spielkram..

Krautmaster · 17. Juni 2017

Joa X99 braucht im idle zb schon immer ne Ecke mehr als die Mainstream Chipsätze, oben raus lässt eine fast doppelt so große TDP auch ordendlich was zu. Das Layout mit Spannunsgwandler muss da schon gut was abkönnen. Beide Sockel sind groß, die AMDs Threadripper Sockel gerade zu extrem. Da ist auch noch weniger Platz für Spawas. Wenn ich schau wie heiß die hier bei meinem 1700 werden frag ich mich ob man so ein Threadripper überhaupt OC mit Wakü und passivem Board betrieben kann oder ob man auch die Spawas unter Wasser setzen muss. 400W allein über die CPU rauszublasen ist sicher kein Problem, etwa das doppelte eines X1800 OC und der Intel 18 Kerner wird auch ordendlich was wegbrezeln. Gerade auch OC. Interessant dass das bei dem Test die TIM mit macht.

Edit. Heiß ist is die dennoch. Köpfen wird deutlich mehr drin sein. Weniger Spannung bei mehr Kernen dürfte für 4,3 bei 18 Kernen schon drin sein. AVX braucht es nen kleineren multi.

Wardaddy · 17. Juni 2017

Ich würd gern mal wissen wie ihr auf den komischen bildern was erknnen könnt oO? https://pics.computerbase.de/7/8/6/6/2/3-1080.366403955.jpg

Ich sehe da nämlich garnicht,kann mir das mal bitte jemand erklären wie das funktioniert.

pipip · 17. Juni 2017

@Volker
Der große L3 Cache von Threadripper wird vermutlich sicher in die Idle Werte reinspiepen. Aber wäre Interessant, wenn man durch powergating im Idle sogar CCX deaktivieren könnte ^^

Piktogramm · 17. Juni 2017

@Holt
letzter Absatz: https://www.heise.de/newsticker/meldung/Intel-Skylake-SP-Mesh-statt-Ringbus-3742898.html
Heise schreibt von Hops von Kern zu Kern mit möglicher unterschiedlicher Anzahl an notwendigen Zyklen für die Horizontale wie Vertikale.

Was die Latenzen angeht beim Ringbus. Ich vermute da stark, dass sie da wie TokenRing ein (stark) angepasstes, tokenbasiertes Verfahren nutzen. Die haben ja genau den Vorteil, dass die Latenzen übers ganze Netzwerk recht konstant ist und das annähernd unabhängig von der Anzahl der Clients die zwischen zwei Kommunikationspartnern hängt. Auch die Auslastung des Netzwerks betrifft die Latenzen kaum. Zumindest innerhalb eines Ringes. Haarig wird der Kram aufgrund des beschränkten Durchsatzes und wenn man zwischen Ringen switchen muss.
Bei den Übertragungspfaden in dem Mesh erwarte ich je mehr ich mich damit auseinandersetze irgendwie auch, dass diese als Ringbus gestaltet sind und das Routing "primitiv" stattfindet mit erst stur die X-Koordinate und danach die Y-Koordinate und die jeweils auf dem kürzesten Weg, da alles Andere schlicht zu aufwendig wäre.

Ergänzung (17. Juni 2017)

Wardaddy schrieb:
Ich würd gern mal wissen wie ihr auf den komischen bildern was erknnen könnt oO? https://pics.computerbase.de/7/8/6/6/2/3-1080.366403955.jpg

Ich sehe da nämlich garnicht,kann mir das mal bitte jemand erklären wie das funktioniert.

Das Die-Shot bringt wenig, zumindest mir. Es gibt aber Experten (wirklich im Sinne alter weißbärtiger Herren) die das Interpretieren und die Schaubilder von Intel. Dazu dann die geschriebenen Infos, Informationen die durch Benchmarks / methodisches Testen erhalten hat und dazu eine Portion Hintergrundwissen in der Informatik. Darauf kann man dann recht gut mutmaßen.
Denn egal wie komplex die Entwicklung von Prozessoren ist, die Probleme die da zu lösen sind sind recht alt und die verschiedenen mit Kompromissen behafteten Lösungsmöglichkeiten auch. Gerade bei der Vernetzung innerhalb der CPU kann man davon ausgehen, dass da keine Methode genutzt wird, die in der Theorie der Netzwerktechnik nicht schon ausführlich diskutiert wurde.

Skysnake · 17. Juni 2017

Ich bin weder weißhaarig noch -bärtig .

Muss man auch nicht schau dir einfach mal nen Dutzend an mit Beschriftung und du erkennt eigentlich alles. Cores, caches und eben diePHYs. Das ist halt alles großes zeichnet dass man erkennen kann. Wieviel ALUs oder Pipeline Stufen hat kann keiner erkennen. Auch nicht ob da ein Ring oder Mesh drin ist. Das kann man nur vermuten aus vergleichen mit anderen bekannten Chips.

Nur mal so

Wardaddy · 17. Juni 2017

Das computerbase so komplexe dinge postet,puuhhh.

Ich versuch das mal,wo find ich den gute bilder mit beschriftung ?

Holt · 17. Juni 2017

Piktogramm schrieb:
@Holt
letzter Absatz: https://www.heise.de/newsticker/meldung/Intel-Skylake-SP-Mesh-statt-Ringbus-3742898.html
Heise schreibt von Hops von Kern zu Kern mit möglicher unterschiedlicher Anzahl an notwendigen Zyklen für die Horizontale wie Vertikale.

Nein, heise schreibt kann:

Dabei kann die benötigte Zahl der Takte pro Hop horizontal und vertikal durchaus unterschiedlich sein.

Selbst das mit den Kops ist nicht sicher, so schreibt tomshardware:

For instance, it likely requires one hop/cycle to move data vertically to the next core, but moving horizontally from the second column to the third column will likely require more cycles. We'll have to wait for more detail.

Bevor Intel nicht mehr Details preisgibt oder entsprechende Tests gemacht wurden, ist also alles Spekulation.

Piktogramm schrieb:
Die haben ja genau den Vorteil, dass die Latenzen übers ganze Netzwerk recht konstant ist und das annähernd unabhängig von der Anzahl der Clients die zwischen zwei Kommunikationspartnern

Genau das ist bei den Ringbussen ja nicht der Fall, da gehen die Daten in den Bus und rücken immer eine Station pro Takt weiter, weshalb ja eben die Latenz steigt, umso mehr Kerne angeschlossen sind, dafür ist aber die Bandbreite hoch, weil eben nicht nur zwei gleichzeitig miteinander kommunizieren, sondern viele Datenpaket im Ring unterwegs sein können. Mit Token Ring Verfahren hat dies also nichts zu tun.

Piktogramm schrieb:
Auch die Auslastung des Netzwerks betrifft die Latenzen kaum.

Nein, denn dort ist es ja gerade das Problem, dass die Latenz mit der Auslastung steigt, weil es dann länger dauert bis der Frei Token an einer Station ankommt die Senden will, da die anderen die ihn vorher haben dann ja auch wahrscheinlich Senden wollen und ihn somit nicht weiterreichen bevor sie fertig sind. Daher beschränkt man ja in praktischen Umsetzungen auch immer die maximale Sendezeit pro Teilnehmer um überhaupt erst eine maximale Latenz definieren zu können.

Piktogramm schrieb:
Bei den Übertragungspfaden in dem Mesh erwarte ich je mehr ich mich damit auseinandersetze irgendwie auch, dass diese als Ringbus gestaltet sind

???

Piktogramm schrieb:
Denn egal wie komplex die Entwicklung von Prozessoren ist, die Probleme die da zu lösen sind sind recht alt und die verschiedenen mit Kompromissen behafteten Lösungsmöglichkeiten auch.

So lange gibt es noch keine CPUs mit so vielen Kernen und bei wenigen Kernen sind die Probleme weitaus einfacher zu handhaben, was auch die kurzen Latenzen zwischen den Kernen von Intels 4 Kerner und innerhalb der Kerne eines CCX bei RYZEN zeigen, die ja jeweils so etwa im 40ns Bereich liegen. Da kommen die großen Intel CPUs mit den Ringbussen nicht hin, aber bevor RYZEN erschienen ist und mit seiner Architektur mit den CCX und der Verbindung über die Fabic hier eine besonders hohe Latenz eingeführt hat, war dies für die allermeisten Leute gar kein Thema, die haben nur geschimpft warum Intel im Mainstream nur 4 Kerner bringt.

Dabei gibt es dafür auch technische Gründe, denn man kann bei mehr Kernen die geringen Latenzen der 4 Kerner nur mit viel Aufwand erreichen, bei 4 Kernen muss jeder nur 3 Verbindungen haben um mit jedem anderen direkt kommunizieren zu können, insgesamt sind dann 6 Verbindungen nötig. Bei 6 Kernen müssen es 5 pro Kern sein, insgesamt also 15 und für einen 8 Kerner wären 28 Verbindungen zu ziehen, spätestens dann dürften man für die Verbindungen wohl schon mehr Platz brauchen als für die eigentlichen Kerne. Also muss man was anderes nehmen und damit erhöht man die durchschnittliche Latenz, egal wie man es macht.

Hatten wie schon den Sykale-X Review bei Hexus hier erwähnt?

.Sentinel. · 17. Juni 2017

Meine Begeisterungsstürme in Bezug auf die Latenzen auf Cache- Ebene halten sich bei mir sehr in Grenzen->
7900x

Mein 7700K

Im L2 und L3 doppelte Latenzzeiten.
Wird aber vielleicht durch die halbierung der Auslesezeit (bis zu 5-Fache Übertragungsgeschwindigkeit) wieder egalisiert.
Ich bin gespannt...

Ram Latenzen sind trotz clocking auf 3600 auch mau...
Write- Werte für Quad Channel sogar inakzeptabel... Da hab ich Dual Channel mehr...

Grüße
Zero

Holt · 17. Juni 2017

Erstens ist nicht sicher wie weit diese Tools das korrekt ermitteln, laut AMD gab es da auch bei RYZEN Probleme und zweitens kann es einem sowas von egal sein wie hoch die Latenz einer einzelnen Cacheebene ist, entscheidend ist ja wohl wie schnell ein Programm am Ende auf der CPU läuft und sonst gar nichts. Außerdem ist die Plattform noch nicht so ausgereift, zumal Intel sie vorgezogen hat und daher kann schon mit dem nächsten BIOS Update alles anderes aussehen.

In the interests of full disclosure, readers should note that the Core i9-7900X initially scored just 4,015 in the VRMark test and the result climbed to 10,191 courtesy of a new motherboard BIOS. There's clearly still work being done to optimse performance.

yurij · 17. Juni 2017

Warum kerne nicht einfach in cluster aufteilen? Vollvermaschung innerhalb des clusters + vollvermaschung der intercluster backbone. Bei 16 kernen ist die längste Strecke dann 3 hops. Bei mesh netzwerk sind es 6 hops. Ausserdem skalieren solche mehrstufigen netzwetke praktisch beliebig. Mesh wäre bei 100 kernen vermutlich am ende. Der wäre dann worst case bereits bei 18 hops. Zweistufig geklastertes netz bei maximal 5 hops.

Holt · 17. Juni 2017

Genau sowas macht doch AMD bei RYZEN und nennt die Cluster CCX, nur ist die Latenz der Verbindung dieser Cluster eben dort sehr hoch, im Vergleich zu der der Kerne in dem CCX sowieso, aber auch im Vergleich zu Intel altem Ringbus. War AMD unfähig es besser zu machen oder geht es nicht besser ohne vom Anwand her auszuarten? Außerdem hat man ggf. auch ein Bandbreitenproblem wenn man sowas macht. Es gibt eben offenbar keine einfache Lösung, es gibt verschiedene Lösungen die jeweils Vor- aber eben auch Nachteile haben.

aldaric · 17. Juni 2017

Wie man festhalten kann, bringt der CCX in den meisten Anwendungsbereichen kaum oder nur geringe Einbußen -> dadurch für den Nutzer bessere Preis/Leistung. Beim Mesh wird es halt eine Frage, ob Skylake X ihn schon hat, und wie er da in den Reviews performt.

Da man mit der aktuellen HEDT Plattform (X99) mithalten kann mit einer Mainstream CPU und dann nur ein drittel kostet, nenne ich das schon aufgeschlossen. Überholt natürlich nicht.

ottoman · 17. Juni 2017

Ich würde den Typen nicht ernst nehmen. Das ist höchstwahrscheinlich der neue Account von IchoTolot. Da muss man sich nur mal die Posts anschauen. Der scheint ernste Probleme zu haben. Einfach melden und gut.

Edit: es ging um https://www.computerbase.de/forum/members/galgadot.751872/
Danke @ CB Team, das ging wirklich schnell!

News Skylake-SP: Der Ringbus ist tot, es lebe das Mesh

Admiral

Fleet Admiral

Banned

Fleet Admiral

Banned

Ost 1

Captain

Fleet Admiral

Banned

Fleet Admiral

Admiral

Captain

Banned

Banned

Admiral

Banned

Lt. Commander

Banned

Admiral

Commander

Ähnliche Themen

Passend zum Thema