News Skylake-SP: Der Ringbus ist tot, es lebe das Mesh

Krautmaster · 16. Juni 2017

Sign manche versuchen schon wieder bei einfachen technischen News wieder n AMD vs Intel Gedöhns draus zu machen, vollkommen deplatziert. Wenn dann kann man die technischen Ansätze beider Lager vergleichen.

@ Greekbench

Mir gefällt der Benchmark nicht sonderlich, zu praxisfern. Ob zb 40GB/s AES oder 5 ist latte da das die CPU nicht wirklich beansprucht sondern nur ein Befehlsatz ist. Hier kann es extrem große Unterschiede ohne Praxisrelevanz geben die die Punkte verfälschen.

Mein i7 5820K 6Kern kommt bei 4,3 GHz auf 4900 SC, 24K Multi. Mein Ryzen 1700 auf 3,9 GHz auf 4350 SC und 24,5K Multi (mit schnellem 3200 cl 14 Ram) . Hätte jetzt tendenziell meinen doch etwas älteren i7 schlechter erwartet. Gerade auch weil es ein Haswell ist und moderat getaktet ist. Skylake/Kaby geht schon mehr.

Aber naja, wie gesagt, teils schwirren sehr dubiose Werte zu dem Bench durch die Welt.

oldmanhunting · 16. Juni 2017

Wird wohl so sein, dass der Mesh erst bei vielen Cores etwas bringt und der 8 Kerner auch mit dem Ringbus ausgekommen wäre.

Krautmaster · 16. Juni 2017

Joa denk ich auch. Der Bus wurde länger und länger und es brauchte ja teils sogar 2 Ringe. Man sieht auch gut beim Latenz Vergleich Intel Broadwell vs Ryzen dass Ryzen innerhalb des CCX gut doppelt so schnell ist als Ryzen, dieser hingegen bei CCX zu CCX abfällt und von Die zu Die sicher noch mehr.

MK one · 16. Juni 2017

@ Krautmaster

Dein 1700er Geekbench ( v4.1 ? ) kann nicht passen , mein 1700x@3,65 Ghz ( 1,168v ) ist auf demselben Level ... 4325 SC / 24525 MC , 3066 DDR4
https://browser.geekbench.com/v4/cpu/3134699

Beim Geekbench ist aber sowieso etwas Faul , der ältere 3.4.2 weist einen wesentlich höheren Multicorewert aus , dem gegenüber steht in der neuen ( 4.1 ) Version zwar ein höherer Single Core wert , der Multicore ist jedoch 20 % niedriger 24500 ( 4.1 ) zu 30477 ( 3.4.2 )
Es ist Jedoch eigentlich bekannt das der Ryzen eine relativ geringe Single Core Leistung hat , dafür im Multicore stärker ist .

Holt · 16. Juni 2017

G3cko schrieb:
Man müsste erst einmal schauen ob Intel das Mesh beliebig auf mehrere DIEs so wie bei AMD auseinander ziehen kann.

Solange Intel die CPUs aus einem Die baut, ist das egal und wenn Intel auch zu MCM übergeht, dann vermutlich über diese neuen Embedded Multi-Die Interconnect Bridge.

G3cko schrieb:
Ein weiterer Punkt ist, dass die fabric ja nicht nur CPUs sondern auch GPUs anbindet. Ob das über ein mesh wie bei Intel sinnvoll wäre kann ich nicht beurteilen. Man wird sich wohl was da du gedacht haben.

Bei AMD haben APU ja auch einen anderen Stellenwert als bei Intel und für die RYZEN, ThreadRipper und EPYC die keine GPU integriert haben, ist das kein Argument.

HominiLupus schrieb:
Wenn also Intel für alle Brot+Butter 6-8 Kerner teure Meshes fabben muss nur damit die teuren aber kaum verkauften 18Kerner gut dastehen ist es in der Summe in Minusgeschäft.

Erstens wissen wir doch gar nicht wie teuer Mesh ist und wieso sollte es bei den kleineren 6 und 8 Kernern keinen Vorteil haben?

HominiLupus schrieb:
So was in der Art 20% Mehrkosten um 5% mehr Performance zu bekommen ist nicht immer ein guter Tausch.

Wie kommst man auf 20% Mehrkosten? Die Skylake-X mit Mesh werden billiger als die Broadwell-E mit gleicher Kernzahl.

HominiLupus schrieb:
Oder nutzen die 6-10 Kerner trotzdem noch den Ringbus? Ist ja ein anderes Die.

Sehr unwahrscheinlich, die Skylake-X/-SP dürften alle Mesh haben und keine Ringbusse mehr.

HominiLupus schrieb:
AMD geht hingegen einen anderen Weg: die fassen 4 Kerne zusammen und machen dann Interconnect für diese 4, Intel hat für jeden Kern einen Interconnect zu den anderen Kernen, der aber vielleicht mehrere Stationen durchlaufen muss: jede Station mehr Latenz.

Nur das selbst mit dem Ringbus die Latenz bei Intel geringer als bei AMD zwischen den CCX ist und Mesh ja gerade diese Latenz weiter senken wird.

HominiLupus schrieb:
Kennt jemand Benchmarks die diese Unterschiede dann zeigen, als 18 "enger gekoppelte Kerne via Mesh" hier und "4 Kerne schnell gekoppelt und dann losere Kupplung von solchen 4Kern Modulen" da?

Wie denn, wenn es die CPUs noch gar nicht gibt und damit auch keine Reviews davon? Die kommen doch erst nicht auf den Markt.

pipip schrieb:
Der Vergleich Mesh gegen AMDs Fabric Bus ist auch ein bisschen aus den Kontext gezogen. Man sollte nicht vergessen, dass AMD die Technologie auch für GPUs nützten will und ebenso auch gemischt performen soll. "APU".
Auch hier muss Mesh dann zeigen, wie gut es im Vergleich zu AMD's Lösung ist.

Wie denn? Die Intel CPUs mit Mesh haben doch gar keine iGPU!

MK one schrieb:
Warum erinnert mich CCIX https://www.heise.de/newsticker/meldung/CCIX-Schnittstelle-fuer-Hardware-Beschleuniger-3215723.html nur stark an CCX und den Fabric Bus ?

Das steht doch gleich im nächsten Satz:

AMD, ARM, IBM, Qualcomm, Xilink, Huawei und Mellanox spezifizieren im CCIX-Konsortium einen gemeinsamen Standard für die Cache-kohärente Verbindung zwischen Prozessoren und spezialisierten Beschleunigern.

Also warum wohl, wenn AMD dies zusammen mit anderen spezifiziert hat?

Krautmaster · 16. Juni 2017

Und jetzt, sollen 3,65 zu 3,85 oder 3,9 GHz da viel ausmachen? Kann auch sein dass er auf 3,85 lief. Geekbench streut auch etwas von run zu run. Müsste ich mehrere runs machen aber auf paar % kommts nicht an ^^

Sind ja grad mal 5% Taktunterschied

Teamviewer lief auch neben her + verbunden, bei meinem I7 auch. Beides liegt auf meinem Schreibtisch

@ Ring vs CCX

http://www.overclock.net/content/type/61/id/2984030/

http://www.overclock.net/content/type/61/id/2984031/

Innerhalb eines CCX hat Ryzen halbe Latenz des Ringbuses. Beim Ring is die Latenz immer gleich groß, bei AMD von einem CCX zum nächsten aber noch mal größer. Da bin ich mal auf Threadripper gespannt wie die Latenz von Modul zu Modul ist.

ampre · 16. Juni 2017

EchoeZ schrieb:
Ich sag' hier einfach nur mal DANKE für die (bisher) teils kontroverse aber sachliche und lehrreiche Diskussion

@Ampre: In diesem Thread die Trollkeule zu schwingen war vollkommen überflüssig!

Sorry aber das hörte sich für mich nach wissentlicher Irreführung an.

@Krautmaster
Ich frage mich ob PCPer das richtig gemacht hat. Müssten im Ringbus nicht unterschiedliche Pings rauskommen, weil manche Kerne beim Ring näher beisammen liegen als bei anderen? Oder ist der Ring eine Punkt zu Punkt Verbindung und es braucht immer 80ns um die Verbindung herzustellen?

Holt schrieb:
Ergänzung (16. Juni 2017)

Gerade bei CPUs ist im Vergleich zu GPUs viel Interaktion zwischen den Kernen nötig, wobei das eben von der SW abhängt. Wenn wirklich nur seriell Daten abgearbeitet werden, also nur ein Thread läuft der die CPU auslastet, dann weniger aber in der Praxis trotzdem meist schon deswegen, weil die Scheduler der Betriebssystemen diesen Thread meist regelmäßig auf andere Kerne verschieben und damit die Cacheinhalte ebenfalls verschoben werden müssen. Gerade bei CPUs ist so eine latenzarme Verbindung der Kerne untereinander wie es das Mesh verspricht, also sinnvoll.

Natürlich werden die Ergebnisse zwischen den Threads munter ausgetauscht. Es passiert bloß nicht bei der Berechnung eines Threads sondern erst wenn der Thread zu ende berechnet ist. Das charakterisiert ja Serielle Probleme. Sie können eben nur nacheinander gelöst werden.

Bei prallen Berechnungen können auch Zwischenergebnisse ausgetauscht werden, was die Datenrate ganz schön erhöhen kann.

https://de.wikipedia.org/wiki/Paralleler_Algorithmus

MK one · 16. Juni 2017

@ holt

das war ironisch gemeint .. und sollte darauf hinweisen das AMD da wohl mit anderen Größen zusammengearbeitet hat .... , IBM mag im PC Bereich keine große Nummer sein , aber im Serverbereich ...

cookie_dent · 16. Juni 2017

Krautmaster schrieb:
Sign manche versuchen schon wieder bei einfachen technischen News wieder n AMD vs Intel Gedöhns draus zu machen, vollkommen deplatziert. Wenn dann kann man die technischen Ansätze beider Lager vergleichen.

Genau, mal wieder eine ganze Seite OT.

@oldmanhunting

was CB schreibt klingt für mich plausibel:

"Mit größer werdenden Caches ist das Mesh-Netzwerk ebenfalls dem Ringbus überlegen, erläuterte der Chef-Architekt der neuen Server-CPU, da schneller über kürzere Wege an die Daten gelangt werden kann..."

somit könnte Mesh auch bei geringerer Core Anzahl ein mehr an Perfomance bringen.

Wie gesagt, ich wäre mal auf einen direkten Vergleich Ringbus vs. Mesh gespannt.

Ergänzung (16. Juni 2017)

Holt schrieb:
Erstens wissen wir doch gar nicht wie teuer Mesh ist und wieso sollte es bei den kleineren 6 und 8 Kernern keinen Vorteil haben?
Wie kommst man auf 20% Mehrkosten? Die Skylake-X mit Mesh werden billiger als die Broadwell-E mit gleicher Kernzahl.

Das führe ich aber mehr auf die Verringerung der eigenen Marge zurück, da Intel unter Preisdruck geraten ist.

Krautmaster · 16. Juni 2017

@Ampre

Ne ich denke die Messung passt. Beim Ringbuses dürfte immer die gleiche Latenz vorhanden sein, beim Mesh hingegen wie du sagst, ggf als Art Schieberegegister. Vielleicht )braucht es dann noch eine in der CPU losgelöste Logik wie die Kerne belastet und verteilt werden, zb zunächst nahe beieinander.AMD müsste sofern möglich auch am besten eine CCX belasten und erst dann auf die zweite ausweichen, bei Modulen sogar innerhalb einer Die um erst dann auf eine andere auszuweichen. Bei Multi Sockel gibt's dafür Numa.

@Preise

Das dürfte für Intel kaum problematisch sein. Selbst 18 Kerne sind vergleichen mit einer Knights GPU oder auch anderen Chips eher klein. Auch hat Mesh wenig damit zu tun wie hoch die Yield ist. Wenn mann eine Celeron mit recht großer GPU für 30 Euro verkaufen kann seh ich da kein Problem. Viel eher geht ein Großteil der Kosten auf Entwicklung zurück.

Denke in 14 nm kein Problem, geht bei Broadwell ja auch super und Mesh is nicht wirklich größer.
Man muss in die Zukunft denken. In 10nm sollen die Kerne nur noch halb so groß sein. Ergo schrumpft die ganze CPU selbst bei 20 Kernen auf recht kompakte Ausmaße. Einzelne Kerne werden relativ immer kleiner also muss ein neues System der Kern zu Kern Kommunikation her. AMD baut dann vielleicht 6 Kern CCX oder 4 CCX auf einen Die.

ampre · 16. Juni 2017

Aber bei einem Ringbus ist der der 2 Kern zum 1 Kern ganz nahe und der 4 Kern ist dann schon 2 Kerne weiter weg. Alle können nur gleich schnell sein wenn eine Per zu Per Verbindung hergestellt wird.

Das Mesh wäre dann natürlich schneller, da man mehr Leitungen zwischen den Kernen hat und man somit mehr Verbindungen herstellen kann.

Krautmaster · 16. Juni 2017

Wie der Ring im Detail funktioniert weiß kaum jemand. Wird wohl eher so sein dass jeder Kern seine Daten erst in dem Ring schreibt, ein anderer diese dann abholt. Damit das einheitlich getaktet wird gibt die größe Distanz vermutlich die Latenz vor und damit ist die vermutlich auch bei direkten Nachbarn größer als sie sein müsste. Vielleicht nimmt diese Latenz auch durch Adressierung im Ring mit Kern Zahl zu sodass man zuletzt sogar 2 Ringe brauchte um die Verzögerung im Griff zu halten.

Vielleicht kann Im Mesh jeder Kern nur an den Nachbar senden. Dafür extrem schnell. Die Frage ist wie da die Adressierung läuft und wie der Kern weiß in welche Richtung zu schieben.

Edit
Bluetooth geht meines Wissens auch quasi den Weg im Mesh
https://www.google.de/search?q=blue...igC&biw=360&bih=560#tbm=isch&q=bluetooth+mesh

@ CPU Dimensionierung

Assume a processor which works at 1GHz. This means one billion clock cycles per second. This also means one clock cycle takes one billionth of a second, or a nanosecond. Light travels about 30cm (about a foot) in a nanosecond. So, the size of circuitry involved at such clock speeds better be much less than (at least 1/10 of) 30cm. So, your maximum circuit size is 3cm.

Also wenn das Mesh eine Art Schiebe-Register ist dann wird man wohl pro Takt oder auch weniger Takte die Daten an den nächsten Kern schieben.

ampre · 16. Juni 2017

Die ersten Benches sind raus und 10-15% gegenüber Ryzen und das für einen 10Core

Piktogramm · 16. Juni 2017

Drahtlose Meshes haben mit dem Intel Kram nicht viel zu tun

IchoTolot · 16. Juni 2017

ampre schrieb:
Die ersten Benches sind raus und 10-15% gegenüber Ryzen und das für einen 10Core

10-15% in was und wo? Genauer bitte?

https://www.bit-tech.net/hardware/2017/06/16/intel-core-i9-7900x-and-x299-chipset-revie/6

In AotS sind es mal eben 21% und mit 4.6 Ghz mal eben 29%! Das ist doch sonst der Vorzeigetitel für AMD.

Krautmaster · 16. Juni 2017

Das schon, viel eher dass quasi über Hops miteinander kommuniziert wird. Die Frage ist ob jeder Kern mit jedem oder über andere.

aldaric · 16. Juni 2017

AotS ging es seit eh und je um die GPU und deren Drawcall Möglichkeiten in Verbindung mit der DX12 API. AotS hatte nie etwas mit AMD CPU's zu tun. Da solltest du dich mal genauer informieren.

Zudem geht es hier um einen 10 Kerner mit Quadchannel gegen einen Mainstream 8-Kerner. Daher ist das Ergebnis nun nicht wirklich beeindruckend für den Preis der CPU. Da muss er sich schon mit Threadripper messen, nicht mit den R7.

IchoTolot · 16. Juni 2017

3D Mark Timespay sind es mal eben über 34%.

aldaric · 16. Juni 2017

2-Kerne mehr und Quadchannel, und Brechstangen OC auf 4,6 Ghz.

Sie sind nicht vergleichbar.

ampre · 16. Juni 2017

Ich bin von den CPU Benchmarks ausgegangen und das mal auf die Kerne etwas herunter skaliert. Was mit Time Spy los ist weis man ja von wem es gesponsert wurde :/

News Skylake-SP: Der Ringbus ist tot, es lebe das Mesh

Fleet Admiral

Admiral

Fleet Admiral

Banned

Banned

Fleet Admiral

Lt. Commander

Banned

Commander Pro

Fleet Admiral

Lt. Commander

Fleet Admiral

Lt. Commander

Admiral

Banned

Fleet Admiral

Admiral

Banned

Admiral

Lt. Commander

Ähnliche Themen

Passend zum Thema