News Intel-Roadmap: Offizielle Termine für Cooper Lake und Ice Lake

Hill Ridge · 9. August 2018

zett0 schrieb:
Die Schwachstelle der FX Prozessoren war die Entscheidung für ein Hochtakt-Design was zu Kosten der IPC ging.

Bulldozer ist kein Hochtaktdesign!

CMT war hingegen gut und hat bis zu 60% eines echten Cores gebracht während SMT nur 30% bringt

Es sind ja auch 2 physische Kerne.

Wobei CMT 80% brachte und CMT ca. 30.

Krautmaster · 9. August 2018

MK one schrieb:
Unsinn , Intel setzt Mesh schon länger ein , die Anfänge gehn 10 - 11 Jahre zurück , Knights Landing hatte bereits Mesh , sie hatten wesentlich mehr Zeit Mesh zu optimieren als AMD es mit dem IF hatte ..

was hat das damit zu tun? Es ging darum was man allein mit wenigen Stellschrauben da rausholen kann. Außerdem wurde Mesh eben nicht mit diesen schwergewichtigen X86 SLX Kernen bisher eingesetzt. Klar ist der Vorteil von Mesh erst mit zunehmender Kernzahl sichtbar, lass es 100 oder gar 1000 Kerne sein. Dann skaliert ein Mesh eben besser als ein Ring oder anderes Bussystem.

IF ist mit Mesh auch nicht dirket vergleichbar. IF wird bei AMD primär für die Inter-Chip Kommunikation eingesetzt, zumindest wenn man bei Epyc bleibt. Wie AMD die Kommunikation von vielen Kernen auf einer Die angeht wird sich zeigen. Man nennt es vermutlich auch IF, aber Namen sind Schall und Rauch. Die Implementierung dahinter kann anders aussehen.

Zuckerwatte · 9. August 2018

Krautmaster schrieb:
[...]Klar ist der Vorteil von Mesh erst mit zunehmender Kernzahl sichtbar, lass es 100 oder gar 1000 Kerne sein. Dann skaliert ein Mesh eben besser als ein Ring oder anderes Bussystem.
[...]

Da kommen wir zurück zu "nicht sinnvoll unendlich parallelisierbar".... wenns erst ab 100..oder schlimmer 1000 Kerne seinen Vorteil zeigt, wäre es ja recht bitter... ? (ich greif da einfach mal eins der "Argumente" auf, die hier ständig kamen bei AMDs Threadripper....)

MK one · 9. August 2018

Krautmaster schrieb:
was hat das damit zu tun? Es ging darum was man allein mit wenigen Stellschrauben da rausholen kann. Außerdem wurde Mesh eben nicht mit diesen schwergewichtigen X86 SLX Kernen bisher eingesetzt.

was heißt schon schwergewichtig .. , voll egal für einen interconnect der die Kerne nur verbinden muß , klar er muß ausreichend Bandbreite haben , für ganz Doof schätze ich zumindest Intels Ingenieure da nicht ein .
ab 12 Kerne basieren sie auf der 18 Kern Skylake X (Xeon) Maske , aber wieso hatte der 10 Kerner bereits Mesh ?

.Sentinel. · 9. August 2018

modena.ch schrieb:
Bei Software welche die Kerne auch ausnutzen, kann Intel nicht mit 6 gegen AMDs 8 anstinken.

Soso - Die gut 10% mehr, die der AMD 8 - Kerner im massiven Computing dann zulegt, ist in Deinen Augen also so viel, dass die Intel CPU nicht dagegen "anstinken" kann?

Mir erschliesst sich die "Bewertungsgrunlage" so einiger Benutzer hier nicht.

Wenn Intel in einer beliebigen Disziplin um 10% schneller ist, dann herrscht laut vielen Usern zwischen Intel und AMD gleichstand, weil die 10% eh keiner Merkt und es vernachlässigbar ist.

Umgekehrt sind die 10% doch plötzlich wieder ein deutlicher Unterschied....

CS74ES · 9. August 2018

cruse schrieb:
bei mir limitiert zu 80% die cpu...

Also bei mir wird die nächste CPU wieder ein Intel. Aber diesmal mit Stickstoffkühlung, damit ich mindestens auf 6-7 GHz komme. Ich lasse mir das einfach nicht mehr gefallen, auf die wichtigen FPS zu verzichten. Selbst, wenn es mir bei 60 FPS flüssig vorkommt, aber das muss einfach sein!

Xboxgamer · 9. August 2018

2019 keine neue CPU mit Bus Technologie von Intel.

Das wäre glaube ich das erste mal in der Geschichte von Intel.

MK one · 9. August 2018

@CS74ES 74
Ach was , nimm nen tr 2990wx , da haste dann 32 Superhochfrequenzkerne @ 5,15 GHZ

, hat AMD jüngst in Maranello gezeigt , pack 4 Grakas rein und errichte 4 VM s , da kannste dann gegen dich selbst Spielen , OK , hast nur zwei Hände , aber doch auch zwei Füße mit je 5 Zehen - mit ein bisschen Übung geht das schon ..

.Sentinel. · 9. August 2018

Teralios schrieb:
Ich denke mal, dass sie die Schwäche nicht wirklich ausbügeln können, da es in der Form keine wirkliche Schwäche ist.

Das Mesh ist tatsächlich eine vielversprechende Geschichte.
Ausbügeln kann Intel es, indem es das Mesh mit einer Taktung gleich des Ringbusses versieht. Das würde schon viel helfen.

768KiByte des 1MiByte L2-Cache liegen nicht direkt im Kern, sondern wurden "angeklebt". Der L3-Cache wurde im Gegenzug verkleinert. Die zweite AVX-Einheite wurde auch wieder nur außerhalb angeklebt.

Auch einfach gelöst. Wieder auf die alte Cache hierarchie unter Beibehaltung des größeren L2 Caches gehen.

Man merkt an vielen Ecken und Enden, dass SkyLake-X allgemein eher ein Patchwork-System ist, als wirklich zu Ende gedacht.

Ist ja für das Erscheinen einer ersten Generation nichts sonderlich Ungewöhnliches.

Es wäre schön, wenn du bei solchen Sachen auch etwas in die Realität finden würdest. Auch wenn es pauschal nicht falsch ist, was du da schreibst, es es doch eine sehr blaugefärbte Betrachtung, die du da abgibst.

Ich sehe die Sache einfach aus einem rein technisch gesehenen Standpunkt. Ich habe 2 CPU Architekturen.
Beide sind gleich schnell. Bei einer von beiden CPUs wurde aber schon ein Trick angewandt, um die mögliche Leistung zu steigern.
Somit hat die CPU, die diesen Trick verbraten hat, das niedrigere Potenzial.

Da gibt es nix zu färben...

Der Taktunterschied zwischen - wir lassen mal die Sonneredition weg - im maximalen Turbo zwischen Ryzen X 2x00 und Core iX-8X00 liegt bei 12% Taktunterschied. Nimmt man die Mittelwerte über verschiedene Benchmarks hinweg, ist der Core i7-8700 in Anwendungen ca. 10% schneller.

Wenn man die Taktfreudigkeit und die immer noch vorhanden IPC-Unterschiede zwischen AMD und Intel betrachtet, kann Intel im Mittel aus dem Mehr an Takt nicht gerade viel heraus holen.

Das ist klar, weil in den hohen Taktbereichen ab 4 GHz der prozentuale Anstieg der Leistung mathematisch immer dünner ausfällt.

Erst in "Single-Core"-Anwendungen kann sich Intel durch die 12% mehr Takt als auch die noch etwas höhere IPC absetzten. Nur dass im Bereich Anwendungen AMD auch das aktuell noch bessere SMT in Stellung bringen kann.

SMT nützt AMD derzeit herzlich wenig, weil die überwiegende Anzahl an Anwendungen ja noch nicht mal mit 6 Threads vernünftig umgehen kann.

Takt kann zwar durchaus wichtig sein, aber gerade bei dem Takt auf mehren Kernen sprengt Intel ja doch gerne mal die TDP-Klasse und sollte man es darauf beschränken, kommt Intel auch nicht viel weiter als AMD.

Klar. Die Physikalischen Gesetze sind für beide Firmen bindend.

Nein, Intel kommt eben nicht mehr pauschal mit 4 Kernen gegen 6 von AMD an und auch nicht mit 6 Kernen gegen 8 von AMD und nein, sie übertrumpfen sie im normalen Usecase auch nicht.

Pauschal ist das Stichwort. Bei massivem Commputing kommen sie nicht an.

Bei "Taktgleichheit" liegen Intel und AMD je nach Bencmark mal leicht vor mal leicht hinter dem anderem, im Mittel sind es nur noch knapp 5%.

Was wiederum bedeutet, dass AMD mit dem nächsten Produkt bei der IPC um 5% zulegen muss und den Taktvorsprung von Intel egalisieren muss, um gleichzuziehen.

Aber sie müssen Intel ja übertrumpfen, um ernsthaft Marktanteile abzuknabbern. Und so easy wird der Job nicht, wie es sich aber hier einige wünschen.
Mit dem I9 9900K wird Intel sicher kein "Kinderspielzeug" gegen AMDs Generation setzen, sondern das in der Kürze der Zeit Machbare präsentieren.

Dann steht 8- Kern gegen 8-Kern. Und erst dann kann man prüfen, welche Architektur besser ist.

Und definiere mal normalen Usecase. In dem regulären Usecase für mich, nehmen sich Intel und AMD nichts.

Normaler Usecase bei unseren Kunden ist:
1.Office- Anwendungen
2.Adobe Suite
3.Cad/Cam
4.Internet
5.Gaming (im Privatkundensektor)

Kannst ja den PCMark 10 laufen lassen, der die Dinge checkt, die oft genutzt werden und Dir ein Bild der Situation I7 vs Ryzen machen.

Grüße
Zero

Colindo · 9. August 2018

ZeroZerp schrieb:
Ich sehe die Sache einfach aus einem rein technisch gesehenen Standpunkt. Ich habe 2 CPU Architekturen.
Beide sind gleich schnell. Bei einer von beiden CPUs wurde aber schon ein Trick angewandt, um die mögliche Leistung zu steigern.
Somit hat die CPU, die diesen Trick verbraten hat, das niedrigere Potenzial.

Das kann aber auch bedeuten, dass die vorherige Fertigung von Global Foundries außerhalb des Sweetspots lief, während Intels Fertigung da noch reserven hatte, die sie jetzt aufbrauchen. Was wiederum darauf hinausläuft, dass man abwarten muss, wie TSMCs 7nm performt und wie hoch der maximale Takt sein wird.

Krautmaster · 9. August 2018

Zuckerwatte schrieb:
Da kommen wir zurück zu "nicht sinnvoll unendlich parallelisierbar".... wenns erst ab 100..oder schlimmer 1000 Kerne seinen Vorteil zeigt, wäre es ja recht bitter... ? (ich greif da einfach mal eins der "Argumente" auf, die hier ständig kamen bei AMDs Threadripper....)

wie meinst du das? Es gibt Anwendungen die erstmal quasi liinear skalieren, deswegen nutzt AMD auch Kern Cinebench wo jeder Kern sein fixes Workset hat. Das skaliert auch mit 1000 Kernen wen die anderen Schnittstellen kaum ein Flaschenhals bilden, zb das SI mit wächst.

Man muss sichs doch nur nur bildlich vorstellen vom Kern zum Ram. Mesh schiebt eben parallel bis zum Speichercontroller durch, also zum bei 100 Kernen (10x10) auf einer Die eben zb 5 Schritte bis an den Rand der Die wo ggf das SI sitzt oder auch einmal komplett drüber da es auf Ram von nem anderen SI zugreifen muss.

Jetzt stell dir nen Ring mit 100 Kernen vor wo das durch muss, da is der Weg bedeutend länger. Oder auch bei 20x20 Kernen usw... Bei allerdings nur 12 Kernen also einem 3x4 Grid kann ein breitbandiger Bus mit einem SI an jeder 3. Stelle schneller sein, oder auch ein/zwei CCX wie AMD sie aktuell einsetzt.

Am schnellsten ist natürlich wenn jeder Kern mit jedem verdrahtet ist oder direkt aufs SI kann, is aber nicht praktisch lösbar ab ner gewissen Kern Zahl.

Bei Knights Landing /Phi usw. waren es eben schon 50+ Atom Kerne die so auf den Speicher zugegriffen haben, aber sicher nicht mit der Bandbreite und Latenzkritisch wie nun ggf bei SLX.

Ergänzung (9. August 2018)

MK one schrieb:
was heißt schon schwergewichtig .. , voll egal für einen interconnect der die Kerne nur verbinden muß , klar er muß ausreichend Bandbreite haben , für ganz Doof schätze ich zumindest Intels Ingenieure da nicht ein .
ab 12 Kerne basieren sie auf der 18 Kern Skylake X (Xeon) Maske , aber wieso hatte der 10 Kerner bereits Mesh ?

der 10 Kerner hat bereits Mesh da der Grundaufbau der Mesh + Kerne selbst absolut identisch sind. Das sind fertige Blöcke die man aneinander reiht und fertig ist die Maske / Das Chipdesign. Egal ob nun 20 oder 1000 Kerne. Es git Blöcke für Kerne, für Si Controller, für Inter Chip Kommunikation, und jedes bringt sein Mesh "bBahnhof" mit.

Das ist ja der Vorteil davon. AMD muss sich das genauso irgendwann überlegen. Man rätselt ja auch wie zb nun ein 16 Kerner aussieht. Vermutlich eben 4x4er CCX mit einem L3 in der Mitte über den wie bisher die Kommunikation zwischen den CCX läuft.

Also gibts auch da einen Sprung von der Latenz wenn über den L3 und dem SI des anderen CCX auf den Ram zugegriffen werden muss, und die wird geringfügig höher sein als zb bei nur 2CCX.

Siehe:
https://www.pcper.com/reviews/Proce...Core-i5/CCX-Latency-Testing-Pinging-between-t
[IMG]https://www.pcper.com/files/imagecache/article_max_width/review/2017-04-10/ccx-3200.png[/IMG]

Wenn ein Kern direkt auf den Ram da er über das eigene SI (des CCX) drauf kann, is das richtig fix da die Kerne eines CCX alle miteinander verdrahtet sind.
Gehts aufs andere CCX springt das an. Ist aber vertretbar und dennoch eine sehr guteWahl für 8 Kerne auf einer Die.

Intel geht einen anderen Weg. Sie wollen unabh. von der Kernanzahl den kurzesten Weg und Latenz zum Ram haben was ab Kernzahl X nur noch der Weg über Mesh ist. Bei 10 Kernen bringt das ganz öffensichtlich, noch garnichts. Bei 100 Kernen schon eher.

Ganz unabh. davon kann man nach wie vor natürlich die einzelnen Die noch zusammenschalten wie AMD es tut. Diese Option bleibt aber auf der Die selbst erfolgt dann die Kommunikation über Mesh.

Da gibts erstmal kein "Das ist besser oder Das ist besser". Intel wollte bisher auf den Multi Chip Modul Ansatz verzichten.

modena.ch · 9. August 2018

ZeroZerp schrieb:
Soso - Die gut 10% mehr, die der AMD 8 - Kerner im massiven Computing dann zulegt, ist in Deinen Augen also so viel, dass die Intel CPU nicht dagegen "anstinken" kann?

Mir erschliesst sich die "Bewertungsgrunlage" so einiger Benutzer hier nicht.

Was eben daran liegt, dass AMD falls man Zen+ und Coffe gleichermassen mit schnellem Ram ausstattet,
bei Games bei weitem nicht 10% langsamer ist.

Und dass Intel bei MT lastiger Software abseits dessen was auf CB getestet wird
auch mal deutlich mehr als nur 10% verliert.

Momentan kann man fast von Gleichstand sprechen.

Und der i9 9900k kann noch so schnell sein, das erkauft er sich mit massiver Hitze
und Verbrauch, deswegen auch das Lot.
Ich gehe fast jede Wette ein, dass er gegen Zen 2 den Kürzeren ziehen wird.
Dass AMD mehr als die 3-5% IPC aufzuholen im Stande sind, würde ich als gesetzt sehen.

Krautmaster · 9. August 2018

Nochmal Bus vs Mesh.

Bus:
Jeder blaue Kontenpunkt erhöht die Latenz, ganz unabh von der Bandbreite

2018-08-09 16_06_14-v4_24coreshcc.png (1499×847).jpg

Grün mal expemplarisch der Weg wenn dieser Kern auf einen Speicherbereich "rechts unten" zugreifen will. Ist der Bus kurz, zb nur ein 12 Kerner, ist die Latenz natürlich geringer als hier bei dem 24C mit dem Schieberegister dazwischen.

Mesh:

2018-08-09 16_08_28-skl-x_mesh.png (921×591).jpg

Der Kern geht über die anderen Kerne horizontal und vertikal zum jeweiligen Memory Controller der den benötigten Speicherbereich hat.

Denke man sieht doch recht schnell dass bei kleinen CPU mit wenig Kernen die Hopps beim Bus kürzer sind, während das Mesh mit steigender Kernzahl besser skaliert, auch wenn sich die Latenz natürlich weiter erhöht (das tut sie immer, nur hier eben weniger als bei Bus).

Ich finde es fällt auch auf dass für Mesh vermutlich mehr Verdrahtung und Verwaltung nötig ist, die u.U dauch die Effizienz drückt und auch viel zum Verbrauch beisteuert.

Auch kann man sagen dass Anwendunggebiete wie zb wenig InterCore Kommunikation benötigen, also jeder CPU seinen nahen Speicher bekommt und gut, hier weniger gut abschneiden als bei Anwendungen bei denen alle Kerne sehr dynamisch zusammenarbeiten.

2 Beispiele: Ich denke bei Renderjobs wie Cinebench bei denen jeder Kern sein Speicherblock bekommt und eig nix von den anderen Jobs wissen will liegt AMD zb super, jeder kern geht über seinen CCX und SI auf sein Ram Bereich, super fix.
Anderes Beispiel, Datenbanken. Da kann ich mir vorstellen dass die Zugriffe auf den Ram deutlich willkürlicher erfolgen und so Kern 0 mal auf Speicher X will und kurz darauf Kern 20 auf Speicher X. Das wiederum dürfte dem Mesh eher liegen da die durchschnittliche Latenz dann geringer ist.

Genau das zeigt sich auch in den ersten Tests und Server Benchmarks.

Smartcom5 · 9. August 2018

Hatsune_Miku schrieb:
Warum lässt Intel denn nicht ausserhalb produzieren wie zb bei TSMC oder GloFo ? Dürfen oder wollen die einfach nicht ?

Niemals!

Smartcom5 schrieb:
Um jedenfalls auch mal wieder zum Thema zu kommen …
[…]
Die andere Option wäre natürlich, wenn Intel hinginge und sich im großen Stil Volumina bei anderen Foundries (Tip: Es sind ihre direkten Konkurrenten) einkaufen würde. Allerdings würde das einer totalen Bankrotterklärung gleichkommen (inklusive fatalstem Ansehensverlust; nicht nur an der Börse …).

Im Ergebnis würde ihr Aktienkurs aufgrund dessen vielleicht nicht ins bodenlose stürzen, allerdings dürften sie dann Milliardenverluste im mindestens niedrigen bis mittleren zweistelligen Bereich machen – und ihr Foundry-Geschäft könnten sie danach auch gleich an den Nagel hängen, da sich aufgrund ihrer fehlenden Zuverlässigkeit Niemand mehr auf ihre Versprechungen einließe (Was ja aufgrund immer weniger Partner und vermehrter Absprünge in letzter Zeit so schon immer öfter der Fall zu sein scheint …).

Aber wir reden hier noch immer von Intel, die sich für die größte Chip-Schmiede seit der Erfindung der Elektrizität halten. Abgesehen davon bestünden dann durchaus reelle Chances auf massivste Industrie-Spionage durch die Chinesen, beim Allerheiligsten der Intel'schen Kronjuwelen: Ihren State-of-the-Art-Prozessoren und elementaren x86-IPs.

Bevor also sowas passiert, dürfte eher die Hölle zufrieren …
[…]

In diesem Sinne

Smartcom

Krautmaster · 9. August 2018

wenn ich mir das Mesh Bild so ansehen müsste es auch theoretisch möglich sei dass ein Kern über mehrere Routen zur Bandbreiten Erhöhung auf das SI geht. Ka ob dem so der Fall ist oder ob das implementierbar ist.

Mir kam auch schon ein wabenförmiger CPU Kern Aufbau in den Sinn, damit dürfte sich eigentlich ein Wafer noch besser ausnutzen lassen und ich meine dass ein hexagonaler Aufbau die beste Flächeneffizienz aufweist die möglich ist.
Deswegen bauen Bienen in Wabenform.

Ein Mesh könnte also in alle Richtungen weiter schieben. Vielleicht muss ich mir das patentieren lassen.

Colindo · 9. August 2018

Wenn verschiedene Routen unterschiedliche Latenzen aufweisen, zerhaust du dir aber damit den Zugewinn an Bandbreite. Und mit Synchronisierungseinheiten wird das Ganze dann zu aufwendig...

Für hexagonalen Aufbau müssten die Logikeinheiten auch hexagonale Formen haben. Momentan sind die alle rechteckig.

Krautmaster · 9. August 2018

ja aber warum? Nur weil man mal dachte das sei besser?

mein CPU Aufbau angelehnt an die Natur:

2018-08-09 16_43_26-Greenshot Editor.jpg

Mein 30 Kern CPU mit 6 Channel SI

Und natürlich 6 Way Mesh.

Colindo · 9. August 2018

Hätte jetzt gedacht, du packst die Cores in die Knoten. So sind die Wege nicht ganz eindeutig. Wie kommst du denn vom SI nach draußen? Über das IO?

MK one · 9. August 2018

Krautmaster schrieb:
der 10 Kerner hat bereits Mesh da der Grundaufbau der Mesh + Kerne selbst absolut identisch sind. Das sind fertige Blöcke die man aneinander reiht und fertig ist die Maske / Das Chipdesign.

du stimmst mir doch vermutlich zu das Ring Bus beim 10 Kerner noch " besser " ( schneller ) gewesen wäre , oder ?
Der 10 Kerner war auf der HEDT war noch geplant , die 12 - 18 nicht - sie wurden nachgeschoben ( Xeon Design )
Hast du nicht letztlich noch darauf hingewiesen das Broadwell noch mit 18 Kernen Ringbus hatte ?

Also hat Intel aus Bequemlichkeit dem 10 Kerner das Mesh verpasst , kann man das so verstehen ?

Krautmaster · 9. August 2018

Klar aber es machte eben kein Sinn deswegen die SLX Kerne mit zb mehr L2 an einen Ringbus zu koppeln, der Aufwand wäre wohl zu groß gewesen.

Wenn dann hätte man eher ein Design mit Skylake basierten Kernen aka Coffee Lake nehmen müssen (wie der 8 Kerner der nun kommt), dann ggf mit zb 12 Kernen ohne iGPU und ebenfalls ausgelegt als MCM zu fungieren wie AMDs Zeppelin Die.

News Intel-Roadmap: Offizielle Termine für Cooper Lake und Ice Lake

Banned

Fleet Admiral

Captain

Banned

Admiral

CS74ES

Gast

Banned

Banned

Admiral

Redakteur

Fleet Admiral

Admiral

Fleet Admiral

Lt. Commander

Fleet Admiral

Redakteur

Fleet Admiral

Redakteur

Banned

Fleet Admiral

Ähnliche Themen

Passend zum Thema