News Intel-CPU-Gerüchte: Comet Lake bringt 26 Modelle und bis zu 5,3 GHz

PhoenixMDA schrieb:
@Labberlippe
Das ist kein AMD, informiere dich doch erstmal, du kennst dich da wohl nicht aus.

Ich rede hier von Prime NonAvx 1h Belastungtest bei 5,2Ghz, ob er wenn du nix machst runtertaktet oder nicht kannst du auch in Windows festlegen oder auch im Bios einstellen.

Runtertaktet tut er nur wenn VRM, CPU zu heiß werden oder du nen AVX Offset benutzt oder er deine selbst gesetzen Strom oder Watt Grenzen erreicht, ansonsten nur wenn er nix macht zum Energie sparen, was du wie gesagt ausstellen kannst.

Sieht man gut an meiner Screen bei Blender da ist er im IDLE auf 5,24Ghz, weil in Windows Höchstleistung eingestellt ist.
Hi

Lerne mal meine Posts lesen.

Ich hatte Dich zitiert und zum Beispiel die FX Cpus gegeben.
Inkl. die Implementierung von den Herstellern.

Anscheinend hast Du nicht verstanden worauf ich hinaus will.

Ursprünglich hatte ich ja Tronado geschrieben, Du hast mich zitiert.

Gruss Labberlippe
 
Zuletzt bearbeitet:
Tronado schrieb:
Nein, auch im "oc-Turbo-Modus" kommt man mit vielen 9900K auf 5,0 Ghz allcore.
Und hat vernünftigere Temperaturen als mit statischen 5.0 GHz.

Anhang anzeigen 858460
Ohne Worte.
Ergänzung ()

Hier mal nen Vergleich der Verschiedenen Plattformen @OC, ich denke man sieht gut wo der Gravierende Unterschied ist.

9900K 4x8GB 4400CL17-17
a1.jpg


7820X 4x8GB 4000CL16-18 # Aerotracks
a2.png


AMD 3900X 3800CL14-15 #Powerplay
a3.png
 
Zuletzt bearbeitet:
Am spannendsten finde ich den Vergleich nicht existierender Produkteigenschaften (OC) um zu beweisen wie doll Chip XY doch ist. :D
 
Dann musst du mal auf anderen Seiten gucken, da testen Sie für Leute wie dich ala "Komplett PC's" extra @Stock, im Forum wirst du eher weniger Erfolg haben.;)
 
  • Gefällt mir
Reaktionen: gesperrter_User
Krautmaster schrieb:
Dann gibt es also mehrere Strategien, Ringbus ist eine davon. Bei TR 1/2 sah man schon gut wie manche Arbeitslast unter den Hops von Die zu Die litten da die Latenz zum Ram nicht konstant niedrig ist.

Sie darf nur nicht hoch sein. Das die Latenz eines jeden Kerns möglichst ähnlich zum nächsten sein muss stimmt nicht.

Krautmaster schrieb:
Bei AMD können meines Wissens 4 Cores in einem CCX direkt miteinander reden, von CCX zu CCX über den gemeinsamen L3. Das ist schon etwas langsamer. Von Chiplet L3 zu Chiplet L3 kommuniziert man nun über die IO Die und hat hier konstante Zeiten.

Nee, bei AMD kommunizieren die Kerne innerhalb eines CCX direkt und alles außerhalb des CCX geht direkt übers IO Die (also selbst Kerne innerhalb eines phyischen Dies.) Schau dir die Latenzen die ich verlinkt hab doch mal an. Da bleibt das AMD übers IO Die im zu distalen Kernen im Schnitt so schnell ist, wie Intel im Mesh im besten fall. Und innerhalb eines CCX isses dann die Hälfte.

Krautmaster schrieb:
Man wird zB auch kaum 16 oder 32 Chiplets am IO die sehen, das macht diese IO Die noch X fach komplexer.

Nicht jeder Kern ist direkt mit dem IO Die verbunden sonder nur mit der Schnittstelle IFOP. Das wird nicht mit mehr Kernen komplexer. Der Traffic übers IFOP nimmt nur zu, aber das wird mit Zen3 ja schon wieder halbiert, indem nur noch ein CCX je Die kommt.

Und zu guter letzt, schau dir mal die Bandbreite eines einzelnen Kerns zum RAM an. Da stehen die Skylake X extrem übel da.
 
Zuletzt bearbeitet:
@PhoenixMDA
Dafür wurden OC und Tuning Threads geschaffen. ;)
Mit dem Vergleich von Produkteigenschaften hat das jedenfalls nichts zu tuen ind interessiert auch nur einen Promille Bereich der User.
 
  • Gefällt mir
Reaktionen: aldaric
@Ned Flanders
Irgendwie wird einem schwindelig, wenn man nachdenkt was nach Zen3 und 7nm kommen könnte...
Bei der bekannten AMD Folie steht 32+ MB L3 Cache. unklar, was das bedeutet.
Aber da jetzt ein CCX auf 8 Cores "wächst" und bedenkt, 2021 wäre schon 5nm möglich (gehen wir konservativ 2022 aus). 128 Cores wären mit 5nm und Zen3 möglich...
Naja wer weiß, vllt sehen wir hier das AMD sche Modell von Tick Tock.
Core Count, dann CCX/Core Update.
Kennt wer das bekannte Bsp zu fibonacci Zahlen
Statt "Kaninchen" Paar durch das Wort "Kern" Paar tauschen :D
Epyc ist das Bsp, was passiert, wenn Kerne sich vermehren 🤔 8, 16, 32, 64, 128...
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: s0UL1 und Ned Flanders
Labberlippe schrieb:
Aber nicht All Core.
Die Threads wechseln ja unter den Kernen und deren Takt.
Es gibt genug Zeit das manche Cores runtergehen.

Ich meine voll auf 5Ghz fixiert.

Hier bitte.
45 Minuten Prime mit 5.0 GHz bei durschnittlich 75°C auf den Kernen.
9900K_2_5.0GHz_1.265V(1.172V)_4.7GHz-Cache_Bios-1105_4133-17-17-17-37-725_2T_Sec_Tert_Offset_1...png
 
  • Gefällt mir
Reaktionen: Ben81, druckluft und gesperrter_User
Ned Flanders schrieb:
darf nur nicht hoch sein. Das die Latenz eines jeden Kerns möglichst ähnlich zum nächsten sein muss stimmt nicht.
Nicht direkte, je nachdem in wie fern gemeinsam genutzter Speicher zugreifbar sein muss der zB im L3 liegt oder besser darunter.

Wenn zB 8 Kerne gemeinsam auf den gleichen Speicherbereich zugreifen wollen ist natürlich naheliegend dass der Zugriff zum Ram homogen sein sollte, aber es gibt ja nicht umsonst auch darunter noch Cache Ebenen die weit höhere Performance liefern.
 
Ned Flanders schrieb:
Da bleibt das AMD übers IO Die im zu distalen Kernen im Schnitt so schnell ist, wie Intel im Mesh im besten fall. Und innerhalb eines CCX isses dann die Hälfte.
Richtig. IO Die sei Dank. Noch skaliert die Sache wie du sagst gut und ich finde den Ansatz aktuell auch eher überlegen, gerade da innerhalb des CCX die Sache sehr fix ist...
Aufgaben die zusammen gehören laufen also bestenfalls im CCX.

Es gibt Workloads die AMDs Ansatz sehr gut liegen und andere die eher dem Mesh angenehm sind, wobei das Mesh wie gesagt wenig bis keinen Mehrwert bei der geringen Kernzahl liefert.

AMD verfolgt in meinen Augen eher den Ausbau der klassischen Lösung, ganz unabhängig ob nun 1 Die oder Chiplets, vollkommen egal was die Speicher Hierarchie angeht. Intel hingehen hat früh, ggf zu früh auf einen komplett skalaren Absatz Mesh gesetzt, der seinen Sinn erst mit weit mehr als den paar Kernen aktuell entfalten kann.

Ggf ein Eigentor, aber auch AMD wird immer mehr Aufwand betreiben müssen wenn es um mehr Kerne geht.
Ergänzung ()

Wadenbeisser schrieb:
Das Problem mit der Homogenität beim RAM Zugriff ist seit Zen2 Geschichte...und nun?
Nichts und nun? Hast du auch was zum Thema beizutragen?
AMDs Lösung ist gut, keiner sagt was anderes. In vielen Szenarien auch besser als der von Intel. Das Mesh ist aktuell nicht sonderlich effizient, taktet viel zu niedrig und sauft viel Saft.

Ich hoffe dass die zweite Iteration da schon besser funktioniert.

Ist jedenfalls sehr interessant wie beide Firmen sich hier in der Art der Anbindung zum Ram und Bus unterscheiden. Ein klares besser / schlechter gibt es dabei nicht.

Aber andere Frage an euch 2 am besten. Wie würde AMD in deinen / euren Augen nun sinnvoll sagen wir 8x so viele Kerne anbinden, in zb 3nm Fertigung? Bei Intel ist es recht offensichtlich wie.

Bei AMD könnte ich mir wie gesagt Chiplets wie aktuell vorstellen aber mit aufgesetztem Mesh, also Chiplet an Chiplet. Hätte den Vorteil dass die CCX wie bisher extrem schnell ist und dass eine immer mächtigere IO die für die Steuerung darüber entfällt. Man wird sehen was AMD macht. Denkbar dass der aktuelle Ansatz auch noch recht weit getrieben werden kann. ZB 16 C ins Chiplet und 16 statt 8 Chiplets.
 
Zuletzt bearbeitet:
@Krautmaster

Schau dir mal z.b. bei Userbenchmark die SC Bandbreite der SKLX zum RAM an.

e.g. dieses Sys mit deiner CPU, aber es trifft auf alle zu.

1577655862457.png


und im Vergleich dazu ein beliebiges Skylake (non x) oder Zen2 Sys mit gleichem RAM Takt an. e.g. dieses hier

1577656183440.png


Irgendetwas bottlenecked da bei den Skylake X extrem und ich würde meinen, dass dürfte eine Folge des Mesh sein, bzw wie das umgesetzt ist. Das hat zwar auf dem Papier gewisse stärken, aber real siehts da aktuell imho zappenduster aus.

Krautmaster schrieb:
Noch skaliert die Sache wie du sagst gut und ich finde den Ansatz aktuell auch eher überlegen, gerade da innerhalb des CCX die Sache sehr fix ist

Ich sehe nicht warum das in zukunft schlechter werden sollte. AMD ist da ziemlich gut, aber real ist es Intel die da ein echtes Problem haben, nicht AMD der da der absolute Überflieger wäre. Eher ist Intels Mesh der totale Papiertiger.
 
Zuletzt bearbeitet:
Ram Takt hat hier eher nen kleinen Einfluss. DAS Mesh taktet aktuell ja auch sehr gering und Bandbreite ist auch weniger das Thema (deswegen bringt Mesh OC viel). Bei Anandtech zerlegen sie beide Ansätze ja auch recht gut was Latenzen in den einzelnen Cache Stufen bis hin zum Ram an.

Wenn das Mesh synchron mit dem Core takten würde oder wie teils 4 GHz + wie der Ring bei Intel wäre das schon besser. Aber Mesh hat immer recht viel Overhead.
 
Was hast du den für SC RAM Bandbreite mit übertaktetem Mesh? kannst du mal nen userbenchmark laufen lassen?
 
@Krautmaster
Wenn das Thema ist über kalten Kaffee von gestern zu reden und auf heute zu übertragen definitiv nicht.
Die von dir angesprochenen "Probleme" kann ich bei der aktuellen Generation nirgens erkennen, massive Nachteile eines monolytischen Chips mit Mash Design jedoch umso mehr.
Die Dinger werden zu groß um in der Komplexität sinnvoll produzierbar zu sein und die Latenzen gehen bei der intercore Kommunikation ebenfalls den Bach runter. Um am Ende auf einen ansatzweise vergleichbaren Core Count zu kommen landet man dann wieder bei einem Multi Chip Design aus mehreren monolytischen Chips das exakt die Probleme besitzt die du beim Threadripper/Epyc versuchst anzukreiden.
AMD könnte beim aktuellen Design den Core Count hingegen relativ leicht und billig erhöhen indem die Chiplets entsprechend überarbeitet werden, beispielsweise wenn die CCX 8 Kerne bekommen und somit jedes Chiplet 16 Kerne bieten würde. Man könnte aber auch eine Zwischenschicht sparen, das CCX Design im Chiplet abschaffen und so 8 statt 2x 4 Kerne pro Chiplet bieten. Damit würde das Design zwar vermutlich an Flexibilität verlieren, auf der anderen Seite aber auch leistungsfähiger machen.
So nebenbei, ich halte das aktuelle Chiplet Design vor allem deshalb dem Mash Design für überlegen weil man die Multicore Krücken Software "nur" innerhalb des Chiplets/CCX halten muss um deutlich bessere Latenzen bei der intercore Kommunikation zu bekommen und mit jedem weiteren Chiplet steigt auch die Anzahl der parallel möglichen Instanzen. Zudem dürften sich die Prozesse so besser von einander abschotten lassen.
Wie schaut es diesbezüglich beim Mash Design aus...?
 
Bin grad nicht am Rechner, die Frage ist was SC Bandbreite für ne Rolle spielt wo der eine Kern ja nicht wirklich mehr leistet. Aber ja, müsste man testen. Ein paar Latenz Werte hab ich nur auf die schnelle für die kleineren SLX rausgekramt.

Screenshot_20191229-230908.png


Aber auch da findet man sicher mehr. Ich geh nachher Mal an der PC :)

Da das Mesh aktuell mit 2,4 GHz sehr zäh taktet ist durchaus Raum nach oben.

Denke wichtiger dürfte dieser Core To Core Latency Test + Ram Latenz + MC Bandbreite sein. Der einzelne Kern sollte wie gesagt genügend Bandbreite zum Ram haben bzw lebt eh im bestens Fall mehr aus L Caches.
 

Anhänge

  • Screenshot_20191229-230650.png
    Screenshot_20191229-230650.png
    2,6 MB · Aufrufe: 319
Jetzt mals halt nicht schön. Sagt ja keiner das alles scheisse sei. Aber das Ding hat halt spezifische aber eklatante Schwächen.
 
Wadenbeisser schrieb:
, ich halte das aktuelle Chiplet Design vor allem deshalb dem Mash Design für überlegen weil man die Multicore Krücken Software "nur" innerhalb des Chiplets/CCX halten muss
Das ist ja eben das Problem. Das lässt sich nur über Numa steuern denn die CPU selbst weiß nicht wirklich was der Job erwartet. Und du kannst auch nicht beliebig die CCX aufblasen.

Ich habe mich jetzt nicht genau schlau gemacht ob es nach wie vor 2x4er Cluster im Chiplet sind oder ob 1x8 und Fully Interconnected, würde annehmen es sind nach wie vor 2x4. Das kann man sicher noch mit moderaten Abstrichen auf 4x4 aufbohren.
Ergänzung ()

Ned Flanders schrieb:
Jetzt mals halt nicht schön. Sagt ja keiner das alles scheisse sei. Aber das Ding hat halt spezifische aber eklatante Schwächen.
In der jetzigen Form gibt's auch wenig schön zu malen was das Mesh angeht, ist halt auch die Gen1. Und wie gesagt, man muss ja nur mathematisch die Topologien hinsichtlich steigender Knotenzahl anschauen, logischen spielt da ein Mesh erst später seine Vorteile aus.

Im LAN wäre es auch am schnellsten wenn jeder PC mit jedem PC verbunden wäre und je ne eigene Nic hätte, hat man aber nicht da es ab X PCs unendliche viele Kabel brauchen würde. Um das CCX Mal zu veranschaulichen....

Edit:
1577658690652.png


Mesh hab ich nur auf 2800, Ram auf 3733.

Was macht den ein Ring SC Ram?

Edit: 3.2 Ghz
https://www.userbenchmark.com/UserRun/17266451

Screenshot_20191229-233816.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: gesperrter_User
Da die ja das gleiche Silizium haben sollte sich das wenig geben.

Bevor man sich aber auf den SC Wert versteift sollte man erstmal die Auswirkungen klären. Denke nicht dass der Werte ne Rolle spielt wenn 32C bei 70GB/s klar kommen, dann sollte einer mit 15GB/s kein Problem haben.. sonst wäre das Core Scaling ja fürn Arsch und der Single Core Score im Argen.

Viel eher hat wohl das Mesh hier nur einen Kanal Pro Kern am SI. Also kann ggf 1 Kern anderes als bei Ring und Baum wie AMD nicht mehrere SI Ram Kanäle parallel beanspruchen.

Würde annehmen dass Latenz und MC wie gesagt bedeutender ist.

https://www.userbenchmark.com/UserRun/23149983

Was ist da bei dem TR los? Lasche Latenzen? Scheint als bricht die Latenz bei über 3200 MHz Ram ein, als ob sich die Ansteuerung ändert.
 
Zurück
Oben