News Intel-Xeon-Architektur: Granite Rapids und Sierra Forest mit 144 Kernen detailliert

foofoobar schrieb:

Ok, sie wollten also Benutzer von nachgemachten Chips bestrafen.

Ich vermute einmal, dass sie da irgendwas an die Hardware geschickt haben, was die WHQL-Pruefung wohl nicht prueft (ob das stimmt, koennen die ja nicht wissen, weil sie nicht wissen, was die Hardware tut). Die WHQL-Pruefung testet m.W. typische Fehler, durch die Windows-Kernels abstuerzen oder sich aufhaengen. Deadlocks u.ae.
 
ok die Zeitspanne verstehe also die Reaktion ab wann die Arbeiten beginnen können.
Nur wie sieht es dann mit 2 Programmen gleichzeit auch die zudem die selbe Anwendung sind.Und am besten sind das 2x 32 bit.Kann man das dann einfach hochrechnen auf beide oder ist das dann nicht mehr so leicht?
 
latiose88 schrieb:
Nur wie sieht es dann mit 2 Programmen gleichzeit auch die zudem die selbe Anwendung sind.Und am besten sind das 2x 32 bit.Kann man das dann einfach hochrechnen auf beide oder ist das dann nicht mehr so leicht?
????????????
 
  • Gefällt mir
Reaktionen: 4nanai
Ja du bist verwirrt aber ich starte 2 x zum Ein Videoumwandlungs Programm ,neben her.Beides sind 32 Bit Programme weil ja das selbe und beides Arbeiten gleichzeit das selbe.Wie verhält sich dabei das Verlinkte mit den Decode usw.Da sind ja Takte und so,verschiebt es sich dabei dann weil ja beide drauf zugreifen oder wie regelt das dann die CPU.Oder sortiert die CPU das zu einem zusammen fassen als ein großer Auftrag.Das hat wohl bisher so keiner gefragt gehabt.Klar eine kleine Zeit kosten Verrusacht das schon aber nicht in dem Maße wie die meisten meinen das es Zeit kosten würde.
Mir wollten welche weismachen das es doppel so viel Zeit kosten würde weil man 2 x die Selbe Anwendung gestartet und Arbeiten lässt.Und da hat ja auch die Latenz Speicher Takte auch noch ein Wort mit zu reden.

Bei einem Programm gleichzeitig ist es ja eindeutig aber dann wars das.Ich bin mir nicht sicher ob mir einer diese Frage beantworten kann.
Ich dachte auch mal ok 2 Programm kostet 100 % mehr Zeit,aber es sind nur rund 40 % was es an Leistung bzw Zeit kostet aber mehr eben nicht.Was davon fängt also die Zeitkosten auf,welche Einheit hilft da aus?
 
Volker schrieb:
Und was sich THG bei SRF ausdenkt stimmt auch nicht. Das sind nicht 3 Dies mit je 48 Kernen, das wäre total winzig. Denn wie man ja weiß sind 4 E Cores mit Anhang so groß wie ein P Core. Also wär das quasi nur ein 12Core Die.. zu klein und verschwendet. Denn bei Die zu Die verliert man auch immer bissel Leistung und Latenz geht hoch.
144 Kerne sind eigentlich mit einem Die machbar, der wird dann für ein Chiplet Design recht groß, aber es bringt wie gesagt Vorteile. Wenn ich sehe, dass Intel bei Emerald Rapids 60 große Kerne mit 300MB L3 und IO auf ~1500mm^2 hinbekommt, dann rechne ich bei 144 Little Cores nach einem Fullnodeshrink und mit nur guten 100MB L3 ohne IO ehrlich gesagt mit so 300mm^2.

Das interessante an SRF ist nicht die absolute Performance, sondern wieviel Performance man aus der kleinen Fläche bekommt. Der Konkurrent heißt mMn nicht Bergamo, sondern Siena.
 
foofoobar schrieb:
Mit fällt da eigentlich nur noch ASM, Veritas und Nvidia ein. Wobei NV ja von den Kernel-Blobs weg geht.

Kurze Latenzen sind natürlich immer schick, aber bei typischen FPU-Code dürfte wohl der Throughput wichtiger sein.
Nvidia hat Teile ihre Treiber als Quellcode zugängig gemacht. Jedoch waren die Einschätzungen, dass da selbst mit hohem Aufwand die Treiber allenfalls in Jahren in eine Form zu bringen sind, die die Kernelmaintainer annehmen. Der hohe Aufwand ist Imho nicht zu erkennen.
Och es gibt Einige Hersteller wo es nicht all zu rund läuft... Das wäre aber was für das Linuxforum und ein "Blame and Shame" Thread ;)

Was die FPUs angeht, das kommt wirklich auf den Anwendungsfall drauf an. Computeaufgaben ohne bedingte Sprünge profitieren kaum. Anwendungen die z.B. ihre Logik in Javascript abbilden können hier durchaus profitieren. Für JS sind ja alles Floats, jeder bedingte Sprung profitiert da im Zweifelsfall von besseren Latenzen der FPU.
Und dann ist "Compute" auch immer so ein Ding. Sowas schiebt man sinnvollerweise eh zu den dicken Vektoreinheiten. Bei denen würde ich davon ausgehen, dass diese nicht verkürzt werden.

latiose88 schrieb:
AH ok stimmt Intel hat immer mehr Decode schon gehabt als AMD.Ab wann bringen breitere Decode nichts mehr bzw ab wann bringen die was?
Weil je breiter desto aufweniger kann die Anwendung sein.Nur was passiert wenn die Struktur eher einfach gehalten ist oder es eh alles im Decoder schon platz hat.Verpufft dann die Steigerung am Ende dann?
Sinnvoll ist ein Frontend, dass so viele µOps ins Backend schiebt, wie das Backend in den folgenden Stufen verarbeiten kann. Was sich aber nicht vorhersagen lässt. Weder bei RISC ISA' wie ARM noch CISC wie x86.
Für die Energieeffizienz ist es auch sinnvoller nicht jede Operation immer wieder durch die Decoder zu jagen, sondern nach Möglichkeit die bereits übersetzten µOps zu cachen. Mit ausreichender Trefferquote auf diesen Cache, braucht es weniger breite Decoder, da ein Teil bis im besten Fall Alle µOps eh aus dem Cache kommen. Wobei das für RISC wie CISC ISA' gilt.

Darüber hinaus ist es ein kompliziertes Ausbalancieren. Breite Decoder warten auf schlecht/nicht vorhergesagte Sprünge und leere Cache auch nicht schneller als schmale Decoder.

latiose88 schrieb:
Ja du bist verwirrt aber ich starte 2 x zum Ein Videoumwandlungs Programm
Es mangelt an klarer Ausdrucksweise :)
Wenn zwei Programme laufen, dann ist das ein Problem des Betriebssystems. Da möge der Sheduler vom Betriebssystem bitte entscheiden wann/wo/wie er welches Programm auf welchen logischen Prozessorkern schiebt.

latiose88 schrieb:
Wie verhält sich dabei das Verlinkte mit den Decode
Wenn der Sheduler vom Betriebssystem ein Prozess einem Kern zum Ausführen zuordnet kommt es zu einem sogenanntem Kontextwechsel. Caches und Register die vom vorhergehendem Prozess genutzt wurden, sollten in validiert sein. Der neue Prozess läuft exklusiv für sich auf dem (logischen) Kern. Entsprechende Befehle jedes Prozesses müssen also exklusiv für diesen Prozess durch die Decoderstufen. Es darf da auf KEINEN FALL dazu kommen, dass Instruktionen zwischen Prozessen ausgetauscht werden!
Oder kurz: Für die Decoder ist das total egal. Instruktionen rein, µOps raus und das immer nur exklusiv für einen Prozess.

Danach wird dein Beitrag derart unverständlich, dass eine Antwort nicht möglich ist.
 
  • Gefällt mir
Reaktionen: 4nanai
Ah ok also Fasst die CPU also der Decoder gleiche Befehle von zwei unterschieldichen Prozessen indirekt zusammen ,also wertet es zwar als weitere Befehl aber da es gleich ist,ist der Aufwand geringer und kann auch schneller weiter gereicht werden.Decoder beziehen auch infos aus dem Cache.Wobei es gibt ja eh auch bei AMD 3 Decoder und bei Intel 5 Decoder.Durch das kann ja jeder Decoder gewisse Anzahl an Arbeiten durch bringen.
Diese werden dann auf die jeweilige Anzahl an CPU Kerne aufgeteilt.Diese Arbeiten dann fest an diese Arbeit.
Aber zufur wird das beim Betriebsystem eh schon festgelegt welche Kerne das so alles dran Arbeitet.
Das ganze wird dann an den Decoder weiter geleitet.Dieses bereitet alles dann vor und übergibt diese dann den jeweiligen Kernen.
Wenn da eh alles drin eh schon Optimal rein passt,dann bringt in dem Sinne ein breiterer auch nix mehr.

Das erklärt auch warum in dieser hinsicht weil Intel ja mehr Decode hat,auch nicht viel mehr Leistung dabei rüber kommt.Wenn es kompliziertere Aufgaben kommen würden,wird dann der Decode der breiter ist auch mehr Leistung bringen.
So weit verstehe ich es oder habe ich das nun Missverstanden.
Achja interessant ist das Intel davon 6 verwenden will.Aber ich dachte je merh Decode desto mehr Strom braucht die CPU unter Last dann oder kann man das so nicht sagen?
 
latiose88 schrieb:
Ah ok also Fasst die CPU also der Decoder gleiche Befehle von zwei unterschieldichen Prozessen indirekt zusammen
NEIN!
Prozessisolierung ist oberstes Gebot. Immer ein ein Prozessorkern an einem Prozess arbeitet gibt es im Kontext des Kerns und all seiner Komponenten nur diesen einen Prozess[1]. Selbst wenn es SMT/Hyperthreadig gibt. Muss die Isolierung der Prozesse absolut gegeben sein!

[1] Ausnahmen sind diese ganzen CPU-Bugs wo eben dies nicht absolut gegeben ist und weswegen es zurecht riesige Wellen gibt! Ohne Prozessisolierung ist halt alles doof!


Dein Beitrag danach ist kompletter Käse. Das ist so falsch, dass das Korrigieren viel aufwendiger wäre, als wenn du dir die Grundlagen der Funktionsweise eines Computers selbst erarbeitest.
 
  • Gefällt mir
Reaktionen: 4nanai
ja die Ergebnisse müssen doch dennoch irgenwie zusammen kommen,also gibt es einen Punkt bei der CPU wo die ganzen einzelnen Kerne,die Arbeit aller zusammen legen oder ist das Sache der Software und nicht der Hardware?
 
Philste schrieb:
144 Kerne sind eigentlich mit einem Die machbar, der wird dann für ein Chiplet Design recht groß, aber es bringt wie gesagt Vorteile. Wenn ich sehe, dass Intel bei Emerald Rapids 60 große Kerne mit 300MB L3 und IO auf ~1500mm^2 hinbekommt, dann rechne ich bei 144 Little Cores nach einem Fullnodeshrink und mit nur guten 100MB L3 ohne IO ehrlich gesagt mit so 300mm^2.

Das interessante an SRF ist nicht die absolute Performance, sondern wieviel Performance man aus der kleinen Fläche bekommt. Der Konkurrent heißt mMn nicht Bergamo, sondern Siena.
Japp, der 144er ist wohl der eine große Die auf dem Schaubild, mit 8 Kanal RAM. Und nun gibt es aber Gerüchte statt einmal gross auch 3 mal klein nutzen zu können. Das könnte dann Richtung 200 Kerne laufen. Gibs aber erst in 3 Wochen Infos zur Innovation zu.
 
Piktogramm schrieb:
Was die FPUs angeht, das kommt wirklich auf den Anwendungsfall drauf an. Computeaufgaben ohne bedingte Sprünge profitieren kaum. Anwendungen die z.B. ihre Logik in Javascript abbilden können hier durchaus profitieren. Für JS sind ja alles Floats, jeder bedingte Sprung profitiert da im Zweifelsfall von besseren Latenzen der FPU.
Hoffentlich werden die FPs in JS gut gerundet, sonst ist Essig mit Logik.
 
latiose88 schrieb:
Achja interessant ist das Intel davon 6 verwenden will.Aber ich dachte je merh Decode desto mehr Strom braucht die CPU unter Last dann oder kann man das so nicht sagen?
Das kann man so nicht sagen.
Apple ist bei den P Kernen seit ein paar Jahren bei einem 8 Befehle breiten Decoder und ist damit sehr Effizient unterwegs, was allerdings auch masgeblich am Arbeitspunkt (Betriebsspannung - Schwellenspannung) liegt.
 
@Trelor
Was aber auch nur bedingt vergleichbar ist. ARM entspricht ja halbwegs den Grundsätzen von RISC, tendenziell wird aus einem Befehl der ARM ISA also ~1µOp[1]. Bei CISC wie es x86 ist, wird aus einer Anweisung schnell mal multiple µOps. Zudem bei beiden Architekturen µOp Caches zum Einsatz kommen, da diese tendenziell effizienter arbeiten können als die Decoderstufen.
Und wirklich genaue Aussagen lassen sich da nicht treffen, da kein Anbieter genau verrät, wie ihre µOps organisiert sind.

[1]Real schaut das anders aus, Tendenziell nutzen RISC Architekturen µOp Fusion und ein paar ARM Befehle sind tendenziell ebenso sinnvoller in multiplen µOp abzuwickeln.
 
Soeben von Intel in einem kurzen Video auf Twitter geteilt:

1000004796.jpg

1000004797.jpg

https://twitter.com/intelnews/status/1699442100100608164?s=20
 
Zurück
Oben