News Intel-Gerüchte: Kern-Bestückung von (Xeon) w9-3495 und Meteor Lake

Nagilum99 schrieb:
Da das primär für ML etc. gedacht ist...
Schade. Es gibt so viel mehr Anwendungen, die von schnelleren Matrixberechnungem profitieren würden. Heute denken gefühlt alle Firmen nur noch an Machine Learning.
Aber wer weiß, ich bin kein CPU-Architekt. Vielleicht wäre es für 64-Bit-Zahlen auch einfach unverhältnismäßig aufwändig geworden.
 
@Tawheed So so nur ne Erweiterung.Was heißt das,bleiben dann die EInheiten die dafür Verantwortlich sind dann einfach brach oder ist das nur ne erweiterung ohne feste zuordnung der Kerne bzw Transistoren?
Wenn es aber so ist wie bei Nvidia mit deren GPU,dann heißt es das ein paar Transitoren bzw Einheiten brach liegen.
Somit weniger Nutzbare Einheiten.Je weniger Einheiten man nutzen kann,desto weniger wird die CPU Ausgelastet aber auch desto weniger Rohleistung kann man ausfahren.
Das gefällt mir nicht,weil ich weis das meine Anwendung dies nicht nutzen kann.Es liegt ja mit AVX wo ich nicht nutze eh schon ein gewisser Anteil brach weil ich die nicht alternativ ausnutzen kann.Nun ist mit AMX ein weiterer dazu gekommen.

Irgendwann kann ich sagen,ich kann von der CPU nur noch die hälfte Nutzen.Weis also nicht ob das so ne gute Sache ist.Die CPU wird dennoch heiß,egal wie gut man diese richtig Nutzen kann.
Bin gespannt wie meine Anwendung darauf regiert wenn immer weniger Recheneinheiten für deren Anwendung zur Verfügung steht.Das würde weniger Leistung am ende bedeuten.Mir gefällt also diese Entwicklung nicht.
Klar werden nun welche mich als Fortschrittsbremse bezeichnen.Es spiegelt aber meine Realtität wieder.
Die Anwendung ist von 2016.Noch habe ich Steigerungen die ich spüre,nur wie lange halt noch.
Wobei mir wer geschrieben hat,das es immer bei jeder Anwendung ne Leistungsteigerung geben wird.Vielleicht brauche ich durch das ja nur noch 25 % der gesammten EInheiten in Zukunft für den Vollpower,wer weis das schon.
 
latiose88 schrieb:
@Tawheed So so nur ne Erweiterung.Was heißt das,bleiben dann die EInheiten die dafür Verantwortlich sind dann einfach brach oder ist das nur ne erweiterung ohne feste zuordnung der Kerne bzw Transistoren?
Wenn es aber so ist wie bei Nvidia mit deren GPU,dann heißt es das ein paar Transitoren bzw Einheiten brach liegen.
Somit weniger Nutzbare Einheiten.Je weniger Einheiten man nutzen kann,desto weniger wird die CPU Ausgelastet aber auch desto weniger Rohleistung kann man ausfahren.
Das gefällt mir nicht,weil ich weis das meine Anwendung dies nicht nutzen kann.Es liegt ja mit AVX wo ich nicht nutze eh schon ein gewisser Anteil brach weil ich die nicht alternativ ausnutzen kann.Nun ist mit AMX ein weiterer dazu gekommen.

Irgendwann kann ich sagen,ich kann von der CPU nur noch die hälfte Nutzen.Weis also nicht ob das so ne gute Sache ist.Die CPU wird dennoch heiß,egal wie gut man diese richtig Nutzen kann.
Bin gespannt wie meine Anwendung darauf regiert wenn immer weniger Recheneinheiten für deren Anwendung zur Verfügung steht.Das würde weniger Leistung am ende bedeuten.Mir gefällt also diese Entwicklung nicht.
Klar werden nun welche mich als Fortschrittsbremse bezeichnen.Es spiegelt aber meine Realtität wieder.
Die Anwendung ist von 2016.Noch habe ich Steigerungen die ich spüre,nur wie lange halt noch.
Tja in Sachen hpc und lösen von Gleichungen ist der einfachste Weg spezielle Instruktionen dafür zu designen. Das dann mehr Transistoren zeitgleich am berechnen beteiligt sind erhöht natürlich die Stromaufnahme. Wenn deine Anwendung nicht für hpc workloads gedacht ist, kaufst du dir einfach keinen xeon der amx kann.
 
Achso weil genau da hin gehen also die xeons. Werden also immer spezieller. Wie sieht es mit den threadripper CPUs aus, werden die auch immer spezieller? Heißt es werden solche Funktionen immer mehr eingebaut und diese werden immer mehr diese diese Transistoren genau diese Berechnungen auch belastet. Wenn man dann mit einfachen alten aufgeben bzw die Funktion der alten verwenden profitiert mann weniger davon weil diese weniger in dem bereich bereitstellen werden. Also immer weniger die Standard Transistoren mehr hin zu speziellen. Diese kann nicht jede Software verwenden bei allen bereichen. Ich verstehe. Dummerweise wird sich auch die Mainstream irgendwann da hin entwickeln. Heißt nach einige Jahren immer mehr sozial Einheiten. Die Entwicklung freut mich kein bißchen. Weil bis dahin keine Ahnung weiteren 5 Jahren oder mehr dann die software mehr als 10 Jahre alt ist. Heißt neue Funktionen verpuffen bei der software ins Nichts. Ich hoffe das dies kein Nachteil für mich auf Dauer wird. Habe keine Lust auf sinkende Leistung der gesammelten CPU.
 
Beitrag schrieb:
Schade. Es gibt so viel mehr Anwendungen, die von schnelleren Matrixberechnungem profitieren würden. Heute denken gefühlt alle Firmen nur noch an Machine Learning.
Aber wer weiß, ich bin kein CPU-Architekt. Vielleicht wäre es für 64-Bit-Zahlen auch einfach unverhältnismäßig aufwändig geworden.
Für sowas gibts's doch schon lange AVX & co.
Irgendwann ist halt mal Ende mit Beschleunigen. Du kannst einen Chip entweder breit aufstellen oder auf Leistung in einem beschänkten Umfang fokussieren - beides geht nicht.
Ergänzung ()

latiose88 schrieb:
Achso weil genau da hin gehen also die xeons. Werden also immer spezieller.
Hast du auch Quellen dafür oder ist das wieder nur Spekulation die als Fakt kommunizier wird?
Im übrigen: Bei dir - wie bei allen anderen auch - liegen immer teile der CPU brach, weil sie nicht für die aktuell angeforderten Rechenaufgaben geeignet sind.

Es täte dir gut dich mal in CPU Architekturen einzuarbeiten, bevor du Dinge schreibst, die schlichtweg falsch sind. Das hatte ich dir aber schon mal angeraten. Es gibt da richtig gute Lektüren zu, ich bin nur nicht sicher ob du aus denen auch schlau wirst.
Die c't hat z. B. immer wieder über den genauen Aufbau einer neuen Architektur berichtet (Scheduler, ALU, AGU, FPU, Caches, Assoziativitäten etc.)
 
latiose88 schrieb:
Also immer weniger die Standard Transistoren mehr hin zu speziellen. Diese kann nicht jede Software verwenden bei allen bereichen. Ich verstehe. Dummerweise wird sich auch die Mainstream irgendwann da hin entwickeln. Heißt nach einige Jahren immer mehr sozial Einheiten.
Ich korrigiere mich selbst: du schreibst nicht nur falsche Dinge, das ist haarsträubender Kokolores.
Soziale Einheiten? Standard Transistoren?
 
Ups sollten spezial Einheiten heißen. Naja wird halt immer schwer immer mehr zu optimieren. Ich lasse mich dennoch überraschen wie es weiter gehen wird.
 
So mal kurz überschlagen: durch amx sollte der Prozessor 224 tops/s bei int8 schaffen und 112 tflop/s bei bf16. Garnicht mal so übel.
 
OK und wo profitiert man denn von den int8 und bf16. Denn das interessiert mich schon. Ich lese das zwar immer und es scheint wohl einige CPUs zu können. In meiner Anwendung kann ich das allerdings nicht auswählen,warum auch immer.
 
@latiose88 : Falls es deine anwendung ist, kannst du es sehr wohl auswählen.
Leider schreibst du vieles, was nicht stimmt. Ich wette man kann deine anwendung auch heute schon deutlich beschleunigen.
 
  • Gefällt mir
Reaktionen: Nagilum99
Syrato schrieb:
Für unsere Gaming Rechner brauche ich noch nicht mehr

Schön, dass du meinen doppeldeutigen Herrenwitz nicht gesehen oder ihn sehr gekonnt ignoriert hast.

So soll es sein, auch wenn alles besser ist mit Doppel D. :evillol:

Einen hab ich noch:

Auf die Technik kommt es an, nicht auf die Bestückung mit Kernen. :heilig:

mfg
 
latiose88 schrieb:
OK und wo profitiert man denn von den int8 und bf16. In meiner Anwendung kann ich das allerdings nicht auswählen,warum auch immer.
Befass dich mal mit Computer Datenstrukturen ganz allgemein. Du hast zu wenig background um es dir zu erklären. Da wird nichts ausgewählt sondern von vornherein programmiert und auch dementsprechend die Algorithmen gewählt. Was für eine sonder Anwendung hast du denn überhaupt?
 
  • Gefällt mir
Reaktionen: Nagilum99
Nun naja sonder ist es zwar nicht aber ich habe es wohl dazu getrieben das es ne sonder Anwendung ist.
Das Programm lautet Xmedia Recode und wandle in H264 um.Habe dazu AVX abgewählt weil ich sehe ja was da zum wählen gibt.Da gibt es das ganze nicht was hier so geschrieben wird.Also mit Int8 oder bf16 kann ich bei dem Programm leider nicht auswählen.
Weis ja nicht ob das so ne Interne sache der CPU ist,die die Einheiten Automatisch belastet auch wenn es beim Programm sowas nicht gibt zum Auswählen.Ich kann halt mit sowas wie Int8 oder BF16 nur sehr wenig mit anfangen.Sollte das egal sein und es dennoch benutzen können,dann wäre es echt egal.Ich selbst kann keine Programme schreiben.
Die Anwendung gibt es zwar neuere Versionen aber die brachten auch nur ganz wenig mehrleistung.Kaum der rede Wert halt.Nun ja das sehe ich dann schon noch.
 
Also sowas wie video Bearbeitung kann immense von matrix Operationen profitieren. Hier sind jedoch Grafik prozessoren deutlich schneller weil wenig io benötigt wird
 
also wird es dennoch verwendet obwohl es im Programm nicht einstellen kann bzw auswählen kann?
 
latiose88 schrieb:
also wird es dennoch verwendet obwohl es im Programm nicht einstellen kann bzw auswählen kann?
Kurzfassung: NEIN.
Du hast nun x mal den Rat bekommen dich in das Thema einzulesen. Würdest du das endlich machen statt weiter verwirrten Quatsch zu schreiben, würden sich die wenigen berechtigten Fragen von selbst beantworten.

Und "Deine Anwendung" verwirrt die Leute offensichtlich. Ich war allerdings erstaunt, dass du es schaffst komplexe Anwendungen zu erstellen, bis du das Missverständnis aufgeklärt hast.

Tawheed schrieb:
Also sowas wie video Bearbeitung kann immense von matrix Operationen profitieren. Hier sind jedoch Grafik prozessoren deutlich schneller weil wenig io benötigt wird
Allerdings sind die bishereigen Beschleunigungen über SSE zu AVX(2) in die andere Richtung gegangen: 128 bzw. 256 bit. AFAIK ist AVX512 allerdings (bislang) ohne großen Mehrwert.
 
Nun gut dank euch habe ich zumindest verstanden das amx ne Erweiterung von avx ist. Profitiert man also nicht mal von avx1 ist amx somit ebenso hinfällig. Bin gespannt ob die neuen xeon noch einen Trumpf haben. Kann mir nicht vorstellen das es das schon gewesen war. Nun ja das werden wir schon sehen. Und erst in der Praxis wird sich zeigen was die CPU wirklich so drauf hat. Alles andere mit Theorie bringt hier nix. Man muss schon mit solcher Hardware (vor das Gericht ziehen, oder heißt das vor das jüngste Gericht) also die Stunde der Wahrheit halt. Weiß nicht ob man das so schreibt und sagt. Erst dann zeigt es die richtige Leistung. Kein Wunder also das ich lieber durch getestet hatte. Da offenbarte sich wirklich die Wahrheit. Daran werde ich nun auch nichts dran ändern.
So werde ich es auch mit den kommenden AMD CPUs genauso machen. Ich freue mich jedenfalls schon mal.
Ich weiß noch nicht wie viele Jahre ich das so noch durchziehen werde. Sollte ich aber merken es hat so keinen Sinn mehr breche ich das ganze aber auch gerne mal ab.
 
AVX und AMX sind komplett verschiedene Dinge. Es gibt zweierlei, eine Anwendung nutzt derart Rechenoperationen und nutzt dazugehörigen Datentypen, außerdem muss der Compiler derartigen Befehlssatz unterstützen.
Wenn dass der Fall ist, profitiert die Performance wenn die CPU auch über den passenden Befehlssatz und Erweiterungen verfügt. Es gibt bei solchen Fällen aber auch fast immer ein Fall Back.

XMediaRecode ist doch nichts besonderes und auch nicht "deine" Anwendung. Sondern ein ganz normales Programm. CPU's sind von Generation zu Generation immer schneller geworden. Auch in XMediaRecode

Und CPU's werden in diesem Sinne nicht spezieller, sondern die Hardware Architekten, ermöglichen, dass alles immer schneller rennt. In dem die allgemeinde Performance gesteigert wird UND der Befehlssatz vergrößert wird.
 
  • Gefällt mir
Reaktionen: Nagilum99
Zurück
Oben