News Next-Gen Intel Xeon-SP: Sapphire Rapids läuft mit AMX, Ice Lake-SP im Plan

Um das beurteilen zu können, hab ich zu wenig Ahnung von Prozessorarchitektur, aber du kannst mit einer Matrix auf jeden Fall viele Rechenoperationen machen, die es für Vektoren gar nicht gibt. Insofern glaube ich nicht, dass der Schritt von AVX zu AMX klein war. Hätte man sonst sicher auch viel früher gemacht, Bedarf in der Softwarewelt wäre ja schon lange da und AVX ist inzwischen ja ca. 10 Jahre alt.
 
  • Gefällt mir
Reaktionen: Colindo
Ja wenn die Software nach so langer Zeit noch immer nicht optimal mit AVX umgehen kann,dann wird sie auch in Zukunft es nicht tuen.Und weil es so träge alles ist,bezweifle ich auch stark das AMX hier groß was ändern wird.
 
YforU schrieb:
Alles richtig. Dennoch Kosten große die Fläche und somit Ertrag. Und Papermaster meinte Mal, yieldrate oberhalb 90% (was natürlich Marketing ist). https://www.reddit.com/r/Amd/commen...full/?utm_medium=android_app&utm_source=share
.. Wenn dem so wäre, hat AMD so gut wie keinen Abfall. Und das wäre in der Tat outstanding

https://www.overclock3d.net/news/cp...uVrfanB-mziRJSJIldcTrB7PwAXx0u2oXyxo9K8BhtICY (2019)

5nm könnte auch spannend werden:
https://www.anandtech.com/show/15219/early-tsmc-5nm-test-chip-yields-80-hvm-coming-in-h1-2020
 
Krautmaster schrieb:
weiß man schon mehr zu Sapphire Rapids? Kernzahl, Architektur?

IceLake Sp ist ja recht lange schon fix mit ich meine 36 oder 38C im Mesh, aber Sapphire Rapids?

Danke

Edit: Ok vage Gerüchte nennen wohl 48C / Socket. Bin mal gespannt wann Intel gedenkt mehrere Die zu kombinieren.
Rein theoretisch müsste SPR dann ja mit Willow Cove Kernen kommen, wenn Granite Rapids dann mit Golden Cove ausgestattet wird. Das wären zumindest die logischen Weiterentwicklungen.

Klar ist halt schon DDR5 und PCIe 5.0, was bedeuten würde, dass PCIe 4.0 bei Intel eine Halbwertszeit von gerade einmal einem Jahr im Server-Segment hat, was schon echt bitter ist. Aber gut, ursprünglich sollten die 10 nm Kisten ja auch schon mind. 1,5 Jahre auf dem Markt sein.

Chiplets sehen wir bei Intel wohl erst mal nur bei Ponte Veccio (Xe-GPUs) und FPGAs.
 
Piak schrieb:
kannst du mal eine Übersicht mit den Instruktionen machen ?
Wie soll er dies können, wenn schon im Text steht:
Noch in diesem Monat will Intel die Spezifikationen und erste Guides für die neuen Advanced Matrix Extensions zur Verfügung stellen, sodass Programmierer einen gewissen Vorlauf haben, damit es Ende 2021 erste Softwarelösungen mit entsprechender Unterstützung geben kann.
Also abwarten und auf die Intel Seite schauen was da kommt.
Shoryuken94 schrieb:
Mal schauen, ob AMX vielleicht etwas verbreiteter genutzt werden kann, als AVX.
Für alle die Anwendungen selbst entwickeln bei denen es auf Performance ankommt und deren Anwendungen von AMX profitieren können, werden sich sehr schnell AMX integrieren. Davon erfahren Heimanwender dann aber nichts, weil sie solche Software nie bekommen werden.
Salutos schrieb:
Ice Lake-SP in 10nm kann nur ein Krücke werden und somit ein Nischenprodukt.
Warum?
Na schaut doch mal was Intel in 10nm für den Desktop gebacken bekommt. Auch bei mobilen CPUs sind die 10nm Produkte gerade so naja.
Welche 10nm für den Desktop? Derzeit gibt es noch keine, sondern bisher nur die kleinen Ice Lake-U und Ice Lake-Y, also Mobile und keine Desktop CPUs! Tiger Lake soll sogar bis zu 4,7GHz packen und Ice Lake-SP soll im zweiten Halbjahr kommen.
PS828 schrieb:
Nur muss die Software nachziehen und die benutzbarkeit gegeben sein. Im Server ist das einfach.
Es geht hier ja auch um Server CPUs.
PS828 schrieb:
Aber im privaten wird man sehen müssen was man davon hat.
Erstmal muss man schauen ob bzw. eher wann AMX überhaupt in Desktop CPUs erscheinen wird.
PS828 schrieb:
Irgendwie habe ich das Gefühl das die yields Katastrophal sind.
Das glaube ich kaum, denn sonst würde Intel Ice Lake-SP nicht bringen und hätte Coopper Lake auch als Nachfolger von Cascade Lake für die 1S und 2S System gebracht, wie es ursprünglich auch geplant war.
PS828 schrieb:
Fertigungsprobleme bei 10 nm und es gab niedrig taktende 2 und 4 Kerner mit deaktivierter iGPU..
Die sind doch längst gegessen, Tiger Lake soll bis 4,7GHz schaffen und Ice Lake-SP im zweiten Halbjahr auf den Markt kommen. Dies spricht dafür, dass die Probleme längst behoben sind. ;it bis 4,7GHz und den 25% mehr IPC könnte Intel Tiger Lake sogar für den Desktop bringen und wäre noch schneller als Comet Lake, aber vermutlich fehlen dafür die Fertigungskapazitäten und wenn 7nm im Plan liegt, wird man jetzt kaum noch massenhaft Kapazitäten für 10nm schaffen wollen.
PS828 schrieb:
Und da jezzt keine 10 nm desktops kommen werden
Die letzte Nachricht die ich dazu gelesen hatte war, dass Intel die Gerüchte es würde keine 10nm CPU geben, dementiert hat. Wenn sie von Ice Lake-SP einen Ice Lake-X Ableger als HEDT bringen, dann wäre dies ja auch eine 10nm Desktop CPU, denn HEDT ist ja auch Desktop und Alder Lake als 10nm Nachfolger für Rocket Lake ist ja auch schon öfter durch die Gerüchtsküche gegeisterrt.
latiose88 schrieb:
wenn man sämtliche AVX Einheiten und nun auch noch AMX weglassen würde.Wären dann die Chips sehr klein.
Und könnte man dann nen höheren Grundtakt dann erwarten?
Da bei Intel der Grundtakt auf einer Arbeitslast basiert die von AVX2 bzw AVX512 Gebrauch macht, ja. Aber der Takt wäre dann auch nicht besser als eben der Basistakt ohne Nutzung von AVX Befehlen, den Intel ja oft auch angibt.
Colindo schrieb:
Siehst du an den Atom-Kernen. Die haben all diese Funktionen nicht.
Die Atom Kerne unterscheiden sind weit stärker von den großen Kernen als nur durch das Weglassen der AVX Einheiten, daher sind sie kein passender Vergleich.
Simon schrieb:
Chiplets sehen wir bei Intel wohl erst mal nur bei Ponte Veccio (Xe-GPUs) und FPGAs.
Bei den Stratix 10 MX FPGAs braucht man EMIB schon alleine um das HBM anzubinden, der Kern selbst ist da aber auch monolithisch, sofern das Bild von Intel dies korrekt wiedergibt.

AVX wird auch beim Heimanwendern viel öfter genutzt als so mancher denken, denn ihr vergesst die Frameworks wie JAVA, welches zum Bitshiften wie z.B. bei der im Internet allgegenwärtigen Base64 (de)kodierung sogar AVX512 nutzen kann, siehe JDK-8205528: Base64 encoding algorithm using AVX512 instructions "The code gives 1.5x performance gain as measured on SKL system"
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: PPPP
@Holt: Naja es kommt "eine" Neue. Aber man könnte zumindest eine kleine Erklärung/Übersicht liefern, was aktuell in einem Taktzyklus berechnet werden kann, für welche Operationen ich spezielle Transistoren habe, z.B. SSE/AVX, wie Groß die Register sind, wieviel Bit ich "bewege". Und dann auch eine grobe Übersicht, was überhaupt von meiner Software wie viel genutzt wird.
Hätte man einen findigen Programmierer könnte man auch nen Benchmark je nach CPU - Befehlssatz - Rechenoperation schreiben und tatsächlich Schwächen und Stärken einer CPU aufzeigen.

So habe ich den Eindruck, es nur die Werbetexte kopiert.
 
Klar werden bei so einer News nur Werbetexte kopiert, was sollten die Seite auch sonst machen, sie haben die CPUs ja noch gar nicht und selbst die Doku zu Neuigkeiten wie AMX sind noch nicht im Detail veröffentlicht, geschweige denn das jemand außerhalb von Intel sie jetzt schon benchen könnte. Die großen Jungs werden zwar bald ihre Samples bekommen, dies passiert nämlich normalerweise rund 1 Jahr vor der Markteinführung, dürfen aber wohl kaum darüber reden. Dies gibt ihnen aber die Zeit sie zu testen und ihre SW darauf zu optimieren.
 
Topflappen schrieb:
Ist eine Matrix mit einer Spalte ist immer ein Vektor.
Richtig und falsch zur gleichen Zeit. Mathematisch hast du recht, ein Vektor ist eine [1,n]-Matrix, aber eben nur in der Mathematik, jedoch nicht in der Informatik, zumindest nicht im Bereich der ALU.

In der Mathematik kannst du auf einen Vektor nur Additionen und Subtraktion so ausführen, wie man es von Vektor-ALUs aus der Informatik kennt, also: [1,2,3] + [4,5,6] = [4,7,9].

Sobald es an Multiplikationen und Divisionen geht, verhalten sich Vektoren in der Informatik aber in der Regel ganz anders.

Statt dass hier ein Kreuzprodukt heraus kommt aus den beiden Vektoren - [-3,6,-3] - wird hier zeilenweise multipliziert, also: [a1 * b1, a2 * b2, c1 * c2]. Hier ist das Ergebnis der Vektor [4, 10, 18].

Topflappen schrieb:
So gesehen nicht die große Kunst das zu verbinden und am Ende auch AVX noch schneller zu machen.
Doch, in der Informatik ist das sehr wohl eine große Kunst. SIMD-Einheiten kannst du bereits heute sehr gut für Matrizen-Additionen und Subtraktionen nutzen, die Multiplikationen und Divisionen von Matrizen muss man in der Regel die Matrizen passend in die Vektoren für SIMD-Einheiten umformen.

Topflappen schrieb:
Glaube das ganze kostet kaum Fläche, weil ja eigentlich nur bestehende Einheiten anders genutzt werden.
Auch das ist falsch, du kannst dir ja mal ansehen, welche Fläche ein Tensore-Core bei NVIDIA einnimmt, der bisher nichts anderes macht, als 3 Matrizen in einem MADD zusammenzuführen.

Beitrag schrieb:
Um das beurteilen zu können, hab ich zu wenig Ahnung von Prozessorarchitektur, aber du kannst mit einer Matrix auf jeden Fall viele Rechenoperationen machen, die es für Vektoren gar nicht gibt.
Jaha, man kann Skalare als auch Vektoren gut als Matrizen abbilden, das wird nur dann jedes Mal komplexer. Ich erinnere mich bis heute mit grauen an die Mathematikvorlesungen, als wir Matrizen behandelt haben und wir selbst einfachste Vektorrechnung als Matrizen durchführen mussten. Holla, das war Schreibarbeit.
 
PS828 schrieb:
Und da jezzt keine 10 nm desktops kommen werden kann die fertigung nicht so gut sein. Sowas hätte man sich sonst nicht entgehen lassen

Man setzt aktuell auf Leistung vor Effizienz, da selbst in Deutschland mit seinen außergewöhnlich hohen Strompreisen das Topmodell im Mainstream im üblichen Betrieb nur wenige Cent auf der Stromrechnung ausmacht im Vergleich zur 7nm Konkurrenz. Das ist zu irrelevant, vor allem außerhalb von Deutschland.
Weshalb sollte man auf einen 10 bzw. 7nm Fertigung setzen die evtl. weniger leistungsfähig ist, wenn man die 14nm so weit optimiert hat dass man damit bei den Benchmarks trotz allem oben steht?
 
latiose88 schrieb:
Überlanges Zitat entfernt
Von Skylake SP (28C) geisterte irgendwann mal ein Chipfoto rum. Während die kleineren Chips nur 1ne AVX512 Einheit hatten hatten die größeren Server Chips 2 davon - und die waren quasi als kleinere Rechtecke dicht an den eigentlich Cores positioniert. Die genaue Zahl weiß ich nicht mehr ist lange her aber ich sag jetzt mal 1/6 der Corefläche für eine der AVX512 Einheiten. Wenn du alle 512er Vektoreinheiten wegläßt braucht's aber keine 512 bit Busse zwischen den Cores mehr, die Caches können auch weniger breit und kleiner sein. Was natürlich dann auch Konsequenzen für die I/O Leistung (PCIe, UPI, DP) hat. Da diese AVX&Co Einheiten aber eigentlich gerade die Rechenleistung der CPUs liefern dürfte das bei Serverchips vielleicht eher nicht passieren - zumal das nicht sehr üppig Fläche spart.

Natürlich könnte man gerade bei Kombichips CPU+GPU im Lapttop oder Desktop Sektor AVX512 etwas zurücknehmen zumal deren Benutzung meist zur Taktherabsetzung führt und die rechenintensive Software auf die GPU verlegen. Ich bin aber immer noch gespannt drauf mal zu erfahren wie AVX vs. GPGPU abschneidet wenn die beiden sich das gleiche physikalische Ram teilen .. statt das die GPU ihr eigenes beträchtlich schnelleres aber mikrigeres Video RAM hat ..
 
Zuletzt bearbeitet von einem Moderator:
Zurück
Oben