Bericht AMD MI300A & MI300X: Die neue Instinct-Serie ist ein Meilenstein in vielen Bereichen

ComputerJunge schrieb:
Und ich werde das Gefühl nicht los, dass Intel (innovations-)technisch gerade abgehängt wird.
Intel hat vor allem ein Umsetzungsproblem und weniger ein Innovationsproblem.
Ponte Vecchio und Sapphire Rapids sind schon coole Teile. Das aus Sicht von Advanced Packaging als nicht innovativ zu bezeichnen wäre falsch.

Auch Meteor Lake ist aus dem Sicht von Advanced Packaging cool.

Aber die Produkte haben sich alle massiv verzögert.
iNFECTED_pHILZ schrieb:
Foundry: Intel hat vor kurzem eine Zusage von über 10.000.000.000$ zu TSMC bekanntgegeben.
Hast Du dazu einen Link zur Aussage von Intel oder eines Vertreters von Intel?

Klar ist dass Intel bei TSMC Kunde ist und klar ist auch dass Intel bei TSMC GPUs und einiges an Chiplets fertigen lässt. Wahrscheinlich wohl auch den ein oder anderen SoC.

Aber es gibt AFAIK keine Zahlen. Das einzige was ich gesehen habe waren die Behauptungen eines Analysten aus Taiwan.
iNFECTED_pHILZ schrieb:
Außer deren Werbefilmen glaubt wohl kaum noch jemand an bäldige Konkurrenzfähigkeit.
Es kommt nicht darauf an was die Leute glauben, sondern darauf an was Intel liefert.
Aber sie müssen nun langsam Mal anfangen zu liefern.
iNFECTED_pHILZ schrieb:
Mein guess…Foundry business wird in wenigen Jahren abgestoßen.
Intel kann nur eine erfolgreiche IFS verkaufen. Und ein Firmenteil der mit ca 90 Milliarden USD in der Bilanz steht, kann man nicht so einfach abstoßen.
iNFECTED_pHILZ schrieb:
Das alles führt zu massiven Löchern in der Kriegskasse.
Das stimmt nicht. Die Schulden steigen, aber es ist nichts dramatisches. Außerdem hat Intel 2 Verkaufkandidaten die den einen oder anderen Dollar einbringen könnten.

stefan92x schrieb:
Es ist ja sogar noch schlimmer, man HATTE spannende Projekte.
Das sehe ich nicht so. Was man verkaufen will, muss man auch fertigen können.

IMO ist hier bei Intel ein bisschen Realismus eingekehrt und deshalb wurden die Luftschlösser ausgekehrt.
 
  • Gefällt mir
Reaktionen: incurable
ETI1120 schrieb:
Ponte Vecchio und Sapphire Rapids sind schon coole Teile. Das aus Sicht von Advanced Packaging als nicht innovativ zu bezeichnen wäre falsch.
Damit hast du sicherlich, aber wo ist der nächste Schritt? Den kann man aktuell nicht wirklich erkennen.
ETI1120 schrieb:
Das sehe ich nicht so. Was man verkaufen will, muss man auch fertigen können.
Eigentlich glaube ich nicht, dass du hier eine andere Sichtweise hast als ich. Unterm Strich sind wir uns ja einig, dass Intel spannende Projekte hatte, die sich bis zu einem gewissen Grad als Luftschlösser erwiesen haben.
 
stefan92x schrieb:
Damit hast du sicherlich, aber wo ist der nächste Schritt? Den kann man aktuell nicht wirklich erkennen.
Die Herausforderung beim Halbleitergeschäft ist es, dass man heute Entscheidungen treffen muss, und das Produkt kommt erst in paar Jahren auf den Markt. Was heute richtig und logisch erscheint kann sich in der Zukuft als Fehleinschätzung herausstellen.

Und wenn auch in der technischen Umsetzung etwas schief geht, gibt es eben Desaster.

Aber schauen wir doch erst Mal wie sich Ponte Vecchio und Gaudi 2 schlagen.
stefan92x schrieb:
Eigentlich glaube ich nicht, dass du hier eine andere Sichtweise hast als ich. Unterm Strich sind wir uns ja einig, dass Intel spannende Projekte hatte, die sich bis zu einem gewissen Grad als Luftschlösser erwiesen haben.
Das Erkennen, dass man auf Luftschlösser setzt und dass man entsprechend handelt ist gut. Deshalb sehe ich das "schlimmer" anders
 
w33werner schrieb:
Und AMD kann die Nachfrage dann besser bedienen als Nvidia?
Die stellen doch alle in der selben Fabrik her 🙈
Die Frage ist, ob AMD irgendwann die Chips auch bei Hersteller "skaliert". Zen3 wurde der I/O Chip zum Beispiel bei GF gefertigt.
Aber auch bei diesem Design, das Design verwendet für manche Chiplet auch 6nm Fertigung. Bei NV wäre das alles in der selben Fertigung. Das macht durchaus einen Unterschied.
 
  • Gefällt mir
Reaktionen: Millennial_24K
ETI1120 schrieb:
Das Erkennen, dass man auf Luftschlösser setzt und dass man entsprechend handelt ist gut. Deshalb sehe ich das "schlimmer" anders
Ok, jetzt verstehe ich den Widerspruch zwischen uns, da bin ich tatsächlich anderer Meinung. Wenn sich Lösungen für Intel als Luftschloss erweisen, die die Konkurrenz jetzt in den Markt bringen kann, kann das nicht gut für Intel sein.
 
Ich habe gerade eben die News gelesen, dass Microsoft für seine nächsten Rechenzentren auf MI300X setzen wird (Quelle: WinFuture). Das heißt einen Großauftrag hat AMD offensichtlich sicher. Hoffentlich werden noch weitere IT-Firmen diesem Vorbild folgen, um die Marktdominanz von Nvidia zu schwächen.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Tzk
Kommt halt immer auf den Workload an den man hat. AI brauchen wir nicht drüber reden aber wer sich mal die Matrix64 und FP64 werte von MI300X anschaut dem wird die Kinnlade runterfallen.

Das ist ein Vielfaches von dem was nvidia kann und für höhere Genauigkeit in Simulationen und Zuarbeiten von Modellen in noch größeren Zahlen die dann auf CPU berechnet werden gerade im wissenschaftlichen Umfeld ist das unerlässlich.

Es ist das durch die bank Schwächenlose Gesamtpaket was die HPC Leistung hier so gut macht. Manchmal ist man einsame Spitze, manchmal ebenbürtig, aber immer gut.

Bei dem vollmodularen MI300A kann man dann individuell auf den Workload kaufen den man benötigt. Das gibt dem ganzen weitere Tiefe besonders als APU.

Die 300X als 8er Verbund mit zwei dicken EPYCs sind aber eigentlich das was mich wirklich interessiert :D das whitepaper dazu ist unfassbar interessant
 
  • Gefällt mir
Reaktionen: peru3232 und ETI1120
Das Whitepaper zu CDNA3 habe ich bisher nur über flogen. Es verdient sich diesen Namen.

Kennst Du den Foliensatz zur Programmierung der APU? Ich denke es werden nur sehr wenige MI300X fuer HPC verwendet.

Die Kiste mit den 4 APUs gefaellt Dir nicht so arg?
 
AMDs CDNA-Architektur ist ja vordergründig für HPC entwickelt worden und als AI nachgefragt worden ist, ist die Architektur für AI noch zusätzlich optimiert worden, in dem man auch Formate wie FP16 und INT8 und FP8, usw. Unterstützung hinzugefügt hat. Die starke HPC-Position sieht man auch daran, das man hier sogar vor Nvidia ist.

Was ich mich frage. Was ist eigentlich mit all den Produkten/Architekturen von Xilinx geworden? Die hatten doch auch (kleinere ~70W) AI-Beschleuniger gemacht? Warum hat man diese nicht weiter entwickelt und hoch skaliert auf entsprechende Größe mit über 300W? Irgendwie sieht es für mich so aus, als würde man die Software von Xilinx übernehmen, aber die Xilinx-Eigenen Produkte/Architekturen werden nicht/kaum weiter entwickelt. Wäre man mit einem hoch skaliserten Xilinix-Beschleuniger nicht noch besser und scheller rein füri AI aufgestellt gewesen, während CNDA mehr so ein allrounder für HPC und AI wäre?
 
Kurze Anwort. Xilinx AIE wurde zu XDNA. Also auch die Ryzen AI ist die Xilinix AIE.
So wie ich es verstehe ist die Staerke von XDNA die Effizienz.

Auch ich bin momentan unschlüssig wie es da beim Zen 5 Desktop und Server weitergeht. Am Mittwoch hat AMD von XDNA2 geredet, die Frage ist was die 2 aussagt.
 
  • Gefällt mir
Reaktionen: Rockstar85
ETI1120 schrieb:
Kurze Anwort. Xilinx AIE wurde zu XDNA. Also auch die Ryzen AI ist die Xilinix AIE.
So wie ich es verstehe ist die Staerke von XDNA die Effizienz.
XDNA ist keine Antwort auf meine Frage, sondern Teil meiner Frage. Die Frage war: Warum wird Xilinx AI (XDNA) nicht hoch skaliert auf 300W und stattdessen nur CDNA für AI optimiert? Xilinx AI war ja schon fertig in Produkten, man hätte es nur hoch skalieren müssen auf größere Chips, mit mehr Speicher und eben 300W+ Verbrauch. Wäre doch schneller realisierbar und effizienter als ein CDNA-HPC-Beschleuniger auf AI zu optimieren.
 
Du weist, wo es eine kurze Antwort gibt, gibt es auch eine lange. Aber dazu habe ich aktuell keine Gelegenheit.
 
Convert schrieb:
XDNA ist keine Antwort auf meine Frage, sondern Teil meiner Frage. Die Frage war: Warum wird Xilinx AI (XDNA) nicht hoch skaliert auf 300W und stattdessen nur CDNA für AI optimiert?
Dann bekommst du von mir die einfache Antwort: KI Training ist etwas anderes als später die KI-Ausführung.

XDNA ist für die Ausführung optimiert, CDNA für das Training. ;)
 
  • Gefällt mir
Reaktionen: Rockstar85, pipip, Millennial_24K und 2 andere
Convert schrieb:
XDNA ist keine Antwort auf meine Frage, sondern Teil meiner Frage. Die Frage war: Warum wird Xilinx AI (XDNA) nicht hoch skaliert auf 300W und stattdessen nur CDNA für AI optimiert?
Das war auch meine erste Überlegung, aber bei näherer Betrachtung sind mir schon einige Zweifel gekommen.

Die AIE gibt es in zwei Ausführungen (Generationen):


1702083058290.png
Die Zahlenangaben sind Operationen je Takt

Es fällt auf, dass die AIE ganz andere Datenformate unterstützt als es bei den Datacenter AI Beschleunigern der Fall ist. Die AIE setzt hauptsächlich auf Integerformate und hat zum Beispiel gar kein FP8.

David McAfee im Interview mit TPU

TPU: AMDs KI-Hardware-Ansatz scheint ein wenig fragmentiert zu sein. Beim Ryzen 7040 "Phoenix" gibt es Ryzen AI und ein umfassendes Hardware-Feature-Set. Bei den Radeon RDNA3 GPUs gibt es AI Accelerators (skalare Matrix-Mathematik-Beschleuniger) und bei Zen 4 gibt es Unterstützung für AVX-512, bfloat16 und VNNI. Sehen Sie eine Möglichkeit, diese zusammenzuführen, um eine einheitlichere Schnittstelle für ISVs zu schaffen?
David McAfee: Ja, es gibt eine Möglichkeit. Was ich sagen kann, ist, dass verschiedene Modelle verschiedene Arten von Präzision bei der Ausführung bevorzugen. Wenn man sich die GPU-Berechnungen ansieht, sind FP16 und FP32 seit Jahren die effizientesten Operatortypen, die die GPUs lieben. So zeichnen sich sowohl unsere GPUs als auch die von NVIDIA bei dieser Art von Berechnungen aus. CPUs, ja, VNNI, bfloat16, all diese Anweisungen wurden dem x86-Befehlssatz hinzugefügt. Wenn ich mir Ryzen AI oder XDNA ansehe, denke ich, dass das Wichtigste an dieser Engine ist, dass sie wirklich auf niedrigpräzise Integer-Operationen abgestimmt ist, also INT8, INT16. Einige Leute sprechen sogar von INT4. Die Ryzen-KI-Engine bringt nicht notwendigerweise neue Befehlssätze für unsere neuen Befehlstypen oder neue Operatortypen in dieses Modell ein, sie ist einfach nur hocheffizient bei Multiplikations-, Akkumulations- und Sammeloperationen, so wie man sich vorstellen kann, dass die Schichten in einem neuronalen Netzwerk in der Lage sind, dies auf eine Art und Weise zu tun, bei der man eine Engine erhält, die komplett darauf ausgelegt ist. Ich denke, dass all diese verschiedenen Arten von Ausführungsmodulen einander in gewisser Weise ergänzen.
Bei der Ryzen-KI und dem Grund, warum sie in einem Notebook steckt, geht es sowohl um den Durchsatz pro Watt und die Leistung pro Watt als auch um die Fähigkeiten. Denn die Wahrheit ist, dass viele dieser Engines und Modelle genauso gut auf der CPU oder GPU laufen, wenn sie auf die richtige Weise für diese Befehlstypen quantisiert werden. Die ultimative Vision hier ist, dass das, was Sie heute sehen, die frühen Anwender von KI sind oder Dinge wie die Verarbeitung von Video-Feeds, Augen-Blick-Korrektur, Hintergrund-Segmentierung und solche Dinge. Ich denke, die ultimative Vision ist, dass KI etwas wird, das vielleicht nicht ständig, aber regelmäßig als Hintergrundaufgabe in Ihrem System ausgeführt wird. Es ist sehr wichtig, eine hochgradig energieoptimierte Engine in Ihrem SoC zu haben, um dies tun zu können, ohne die Batterielebensdauer zu verkürzen oder übermäßige Wärme zu erzeugen. Ich denke, die Realität ist, dass eine CPU zwar all diese Dinge tun kann, aber nicht für diese Art von Arbeit optimiert ist. Für mich ist das eine Analogie: Wenn Sie einen VP9-Videostream auf der CPU dekodieren, wird das Ihre Akkulaufzeit absolut zerstören. Wenn Sie das mit einer Videowiedergabe-Engine machen, die dafür optimiert ist, können Sie stundenlang Videos abspielen. Ich denke, das ist eine ziemlich gute Analogie, um darüber nachzudenken, was die Ryzen-KI-Engine ist und was sie in Bezug auf die Ermöglichung kontinuierlicherer Operationen von KI als Teil der Anwendung und des Betriebssystems tun wird.

Zu CDNA: MI300 investiert noch ziemlich heftig in FP64 während Nvidia das Gewicht schon deutlich in Richtung AI verschoben hat.

Convert schrieb:
Xilinx AI war ja schon fertig in Produkten, man hätte es nur hoch skalieren müssen auf größere Chips, mit mehr Speicher und eben 300W+ Verbrauch.
Die Alevo V70 ist erst dieses Jahr erschienen. Und hier wundert es mich viel eher, dass AMD diese Karte nicht in den Fokus rückt.
Convert schrieb:
Wäre doch schneller realisierbar und effizienter als ein CDNA-HPC-Beschleuniger auf AI zu optimieren.
CDNA 3 wird für El Capitan und den HPC-Markt benötigt. Beides könnte mit XDNA nicht abgedeckt werden.


DevPandi schrieb:
Dann bekommst du von mir die einfache Antwort: KI Training ist etwas anderes als später die KI-Ausführung.
Ja.
Aber KI-Ausführung aka Inference ist kein einheitliches Feld.
DevPandi schrieb:
XDNA ist für die Ausführung optimiert, CDNA für das Training. ;)
CDNA wird sowohl für Training als auch Inference eingesetzt. Und bei Inference ist die MI300 der H100 deutlich überlegen. Der große Speicher ist gerade bei Modellen mit sehr vielen Parametern von Vorteil.

AMD stellt das Produktportfolio wie folgt dar:

1702084053608.png

Das Video ist von der Computex und überwiegend nicht auf Englisch

Auf dem FAD 2022 hatte ich den Eindruck, dass XDNA breit eingeführt wird. So wie es diese Folie zeigt:
1702086864833.png

Der Adaptive SoC ist das @Convert mit der 350 W Karte meinst.

Die Frage ist hat sich in den letzten 1,5 Jahren die Vision geändert, oder braucht das alles eben seine Zeit.

Wenn man sieht wie sich AIE und AIE-ML unterscheiden, halte ich es durchaus für möglich, dass AMD eine AIE-Variate entwickelt, die auch ins Data Center mit den dort üblichen Modellen passt.


Skysnake schrieb:
Habt ihr Links dazu?

CDNA White paper: https://www.amd.com/content/dam/amd...-docs/white-papers/amd-cdna-3-white-paper.pdf
Programming der AMD Instinct MI300 APU: https://nowlab.cse.ohio-state.edu/s...blicSC23ESPM2ProgrammingAMDInstinctMI300A.pdf
 
  • Gefällt mir
Reaktionen: Rockstar85, janer77, LamaMitHut und eine weitere Person
ETI1120 schrieb:
CDNA wird sowohl für Training als auch Inference eingesetzt. Und bei Inference ist die MI300 der H100 deutlich überlegen. Der große Speicher ist gerade bei Modellen mit sehr vielen Parametern von Vorteil.
DevPandi schrieb:
Dann bekommst du von mir die einfache Antwort:

Ich hätte es auch komplexer machen können, wollte aber nicht.
 
  • Gefällt mir
Reaktionen: ETI1120
ETI1120 schrieb:
Die Alevo V70 ist erst dieses Jahr erschienen. Und hier wundert es mich viel eher, dass AMD diese Karte nicht in den Fokus rückt.
Mich auch. Es wird nichts dazu gesagt, außer den Ausführungen auf der Webseite. Was es kann, welche Vorteile es bietet und warum man es im Porfolio und für wenn hat.
ETI1120 schrieb:
CDNA 3 wird für El Capitan und den HPC-Markt benötigt. Beides könnte mit XDNA nicht abgedeckt werden.
Das ist mir klar. Das CDNA 3 gebraucht wird, hab ich ja auch nicht in bezweifelt, nur fehlt mir halt der "Alevo V70" oder "Versal AI" in Groß.
ETI1120 schrieb:
Anhang anzeigen 1429687
Der Adaptive SoC ist das @Convert mit der 350 W Karte meinst.

Ah sieh an, ein Adaptive Soc auf Basis von Xilinx Versal AI für "Very large models" steht auch auf dem Plan von AMD.. Schade, dass es dazu von AMD keine Infos gab, wann dieser kommen soll, wenn überhaupt. Vielleicht dann nächstes Jahr?

Was auch noch fehlt ist ein Nachfolger für MI210. Also eine Mi310 als PCIe-Karte mit 300W. Wäre leicht realisierbar. Einfach den Interposer halbieren, darauf zwei, statt vier IO-Dies drauf packen mit 4 statt 8 XCDs und mit 96 HBM3, statt 192 HBM3 und schon hat man die MI310 Karte mit 300W. Die MI210 kam im März 2022 auf den Markt. Die MI310 müsste demnach spätestens in Q2 2024 erscheinen, wenn AMD genug Fertigungskapazitäten für Advance Packing bekommt...
 
ETI1120 schrieb:
Intel hat vor allem ein Umsetzungsproblem und weniger ein Innovationsproblem.
Ponte Vecchio und Sapphire Rapids sind schon coole Teile. Das aus Sicht von Advanced Packaging als nicht innovativ zu bezeichnen wäre falsch.

Auch Meteor Lake ist aus dem Sicht von Advanced Packaging cool.
Sehe ich auch so. Wobei natürlich immer die Frage ist wie komplex ein Chip sein muss um seine angedachte Aufgabe erfüllen zu können und wie die Generationen danach aussehen. Im Consumer Bereich konnte man das mit Zen1 schön sehen, wo AMD sich erst am Infinity Fabric versucht hat, um dann im zweiten Schritt auf die Chiplets zu gehen und im dritten Schritt auf den GPUs den IMC zu splitten. Erst im vierten Schritt kommt nun Instinct mit einem richtig komplexen Design.

Bei Intel dagegen hat man den Lakefield Testballon gestartet und wollte dann mit Ponte Vecchio recht flott (in meinen Augen) mit dem Kopf durch die Wand. Das gleiche konnte man beim 10nm Prozess beobachten, wo man den Verkleinerungsfaktor sehr ambitioniert gesetzt hatte, erst massiv Probleme bekam und letztendlich zurückrudern musste.

All das sieht in meinen Augen so aus, als ob Intel an den eigenen Ambitionen erstickt und dann zurückrudern muss, weil man es nicht gebacken bekommt. Bei AMD ist man zwar in manchen Bereichen hinten dran, liefert aber zuverlässig nach Roadmap (mit kleineren Änderungen).
 
Tzk schrieb:
Im Consumer Bereich konnte man das mit Zen1 schön sehen, wo AMD sich erst am Infinity Fabric versucht hat, um dann im zweiten Schritt auf die Chiplets zu gehen und im dritten Schritt auf den GPUs den IMC zu splitten. Erst im vierten Schritt kommt nun Instinct mit einem richtig komplexen Design.
Stell Dir vor eine Firma verkauft Dir die Integrierung der Speicheranbindung als Fortschritt. Und nicht mal 20 Jahre später das Entbündeln derselben.

Da sag mir noch mal jemand nur Mode sei zyklisch. 🤦‍♂️
 
Zurück
Oben