Volker schrieb:
Naja das Problem ist das AMD bisher eher viel redet, aber noch zu wenig liefert.
Das Problem war IMO, dass AMD zwar auch AI auf dem Schirm hatte, aber die Strategie von CDNA war hauptsächlich auf HPC und FP64 fokusisiert. AI lief bei CDNA so mit.
Dafür schlägt sich die MI200 bei AI im Vergleich zur A100 ganz ordentlich. Aber natürlich nicht im Vergleich zur H100. Deshalb ist die MI200 eigentlich nichts, mit dem AMD im Jahr 2023 in Punkto AI glänzen kann. Bei der MI300 ist AMD ein bisschen mehr in Richtung AI gegegangen und hat auch beim Speicher ordentlich draufgepackt.
Was mich vollkommen wundert ist, dass AMD auf großer Bühne nichts zu den Xilinx-Produkten mit der AIE gezeigt hat. Das wären die Versal AI Core Series, Versal AI Edge Series, Versal Premium Series und Alevo V70. Was AMD hier tatsächlich liefern kann weiß ich nicht. Da die Alevo V70 nur 75 W verbrät, habe ich hier eigentlich auch noch was größereres erwartet, das bei FPGA und DSP streicht, aber deutlich mehr AIE bzw AIE-ML verbaut. Bei der CES 2023 keynote hatte AMD nur
2 Minuten für die Alevo V70, nur nackte Zahlen. Auf dem Stand hatte AMD eine Demonstration der Alevo V70:
Ein mit Alevo V70 Server:
Bei der Ryzen AI in Phoenix läuft auch nicht alles rund. Die AIE ist bei vielen Phoenix-Notebooks per BIOS ausgeschaltet. Mit Microsoft, als einzigem Softwarepartner antreten zu wollen, ist fatal. Hier hätte ich mir wenigstens erwartet, dass man von Seiten ein Einsteigerpaket in die AIE-Entwicklung verfügbar macht.
Volker schrieb:
Sie haben gute Produkte, es streikt aber hier und da die Software noch etwas usw.
Was ROCm mit AI für die MI200 anbelangt, hat es diesen Sommer große Fortschritte gegeben. So hat z. B. MosaicML schon Ende Juni verkündet, dass ihre Software die auf PyTorch 2.0 aufsetzt ohne weitere Anpassung mit ROCm 5.4 auf der MI200 läuft.
https://www.mosaicml.com/blog/amd-mi250
Im Oktober läuft es sogar noch ein bisschen schneller
https://www.databricks.com/blog/training-llms-scale-amd-mi250-gpus
Ich denke es ist mehr als die Software, es hat lange Zeit an einer klaren Strategie gefehlt, was kommt sobald Frontier läuft. Hier ist der geringe Fortschritt bei ROCm für RDNA bezeichned. Es hat einen Arschtritt von George Hotz bedurft, dass sich AMD erstmals offen zu ROCm für RDNA bekannt hat.
Gerade was die Software von Xilinx anbelangt hat AMD einige Interessante Dinge vorzuweisen. Xilinx war eine der treibenden Kräfte hinter MLIR, weil sie sich versprochen haben hier die Entwicklung von Software für die AIE zu vereinfachen.
Volker schrieb:
Nächstes Jahr muss dann eben aber auch mal was kommen!
Das Problem bei AMD ist, dass sie aktuell alles reinschmeißen, um die MI300 auf den Markt zu bringen. In einem Interview von Ende 2022 hat Mark Papermaster gesagt, dass 2023 die MI300 für El Capitan kommt, die anderen werden erst ab 2024 bedient. Das klang aber schon zur CES 2023 ganz anders. IMO musste AMD ein Quartal aufholen. Was auf ein Jahr bezogen schon eine Menge ist.
Zum Thema MI300 hat
Cheese auzf der SC2023 ein paar nette Fotos von einem GigaByte Bord mit 4 MI300 geschossen:
Was auffällt, keine DIMM-Slots