News AMDs AI-Beschleuniger Instinct: MI325X startet kastriert, Instinct MI355X soll dann liefern

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
18.845
  • Gefällt mir
Reaktionen: SweetOhm, aid0nex, DirtyHarryOne und 8 andere
Schön zu sehen das man trotz noch übermächtiger Konkurrenz den steinigen Weg weitergeht. Konkurrenz ist in jedem Bereich gut für Kunden, egal ob Privatanwender oder Firmen.
 
  • Gefällt mir
Reaktionen: flo.murr, SweetOhm, aid0nex und eine weitere Person
Schade dass es mit der APU Variante nicht weiter geht, damit hätten sie einfach einen wirklichen Trumpf im Ärmel. Dürfte aber wohl doch nicht den erwünschten Erfolg gebracht haben... allerdings dann dafür wirklich ein sehr kurzlebiger Versuch. Bedauerlich
 
  • Gefällt mir
Reaktionen: Newbie_9000 und nyster
Konkurrenz ist in diesen Bereichen immer gut. Go AMD Software.

@Volker
Achillesverse bitte korrigieren :)
 
  • Gefällt mir
Reaktionen: SweetOhm und wesch2000
35x :0
IMG_7694.png
 
Höchste Zeit, dass AMD bei der Software gas gibt... vielleicht werden jetzt auch ein paar Kunden deren GPUs für AI Workloads kaufen.
 
Das AI Powern ist herrlich 👌✌️wie sie sich immer wieder überbieten.

Dabei ist die Hardware eigentlich die genialste Kategorie in der ganzen AI Bubble, auch wenn einige Läden, ggf. auch der größte OpenAI weit weniger Rendite Geschäftsmodelle finden als sie wollen, werden die großen AI Ziegelsteine schön fett rumliegen.

Sprich Nvidia, AMD und den paar Brotkrumen Spezialisten ists egal ob die Buden wieder verschwinden oder viel weniger Gewinn rumkommt als gedacht, die Hardware wurde schon längst durch die Finanzspritzen der
Geldgeber bezahlt und eine Retoure gibts nicht 😂
 
  • Gefällt mir
Reaktionen: AlphaKaninchen
@Volker
Woher kommt eigentlich die Info, dass CDNA4 Block FP4/FP6 unterstützen soll? FP6 ist erstaunlicherweise gleich hoch wie FP4 (anders als bei Blackwell). Doch von Block-FPx habe ich nichts gelesen und nichts gehört.

Ich würde es ja cool finden, wenn das AMD bei allen Matrix-FP-Datentypen einführt (TF32, FP16, BF16, FP8, FP6, FP4) doch in der Präsentation scheint es nicht vorzukommen.
 
Zuletzt bearbeitet:
peru3232 schrieb:
Schade dass es mit der APU Variante nicht weiter geht, damit hätten sie einfach einen wirklichen Trumpf im Ärmel.

Die MI300A ist nun Mal auf die klassischen HPC Workloads optimiert. HPC geht halt in der AI-Welle ein bisschen unter.

Für AI-Lasten sind die MI300X und ihre Nachfpger besser geeignet.
aid0nex schrieb:
Inwiefern sind irgendwelche End-Consumer APUs von Belang?
@peru3232 hat sich auf die MI300A bezogen. Die hat mit Konsumer APUs, außer der Bezeichnung APU rein gar nichts gemeinsam.
 
  • Gefällt mir
Reaktionen: SweetOhm, AlphaKaninchen und yummycandy
ETI1120 schrieb:
Die MI300A ist nun Mal auf die klassischen HPC Workloads optimiert. HPC geht halt in der AI-Welle ein bisschen unter.
Und wir wissen immer noch nicht, wie gut MI300A wirklich funktioniert für diesen Einsatzzweck. Bin da sehr gespannt auf die nächste Top500-Liste im November und ob El Capitan es da schon an die Spitze schafft.
 
Waren nicht einige Test Systeme mit der MI3000A schon in den Top 500?

AMD hat momentan keinen Grund Kapazität für einen Nachfolger der MI300 zu verwenden. Es gibt noch einige Maschinen, die mit der MI300A auf gebaut werden. Erst in den letzten Tagen wurde Hunter angeliefert.

Zur Zeit werden alle Problem Stellungen die mit dem klassischen FP64 HPC bearbeitet wurden darauf abgeklopft ob man mit AI Algorithmen nicht besser dran ist.

HPC hat im allgemeinen von der engen Kopplung von GPU und CPU und dem gemeinsamen Speicher stark profitiert. Dies ist bei den AI Algorithmen nicht der Fall.
 
engineer123 schrieb:
Sprich Nvidia, AMD und den paar Brotkrumen Spezialisten ists egal ob die Buden wieder verschwinden oder viel weniger Gewinn rumkommt als gedacht, die Hardware wurde schon längst durch die Finanzspritzen der
Geldgeber bezahlt und eine Retoure gibts nicht 😂
Genau, getreu dem Motto, während des Goldrauschs haben die Schaufelhersteller/Verkäufer den Reibach gemacht.
 
ETI1120 schrieb:
Waren nicht einige Test Systeme mit der MI3000A schon in den Top 500?
Ja, einzelne Racks stehen in der aktuellen Liste. Das sah schon nicht verkehrt aus, zeigte aber noch Optimierungsbedarf. Bei denen war das Verhältnis Rmax/Rpeak nämlich noch deutlich schlechter als bei Frontier (0,61 vs 0,70), eigentlich würde ich da dank der engeren Kopplung aber ein besseres Verhältnis erwarten.

Um diese Werte mal einzuordnen in die Konkurrenz an der Spitze:
Aurora kommt auf miserable 0,51 (Intels Flaggschiff mit Intel GPU Max)
Eagle mit Xeon/H100 auf 0,66
Fugaku auf hervorragende 0,82 (CPU-only System ohne Beschleuniger haben dafür offensichtliche Vorteile)
LUMI schafft 0,72 (gleiche Architektur wie Frontier)
Alps schafft 0,76 (Grace Hopper Superchip und damit das am nächsten vergleichbare System)

Wenn ich mir den Aufbau der jeweiligen Systeme anschaue, ist meine Erwartung an MI300A halt, dass man damit eine Auslastung im Bereich von Alps/Fugaku schaffen sollte. Dafür muss aber durch Optimierungen noch 25% gegenüber diesen frühen Benchmarks herausgeholt werden.

Sollte ein HPC-System mit MI300A in dieser Metrik eine Epyc/Instinct Kombination nicht übertreffen können, müsste man meiner Meinung nach MI300A als gescheitertes Experiment betrachten und dann wäre verständlich, dass man gar nicht erst mit einem Nachfolger rechnen muss (oder zumindest erst nach sehr gründlicher Revision des ganzen)
 
  • Gefällt mir
Reaktionen: SweetOhm und uberLemu
ETI1120 schrieb:
HPC hat im allgemeinen von der engen Kopplung von GPU und CPU und dem gemeinsamen Speicher stark profitiert. Dies ist bei den AI Algorithmen nicht der Fall.
Nvidia ist da etwas anderer Meinung, wenn man sich den GB200 Superchip und NVL72 anschaut. Die sind primär für ML/AI gedacht und da hängt immer eine Grace-CPU an zwei Blackwell-GPUs. Das ist schon eine Abkehr von den 2x CPU + 8x GPU Servern, die momentan standard sind. Die CPU ist via NVLink deutlich näher an die GPU gekoppelt als via PCIe. Und dazu noch zusätzliche 480GByte Speicher, was beim MI300A Ansatz zugegebenermassen aber nicht gegeben ist.


stefan92x schrieb:
Sollte ein HPC-System mit MI300A in dieser Metrik eine Epyc/Instinct Kombination nicht übertreffen können, müsste man meiner Meinung nach MI300A als gescheitertes Experiment betrachten und dann wäre verständlich, dass man gar nicht erst mit einem Nachfolger rechnen muss (oder zumindest erst nach sehr gründlicher Revision des ganzen)
HPL (Linpack) ist ein reiner FP64-Number-Cruncher. Das zeigt die Vorteile des MI300A Konzepts gar nicht auf.
 
CDLABSRadonP... schrieb:
Sehr amüsante Folie, das fand ich auch
Kommt darauf an, was am Ende da gemessen wurde und dann gemessen wird.

Wenn die da ein besonderes LLM haben, dass dann halt die 288 GB benötigt und das auf FP2 statt FP16 arbeitet beim Trainig, ist ein Speedup von 3500 % durchaus drin.

Ist dann aber halt wieder so nen Spezialfall der genau 1 mal auf 1000000 Projekte zutrifft.
 
  • Gefällt mir
Reaktionen: SweetOhm
Zurück
Oben