News AMD Strix Halo: Ryzen AI Max mit bis zu 16 Kernen, 40 CUs und 256 GB/s

Das für mich überraschenste war, dass endlich auch die alte Intel-Bude Dell auf AMD setzt. Schnell, holt mal wer die Kreide, das muss direkt an den Kamin! :D
 
  • Gefällt mir
Reaktionen: M11E, eXe777, HolySkillet und 22 andere
Philste schrieb:
Doch. Du hast gefragt,
NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
 
MaverickM schrieb:
Das für mich überraschenste war, dass endlich auch die alte Intel-Bude Dell auf AMD setzt. Schnell, holt mal wer die Kreide, das muss direkt an den Kamin! :D
Das war eigentlich die größte Hammer für mich in der Präsentation 😅
 
  • Gefällt mir
Reaktionen: M11E, uberLemu, LamaTux und 9 andere
MaverickM schrieb:
Das für mich überraschenste war, dass endlich auch die alte Intel-Bude Dell auf AMD setzt. Schnell, holt mal wer die Kreide, das muss direkt an den Kamin! :D
Und nicht nur das, direkt auf der Bühne. Das muss schon ordentlich geschmerzt haben..
 
  • Gefällt mir
Reaktionen: M11E, Qyxes, fox40phil und 7 andere
dernettehans schrieb:
NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Genau. Es war eindeutig. Und zwar eben so, wie @Philste es verstanden hat.
 
  • Gefällt mir
Reaktionen: Zarlak
"Ryzen AI Max+ Pro", Kann man es noch verwirrender machen?
AMD kombiniert einfach alle Tier Levels vom iPhone.
 
  • Gefällt mir
Reaktionen: KlaasKersting, ChrissKrass und gesperrter_User
dernettehans schrieb:
Das war einfach zu verstehn
weil du nicht verstehst das bei einem 70b lLM model min. 35gb VRAM benötigt werden. Der ryzen Halo kann wegen dem dem hohen VRAM sauber seine Arbeit verrichten. Was eine Rtx4090 nicht kann, da ihr der speicher ausgeht, somit ist sie einfach langsamer obwohl sie vom chip her stärker ist.
 
  • Gefällt mir
Reaktionen: Ralf74, phanter, Qyxes und 11 andere
Den GPU-Vollausbau nur mit einem fetten 16-Kerner im Laptop macht jetzt nicht wirklich den Eindruck das das als Gaming-Lösung gewünscht ist.
 
  • Gefällt mir
Reaktionen: M11E, Qyxes, KlaasKersting und 2 andere
@dernettehans
Nochmals: Wenn das Modell nicht vollständig in den VRAM passt, müssen Weights via PCIe interface aus dem allfälligen System RAM geladen werden, um das Modell überhaupt ausführen lassen zu können. Dadurch geht die Performance (normalerweise in tokens/s gemessen) in den Keller, weil Memory bound (Bandwith starved).
Strix Halo erlaubt also grössere Modelle (durch mehr VRAM) als auch schnellere execution von grossen Modellen, da alles näher bei den eigentlichen Recheneinheiten liegt (direkt via 256GB/s aus dem Unified RAM statt via PCIe teilweise mit 32GB/s (unidirektional) aus dem System RAM mit PCIe4)
 
  • Gefällt mir
Reaktionen: gartenriese, phanter, Qyxes und 12 andere
dernettehans schrieb:
NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Zu wenig Speicher. 24 GB VRAM gehen schnell aus.
 
  • Gefällt mir
Reaktionen: gartenriese, phanter, Qyxes und eine weitere Person
Ich freue mich auf Tests. Das wird ein schöner Mini-PC.
 
  • Gefällt mir
Reaktionen: Qyxes, fox40phil und BlinkBlink
dernettehans schrieb:
NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Und auch hier die erneute Erklärung: Wegen dem (V)Ram und der Größe der verwendeten LLMs die nicht in den Speicher der 4090 passen, das führt dazu das teile des LLMs permanent aus dem System geladen werden müssen und da bringen auch 30000000.. Cuda Kerne mehr nichts.
 
  • Gefällt mir
Reaktionen: Hate01 und Zarlak
dernettehans schrieb:
NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Die 4090 kann das 70B Modell auch berechnen, muss dann aber vom Videospeicher in den Hauptspeicher swappen und wird dadurch viel langsamer, fast 10x langsamer.
 
  • Gefällt mir
Reaktionen: gartenriese, phanter, Hate01 und 3 andere
Speicherbandbreite bei bis zu 256 GByte pro Sekunde liegen. Bisherige APUs hatten und haben exakt diesen Punkt als Schwachstelle.

Strix Point bietet regulär via LPDDR5-7500 96 GByte pro Sekunde als Bandbreite, Strix Halo wäre in diesem Fall also fast dreimal so schnell unterwegs.

* Wie genau AMD das bewerkstelligt hat, verriet der Konzern auf der Pressekonferenz allerdings noch nicht
Ersteinmal hat Strix Point auch an LPDDR5-7500 nicht nur 96GB/s, es müssten bei einem 128Bit-Speicherinterface 120GB/s sein. 96GB/s entsprechen DDR5-6000.
Und dann entsprechen 256GB/s genau LPDDR5-8000 an einem 256Bit-Speicherinterface. Auch Strix Point und Krackan unterstützen offiziell LPDDR5-8000. Den gibt es zwar nirgends, sondern nur LPDDR5-8533, aber dann läuft der wohl gedrosselt.
 
  • Gefällt mir
Reaktionen: Hate01, usb2_2 und CDLABSRadonP...
Btw, was schätzt ihr so was Geräte mit dem juten Dingen kosten? Ich sage mal für die top SKU 3000€ aufwärts, was wohl bedeuten würde, dass der Hype schnell wieder vorbei ist.
 
  • Gefällt mir
Reaktionen: phanter
Patrick.Star schrieb:
"Ryzen AI Max+ Pro", Kann man es noch verwirrender machen?
AMD kombiniert wohl einfach alle Tier Levels vom iPhone.
Ich zitiere dazu einen der besten Kommentare, die ich hier jemals gelesen habe:
incurable schrieb:
"Max" kommt in den Ausführungen "Max", "Mäxchen" und "Maxens kleine Schwester Lilly."
(Kontext war damals allerdings die Intel Data Center GPU Max, Codename Ponte Vecchio.
Technisch würde mich aber sehr interessieren, ob der Ryzen AI Max Pro 380 alias Lilly denn auf das gleiche GPU-IO-DIE setzt wie die größeren Ausführungen oder ein eigenes erhält.
 
  • Gefällt mir
Reaktionen: incurable
Wenn es "nur am RAM" liegen würde, ist der Faktor 2,2 aber viel zu klein. Nach meinen Erfahrungen liegen die Geschwindigkeitsunterschiede eher bei Faktor 7-10. In dem Fall wäre die APU richtig schlecht.
Warten wir ab, bis wir Token/Sekunde sehen.
 
Strix Halo ohne rdna4 und somit ohne fsr 4? Määähhh.... Doch keine eierlegende wollmilchsau
 
  • Gefällt mir
Reaktionen: Erenxbo, Qyxes und fox40phil
Zurück
Oben