Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
News AMD Strix Halo: Ryzen AI Max mit bis zu 16 Kernen, 40 CUs und 256 GB/s
- Ersteller Volker
- Erstellt am
- Zur News: AMD Strix Halo: Ryzen AI Max mit bis zu 16 Kernen, 40 CUs und 256 GB/s
dernettehans
Lt. Commander
- Registriert
- März 2021
- Beiträge
- 1.422
NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.Philste schrieb:Doch. Du hast gefragt,
ATIst
Lt. Junior Grade
- Registriert
- Feb. 2006
- Beiträge
- 301
Das war eigentlich die größte Hammer für mich in der Präsentation 😅MaverickM schrieb:Das für mich überraschenste war, dass endlich auch die alte Intel-Bude Dell auf AMD setzt. Schnell, holt mal wer die Kreide, das muss direkt an den Kamin!
Giana
Lt. Junior Grade
- Registriert
- Aug. 2007
- Beiträge
- 277
Da hast du dich verrechnet, 7,5GHz x 16 Bytes sind 120 GByte/s.Volker schrieb:Strix Point bietet regulär via LPDDR5-7500 96 GByte pro Sekunde als Bandbreite
pipip
Fleet Admiral
- Registriert
- Jan. 2011
- Beiträge
- 11.444
Und nicht nur das, direkt auf der Bühne. Das muss schon ordentlich geschmerzt haben..MaverickM schrieb:Das für mich überraschenste war, dass endlich auch die alte Intel-Bude Dell auf AMD setzt. Schnell, holt mal wer die Kreide, das muss direkt an den Kamin!
pipip schrieb:Das muss schon ordentlich geschmerzt haben..
CDLABSRadonP...
Commodore
- Registriert
- Feb. 2021
- Beiträge
- 4.319
Genau. Es war eindeutig. Und zwar eben so, wie @Philste es verstanden hat.dernettehans schrieb:NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Patrick.Star
Cadet 4th Year
- Registriert
- Apr. 2017
- Beiträge
- 105
"Ryzen AI Max+ Pro", Kann man es noch verwirrender machen?
AMD kombiniert einfach alle Tier Levels vom iPhone.
AMD kombiniert einfach alle Tier Levels vom iPhone.
Northstar2710
Admiral
- Registriert
- Aug. 2019
- Beiträge
- 7.506
weil du nicht verstehst das bei einem 70b lLM model min. 35gb VRAM benötigt werden. Der ryzen Halo kann wegen dem dem hohen VRAM sauber seine Arbeit verrichten. Was eine Rtx4090 nicht kann, da ihr der speicher ausgeht, somit ist sie einfach langsamer obwohl sie vom chip her stärker ist.dernettehans schrieb:Das war einfach zu verstehn
- Registriert
- März 2009
- Beiträge
- 382
@dernettehans
Nochmals: Wenn das Modell nicht vollständig in den VRAM passt, müssen Weights via PCIe interface aus dem allfälligen System RAM geladen werden, um das Modell überhaupt ausführen lassen zu können. Dadurch geht die Performance (normalerweise in tokens/s gemessen) in den Keller, weil Memory bound (Bandwith starved).
Strix Halo erlaubt also grössere Modelle (durch mehr VRAM) als auch schnellere execution von grossen Modellen, da alles näher bei den eigentlichen Recheneinheiten liegt (direkt via 256GB/s aus dem Unified RAM statt via PCIe teilweise mit 32GB/s (unidirektional) aus dem System RAM mit PCIe4)
Nochmals: Wenn das Modell nicht vollständig in den VRAM passt, müssen Weights via PCIe interface aus dem allfälligen System RAM geladen werden, um das Modell überhaupt ausführen lassen zu können. Dadurch geht die Performance (normalerweise in tokens/s gemessen) in den Keller, weil Memory bound (Bandwith starved).
Strix Halo erlaubt also grössere Modelle (durch mehr VRAM) als auch schnellere execution von grossen Modellen, da alles näher bei den eigentlichen Recheneinheiten liegt (direkt via 256GB/s aus dem Unified RAM statt via PCIe teilweise mit 32GB/s (unidirektional) aus dem System RAM mit PCIe4)
Zu wenig Speicher. 24 GB VRAM gehen schnell aus.dernettehans schrieb:NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Col. Jessep
Lt. Junior Grade Pro
- Registriert
- Okt. 2017
- Beiträge
- 488
Ich freue mich auf Tests. Das wird ein schöner Mini-PC.
Nazrael
Ensign
- Registriert
- Juli 2024
- Beiträge
- 201
Und auch hier die erneute Erklärung: Wegen dem (V)Ram und der Größe der verwendeten LLMs die nicht in den Speicher der 4090 passen, das führt dazu das teile des LLMs permanent aus dem System geladen werden müssen und da bringen auch 30000000.. Cuda Kerne mehr nichts.dernettehans schrieb:NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Die 4090 kann das 70B Modell auch berechnen, muss dann aber vom Videospeicher in den Hauptspeicher swappen und wird dadurch viel langsamer, fast 10x langsamer.dernettehans schrieb:NEIN. Ich fragte, und es war eindeutig: Wieso sollte das Ding so viel mehr LEISTUNG haben LLMs zu berechnen als eine RTX4090 mit einem vielfachen an Cuda Kernen, mit DEUTLICH GERINGERER LEISTUNGSAUFNAHME, bei deutlichem langsameren Speicher!? Das war einfach zu verstehn.
Ersteinmal hat Strix Point auch an LPDDR5-7500 nicht nur 96GB/s, es müssten bei einem 128Bit-Speicherinterface 120GB/s sein. 96GB/s entsprechen DDR5-6000.Speicherbandbreite bei bis zu 256 GByte pro Sekunde liegen. Bisherige APUs hatten und haben exakt diesen Punkt als Schwachstelle.
Strix Point bietet regulär via LPDDR5-7500 96 GByte pro Sekunde als Bandbreite, Strix Halo wäre in diesem Fall also fast dreimal so schnell unterwegs.
* Wie genau AMD das bewerkstelligt hat, verriet der Konzern auf der Pressekonferenz allerdings noch nicht
Und dann entsprechen 256GB/s genau LPDDR5-8000 an einem 256Bit-Speicherinterface. Auch Strix Point und Krackan unterstützen offiziell LPDDR5-8000. Den gibt es zwar nirgends, sondern nur LPDDR5-8533, aber dann läuft der wohl gedrosselt.
CDLABSRadonP...
Commodore
- Registriert
- Feb. 2021
- Beiträge
- 4.319
Ich zitiere dazu einen der besten Kommentare, die ich hier jemals gelesen habe:Patrick.Star schrieb:"Ryzen AI Max+ Pro", Kann man es noch verwirrender machen?
AMD kombiniert wohl einfach alle Tier Levels vom iPhone.
(Kontext war damals allerdings die Intel Data Center GPU Max, Codename Ponte Vecchio.incurable schrieb:"Max" kommt in den Ausführungen "Max", "Mäxchen" und "Maxens kleine Schwester Lilly."
Technisch würde mich aber sehr interessieren, ob der Ryzen AI Max Pro 380 alias Lilly denn auf das gleiche GPU-IO-DIE setzt wie die größeren Ausführungen oder ein eigenes erhält.
Wenn es "nur am RAM" liegen würde, ist der Faktor 2,2 aber viel zu klein. Nach meinen Erfahrungen liegen die Geschwindigkeitsunterschiede eher bei Faktor 7-10. In dem Fall wäre die APU richtig schlecht.
Warten wir ab, bis wir Token/Sekunde sehen.
Warten wir ab, bis wir Token/Sekunde sehen.
Ähnliche Themen
- Antworten
- 136
- Aufrufe
- 12.509
- Antworten
- 100
- Aufrufe
- 11.013
- Antworten
- 103
- Aufrufe
- 6.838
- Antworten
- 155
- Aufrufe
- 19.855