News AMD Strix Halo: Ryzen AI Max+ 395 genehmigt sich 96 GB Videospeicher

S.Kara schrieb:
Außerdem bringt das aufgrund der Latenz recht wenig für LLMs.

In dem Fall ist es halt keine Auslagerung sondern ein einzelner Homogener Speicher. Dadurch entsteht das Latenzproblem nicht. Im Gegenteil hat LPDDR gegenüber GDDR Latenzvorteile und ist eher mit HBM vergleichbar.

Je nach Anwendung ergibt ein gemeinsamer Speicher schon viel Sinn. Siehe dazu auch die Nvidia ML APUs.

@zeedy

Dann kann man auch direkt GPU und CPU separieren. Ist günstiger und der Vorteil des geteilten Speicherpools ist dann eh pfutsch.
 
  • Gefällt mir
Reaktionen: Zarlak und Tzk
Botcruscher schrieb:
Das ist untere Mittelklasse.
Bei dGPUs vielleicht. Als APU ist das Teil ein Monster.

zeedy schrieb:
Der Speichercontroller der CPU soll dann ebend ganz normal nur auf LPDDR5 zugreifen.
Dann hast du wieder zwei Adressräume und nicht einen großen gemeinsamen Speicher. Das frisst Platz und Strom. Beides hast du mobil nicht.

Bruhtang schrieb:
In dem Fall ist es halt keine Auslagerung sondern ein einzelner Homogener Speicher.
This. Und das ist genau der Vorteil einer APU. Mit einer klassischen CPU+dPGU Kombi und ausgelagertem Ram hat das nix zu tun... Welche andere GPU bietet 96gb Vram bei ~200gb/s? Die APU ist perfekt für LLM Training.
 
  • Gefällt mir
Reaktionen: Zarlak
ChrisM schrieb:
verlötet auf ITX von Minisforum
Jep, dazu ein kleines DC-Netzteil und einen schönen Kühler, fertig ist kleine Kästchen für alle Fälle. So ein bisschen schwach könnte ich da schon werden...
 
  • Gefällt mir
Reaktionen: cele
Da ich die Heimcomputer der 80er Jahre vermisse finde ich APUs toll.
Klar, auf Aufrüstbarkeit muss verzichtet werden, aber irgendwie feiere ich die Vorstellung, dass Heimcomputer zurückkommen. Am Besten eingebaut im Keyboard^^
 
KarlsruheArgus schrieb:
Der 395er mit 96GB RAM in einem Mini PC als Workstation.:jumpin:
Ich bin auch schon ganz neugierig drauf. Nur bitte nicht sehr zu mini sodass wir eine leise Kühlung haben können. Vielleicht sehen wir ja auch irgend ein chinesisches ITX Board damit, dann kann man sich selbst etwas zusammen stellen :jumpin:
 
  • Gefällt mir
Reaktionen: KarlsruheArgus
Botcruscher schrieb:
Mir ist klar auf was du beim Formfaktor hinaus willst aber ohne GPU werden die Lanes jetzt nicht so schnell limitieren.
Da keine externe GPU benötigt wird, hat AMD die Anzahl der PCIe Lanes schon reduziert.
 
Tharan schrieb:
Jep, dazu ein kleines DC-Netzteil und einen schönen Kühler, fertig ist kleine Kästchen für alle Fälle. So ein bisschen schwach könnte ich da schon werden...

Für mich wäre das ein netter ITX PC für den heißen Sommer wo man keinen großen PC nutzen will der nur den Raum aufheizt. :)
 
zeedy schrieb:
Der Speichercontroller der CPU soll dann ebend ganz normal nur auf LPDDR5 zugreifen.
Bei SoCs ist es üblich, dass Daten zwischen CPU, GPU und anderen Co-Prozessoren per Zero-Copy "verschoben werden". Daher anstatt Daten zwischen den Speicherbereichen der Systeme wirklich zu kopieren wird nur übermittelt: Ab Speicheradresse X und die kommenden Y Byte gehört dir jetzt der Speicher. Das bietet massive Vorteile bei Latenz und Durchsatz zwischen den Komponenten und nennt sich "unified Memory". Das geht aber nur mit einer homogenen Speicherarchitektur über Alles.
 
  • Gefällt mir
Reaktionen: zeedy und Zarlak
DevPandi schrieb:
Wozu muss der Speicher auf das Package, damit es Spaß macht? Die "Nähe" zum Chip hat in der Regel nur bedingt Auswirkungen auf die Latenz, eher auf die theoretische Bandbreite, was an LPDDR5X maximal unterstützt wird, primär profitiert eher die Effizienz.
Die Latenz kommt im wesentlichen vom RAM-Typ.

Die SRAMs die früher in DIL-Bauform als externer Cache auf den Mainboards waren hatten 15ns.

https://www.mouser.de/c/semiconductors/memory-ics/sram/?access time=15 ns&package / case=PDIP-28&supply voltage - max=5.5 V
https://upload.wikimedia.org/wikipedia/commons/e/ef/External_Cache_486x.jpg
 
Hmm, wenn der Speicher eh verlötet ist hätte man auf die CPU besser 32-64 GB GDDR6 packen sollen und aufs Board dann noch zwei SO-Dimm slots zum selbst befüllen deren Speicher bei Bedarf auchnoch vom GPU Teil der APU mitgenutzt wird.
Man hätte dann ne APU mit schnellem und langsamen Speicher, also quasi sowas wie ne GTX 970 xD
 
zeedy schrieb:
Der Speichercontroller der CPU soll dann ebend ganz normal nur auf LPDDR5 zugreifen.
Das wären dann 2 Speicherkontroller und zwei getrennte Speicher. Eine ganz schlechte Lösung.

Teuer und zerstört den Vorteil eines kompakten Designs.

Ein 256 Bit Speicher Interface mit LPDDR-85XX hat zusammen mit dem System Level Cache mehr als genug Bandbreite für Full HD
 
  • Gefällt mir
Reaktionen: Bigfoot29 und Zarlak
Genauso sieht es aus mit den CU Modulen können da 135 MT/s aktuell erreicht werden - das liegt im Bereich einer 7900 XT
 
D0m1n4t0r schrieb:
Hmm, wenn der Speicher eh verlötet ist hätte man auf die CPU besser 32-64 GB GDDR6 packen sollen und aufs Board dann noch zwei SO-Dimm slots zum selbst befüllen deren Speicher bei Bedarf auchnoch vom GPU Teil der APU mitgenutzt wird.
Man hätte dann ne APU mit schnellem und langsamen Speicher, also quasi sowas wie ne GTX 970 xD
Hast Du Dir Mal angesehen wir viel Platz 16 bis 32 GDDR6 Chips benötigen?

GDDR6 ist für die CPU nicht geeignet.

Ein zweites Speicher Interface treibt die Kosten.

Eine APU ergibt nur in einem kompakten Design mit eingeschränktem Power Budget einen Sinn. Für ein solches Gerät ergibt nur LPDDR einen Sinn.
 
  • Gefällt mir
Reaktionen: Zarlak und guzzisti
zeedy schrieb:
Der Speichercontroller der CPU soll dann ebend ganz normal nur auf LPDDR5 zugreifen.
Der große Vorteil von Strix Halo ist eben, dass CPU und GPU sich den Speicher teilen. Die CPU kann Daten aufbereiten im RAM und dann für die GPU zur Verwendung makieren. Die GPU vernwedet die Daten dann, kann sie ihrer Seits aber wieder der CPU frei geben.

Das erhöht zum einen die Effizienz, da Daten wirklich nur noch einmal vorliegen und maximal im Bedarfsfall kopiert werden. Zum anderen beschleunigt es auch die Berechnungen, weil CPU und GPU unmittelbar die die Daten zugreifen können, wenn es notwendig ist.
foofoobar schrieb:
Die Latenz kommt im wesentlichen vom RAM-Typ.
foofoobar schrieb:
Die SRAMs die früher in DIL-Bauform als externer Cache auf den Mainboards waren hatten 15ns.
Was du schreibst, ist mir weitgehend bekannt und in den Grundlagen auch richtig, aber nur die Grundebene, was die heutigen Latenzen angeht.

Weit aus mehr Auswirkung auf die Latenz von Chips - beim RAM - hat heute die Art und Weise, wie man die RAM-Chips anspricht und wofür man diese auslegt. Während die einzelnen Zellen bei GDDR6, HBM und DDR5 - sowie LPDDR5X - auf ähnliche Latenzen kommen, ist der "Controller", der die einzelnen RAM-Zellen zu einem RAM-Chip macht, der treibende Latenzfaktor. GDDR6 und GDDR7 werden auf Bandbreite getrimmt, dafür opfert man an der Stelle dann Latenz.

Wobei man an der Stelle etwas "genauer" sein muss: Es geht an der Stelle darum, bis "ein" bestimmtes Datenpakt angekommen ist, dass angefragt wurde.
D0m1n4t0r schrieb:
Hmm, wenn der Speicher eh verlötet ist hätte man auf die CPU besser 32-64 GB GDDR6 packen sollen und aufs Board dann noch zwei SO-Dimm slots zum selbst befüllen deren Speicher bei Bedarf auchnoch vom GPU Teil der APU mitgenutzt wird.
Nein, ist es nicht und eure Vorschläge sind weitgehend Komplexitätsmonster, die am Ende sogar Leistung kosten würden.
 
  • Gefällt mir
Reaktionen: Bigfoot29, ILoveShooter132, Zarlak und 3 andere
Nazrael schrieb:
Die Dinger werden verlötet und können nicht auf'n Desktopsockel angebracht werden,
Man kann von den "Dingern" auch eine gesockelte Version raus bringen, wenn man dafür einen Markt sieht... Man müsste halt nur zwei von vier Speichercontrollern deaktivieren, wenn man auf AM5 gehen möchte, also 128 bit-Anbindung, statt 256-bit Anbindung.

Nazrael schrieb:
da hier dann der enorme Flaschenhals der Speicherbandbreite die Leistung völlig ausbremst. Darum sind aktuelle Desktop-APUs auch nur mit sehr wenigen CUs augestattet, es bringt schlicht nix da mehr drauf zu hauen.
Die aktuellen APUs haben alle kein "Mall-Cache/Infinity-Cache. Erinnert sich noch jemand an die Radeon RX6500XT mit 16 MB Infinity-Cache mit einem 64 bit Speichercontroller mit GDDR6? Die Bandbreite entspricht ungefähr dem, was man mit DDR5 auf 128-bit-Speicherinterface rausbekomt

https://www.computerbase.de/2022-02/amd-radeon-rx-6500-xt-review-test/

Wenn man also das Grafik-IO/Chiplet auf 28CU für das 8-Kern-Modell und Dual-Channel DDR5 6400 beschneidet, dann bekommt man in etwa die Raster-Leistung, die zwischen RX 6600 und RX6500 liegt, also oberhalb der RX5500.

1726831123757.png


Die RX6500XT hat auch an den nur mageren 4 GB stark gelitten, das hat man auch daran gesehen, dass diese um 30 Prozent an Leistung einbüßte, wenn man sie nur mit PCIe 3.0 laufen ließ, das heißt, viele Speicherzugriffe über 4GB gingen über PCIe auf den Arbeitsspeicher...

Mit FSR 3,x könnte die IGPU also mehr Leistung bringen also die RX6600 mit FSR bringen kann und die RX6600 ist für Full-HD eine Gaming-Taugliche Einsteigergrafikkarte, nur der RAM ist knapp, aber das Problem hat die IGPU ja auch nicht.

Na-ja und die 12- und 16-Kerner kann man auch mit mehr CUs ausstatten und die CUs entsprechend niedrieg takten lassen für mehr Effizienz. Immer wenn die Bandbreite nicht limitiert, würde da also auch noch mehr gehen... Auserdem wäre es möglich die APU auch auf den Sockel vom Threadripper zu bringen, der Sockel hat nämlich vier Speicherkanälle. Dort dann aber nicht fürs Gaming, sondern für KI-Gedönz.... Oder einfach als günstigere Variante zu aktuellen Threadrippern mit 16 Kernen, weil der I/O-Die, trotz IGPU kleiner sein wird, als der aktuelle bei den Threadrippern, die ja den I/O-Die vom Epic mit vier deaktivierten Speichercontrollern haben...
 
Zuletzt bearbeitet:
So eine APU klingt so unglaublich, das ich nicht weiß wie ich es einordnen soll.
Einerseits will ich mich freuen, anderseits glaube ich es erst wenn ich es in Produkten sehe.
Es sind schon so viele tolle Konzepte in den Schubladen versauert, weil kein Implementierungspartner das Risiko eingehen wollte.
 
Ich habe einen AMD 1800x und eine GTX 1070Ti.
Die CPU wäre sicherlich besser, aber wie müsste man die Grafikeinheit zur 1070Ti einordnen?
Also mit meinem aktuellen System bin ich immer noch zufrieden. Ich spiele nur auf Wqhd. Wenn das ding mindestens gleichwertig ist, dann finde ich die Kombination auch interessant.
Für alle die keine High End Grafik fordern, würde sich so eine extra Grafikkarte erspart bleiben. Bei den Preisen, rechnet sich das. Wenn sich das zusätzlich noch auf strom und abwärme positiv auswirkt, dann fühle ich solche Systeme.
 
Wieso nicht sowas?
Monster-APU.jpg
 
  • Gefällt mir
Reaktionen: Convert
Weil es keine so kleinen GDDR6 Chips und SO-DIMMs gibt.

Und weil es viel zu teuer ist.

Wenn Du Grafik Power willst musst Du Dir eben eine dGPU holen.
 
  • Gefällt mir
Reaktionen: Bigfoot29 und Zarlak
Zurück
Oben