News AMD Strix Halo: Ryzen AI Max mit bis zu 16 Kernen, 40 CUs und 256 GB/s

ghecko schrieb:
Ach, die Dinger sind DC? Na mal sehen ob sich ein Hersteller erbarmt. Unter 64GB macht bei Strix Halo aber keinen Sinn, kp ob es solche Module gibt.
LPDDR Packages gibt es momentan bis 16 GByte. Auf ein LPCAMM2 Modul passen 4 Stück, das sind Momentan maximal 64 GByte. Micron hat im Katalog zwei Packages mit 24 GByte und 8533 MTps, eines in Produktion eines in Einführung. Wenn man die auf LPCAMM2 packt ergäbe es 96 Gbyte.

IMO ist der Platzverbrauch bei LPCAMM2 ist nur bei extrem kompakten Geräten ein Problem. Und da ist es weniger die Fläche an sich als die festgeschriebene Form.
1736612601584.png

Micron link im text

LPCAMM2 hängt zumindest bei bisher eine Geschwindigkeitsstufe hinter den LPDDR5X Packages hinterher.

Northstar2710 schrieb:
nur wenn strix halo mehr speicher unterstützt bei gleicher geschwindigkeit. Das ist ja eher häufig das Problem.
Bei den DIMMs ist die Signalführung erheblich kririscher als bei LPCAMM2. Es muss also nicht sein dass solche Probleme auch bei LPCAMM2 auftreten.

Ich bin ziemlich enttäuscht wie wenig mit LPCAMM2 angeboten wird. Vielleicht liegts daran: Am 31. Oktober hat JEDEC den "PS-007A LPDDR5 CAMM2 Connector Performance Standard" veröffentlicht. Hat etwas gefehlt, um breit flächig LPCAMM2 zu verwenden?

Übrigens wird wohl im Laufe des März der Standard für LPDDR6 veröffentlicht. Am 8. April veranstaltet das JEDEC einen Workshop zu LPDDR6.
 
Was genau Unterstützt Strix Halo eigentlich alles? Ich sehe das Teil nicht nur zum Gamen. Z.b. das Z13 von Asus sieht ja prächtig im Gaming Bereich aus, aber mich würde interessieren welche sie sich auch in Typischen Grafik Software wie Blender, Photoshop, Unity usw schlägt. Welche Features werden unterstützt?
Das Teil ist für mich persönlich das spannendes an der ganzen CES gewesen.
 
Naja, alles was auch RDNA3 generell schon unterstützte.

Performance würde ich mehr oder weniger knapp unter einer RX 7600 vermuten.
Die hat zwar nur 32 CUs, dafür aber etwas mehr Bandbreite und darf bis 165W, wodurch sie sicherlich höher takten wird.
 
  • Gefällt mir
Reaktionen: ETI1120 und Cabranium
Powl_0 schrieb:
Die hat zwar nur 32 CUs, dafür aber etwas mehr Bandbreite und darf bis 165W, wodurch sie sicherlich höher takten wird.
40 vs 32 CU und Strix Halo wird in einer besseren Fertigung produziert. Da könnte man trotz kleinerer TDP näher an der 7600 liegen oder sogar darüber, denn die Effizienz dürfte so deutlich besser sein.
 
Ich hoffe diese Apu wird für AMD so ein erfolg, das es dort auch einen Nachfolger gibt. Sicher ist das hier nicht in erster linie für Gamer gedacht und jeder desktop pc mit dgpu ist PL technisch besser zum Zocken. Dennoch finde ich diesen weg sehr gut. Und hoffe dort auf mehr inovation, währe auch schön wenn es soetwas auch irgendwann für den Desktop geben würde.
 
stefan92x schrieb:
könnte man trotz kleinerer TDP näher an der 7600 liegen oder sogar darüber
Möglich, bin aber lieber konservativ. Max 120W, davon gehen bei Last mindestens 15W für CPU und SoC ab. 105W vs 165W ist auch mit 4nm Fertigung sportlich knapp. Und je nach OEM niedriger, AMD gibt 54W min TDP an. Ich vertraue den großen Marken da nicht, konsequent gute Designs zu konfigurieren...

Ob die 8060S Infinity Cache bekommt ist auch fraglich, ohne wird sie zumindest mit steigender Auflösung schlecht skalieren.

Wenn wir Pech haben, gibt es wieder nur ein paar Einhörner, die mit voller TDP und vollem RAM Ausbau kommen.
 
  • Gefällt mir
Reaktionen: ETI1120 und stefan92x
Cabranium schrieb:
Wird über HIP / ROCm unterstützt. Nicht ganz so performant wie CUDA oder gar OptiX, aber ich hoffe, das die Devs sich darum bemühen, mit der vorhandenen RT-Hardware was anzufangen.
Cabranium schrieb:
Wird unterstützt, in wie weit PS die AI-Hardware nutzt hab ich keinen Überblick.
Cabranium schrieb:
Wie auf den normalen Desktop-AMD Karten: voller Support.
 
  • Gefällt mir
Reaktionen: Cabranium
Powl_0 schrieb:
Möglich, bin aber lieber konservativ. Max 120W, davon gehen bei Last mindestens 15W für CPU und SoC ab.
Es gab im September ein Leak zum Asus ROG Flow Z13 2025, das sich jetzt als weitgehend authentisch erweist.

Die Grafiken sind von @9550pro und TPU. Der Link den @9550pro zeigt, hat schon Anfang August nicht mehr funktioniert.

1736687921666.png

Da waren einige interssanten Folien dabei.
1736687810835.png

1736688098156.png

Powl_0 schrieb:
105W vs 165W ist auch mit 4nm Fertigung sportlich knapp. Und je nach OEM niedriger, AMD gibt 54W min TDP an. Ich vertraue den großen Marken da nicht, konsequent gute Designs zu konfigurieren...
Je niedriger die TDP desto interessanter wird IMO Strix Halo. Wenn es nur um maximale Frames geht ist IMO eine APU keine Option.

IMO verlieren die APUs immer gegen vergleichbare dGPUs derselben Generation, wenn man ein hohes Powerlimit setzt. Bei den bisherigen APUs war im Grund schon 65 W zu viel.

Deshalb ist IMO das ROG Flow Z13 2025 genau das passende Gerät für Strix Halo. Aber nur dann wenn AMD die Leistungsaufnahme bei niedriger Last im Griff hat.

Powl_0 schrieb:
Ob die 8060S Infinity Cache bekommt ist auch fraglich, ohne wird sie zumindest mit steigender Auflösung schlecht skalieren.
Das wurde in den Leaks ständig behauptet. Ebenso dass es einen Cluster mit LP CPU Kernen gäbe. und das Strix Halo Advanced Packaging verwendet. Advanced Packaging ist nun offensichtlich, bleibt die Frage welche genau.

Bei der Vorstellung von Strix Halo auf der CES hat AMD keinen Infinity Cache explizit gezeigt. Es wurden allerdings einige hervorgehobene Flächen nicht erklärt. Da ich von solchen Dingen keine Ahnung habe halte ich mit weitgehend Mutmassungen zurück.

1736686615084.png

1736686539735.png

1736686799112.png

1736686832931.png


1736691174071.png

Wo ich mich vorwage ist, sind die roten Pfeile. IMO ist das ein Hinweis dass das Strix Halo IOD 4 IF Linx haben könnte.
 
  • Gefällt mir
Reaktionen: Piktogramm und Powl_0
Den 385 könnte ich mir gut in meinem passiven Cirrus 7 bei 45-65W vorstellen.
Da werkelt aktuell ein 4650 bei 65W drin
 
Taxxor schrieb:
Den 385 könnte ich mir gut in meinem passiven Cirrus 7 bei 45-65W vorstellen.

Falls es ein MB gibt, welches ins Cirrus 7 paßt... I WANT ONE!
 
  • Gefällt mir
Reaktionen: uberLemu, TerenceShill und stefan92x
Ich finde diese Zusammenfassung des Interviews sehr mau. Das Lesen ist eigentlich Zeitverschwendung.
Die Zusammenfassung von TPU ist erheblich besser.

Das Interview selbst ist Klasse:
Youtube:
Transcript: https://old.chipsandcheese.com/2025/01/13/amds-strix-halo-under-the-hood/

Ich bin ganz glücklich, dass ich dieses Mal nicht so daneben gelegen habe, wie beim 9800X3D.
AMD verwendet als Advanved Packaging Technologie Fanout, so wie bei Navi 31 und Navi 32.

Mit FanOut kann AMD viel mehr Verbindungen zwischen CCD und IOD realisieren als bei den Desktop Ryzen. AFAUI werden bei Strix Point die internen Netzwerke von IOD und CCD direkt miteinenander verbunden. Beim Desktop Ryzen müssen diese breiten interen Verbindungen auf wenige Leitungen zusammengefasst werden. das geschieht AFAIU in den SERDES und dies kostet Zeit, d. h. erhöht die Latenz.

Diese schmalen Verbindungen bei den Desktop Ryzen müssen, um dieselbe Bandbreite (32 Byte je Zyklus) übertragen zu können erheblich höher getaktet werden. Als Größenordnung nennt Mahesh Subramony 20 GHz bei den Desktop Ryzen und 1 bis 2 GHz bei Strix Point.

Mahesh Subramony reisst auch an, wieso die GMI Links bei den Desktop Ryzen nicht herunter gefahren werden können.

Was aber beide Zusammenfassungen nicht erwähnen:
AMD hat in Strix Halo 32 MByte Infinty Cache (MALL) eingebaut. Der MALL wird momentan ausschließlich von der CPU genutzt. Aber AMD könnte dies durch anpassen der Firmware ändern.

Cool fand ich auch den Spruch von Mahesh Subramony "Thread Ripper put in the the palm", das bezieht sich natürlich auf die Speicherbandbreite, nicht auf die Kerne.
 
  • Gefällt mir
Reaktionen: uberLemu
ETI1120 schrieb:
Mit FanOut kann AMD
"FanOut" ist keine konkrete, neue Technologie, das ist einfach eine Bezeichnung dafür, dass man bei Chips mit BGA oder anderweitig dichter Packung an Kontakten die kontaktierenden Leiterbahnen auffächern muss, um irgendwas sinnvolles damit erreichen zu können[1][2]. Beim Verpacken von Chips ist es dann [3] und ein alter Hut. Chip auf (organischen) Die Carrier packen und die Kontaktdichte soweit auffächern, dass das Paket sinnvoll über Sockel oder gröbere BGA-Raster angeschlossen werden können.

[1]https://www.electronicsforu.com/technology-trends/learn-electronics/fanout-pcb-layout-design
[2] Unter "Fanout" wäre auch https://en.wikipedia.org/wiki/Fan-out was aber in dem Kontext kein Sinn ergibt.
[3] https://en.wikipedia.org/wiki/Fan-out_wafer-level_packaging

ETI1120 schrieb:
Beim Desktop Ryzen müssen diese breiten interen Verbindungen auf wenige Leitungen zusammengefasst werden. das geschieht AFAIU in den SERDES und dies kostet Zeit, d. h. erhöht die Latenz.
Das müssen sie auch immer noch, es wird keine Aussage getroffen, dass da groß am BUS/Protokoll Änderungen vorgenommen wurden (das wäre ein kompletter Respin vom CCD der da fällig wäre). Leider wird das Ganze im Interview sehr ungenau. Aber bei allem was er beschreibt klingt es für mich einfach so, als würde hier GMI3w zum Einsatz kommen wie bei Turin[4]. Also zwei GMI Links je Richtung mit je 32B/Takt. Desktop Ryzen im Vergleich hat 1GMI Link je Richtung und das mit 32B/Takt lesend und 16B/Takt schreibend.
Und zusammengefasst werden müssen Daten sowieso. InfinityFabric ist mit PCIe verschwägert und die Übertragung damit seriell[5] und paketbasiert. Wie Techpowerup darauf kommt, dass keine Serialisierung stattfindet ist mir ein Rätsel.
Wenn es wirklich zwei Links je Richtung und CCD sind, dann gibt es schlicht mehr Bandbreite und potentiell weniger Konkurrenz bei Zugriffen und dadurch geringer Latenzen.
[4] https://chipsandcheese.com/p/amds-turin-5th-gen-epyc-launched
[5] Naja, seriell-parallel, da mehrere serielle Verbindungen parallel genutzt werden. Auch hier, Vergleich mit PCIe

ETI1120 schrieb:
Als Größenordnung nennt Mahesh Subramony 20 GHz bei den Desktop Ryzen und 1 bis 2 GHz bei Strix Point.
Nichts taktet bei AMD mit 20GHz. Allenfalls sind das Gigatransfers in der s (GT/s) auf einem Leitungspaar.

ETI1120 schrieb:
Der MALL wird momentan ausschließlich von der CPU genutzt.
MALL ist exklusiv für die GPU und er führt an, dass die MediaEngine oder Vergleichbares auch Zugriff erhalten könnte. Wobei die MALL kohärent ist, was nicht sonderlich verwundert da seit Intel Sandybridge und den ersten AMD APUs Unified Memory genutzt wird. GPU, CPU etc. verwenden tendenziell die selben Speicherbereiche und Konflikte müssen also über alle Cachebenen abgehandelt werden.
Ergänzung ()

o8fTKzZg4LzwrEPN.jpg

https://www.techpowerup.com/img/o8fTKzZg4LzwrEPN.jpg
xnHJeLERLtpzpqPm.jpg

https://www.techpowerup.com/img/xnHJeLERLtpzpqPm.jpg

CCD und IOD vom AM4 Zen4. Das IOD hat so viele IFOP PHY wie das CCD, das IOD muss aber auf AM5 bis zu zwei CCD anbinden. Also haben die Zen5 CCDs (und wahrscheinlich Zen4 auch) nur eine halb so breite Anbindung wie möglich bzw. geviertel in Schreibrichtung.
 
Zuletzt bearbeitet:
Piktogramm schrieb:
Beide haben nichts mit dem Wafer Level Fanout zu tun von dem hier die Rede ist.

Piktogramm schrieb:
Beim Verpacken von Chips ist es dann [3] und ein alter Hut.
Manche Verfahren brauchen eben eine Weile bis breiter eingesetzt werden. Mit großen Dies und großen Packages wie beim Apple M4 ist Wafer Level Fanout nicht trivial. AMD setzt Fanout bereits bei Navi 31 und 32 ein und in der Kombination mit Siliziumbrücken (Elevated Fanout Bridge) bei der MI250X.

Falls Du knapp 20 Minuten Zeit hast, ist das eine gute Einführung:

Es zeigt auch die größte Herausforderung: Verformung.

Das ist der Punkt bei dem Glas Interposer ins Spiel kommen. Auch diese verwenden dünne Polymerfolien als Träger und Isolatoren zwischen den Leiterbahnschichten (RDL).

Bei TSMC gibt es FanOut als InFO-oS/-R (Chip-Last) oder als CoWoS-R (Chip-First).

Piktogramm schrieb:
Nichts taktet bei AMD mit 20GHz. Allenfalls sind das Gigatransfers in der s (GT/s) auf einem Leitungspaar.

https://old.chipsandcheese.com/2025/01/13/amds-strix-halo-under-the-hood/
George Cozma: It’s not the point of coherency and speaking to again to the data fabric, are you seeing any clock speed benefit from the fact that it’s just a sea of wires connecting the CPU to the SOC tile?

Mahesh Subramony: We are able to get power benefits. Because prior to that, we had a GMI PHY that lived in there and that consumed a whole lot of power in order to be able to send this over high frequencies over short distances. Here we are clocking it at a way less than the 20 gigs that the GMI was being clocked at. This is anywhere between, you know, one to two gigahertz. You know, really clock rate match to the data fabric itself. So there is no asynchronous interface here where you have to pay a whole lot. It’s just mapped to directly the fabric. So at a lower voltage, you are able to because we used a sea of wires, you are able to get that that high bandwidth to match it. We spend the area in terms of the wires that need to come through but we’re able to clock it at a meaningfully lower speed so you get the power benefit.

Mahesh Subramony sagt "we had a GMI PHY", ich und wohl auch TPU verstehen es so, dass es beim Strix Halo IOD nicht mehr da ist, weil der niedrig getaktete, breite interne Bus durch das Fanout geführt wird und damit die Fabrics beider Dies direkt verbindet.

Die Zen 4 CCDs, die bei der MI300 eingesetzt werden, haben eine andere Metallisierung als die Zen 4 CCDs, die bei Ryzen und EPYC eingesetzt werden. Hier wird etwas ähnliches passieren. Schauen wir Mal was AMD noch preisgibt.

Piktogramm schrieb:
MALL ist exklusiv für die GPU und er führt an, dass die MediaEngine oder Vergleichbares auch Zugriff erhalten könnte.
Sorry Tippfehler
 
  • Gefällt mir
Reaktionen: Piktogramm
ETI1120 schrieb:
Beide haben nichts mit dem Wafer Level Fanout zu tun von dem hier die Rede ist.
[1] Hat damit sehr viel zu tun. FanOut ist "nur" das auffächern von dichten Kontakten. Ob das auf klassischen PCBs geschieht oder irgendwelchen Die-Carriern ist egal.
ETI1120 schrieb:
Manche Verfahren brauchen eben eine Weile bis breiter eingesetzt werden. Mit großen Dies und großen Packages wie beim Apple M4 ist Wafer Level Fanout nicht trivial. AMD setzt Fanout bereits bei Navi 31 und 32 ein und in der Kombination mit Siliziumbrücken (Elevated Fanout Bridge) bei der MI250X.
Das FanOut betrieben wird ist bei fast jedem komplexeren Chip der Fall. Solang es nicht gerade ein nackiges Die mit BGA-Pins ist. Es gibt dabei immer wieder Fortschritte in der möglichen Dichte an Kontakten und Leiterbahnen, aber wirklich Neu ist da nichts. Zudem Apple und hier AMD ihre Dies nachwievor auf Sushipapier[6] kleben.

[6]Übertrieben, das sind auch Folien aus der Chemieküche, der Hersteller dieser Folien hat nur mit besagtem Papier angefangen.

ETI1120 schrieb:
Mahesh Subramony sagt "we had a GMI PHY", ich und wohl auch TPU verstehen es so, dass es beim Strix Halo IOD nicht mehr da ist, weil der niedrig getaktete, breite interne Bus durch das Fanout geführt wird und damit die Fabrics beider Dies direkt verbindet.
Welcher BUS soll das denn sein? AMD hat ja überall InfinityFabric verwendet und dessen grundlegende Struktur sieht eine Breite von 32B (bzw. 16B) je Verbindung vor. Chips and Cheese hatte ja bei den APUs mit kleiner iGPU auch mal herausgearbeitet, dass diese mit 3..4 32B IF Ports versehen sind (müsste suchen).

Imho, wenn AMD viel Schwein hat kommen die Verbindungen ohne die Verstärkerschaltungen aus, die bei AM5 gebraucht werden um Signale über 1..2cm Leiterbahnen zu treiben, zu empfangen. Das wäre schon eine riesen Einsparung beim Energiebedarf. Geringerer Energiebedarf, hohe Packungsdichte erlauben dann zwei Links je CCD anzubinden. Dabei können die Links etwas langsamer takten, da die Bandbreite zu den CCDs eh nicht so gewaltig sein muss.
 
Piktogramm schrieb:
[1] Hat damit sehr viel zu tun. FanOut ist "nur" das auffächern von dichten Kontakten. Ob das auf klassischen PCBs geschieht oder irgendwelchen Die-Carriern ist egal.
Der Name von Fanout Wafer Level Packaging wie oder kurz Fanout wird von dieser Funktion abgeleitet.

Aber darum geht es im Advanced Packaging nicht. Beim Advanced Packaging geht es darum mehrere Dies in einem Package so zu verschalten dass sie quasi wie ein Chip sind. Die Technologie, die für das Fanout Wafer Level Packaging entwickelt wurde, wurde aufgenommen und weiterentwickelt. Das weiterentwickeln ist erforderlich da beim Advanced Packaging deutlich größere Packages erforderlich sind. Und deshalb wird aus Wafer Level Packaging bald Panel Level Packaging.

Piktogramm schrieb:
Das FanOut betrieben wird ist bei fast jedem komplexeren Chip der Fall.
Stimmt. Aber niemand würde ein klassisches organisches Substrat, auf das ein Die per Flip Chip platziert wird, als Fanout bezeichnen. Es geht nicht um die Funktion "fan out" sondern, um das Konzept und die Technologie mit der ursprünglich das Fanout WLP umgesetzt wurde.

Eines der AMD Patente zu dem Thema:
https://patents.google.com/patent/US10903168B2/en?oq=US+10,903,168+B2

https://semiengineering.com/fan-out-packaging-options-grow/
https://semiengineering.com/advanced-packagings-next-wave/

Piktogramm schrieb:
Solang es nicht gerade ein nackiges Die mit BGA-Pins ist.
AFAIU sind Dies die direkt auf die Leiterbahn gesetzt werden die Ausnahme.

Piktogramm schrieb:
Es gibt dabei immer wieder Fortschritte in der möglichen Dichte an Kontakten und Leiterbahnen, aber wirklich Neu ist da nichts.
Die sehr dünnen Folien ermöglichen extrem flache Packages. Das war für Mobilphones wichtig.
Der Pitch der Microbumps liegt bei ca. 40 µm und die Leiterbahnen haben eine minimale Linenenbreite und Linienabstand (L/S) von 2 µm.

Zen 2 hatte beim IOD einen 150 µm Bump Pitch und beim CCD einen 130 µm Bump Pitch

AMD hat im Deep Dive zu Navi 31 folgende Folien gezeigt:
1737053889582.png

Jetzt würde mich interessieren was die Infinity Links bei Navi 31 eigentlich sind. Bei 9,2 Gbps sind sie etwas anderes als Sea of Wires.

1737053074799.png

Bitte beachten: Der gelbe Kasten "High Perf Fanout" ist falsch positioniert.
Er müsste weiter rechts über dem kleinen Bild sein. Das wenn ich es richtig sehe dasselbe wie auf der ersten Folie ist

Die beiden Bilder auf der unteren Folie zeigen, dass Fanout nicht nur ein "bisschen" kleiner und kompakter ist. Es ist eine ganz andere Kategorie als ein organic substrate. Noch kompakter geht nur mit Silizium Interposer oder Silizium Brücken.

Piktogramm schrieb:
Zudem Apple und hier AMD ihre Dies nachwievor auf Sushipapier[6] kleben.

[6]Übertrieben, das sind auch Folien aus der Chemieküche, der Hersteller dieser Folien hat nur mit besagtem Papier angefangen.
Ich weiß nicht sicher ob ABF bei Fanout verwendet wird, einige Artikel haben ausdrücklich ABF erwähnt andere nicht.
Piktogramm schrieb:
Welcher BUS soll das denn sein?
Der doppelte Ringbus vom CCX bzw. der Ringbus im IOD.

Der doppelte Ringbus im CCX hat 32 Byte in jede Richtung. Ich bin nicht sicher auf was die 2000 Leitungen beziehen. Aber 32 Bytes bzw. 256 bit per Clock übertragt man nicht mit 16 Lanes.

Doppelter Ringbus beim Zen 3 CCX​

1737049585003.png

Tom Burd: Zen 3__ AMD 2nd Generation 7nm x86-64 Microprocessor Core auf ISSCC 2022

Ringbus im Zen 2 sIOD und Vergleich der Packages von EPYC und Ryzen​

1737049931971.png

1737050245542.png

Zu den SERDES für die IFOP​

The multi-chiplet design of the first-generation AMD EPYC™ processor introduces additional interconnect latency when chiplets need to communicate across the Infinity Fabric™ on-package (IFOP) interconnect, which are implemented as point-to-point links directly on the organic package substrate [6]. The IFOP links utilize custom high-speed SerDes circuits. Compared to SerDes for off-package I/O like PCIe gen3, which consumes approximately 11pJ per bit, the IFOP SerDes have been carefully optimized for shorter package substrate route lengths and achieves a power efficiency of ~2pJ per bit. Transmitting data over the IFOP links still represents a power overhead compared to a monolithic chip, where on-chip interconnect power is typically much less than 1pJ per bit, with the exact power cost depending on the route length and other factors.
Bilder und Text:
Pioneering Chiplet Technology and Design for the AMD EPYC™ and Ryzen™ Processor Families
Samuel Naffziger, Noah Beck, Thomas Burd, Kevin Lepak, Gabriel H. Loh, Mahesh Subramony, Sean White
Advanced Micro Devices, Inc.
978-1-6654-3333-4/21/$31.00 ©2021 IEEE DOI 10.1109/ISCA52012.2021.00014

Das heißt wenn IFOP erwähnt werden sind SERDES im spiel. Die 2 pJ/bit werden allgemein für Packages mit organic substrates genannt. Für Fanout werden im allgemeinen 0,4 bis 0,5 pJ/bit genannt.

Das entscheidende für Strix Halo ist dass die Verbindungen problemlos ausgeschaltet werden können wenn sich nicht gebraucht werden. Die ist bei den SERDES der Ryzen nicht möglich.

Piktogramm schrieb:
AMD hat ja überall InfinityFabric verwendet und dessen grundlegende Struktur sieht eine Breite von 32B (bzw. 16B) je Verbindung vor. Chips and Cheese hatte ja bei den APUs mit kleiner iGPU auch mal herausgearbeitet, dass diese mit 3..4 32B IF Ports versehen sind (müsste suchen).
Es war der Artikel zum Hot Chips Vortrag zu Phoenix. Es sind 4 ports mit jeweils 32B/cycle
1737063123257.png

Vortag zu Phoenix auf der Hot Chips 35; Mahesh Subramony, David Kramer
Ich denke George Cozma und Mahesh Subramonoy kennen sich von diesem Vortrag, die beiden von Chips and Cheese waren die letzten Fragensteller, so wie ich es verstehe haben die vier sich anschließend unterhalten.

Wie das Infinity Fabric aussieht, erklärt AMD nicht näher. Wenn die Ports 32 Bytes breit sind IMO muss da drin etwas mindestens ebenso breites sein. Ringbus mit 32 Bytes oder doppelter Ringbus mit 2 x 32 Bytes?

Mein Verständnis ist, wenn AMD von IFOP redet, meint AMD, dass der interne 256 bit breite Bus auf ein PCIe Bus mit 16 Lanes konvertiert wird. Auf diese Weise konnte AMD existierende PCIe IP verwenden und musste nur anderes Protocol darüber legen.

Piktogramm schrieb:
Imho, wenn AMD viel Schwein hat kommen die Verbindungen ohne die Verstärkerschaltungen aus, die bei AM5 gebraucht werden um Signale über 1..2cm Leiterbahnen zu treiben, zu empfangen.
Genau das ist AFAIU mit Sea of Wires gemeint, die internen Signale von CCX zum IOD und umgekehrt werden direkt durch das Fanout durchgeschleift, mit der vollen Breite von 32 Bytes. Daher kommt auch die Einsparung bei der Latenz. Leider wurde es nicht gesagt wieviel eingespart wird.

Die interessante Frage ist nun Zen 6, der ja lt. Gerüchten ebenfalls auf Advanced Packaging wechseln soll. Bei Ryzen würde das Sea of Wires 1:1 funktionieren, was ist bei EPYC? Ist dann noch eine 2 Reihe möglich? Oder ist das der Grund warum die CCDs mehr Kerne bekommen?
Piktogramm schrieb:
Das wäre schon eine riesen Einsparung beim Energiebedarf. Geringerer Energiebedarf, hohe Packungsdichte erlauben dann zwei Links je CCD anzubinden. Dabei können die Links etwas langsamer takten, da die Bandbreite zu den CCDs eh nicht so gewaltig sein muss.
Das war vor dem Interview auch meine Erwartung. Aber so wie ich es verstehe gibt es keine IFOPs mehr sondern der interne 32 Byte breite Port wird durch das Fanout geführt.
 

Anhänge

  • 1737050748676.png
    1737050748676.png
    6,3 KB · Aufrufe: 14
  • Gefällt mir
Reaktionen: uberLemu und Piktogramm
@ETI1120
Danke, sehr ausführlich. Ich reagiere etwas später, µProzessorrumgenerde war zuletzt Luxus..
Aber manchmal hilft viel Zeit auch viel. Ich halte den Irrsinn, dass da 512Leiter(-paare?)[1] nun doch für möglich.
[1]32B*8*2
 
  • Gefällt mir
Reaktionen: uberLemu und ETI1120
Benchmarks
vidia RTX 4070
Core i9-13900H
(ROG Flow Z13) Notebook/ mobile Version der Hardware

VS:

AMD Ryzen AI Max+ 395 w/ AMD
Radeon 8060

https://www.amd.com/content/dam/amd...-max-series-how-to-sell-guide-competitive.pdf

Erstes Produkt:
/gmktec-announces-/AMD Ryzen AI 9 Max+ 395 Prozessor MiniPC, Verfügbarkeit H1 2025

AMD Ryzen AI Max+ PRO 395
Der AI Max+ Chip unterstützt RAM mit einer Geschwindigkeit von LPDDR5x-8000 und ist nativ kompatibel mit USB 4 (und damit Thunderbolt)
Die integrierte XDNA 2 NPU liefert bis zu 50 INT8 TOPS für die Beschleunigung verschiedener KI-Workloads.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ghecko
Zurück
Oben