News 3D V-Cache Technology: AMD stapelt L3-Cache bei Ryzen auf 192 MByte

Ich bin endlich dazu gekommen, die AMD Keynote zu schauen und frage mich jetzt, mit welchem RAM AMD den V-Cache getestet hat. Je schneller der ist (wahrscheinlich eher Latenz denn Bandbreite), desto geringer sollten die Vorteile sein. Außer der Unterschied ist so riesig, dass unterschiedliche RAM-Konfigurationen nicht ins Gewicht fallen. Ich denke das wird spannend, wenn die Technologie in einem halben bis Dreivierteljahr getestet wird.
 
ETI1120 schrieb:
Die GPU mit einem Infinity Cache auszustatten würde das Bandbreitenproblem mildern.
Allerdings verbraucht der L3-Cache sehr viel Fläche auf dem Die.

Hier erscheint der 3D-V-Cache für den Infinity-Cache als die natürliche Lösung, die die Kosten im Zaum hält.
Es ist genug Fläche, aber die Vermeer Dies haben ja schon 16 MB L3 Cache. Als Vergleich, die Radeon 6600M ist weitaus leistungsfähiger und hat selber "nur" 32 MB Infinity Cache. Sofern schon die 16 MB das Bandbreitenproblem mildern (auch wenn dieser mit der CPU geteilt werden muss) und die RDNA2 Architektur von selbst schon Verbesserungen mit sich bringt, brauchen sie (zumindest unter N7) nicht mal mehr CUs einbauen.
Dann wirken drei Faktoren für eine deutliche Leistungssteigerung: RDNA2 Architektur, höherer Takt auch im mobilen Bereich und Infinity Cache. Das würde die Xe iGPU wieder hinter sich lassen.

ETI1120 schrieb:
Ist es ein Zufall, dass 3D-V-Cache und die erste APU mit RDNA ins selbe Zeitfenster fallen?
Ja? Welche APU meinst denn? Die erste müsste doch Van Gogh mit Zen 2 werden und dieser soll angeblich eher für Thin & Lights gedacht sein. Ist immerhin "nur" ein QuadCore.

Colindo schrieb:
Ich bin endlich dazu gekommen, die AMD Keynote zu schauen und frage mich jetzt, mit welchem RAM AMD den V-Cache getestet hat. Je schneller der ist (wahrscheinlich eher Latenz denn Bandbreite), desto geringer sollten die Vorteile sein. Außer der Unterschied ist so riesig, dass unterschiedliche RAM-Konfigurationen nicht ins Gewicht fallen. Ich denke das wird spannend, wenn die Technologie in einem halben bis Dreivierteljahr getestet wird.
Die Wahl der Spiele alleine fällt schon ins Gewicht. Die Far Cry Spiele reagieren ja schon gut mit dem Takt. id Spiele werden davon eher weniger profitieren, schätze ich jetzt mal.
 
@Colindo
Normal müsste AMD mit JEDEC 3200ER Testen, das ist ja Spec, aber ihren Vergleich 10900K vs Zen3 war auch 3600er RAM...
 
  • Gefällt mir
Reaktionen: Colindo
Wenn man so überlegt und bedenkt, dass der 7nm Prozess auch bei den GPUs verwendet wird, wären GPUs mit doppelten Infinty Cache auch möglich. AMD meinte ja, mehr Cache hätte den GPUs in internen Tests auch noch gut getan.
 
Deinorius schrieb:
Es ist genug Fläche, aber die Vermeer Dies haben ja schon 16 MB L3 Cache. Als Vergleich, die Radeon 6600M ist weitaus leistungsfähiger und hat selber "nur" 32 MB Infinity Cache.
Der Cache auf dem Cezanne-Die ist, nach allem was bekannt ist, ausschließlich für die CPU. Das Vergrößern des L3-Caches der CPU war ein Faktor dafür, dass Cezanne-CPU schneller als Renoir-CPU ist.
Die Vega-GPU ist bei beiden APUs gleich schnell.

Deinorius schrieb:
Sofern schon die 16 MB das Bandbreitenproblem mildern (auch wenn dieser mit der CPU geteilt werden muss) und die RDNA2 Architektur von selbst schon Verbesserungen mit sich bringt, brauchen sie (zumindest unter N7) nicht mal mehr CUs einbauen.
Weitere 16 Mbyte L3-Cache auf dem Die zu verbauen, verbraucht noch mehr Fläche und verteuert die APU.

Wenn derselbe Faktor wie bei Vermeer auch bei Cezanne anwendbar wäre, könnten 32 MByte über einen 3D V-Cache hinzukommen. Allerdings ist die Geometrie beim Cezanne-Die deutlich ungünstiger wie beim Vermeer-CCD, was das Montieren erschwert.

Deinorius schrieb:
Dann wirken drei Faktoren für eine deutliche Leistungssteigerung: RDNA2 Architektur, höherer Takt auch im mobilen Bereich und Infinity Cache. Das würde die Xe iGPU wieder hinter sich lassen.
Der Infinity Cache wäre notwendig, um das Potential der RDNA2 Architektur auszuschöpfen. Also ist er kein unabhängiger zusätzlicher Faktor.
Aber DU hast recht, alles zusammen würde die Messlatte ordentlich anheben.
Deinorius schrieb:
Ja? Welche APU meinst denn? Die erste müsste doch Van Gogh mit Zen 2 werden und dieser soll angeblich eher für Thin & Lights gedacht sein. Ist immerhin "nur" ein QuadCore.
Der 3D-V-Cache kommt nächstes Jahr. So wie auch der Nachfolger von Cezanne (Rembrandt) nächstes Jahr erwartet wird. Alle Gerüchte besagen, dass der Nachfolger von Cezanne eine RDNA2-GPU hat.

Ich muss hier ein bisschen zurückrudern:
Im Linuxtreiber ist für Yellow Carp (unter diesem Namen soll die nächste APU laufen) kein L3-Cache angegeben.

Van Gogh ist schon sonderbar:
  • Zen 2 und RDNA 2.
  • Die einzige noch nicht erschienene GPU, die im Linuxtreiber ein Codewort nach einem Maler hat. Alle anderen noch nicht erschienenen GPU haben als Codewort Fischnamen

Aus dem Treiber und einem Bootlock ist klar dass Van Gogh eine Zen 2 CPU und eine RDNA 2 GPU hat.
Aktuell gibt es 2 Spekulationen:
  • Custom-APU für Steam, das ergäbe schon Sinn
  • Low Power APU, möglich blöeibt aber die Frage nach der ungewöhlichen Kombination
 
Mein Gedanke:

cache-as-cache-can
Hulkamania runs wild on you!
 
 
  • Gefällt mir
Reaktionen: Ned Flanders, Colindo und LamaMitHut
Wass soll denn der Aufpreis sein zum 5900x? Keinen Bock auf GPU Preise im CPU Segment.

Frage ja nur weil ich mir gerne den ADL-S im Vollausbau holen würde und meine Bedenken habe, das der i7 auch Vollausbau diesmal bekommt. ATM sind ca. 550€ zu zahlen für den 5900x sowie den i9 11900K.
 
@Vincy

Wollte ich gerade auch verlinken. Planet3dnow hat auch noch eine Meldung dazu gebracht. Also bemerkenswert. Die scheinen tatsächlich das Die auf eine Dicke von !20µm! abzuschleifen und dann das SRAM Chiplet zu mounten, das sich selbstständig verbindet.

Krasse Technik
 
  • Gefällt mir
Reaktionen: Colindo
Also ich hab ja in Rechnerarchitekturen gelernt, dass in Sachen Cache noch einiges zu holen ist. Das war 2018. Das ist im L3 aber echt schon eine Menge Holz. Da bin ich mal gespannt, in welcher Form das auf den Markt kommt.
 
Poati schrieb:
Also ich hab ja in Rechnerarchitekturen gelernt, dass in Sachen Cache noch einiges zu holen ist. Das war 2018. Das ist im L3 aber echt schon eine Menge Holz. Da bin ich mal gespannt, in welcher Form das auf den Markt kommt.

Ist halt alles relativ. Doppelt so viel Cache macht halt nicht doppelt so schnell sondern vieleicht 2% schneller. Irgendwann lohnt es dann nicht mehr.

Technisch ist Cache eine dankbare Lösung, einfach zu entwickeln, in der Herstellung etwas einfacher als andere Schaltungen und kann extrem stromsparend implementiert werden, es gibt SRAM-Schaltungen da kannste die benötigte Elektrizität in "Elektronen pro Jahr und SRAM-Zelle" messen. Mich wundert lediglich daß AMD den Cache umständlich von unten an das Die klebt anstatt das einfach als zusätzliches Die auf den Träger neben die anderen Dies zu kleben. Dann gingen noch ganz andere Sachen, z.B. ein SRAM-Cache mit 4GByte neben dem IO-Die.
 
Crass Spektakel schrieb:
Mich wundert lediglich daß AMD den Cache umständlich von unten an das Die klebt anstatt das einfach als zusätzliches Die auf den Träger neben die anderen Dies zu kleben.
Weil sie damit kein zusätzliches Cache Level einführen wollen wie Intel mit HBM2 bei Sapphire Rapids oder früher bei Broadwell sondern weil sie den bestehenden L3 in 3D erweitern wollen.

Das ist nachher ein einziger L3 der Full Speed mit gleicher Latenz angesprochen wird.

Ein zusätzliches Cache Level hat ja nicht nur Vorteile.
 
  • Gefällt mir
Reaktionen: Colindo
Crass Spektakel schrieb:
Ist halt alles relativ. Doppelt so viel Cache macht halt nicht doppelt so schnell sondern vieleicht 2% schneller. Irgendwann lohnt es dann nicht mehr.
Ne logisch, irgendwann hätte man eine 100% Trefferrate, aber der Cache wäre dann viel zu groß/teuer.

Crass Spektakel schrieb:
Technisch ist Cache eine dankbare Lösung, einfach zu entwickeln
Cache ist verhältnismäßig sehr teuer und die Entwicklung an der Stelle, die Trefferraten weiter zu optimieren ist auch nicht einfach. Genau das predigte unser Prof ja, der vorm Lehrstuhl bei ARM tätig war.
 
Poati schrieb:
Ne logisch, irgendwann hätte man eine 100% Trefferrate, aber der Cache wäre dann viel zu groß/teuer.


Cache ist verhältnismäßig sehr teuer und die Entwicklung an der Stelle, die Trefferraten weiter zu optimieren ist auch nicht einfach. Genau das predigte unser Prof ja, der vorm Lehrstuhl bei ARM tätig war.
Schau mal das Die-Layout von Ryzen an. Könnte man da den L2- und L3-Cache streichen und die CPU optimal in den freien Platz erweitern könnte man theoretisch statt 8 glatt 20 Kerne unterbringen. Das aber hier schon Laufzeitprobleme und Lokalität eine grosse Rolle spielen kann man diesen Platz eigentlich für kaum was anderes als Cache verwenden. Und brauchen tut man ihn ja eh solange man nicht sämtliche Software so konstruiert daß sie im 16kByte L1-Cache abläuft ;-) Mit anderen Worten, heute wird vom Die das als Cache verwendet was man für andere Sachen ohnehin nicht brauchen kann.

Das meinte ich mit "einfach zu entwicklen" und "dankbar". Daß der Leistungsgewinn ausserhalb Laborbedingungen eher durchwachsen ist ist ein anderes Problem.
 
  • Gefällt mir
Reaktionen: Poati
Crass Spektakel schrieb:
Das meinte ich mit "einfach zu entwicklen" und "dankbar". Daß der Leistungsgewinn ausserhalb Laborbedingungen eher durchwachsen ist ist ein anderes Problem.
Der Leistungsgewinn durch mehr Cache kann signifikant sein. Es gibt weiterhin viele Anwendungen bei denen die Cores am Speicherinterface verhungern (siehe z.B. PyTables: Starving CPUs)
AMD selbst nennt ja z.B. eine Leistungssteigerung von 25% für Monster Hunter World.
 
Es gibt aber auch Anwendung die von mehr cache nicht profitieren. Die steigen einfach nicht mehr bei der Leistung oder die einstellung sind so niedrig das mehr cache nix bringt. Sehe ich ja am unterschied zwischen threadripprr 2990wx das 64 mb l3 Cache und threadripprr 3970x mit 128 mb l3 cache daher kommt. Da trennt sich nur 4 % aber nicht durch cache sondern wegen was ganz anderes. Ob nun auch 32 mb l3 cache keinen Leistungsunterschied gemaxht hätten oder nicht kann ich aufgrund der fehlende cpu leider nicht gegentesten. Aber gut ist halt ein ganz anderes thema.
 
Zurück
Oben