News Samsung GDDR6W: Doppelte Bandbreite und Kapazität für GPUs dank Stacking

BobaFett · 29. November 2022

Sehr spannend! Ich kann mir vorstellen, dass die Adaption für den größeren Markt sicherlich noch eine Weile dauert.
Aber es wäre natürlich ein Traum, wenn wir schon in den RX 8000 und RTX 5000 von dieser Technologie profitieren könnten..

Grundgütiger · 29. November 2022

BobaFett schrieb:
…….Aber es wäre natürlich ein Traum, wenn wir schon in den RX 8000 und RTX 5000 von dieser Technologie profitieren könnten..

Könnten ist gut gesagt.

Dank großem Cache ist die Bandbreite erstmal nicht so wichtig.

Eine 7900XTX wird mit 5,3TB/s angegeben, da hält auch HBM nicht mit.

CDLABSRadonP... · 29. November 2022

Grundgütiger schrieb:
Eine 7900XTX wird mit 5,3TB/s angegeben, da hält auch HBM nicht mit.

Tatsächlich wäre der Navi31-InfinityCache für ein HBM-3-Interface zu langsam. Ein zweiter, viel kleinerer Speicherpool, der dann nur zweistellige Prozent flinker ist als der eigentliche Hochkapazitätsspeicherpool? Nein. Eine RDNA3-Karte mit HBM3 hätte wahrscheinlich viel kleineren, dafür noch flinkeren InfinityCache. Eher so in der Größenordnung von 20TB/s und dafür dann eben vllt. 32MiB vs. 48GiB HBM3.

Volker · 29. November 2022

BobaFett schrieb:
Sehr spannend! Ich kann mir vorstellen, dass die Adaption für den größeren Markt sicherlich noch eine Weile dauert.
Aber es wäre natürlich ein Traum, wenn wir schon in den RX 8000 und RTX 5000 von dieser Technologie profitieren könnten..

Die ersten Kandidaten wären vermutlich Quadro-Karten. Hier will Nvidia für viel Geld aber kleine Kosten viel Speicher anbieten. Ampere gab es da schon mit 48 GB GDDR6 als RTX A6000, für schlappe 5600 Euro:
https://www.computerbase.de/preisvergleich/pny-rtx-a6000-vcnrtxa6000-pb-a2409187.html

Genau hier liegt das Geld, ein Ada-Nachfolger mit 96 GB GDDR6W und kaum zusätzlichen Kosten gegenüber den RTX 4090/4080 wäre doch eine Gelddruckmaschine für Nvidia. Also kommt das garantiert zuerst, denn Geld gewinnt bei Nvidia immer^^

Novasun · 29. November 2022

Hört sich gut an... Nur muss definitiv der Preis stimmen...

CDLABSRadonP... · 29. November 2022

Volker schrieb:
Die ersten Kandidaten wären vermutlich Quadro-Karten. Hier will Nvidia für viel Geld aber kleine Kosten viel Speicher anbieten. Ampere gab es da schon mit 48 GB GDDR6 als RTX A6000, für schlappe 5600 Euro:
https://www.computerbase.de/preisvergleich/pny-rtx-a6000-vcnrtxa6000-pb-a2409187.html

Genau hier liegt das Geld, ein Ada-Nachfolger mit 96 GB GDDR6W und kaum zusätzlichen Kosten gegenüber den RTX 4090/4080 wäre doch eine Gelddruckmaschine für Nvidia. Also kommt das garantiert zuerst, denn Geld gewinnt bei Nvidia immer^^

Beim aktuellen Kenntnisstand ist das nicht so klar. Wir wissen nur: Pro Package verdoppelt sich Kapazität und Bandbreite. Oder umgekehrt: Bei gleicher Bandbreite und Kapazität halbiert sich die Anzahl der Packages. Vielleicht nutzt Nvidia das also dann bloß zur Halbierung der Anzahl an Packages und alles sonst bleibt gleich. Das wäre ziemlich mit Sicherheit der Fall, wenn die pessimistische Einschätzung zutreffen sollte, dass das PCB-Layout nicht ernsthaft von GDDR6 → GDDR6W profitieren würde.

Tanzmusikus · 29. November 2022

BAR86 schrieb:
Aus irgendeinem Grund haben die 4090 Karten 70% mehr theoretische Leistung als eine 4080, davon kommt nur ca 30 in der Praxis an. Irgendwo hakt es.

Das kann auch daran liegen, dass der Scheduler die Shader-Einheiten nicht ganz ausgelasten kann.
Nicht immer ist eine Skalierung über weitere Parallelisierung der Prozesse möglich.
Das ist bei den CPUs auch nicht anders.

Muss also nicht unbedingt an der Speicherbandbreite des VRAM liegen.
So jedenfalls meine Vermutung dazu.

mylight · 29. November 2022

Stacking. Stapeln. Staking. Abstecken. Es sind doch beides nur Layer. Ebenen Gruppierungen. Oder bringe ich da etwas durcheinander? x)

Ich schlage Sta(c)king in der Technikszene als Wort des Jahres vor, wo wird das auserkoren?

RAZORLIGHT · 29. November 2022

DEUTLICH interessanter als GDDR6X.

DevPandi · 29. November 2022

Chilisidian schrieb:
Also laut Igor liegt es daran, dass die Engines die vielen CUDA-Einheiten nicht gleichzeitig auslasten können.

Ich erkläre seit gut über einem Jahr immer wieder, woran es liegt, dass davor Ampere als auch nun Ada nicht ganz ihre Rechenleistung auf die Straße bringen können und warum zum Beispiuel Ampere und Ada gerade in höheren Auflösungen dann eben RDNA2 dann doch weg rennen, während es in 1080p und 1440p gerne zu einem "Gleichstand" kommt.

Tanzmusikus schrieb:
Das kann auch daran liegen, dass der Scheduler die Shader-Einheiten nicht ganz ausgelasten kann.
Nicht immer ist eine Skalierung über weitere Parallelisierung der Prozesse möglich.
Das ist bei den CPUs auch nicht anders.

Das Problem ist nicht der Sheduler, sondern wie die CUDA-Kerne organisiert werden. Grafikkarten arbeiten nach dem SIMD-Prinzip, also Single-Instruction-Multiple-Data.

NVIDIA organisiert bei Ampere und Ada die CUDA-Kerne in Vec4-ALUs und bindet die Vec4-ALUs über zwei Datenpfade an. Bei 128 CUDA-Kernen pro SM hat jeder Datenpfad 64-CUDA-Kerne oder eben 16 Vec4-ALUs. Bei NVIDIA bestimmen die Datenpfade, wie viele gleichzeitige Operationen möglich sind und die Breite der Datenpfade, wie viele Daten genutzt werden können.

Eine SM bei NVIDIA kann zwei Shader/Task/Threads verarbeiten mit bis zu 64 Werten. Um eine SM bei NVIDIA aktuell also perfekt auszulasten, benötigt man 2 Shader/Task/Threads die 64 Werte haben, erst dann kann eine NVIDIA-Karte ihre maximale Rechenleistung wirklich einsetzen.

Das Problem aktuell bei den immer moderneren Engines ist aber, dass nicht - wie früher - wenige Shader auf viele Bildpunkte angewendet werden, sondern eher immer mehr Shader auf weniger Bildpunkte. Die Anzahl der Bildpunkte steigt jedoch gleichzeitig mit der Auflösung.

Einfaches Beispiel: Wenn ein Shader in 1080p auf 16 Pixel anwendet wird, dann belegt ein Shader bei Ampere/ADA ein Datenpfad und liefert nur 16 Werte, es bleiben 48 CUDA-Kerne im Datenpfad ungenutzt, man kann diese 48 Kerne auch mit nichts anderem auslasten - theoretisch schon, aber dann muss der gleiche Operator genutzt werden. Wenn man nun den selben Shader beim Bild in 2160p berechnet, dann vervierfacht sich die Anzahl auf 64 Pixel und schon lastet man einen Datenpfad der SM "optimal" aus.

RDNA arbeitet mit 2 Datenpfaden pro CU zu 32 Werten, in 1080p sind beide Karten "gleich" schnell, weil beide pro Rutsch eben 16 Pixel im Shader bearbeiten, bei 1440p erhöht sich dann die Pixelmenge um 60 %, es kommen also 26 Pixel zusammen, die gehen auch noch in die Vec32, RDNA2 ist also immer noch ca. gleich schnell wie eben Ampere/Ada, erst bei 2160p benötigt dann RDNA einen zweiten Takt und damit fällt RDNA dann zu Ampere/Ada ab.

Das ist jetzt stark vereinfacht, zeigt aber auf, das Ampere/Ada eher auf "4k" und danach ausgelegt sind.

Fauler_Hund · 29. November 2022

@Volker
Sehe ich das richtig, dass der Pitch vom BGA verkleinert wird? Je nachdem wie das Footprint aufgebaut ist, kann das auch Einfluss auf den Preis vom PCB haben.

kiffmet · 29. November 2022

Tanzmusikus schrieb:
Das kann auch daran liegen, dass der Scheduler die Shader-Einheiten nicht ganz ausgelasten kann. (…)

Amen. Nvidia setzt immer noch auf einen Software Scheduler. Damit lässt sich über den Treiber recht schön mehr Leistung für schlecht programmierte Spiele rauskitzeln, und das GPU-Design wird einfacher, dafür steigt aber auch der CPU Overhead mit jedem zusätzlichen SM weiter an.

Tanzmusikus · 29. November 2022

@DevPandi
Das Problem hatte damals AMD mit den GCN-Karten.
Mit 8x AA und in hohen Auflösungen waren die AMD-Karten meist schneller (mehr FPS).
Ohne AA und in niedrigen Auflösungen war nVidia dann schneller.

Seit der Ampére-Serie ist das Problem auf Seiten nVidia vorhanden. 😁
Umgekehrt hat beides seine Vorteile. Ist halt eine Entscheidung-Sache ...

Ordentlich schnell angebundener & vor allem viel VRAM ist u.a. gut für Direct-Storage.

elefant · 29. November 2022

Hm ob die RTX5090 die erste Karte wird, bei der die Produktnummer=der UVP mit 5090$ wird?

Immer spannend wie weit man die Perfomance noch treiben kann aber bei Preisen die so weit weg von der Realität sind macht das doch kein Spaß

cele · 29. November 2022

Ob man mit dem neuen Speicher wohl eine APU befeuern könnte? Dort ist doch immer der Speicher ein Flaschenhals. Denke an Steamdeck 2 oder an leistungsfähige Alternativen zu nicht vorhandenen Midrange Karten.

DevPandi · 29. November 2022

Tanzmusikus schrieb:
Das Problem hatte damals AMD mit den GCN-Karten.

Jain, GCN hatte ein ähnliches Problem, nur etwas anders gelagert.

AMDs Problem zu GCN-Zeiten ist ein wenig anders gelagert gewesen, da GCN 4 * Vec16-Einheiten genutzt hat, hat jede CU 4 Threads benötigt und - da Wave64 - 64 Werte pro Thread um optimal zu arbeiten. RDNA hat dann auf Wave32 - die anfänglichen Treiberprobleme von RDNA 2019 - umgestellt und bei Wave64 so, dass wenn x <= 32 nur ein Takt benötigt wurde.

GCN krankte primär in seiner Zeit daran, dass nicht genug Tasks/Shader zusammen gekommen sind. Gerade Vega64 und davor die Fury X benötigten 256 Task/Shader, dass die Karte optimal ausgelastet werden könnte, andere Problem hätte man lösen können bei GCN, so dass z.B. für ein Wave64 nicht immer genau 4 Takte, egal wie viele Werte zusammen kommen, sondern dass man eben bei 16 Werten nach 1 Takt, bei 32 nach 2, 48 nach 3 usw. hätte abbrechen können, wenn der Rest des Vektors keine Werte enthält.

Ampere und jetzt Ada leiden aber nicht unbedingt an der Maße an Task, die da nun verarbeitet werden können - wobei das bei ADA durchaus bei 128 SM aktuell durchaus hinein spielen kann - sondern eben an der Menge der Werte pro Task, die notwendig sind.

syfsyn · 29. November 2022

DevPandi post 50

Das problem an dieser Annahme ist das sich die fps an der Speicherbandbreite orientieren dem ist nicht so
Die alu berechnen die fps anhand der ipc der Sm oder cu und da kommt es Primär auf die menge und Takt an.
Die Formel Bleibt gleich
bei amd je gen shader mal 2 mal takt.
Was bei rdna genau Stimmt
Bei nvidia ändert sich das je gen anhand der sm an fp32 shadern
ampere hat 88 fp32 im sm ada genau 66
Der Grund dafür ist das ada 64 fp32 hat und 2 fp64 die 2 fp32 aufgaben erledigen.
Ampere hat 64 fp32 und 24fp64 die 24 fp32 erledigen
Deine Theorie würde bedeuten das die shader allein durch die bandbreite limitiert werden.
Und die menge an alu dies ausführen Womit die ipc der alu keinen einfluss haben.
Dem ist nicht so.

Hito360 · 29. November 2022

macht mal halblang. Samsung2022 vs HBM2017?

HBM war nie ernster Konkurrent, dafür ist das Package zu kompliziert (RAMbereich muss auf GPU gebrannt werden, Höhenunterschiede am DIE, etc). NVidia hat HBM nur verwendet weils nicht anders ging und auch nur in bestimmten Beschleunigern. Ergo die letzte bezahlbare Consumerkarte mit HBM war eine Radeon VII anno 2017!

wenn man HBM3 auf dieselbe PIN rate anhebt ist wieder alles anders...

DevPandi · 29. November 2022

syfsyn schrieb:
Dem ist nicht so.

Bevor du versuchst mich zu berichtigen und mir zu unterstellen, dass ich etwas falsches erklärt habe, würde ich dir an der Stelle empfehlen meinen Beitrag wirklich zu lesen!

Ich habe NIE von Speicherbandbreite geschrieben oder dass diese die Rechenleistung limitiert, sondern von dem internen Aufbau der SM und wie die 128 CUDA-Kerne organisiert werden und dass an dieser Stelle die Crux der Auslastung bei Ampere und ADA liegt.

Deine ganze Ausführung ist in weiten Teilen einfach nur falsch. Der Aufbau von Ada und Ampere kannst du dir im Whitepaper sowie auf verschiedenen Folien ansehe und ich habe ihn hier nur vereinfacht dargestellt, so dass bereits meine Ausführung teilweise bereits verfälschend ist:

Für den grundlegenden Aufbau der SM: https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf

Für die Änderungen von Ampere zu ADA:
https://images.nvidia.com/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf

In Hardware baut jede SM auf Vec4 auf, diese werden in 4 Slices zu je 2 * 8 Vec4 + 1 Tensore-Kern sowie L0 und Register-File angesprochen. Das ist aber für die Menge der Task in dem Fall irrelevant, sondern die Datenpfade, die NVIDIA ermöglicht: NVIDIA hatte bis Turing 1 Datapath, Turing hat einen zweiten eingeführt, der auf INT beschränkt war, mit Ampere wurde der zweite Datenpfad um FP32 erweitert.

Und genau das habe ich hier erläutert.

Blumentopf1989 · 29. November 2022

SANDTIGER schrieb:
Ich hoffe die unteren Ram Chips verglühen dann nicht im Betrieb - die werden ja jetzt schon zu heiß - und außerdem ist es Hexerei mit dem Stacking

Bei den 40xx Karten werden sie um die 70°C warm, also extrem weit weg von kritischen Temperaturen.

News Samsung GDDR6W: Doppelte Bandbreite und Kapazität für GPUs dank Stacking

Cadet 4th Year

Lt. Commander

Commodore

Ost 1

Commander

Commodore

Fleet Admiral

Lt. Commander

Lt. Commander

Mangoverputzer*in

Ensign

Lt. Commander

Fleet Admiral

Lt. Commander

Lieutenant

Mangoverputzer*in

Admiral

DevPandi post 50​

Commander

Mangoverputzer*in

Commander

Ähnliche Themen

DevPandi post 50