Wenn der Chip eine Verarbeitungsrate von 4,2Gbps hat... ergo mit 4,2GHz taktet (wenn 1 Bit pro Takt übertragen wird)... und das mit einer Breite der Anbindung von 1.
Jetzt hat der Chip aber ein 1024Bit breites Interface (bei Grakas zB oft 256Bit), also diese 4,2Gbit/s * 1024 = 4300,8 Gbit/s Gesamtdatenrate. Dividiert durch 8 um auf Byte zu kommen --> 537,6 GByte/s.
Dann nehme man 1-4 von diesen Stacks und erhalte eine totale Speicherbandbreite für Grakas um den Faktor 1, 2, 3 oder 4 von diesen 537,6 GByte/s.
1 Stack ( = 1 Stapel HBM) = 1024 Bit
2 Stacks ( = 2 Stapel HBM) = 2048 Bit
3 Stacks ( = 3 Stapel HBM) = 3072 Bit
4 Stacks ( = 4 Stapel HBM) = 4096 Bit
Also: Jeder Stapel ist 1024 Bit breit angebunden.
Daher: je mehr Stapel, umso höhere Speicherbandbreite.
1 Stack kann mittlerweile bis zu 8 Schichten dick sein (im Moment oft 4 oder 8 Schichten), wodurch sich die Speicherkapazität pro Stack massiv erhöht hat im Vergleich zum ersten HBM.
AMD Fury: 4 Stacks, aber nur 1 Schicht pro Stack. Also trotz 4 Stacks nur 4GB HBM insgesamt. Diese dafür mit 4096 Bit angebunden. Das ist zwar eine massive Erhöhung im Vergleich zu GDDR RAM (das 16 Fache von 256Bit), am Ende war sie Erhöhung der Speicherbandbreite aber nicht sooo massiv viel höher, weil HMB(1) noch ziemlich langsam taktete.
Nun aber mit 8 Schichten pro Stack (also 8GB (nun sogar 16GB) und 1024Bit) und massiv aufgebohrten Taktraten, kommt man auf enorme Bandbreiten. Die 1TB/s werden schon mit 2 Stacks geknackt, was natürlich günstiger ist als gleich 4 Stacks verbauen zu müssen.
@nanoworks hats grad erklärt seh ich