News AMD Radeon: R9 390X mit Hawaii und 8 GB GDDR5, Fiji mit neuem Namen

DrToxic schrieb:
deshalb ja der "Heilsbringer" HBM2 mit 2GB pro Stack :)
1GB pro Slice. Und die Stacks können, 2, 4 oder 8Hi hoch sein, was halt bis zu 8GB pro Stack bedeutet ;)

Bzgl, Interposer wirds denk ich mehrere Gründe geben. Ist ja nicht so, dass es nur ein paar Leiterbahnen mehr sind, sonder halt doppelt so viel, von 4096 auf 8192. Wenn man hierfür mehr Layer im Interposer bräuchte, würde dieser durch die Prozesszeiten schon teurer werden. Was aber in Summe wohl nicht der Grund sein sollte.

Gravierender find ich, und das ist nur meine Vermutung, AMD müsste für 8 Stacks den Memory Controller von Fiji doppelt so "breit" machen. Wobei man dieses Konzept für die nächste Version schon verwerfen kann, da dies ab HBM2 sicher wieder wegfällt. Also wird man sich das gleich sparen.

Wer weiß welche Möglichkeiten sich mit HBM2 für AMD auftun. Man könnte eine High End GPU bringen, und bräuchte dazu nur 2 4GB Stacks, und spart sich nochmal die hälfte des MC.
AMD kann mit 4 Stacks eine 32GB FirePro bringen.

Ergo machts wenig Sinn, sich von vornherein die Ressourcn für ein 8 Stack Konzept zu verschwenden. Aber ich lass mich gerne überraschen.
 
Dachte ich mir schon, das es nicht so einfach geht. Dann nicht. ;)
 
Ein Interposer erhält nicht mehr Leiterbahnen wenn mehr Stacks drauf kommen. Interposer sind immer identisch und darauf ausgelegt an jeder Stelle des Dies mehrfache Leiterbahnen zu bieten.

Einfaches Bild von AMD:
6315-gddr5-vs-hbm-form-factor.png


Technische detaillierte Beschreibung des Interposer-Meshs: http://www.eecg.toronto.edu/~enright/micro14-interposer.pdf
As such, unlike conventional off-chip I/O, chip-to-chip communication across an interposer does not require large I/O pads, self-training clocks, advanced signaling schemes, etc

Auch wird beschrieben, dass auf dem Interposer enorm viel Ressourcen noch ungenutzt sind:
Apart from this limited routing, the vast majority of the interposer’s area and routing resources are unutilized. Given the assumption that high-performance systems will use interposers to integrate memory and processors, we consider what else can we do with the interposer? In this work, we propose a general approach to interposer-based NoC architectures that spans both the multi-core processor and interposer layers, exploiting the otherwise wasted routing resources of the interposer.
Es werden also keine weiteren Layer benötigt für mehr Speicher.
interposer-jpg.496574

Interposer.JPG
 
Layer mag hier wohl nicht sonderlich treffend sein. Mir gings eher um die im Bild rot Markierten Bahnen. Je mehr Leitungen ich hierfür in der Höhe brauche, also wenn nicht 4 sondern 6 Bahnun übereinander sind, desto öfter muss ich den Wafer bearbeiten, was die Kosten erhöht.

Da alles was ich über Interposer sehe oder lese nur schematische Darstellungen sind, kann ich hier aber nicht weiter diskutieren. Es war nur eine Vermutung.
Zumal ich den Interposer dennoch als günstig erachten würde.

hbm1-100585246-orig.png

Edit: Von https://www.computerbase.de/forum/t...auf-gaming-show-statt-computex.1480025/page-7

Fiji Pro mit 4GB

11292776_715509701905836_384015936_n.jpg
 
Zuletzt bearbeitet:
Wir reden ja auch nicht vom übereinander stapeln sondern von 8 anstelle der 4 Stacks. dann müssen natürlich auch 8 Stapel an die GPU angebunden werden und nicht nur 4, was mehr leiterbahnen benötigt. Wobei die ja tatsächlich größtenteils im unbenutzten Bereich des interposers liegen würden. nur direkt an der GPU wird's eng werden.
 
Ist schon etwas genaueres über den Release bekannt ?
 
@Jesterfox
Es gibt keine Leiterbahnen in dem Sinne auf dem Interposer. Es gibt ein Leiterbahnen-Mesh, das noch mehr als genug Ressourcen bietet. Dies ist aber bei jedem Interposer identisch, unabhängig von der Bestückung. Es gibt unterschiedliche Interposertypen mit unterschiedlicher Dichte der Leiterbahnen, doch AMD wird wohl einen einzigen Typ für alle Produkte verwenden. Bei keinem müssen mehr Leiterbahnen verbaut werden für mehr Bestückung.
Siehe Beitrag #603
Dort sind 2 unterschiedliche Topologien des Interposers dargestellt als Bild (f) und (g): einmal "concentrated mesh" und einmal "double butterfly". Auf Bild (b) und (d) sind jeweils zwei verschiedene Anbindungen für die GPU/CPU/APU in der Seitenansicht dargestellt. Einmal als minimale Anbindung und dann um die Anbindung zu erhöhen, falls nötig mit den Optimierungen.
 
Ok, die Verbindungen sind schon fertig drauf, auch auf den evtl. ungenutzten Flächen. Dann muss aber der Anschluss der GPU eine größere Fläche abdecken, denn dort werden definitiv mehr Endpunkte benötigt. Oder man benötigt eine zusätzliche vorgeschaltene Logik die 2 Stacks zusammenfasst. Die würde aber auch ein freies Plätzchen auf dem Interposer benötigen... oder eben einen Interposer mit höherer Dichte.
 
Mir fehlt ehrlich gesagt die Lust hier weiter zu diskutieren...vergesst einfach die Bedenken die ich bezüglich "meiner" Layer hatte. Wie man auf dem Shot oben sieht, sind die Stacks ohnehin so nahe am Die, dass ich davon ausgehe dass die Interposer Verbindungen so immens klein sind, dass sie sich selbst bei 8 Stacks nicht im Weg stehen.
Anermekung meinerseits: Da ich arbeitsmäßig eher auf der Waferbearbeitungsseite bin, hätte es mich aus diesem Grund interessiert, ob dass evtl der Grund ist wieso in größerer Interposer vermieden werden möchte.

Ich kann nach wie vor nur sagen, dass ich der festen Überzeugung bin, dass ein Stack 1024 Pins bietet, und daher auch pro Stack 1024 Leiterbahnen (einzelne, seperate Leitungen) IM Interposer zur GPU gehen.

Wenn man anderer Meinung ist, bitte gern. Ich für meinen Teil warte jetzt auf den Fiji Release.

Edit: Hier noch 2 "aktuelle" Gerüchte News zu Fiji XT. Vorerst nur 4GB. 8GB evtl im August...ob Dual-Link HBM oder HBM2 ist unbekannt. Leistung knapp unterhalb Titan X.
http://www.pcgameshardware.de/AMD-R...News/Fiji-8-GB-Fury-X-Titan-X-980-Ti-1160568/
http://www.hardwareluxx.com/index.p...ka-fury-x-slower-than-geforce-gtx-980-ti.html
 
Zuletzt bearbeitet:
@Jesterfox
Das Gegenteil ist der Fall. Auf der GPU entfällt das Interface-Pad, das nun auf jedem Speicherstack untergebracht ist. Die vorgeschaltete Logik sitzt auf den HBM-Logic Dies und dort sitzt auch das Speicherinterface für jeden Stack. Dies geht wegen den kurzen Signalwegen des Interposers ohne.

Das ist auf dem selben Bild oben abgebildet in der Seitenansicht. Die kleinen Quadrate im HBM Stack stellen das DRAM Interface dar, welches entweder wie in Bild (b) angebunden ist oder wie in Bild (d) mit den zusätzlichen "DRAM-Interface nodes" - dies wird einfach dadurch bestimmt, wie viele TSVs in den Interposer verbunden werden. Das ist dort in dem PDF sehr ausführlich beschrieben auf Seite 2:
With 2.5D stacking, chips are typically mounted face down on the interposer with an array of micro-bumps (µbumps). Current µbump pitches are 40-50 µm, and 20 µm-pitch technology is under development [19]. The µbumps provide electrical connectivity from the stacked chips to the metal routing layers of the interposer. Die-thinning is used on the interposer for TSVs to route I/O, power, and ground to the C4 bumps.

The interposer’s metal layers are manufactured with the same back-end-of-line process used for metal interconnects on regular “2D” standalone chips. As such, the intrinsic metal density and physical characteristics (resistance, capacitance) are the same as other on-chip wires. Chips stacked horizontally on an interposer can communicate with each other with point-to-point electrical connections from a source chip’s top-level metal, through a mbump, across a metal layer on the interposer, back through another µbump, and finally to the destination chip’s top-level metal. Apart from the extra impedance of the two µbumps, the path from one chip to the other looks largely like a conventional on-chip route of similar length. As such, unlike conventional off-chip I/O, chip-to-chip communication across an interposer does not require large I/O pads, self-training clocks, advanced signaling schemes, etc
Das "I/O pad" bezeichnet das bisherige Speicherinterface auf GPUs.
Ergänzung ()

Jesterfox schrieb:
Wobei die ja tatsächlich größtenteils im unbenutzten Bereich des interposers liegen würden. nur direkt an der GPU wird's eng werden.
Das ist der eigentliche Denkfehler dabei :)

Die GPU nimmt 500 mm² des Interposers in Beschlag. Die Leitungen müssten normalerweise über die gesamte GPU von allen Ausführungseinheiten an ein Ende des Dies geführt werden um dort mit einem Speicherinterface, welches genug Takt und Spannung verarbeiten kann an eine lange Kupferleitung angebunden zu werden. Nicht so bei dem Interposer-Design.

Hier geht nun jede Signalleitung einen deutlich kürzeren Weg direkt nach unten in den Interposer, über den µbump durch die TSVs, was der selben Leitungsqualität entspricht wie wenn es anhand von Layern über den Chip zum Speicherinterface an einem Ende geführt worden wäre - Diesen Satz hatte ich rot markiert im Zitat. Im Prinzip ist die Leitung identisch als wäre der HBM-Speicher direkt auf dem Die, daher ist es völlig egal ob das Interface im Logic-Die sitzt oder auf der GPU - das ist als ob man überlegt ob das Speicherinterface bei Hawaii rechts oder links besser aufgehoben ist auf dem Chip. Auf der GPU kann man nur keine 4096-bit Speicherinterface kostengünstig anbringen, allerdings ist das durchaus einfach in jeweils 1024-bit unter jedem Stack.

Edit: Um es vereinfacht auszudrücken. Alles was auf dem Interposer sitzt ist angebunden wie direkt auf einem CPU- oder GPU-Die. Niemand würde auf die Idee kommen dazwischen ein Interface zu bauen. Nur wenn es vom Chip runter geht braucht man das. Der Chip ist hier der Interposer und alles was drauf ist sehr schnell miteinander direkt verbunden. Genauso schnell wie ein Cache mit der CPU.
 
Zuletzt bearbeitet:
Weiß man denn schon wieviel Bandbreite der Interposer zwischen Logic Die und GPU liefert?
 
Das ist ebenso schnell wie die Bandbreite jeder Leiterbahn auf einer CPU. Siehe rot markierten Satz im Beitrag #611 über deinem Beitrag.

Wenn du aus der Waferproduktion kommst könnte dieses PDF für dich interessant sein:
http://www.invensas.com/Company/Documents/Invensas_IMAPS2014_SanDiego_LiangWang-3DIC.pdf

Dort ist ab Seite 19 unter "warped wafer" auch ein mögliches Limit der Interposergröße zu finden. Die Wafer müssen gebogen verarbeitet werden, damit die Papierdünnen Wafer Stabilität bei der Verarbeitung haben.
 
Zuletzt bearbeitet:
Hinfällig...

Edit: Wir selber bearbeiten sie ja nicht. Wie liefern nur die Maschinen dazu. Ergo haben die Probleme unsere Kunden ^^
 
Zuletzt bearbeitet:
Auch wenn das "Interface" entfällt (so ganz glaub ich das auch nicht, ein kleiner Teil muss in der GPU vorhanden sein der die Adressierung vornimmt) so können die Datenleitungen nicht einfach irgendwo am GPU Die enden sondern müssen mit dem internen Datenbus verbunden sein. Mag sein das man dass etwas weiter gestalten kann, aber sicher nicht beliebig.
 
Es ist nun mal eine Point-to-Point Verbindung ohne Terminierung. Ich finde Charlie hat es recht gut formuliert, doch ich verlinke ungern auf ihn:
http://semiaccurate.com/2015/05/19/amd-finally-talks-hbm-memory/
If you look at the diagram above you will notice two types of bumps and two types of traces. The bumps between the logic die and the interposer are significantly smaller than the bumps between the interposer and the package substrate. It is badly illustrated in this picture but the traces are also very different, the logic die <-> package substrate and GPU <-> package substrate traces are actually TSVs, they go through the interposer in a straight line.
For the hardcore out there, HBM uses source synchronous clocking and doesn’t need the high power devices that pushing a GDDR5 signal off die required. If you know how big those drive transistors are, and how many you would need for a very wide GDDR5 interface, you can see where a bunch of the savings comes from. That is just the tip of the iceberg too, go look up the complexity of the GDDR5 protocol and think about what is not needed anymore.
[...]
Lastly is an interesting bit, the logic layer on the HBM itself. This is not something AMD makes, Hynix does the whole stack as a single device but we will talk about it anyway. This logic is made on a memory process, traditionally bad for transistor efficiency. Since it is a separate die with effectively no memory on board, it can be heavily tweaked for transistor performance and efficiency without the traditional costs or tradeoffs of doing it on a single die.

Dort war auch das Foto des Interposer Wafer zu finden:
Detaillierte Beschreibung: http://semiaccurate.com/2015/05/18/disco-makes-hexagonal-non-regular-chips-possible/
Floppy_wafer.jpg
 
Nur hat das irgendwie nichts mit dem zu tun was ich sagte... da gehts nur um die Ausführung der Verbindung vom Die zum Interposer direkt. Aber es sagt nichts darüber aus von wo aus die Verbindung stattfindet. Man kann die Datenleitungen ja nicht irgendwo enden lassen... die müssen an den internen Datenbus des GPU-Chips (Crossbar oder wie auch immer man das Ding nennen will)
 
Zurück
Oben