rockwell1080 schrieb:
Da gibts aber noch mehr Vorteile:
- der HBM Controller bzw. Anschluss auf der GPU müsste einfacher gestrickt sein (kleiner sein) als ein GDDR5 controller, da der Großteil der Steurung sich auf dem 0-Layer des Stacks befindet - wobei ich da erstmal ein Die-Shot der 390X sehen würde.
Da hast du recht. Ist aber nur ein Vorteil für AMD, da der Chip minimal kleiner und damit günstiger wird. Das man das an den Kunden direkt weitergibt bezweifle ich, der Preis wir eher je nach Marktlage so hoch wie möglich sein. Ich weiß aber leider nicht, wie dann letztendlich die 4096 Leitungen vom Stack zum Chip gehen. Wenn hier Silicon Vias verwendet werden ist hier einiges an Platz nötig.
rockwell1080 schrieb:
- Wenn man Bandbreite en masse hat, dann kann man sich auch hardwaretechnische Maßnahmen in der GPU, die zur Einsparung der Bandbreite dienen, weglassen (Cache, Datenkompressoren) und durch Shader ersetzen
Einen großen Cache wird man auch weiterhin brauchen, dieser ist nach wie vor nötig wegen der doch deutlich geringeren Latenz verglichen mit dem VRAM und immer noch deutlich größeren Bandbreite:
http://techreport.com/review/26977/intel-core-i7-5960x-processor-reviewed/4
Über die Latenz von HBM weiß ich leider nix, gehe aber nicht davon aus, daß diese nicht mal annähernd an den L1 Cache ran kommt. Und wenn die Daten-Dekompression erst zwischen Cache und ALU erfolgt sollte man diese auch weiter beibehalten, da der Cache dann auch davon profitiert.
rockwell1080 schrieb:
- Bandbreite ist für GPU Computing eine sehr wichtige Ressource und wird immer relevanter auch für Spiele
Da hast du wiederum absolut Recht. Um 5 GFLOPs in SP mit 2 Fetches und 1 Store pro Takt maximal auszulasten bräuchte es im Worst Case (5TFLOPs x 32bit x3 =) 440GB/s. DDR5 ist davon weit entfernt, HBM schon näher dran, der L1 Cache in aktuellen CPUs Schaft aber bereits max 1800GB/s (siehe Link oben). Die maximale Leistung kann, ob mit oder ohne HBM, dauerhaft nur aus dem L1 Cache erreicht werden. Sobald Daten aus dem RAM benötigt werden (wenn die Fetch Prediction mal daneben lag) ist erst mal Pause, bis diese da sind (Latenz!). Hier hilft wiederum ein großer Cache, da damit mehr potentiell benötigte Daten (durch die Fetch Preduction vorhergesagt) vorgehalten werden können.
Du siehst das ist alles ziemlich komplex und man muß im Endeffekt die richte Balance zwischen FLOPs / Cachegröße / Speicherdurchsatz finden. Wenn AMD jetzt mit HBM den Speicherdurchsatz verfünffacht, bei den FLOPs und dem Cahce aber nicht mitzieht, ist das nicht gut Abgestimmt, und der Vorteil kann nur begrenzt genutzt werden.