News Arbeitsspeicher: GDDR7, HBM3E und LPDDR5X werden weiter beschleunigt

Tigerfox schrieb:
Und beim AD104 hat NV sich defintiv verkalkuliert, weil 12GB an 192Bit einfach zu wenig für die Rohleistung sind. Die 4070Ti könnte in UHD mehr, wie man an der nur wenig leistungsfähigeren 4070Ti Super sieht, die in UHD mit RT einen deutlich größeren Abstand zu 4070Ti aufbaut.
Ob NV das bei Planungsbeginn vor paar Jahren schon wusste das man solche fast schon an Schadsoftware grenzenden Speicherfressergeames auf den Markt schmeißt?

Ja NV näht beim Speicher immer auf Kante. Das hat AMDs "Speichergroßzügigkeit" bisher aber auch nicht bei AMD geholfen.

Ich sags auch so ipwie es ist, beide Seiten müssen sich Absprechen, damit die Monopolbehörde ruigh bleibt. Man stelle sich NV mit Speicher wie bei AMD vor. Würde heißen, byebye AMD.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Chaosbreed
@MasterWinne :Bestimmt nicht, aber deshalb sollte man auch eher zu viel als zu wenig einplanen. 8GB ab x070 und 11GB bei xx80Ti gab es schon seit drei Generationen, daher nicht ungewöhnlich, dass das irgendwann nicht mehr reicht.

Es gibt sogar Fälle, in denen die 2080Ti aufgrund ihres Speichers deutlich besser dasteht als die 3070Ti, die sonst schneller ist und ich meine auch schon mal gesehen zu haben, dass irgendwo die 10GB der 3080 nicht mehr reichten und die 11GB der 2080Ti schon. Ersteres waren aber nur Einzelfälle und bei zweiterem kamen dann trotzdem keine spielbaren Frames heraus.

Bei der 4070Ti hätte man es aber wirklich besser wissen können.
 
  • Gefällt mir
Reaktionen: SweetOhm
MasterWinne schrieb:
Da jeder Chip einen eigenen Controller braucht, bestimmt die Anzahl der Chips auch die Anzahl der Contoller.
Du kannst DRAM Chips mit 16 und 32 Bit anbinden. Es geht einfach nur um die Breite des Busses und weniger um eine Anzahl Controller.
Ein Chip benötigt eine gewisse Speicherbandbreite und dafür legt man das Interface aus. Die Speichermenge wird dann mit der Chipgröße und Anzahl gewählt.
 
  • Gefällt mir
Reaktionen: M11E
Mit Ankündigungen war Samsung ja in der letzten Zeit schon recht großzügig. Echte Produkte sind dann aber doch erst deutlich später verfügbar gewesen. In der Foundry sowieso, aber beim Speicher mittlerweile auch.
 
Sehr schöne News, freut mich das es hier ordentlich vorangeht.
 
Fighter1993 schrieb:
Warum macht man das Speicherinterface eigentlich kleiner?
Die Breite des DRAM-Speicherinterfaces ist eine mögliche Stellschraube für Bandbreite zwischen Speicher und GPU. Weitere sind die Geschwindigkeit des verbauten Speichers sowie die Cache-Hierarchie, die über all ihre Instanzen auch mit reinspielt. Je nach Ausgangslage ist es günstiger, an verschiedenen Stellen anzusetzen, um die Bandbreite zu erhöhen.

Bei Ada mit TSMC N5/N4 war das beim Cache und bei der Geschwindigkeit der Fall. Bei N3 kann es wieder anders aussehen. Aktuell ist es bei TSMC so, dass kleinere Strukturgrößen nur noch den "logischen" Teil eines Chips signifikant kleiner werden lassen, nicht aber den SRAM und den analogen Teil, also bspw. das Speicherinterface. Daher bräuchte ein breites Interface in N3 in Relation mehr Fläche einer gegebenen GPU-Fläche als das in N5 noch der Fall war.

Ein großes Interface ist somit doppelt teuer: Nicht nur, dass es mehr Fläche benötigt als der Rest des Chips, es zieht noch nicht einmal Vorteile aus der kleineren Fertigung. Nvidia ist dem damit begegnet, dass Interfaces kleiner werden und schnellerer Speicher sowie mehr Cache (mehr als) kompensieren. AMD hingegen hat das Interface auf Module in größerer Struktur ausgelagert.

Tigerfox schrieb:
Und bei der Menge ist es nunmal leider so, dass man nur verdoppeln kann, entweder durch doppelt so große Module (4GB gibt es aber noch nicht) oder durch zwei Module pro Speichercontroller (Hälfte auf der Rückseite wie bei 3090 oder 4060Ti 16GB, daher schlecht zu kühlen.
Es wäre auch eine Option, ein beispielsweise 128 Bit breites Interface auf 96 Bit zu stutzen, um dann (per Clamshell) 12 statt 8 GB anzubinden, dafür aber statt z.B. 18 Gbps 22,5 Gbps schnellen Speicher zu wählen, um die Bandbreite identisch zu halten. (Ist aber vermutlich teurer als einfach 16 per clamshell anzuschließen, was dann aus produktpolitischen Überlegungen keine Option sein kann.)

Tigerfox schrieb:
Und beim AD104 hat NV sich defintiv verkalkuliert, weil 12GB an 192Bit einfach zu wenig für die Rohleistung sind.
Verkalkuliert haben werden sie sich bei ihrer RDNA-3-Prognose. Ich halte es nicht für unwahrscheinlich, dass die 4070 Ti die eigentliche 4070 ist und sie den Plan über den Haufen geworfen haben, als ihnen klar wurde, dass sie aufgrund AMDs Schwäche auch eine Ti draus machen können.

theGucky schrieb:
mein GDDR6X bei der 4090FE wird bei ~23,5Gbps schon heißer als der GPU Hotspot.
Der darf ja auch heißer werden, insofern ist das per se kein Problem. Spezifiziert ist er afaik bis 110 Grad, die GPU aber nicht.

theGucky schrieb:
Naja bei der 3080 war das nicht ver Fall... 699€ für 10 Chips und dicken 320bit Bus...
Das gabs da aber auch nur, weil die Chips in Samsungs 8nm schon so groß waren, dass mehr Cache keine Option war und schnellerer Speicher einfach nicht zur Verfügung stand. Der Preis wiederum war "so niedrig", weil man sich das einerseits erlauben konnte (Samsung) und es andererseits starke Konkurrenz gab (AMD).

Bei Ada aktuell und ich schätze auch bei Blackwell sieht das in vielerlei Hinsicht anders aus.
 
  • Gefällt mir
Reaktionen: Seko, M11E, TodboT und 3 andere
Vitche schrieb:
Ein großes Interface ist somit doppelt teuer: Nicht nur, dass es mehr Fläche benötigt als der Rest des Chips, es zieht noch nicht einmal Vorteile aus der kleineren Fertigung.
Wobei man auch sagen muss, dass bis einschließlich zur GeForce 7 7900GTX und Radeon X1950XTX selbst Topmodelle maximal 256Bit hatten und auch nur zwei Consumer-Chips in der gesamten Graka-Geschichte, der R600 auf der Radeon HD2900 Pro/XT und der G200 auf der GeForce GTX 280/285, 512Bit hatten.
Auch zwischendurch gab es immer mal wieder Topmodelle mit 256Bit (GeForce 8800 GTS 512, 9800 GTX(+), GTX 680, Radeon HD 3870 bis HD 6970, dann wieder RX 5700XT und 6900XT).
Vitche schrieb:
Es wäre auch eine Option, ein beispielsweise 128 Bit breites Interface auf 96 Bit zu stutzen, um dann (per Clamshell) 12 statt 8 GB anzubinden, dafür aber statt z.B. 18 Gbps 22,5 Gbps schnellen Speicher zu wählen, um die Bandbreite identisch zu halten.
Mal den Teufel nicht an die Wand, 96Bit hatten wir noch nie!
Vitche schrieb:
Verkalkuliert haben werden sie sich bei ihrer RDNA-3-Prognose. Ich halte es nicht für unwahrscheinlich, dass die 4070 Ti die eigentliche 4070 ist und sie den Plan über den Haufen geworfen haben, als ihnen klar wurde, dass sie aufgrund AMDs Schwäche auch eine Ti draus machen können.
Aber dann hätten Sie die Performance von RDNA3 schon recht lange vor Release einschätzen können, weil die Gerüchte zu 192Bit auf einer ursprünglichen 4080 12GB schon eine Weile vor Release aufkamen.
Vitche schrieb:
weil die Chips in Samsungs 8nm schon so groß waren, dass mehr Cache keine Option war und schnellerer Speicher einfach nicht zur Verfügung stand.
Immerhin hätten sie 256Bit mit 21 statt 19Gbps kombinieren können. Man weiss ja leider bis heute nicht, welches SI der GA103 wirklich hat, aber mit 60SM und 256Bit, wie bei der 3080Ti Mobile, hätte er schon eine bessere 3070Ti abgeben können, als wir gekriegt haben, oder eine etwas schlechtere 3080. Wenn er doch 320Bit hat, kann ich mir gut vorstellen, dass er ursprünglich mal für die 3080 vorgesehen war.
 
BloodGod schrieb:
Sehr schöne News, freut mich das es hier ordentlich vorangeht.
also ich bin eher enttäuscht.
von der ersten gen gddr7 zur 2. gen nur 10% mehr leistung und das bis (ende) 2028?

da wird die nächste konsolengeneration nicht glücklich drüber sein.
große sprünge gibs nur bei hbm... kein wunder bei mondpreisen, aber ich glaube in diesem leben werde ich mir nie wieder ne grafikkarte leisten können.
 
Mir fehlt die Angabe und der Vergleich mit GDDR6X im Artikel.
 
Pestplatte schrieb:
also ich bin eher enttäuscht.
von der ersten gen gddr7 zur 2. gen nur 10% mehr leistung und das bis (ende) 2028?
Wovon redest Du, 32Gbps ab Ende 2024 sind schonal 33% mehr ggü. 24Gbps bei GDDR6(X) aktuell und ab Mitte/Ende 2026 dann 36Gbps sind 50% mehr?

Hab auch gerade erst gesehen, dass bei 32Gbps von 16-24Gb-Modulen und bei 36Gbps von 24Gb+ die rede ist. Also doch 3GB-Module! Damit sind 12GB an 128Bit, 16GB an 192Bit und 24GB an 256Bit möglich!
 
eRacoon schrieb:
Wobei viel und schneller Speicher im Gamingbereich ja erstmal nichts aussagend ist.

Stimmt, aber bei den APUs würde mich ja mal brennend interessieren, was die zusätzliche Bandbreite bringen würde.

Lunar Lake mit HBM statt Samsungs LPDDR5X wäre doch interessant.
 
Tigerfox schrieb:
Ausführlich kann ich es leider nicht erklären. Entweder hier oder im HWLuxx hat aber in einem Thread zu Blackwell oder zu den RTX 4000 Super-Karten genau das erklärt, was Du vermutest: Das Speicherinterface nimmt im Verhältnis zum Rest der GPU immer sehr viel Platz ein und breite SIs werden mit kleinerer Fertigung im Verhältnis immer teurer.
Das ist auf jeden Fall ein Teil, allerdings gibt es noch andere Aspekte.

Der SI-Bus enthält einen ziemlich hohen Analoganteil mit statischer Leistungsaufnahme und auch die dynamische Leistungsaufnahme ist alles andere als gering. Da ist AMD bei der Einführung des Infinity Caches ja auch näher darauf eingegangen. Deswegen ist es deutlich Energieeffizienter die Speicheranfragen mit dem Cache abzufangen. Der aufgeblähte Cache nimmt mehr Fläche auf dem Chip ein, als es ein breites SI getan hätte.

Das Routing auf dem PCB ist ein anderes Problem. Die Spielräume werden dort immer kleiner (kompakter und höhere Anforderungen an die Signalstabilität), womit Aufwand und Preis steigen. Deswegen gibt es auch die beschnittenen PCI-E Busse.
 
Kokuswolf schrieb:
Junge, HBM1 ist noch immer mehr als 3x schneller als GDDR7. Wenn der Preis da nicht wäre.
Ja, aber man müsste relativieren.

Denn dank HBM, ist der Speicherlayout einfacher, was kosten sparen würde.
Zusätzlich kommt, dass das PCB kleiner/Konpakter sein könnte, wie AMD schon zeigte, was nochmals kosten sparen würde.
Und wenn nicht genug wäre, würde die Leistungsaufnahem der Grafikkarte, bei identische Leistung auch senken, was Kühlung, usw. zu gute Kommt, was schon wieder kosten sparen würde.
Und bei AMD, könnte man diese sinnlose Infinity-Cache abschaffen, was wieder kosten sparen würde und die 79xx Grafikkarte eine Leistungsschub verpassen, denn die verhungern eingentlich am Bandbreite. Denn das Infinity-Cache mag schnell sein, aber mit lächerliche 256MB ein Witz und nicht zu gebrauchen. Was nutzt die schnelle verarbeitung von Vector-Daten, usw. wenn man dann auf die Texturen umso länger warten muss.

Aber vielleicht ist meine Üüberlegung falsch. Habe mich schon länger nicht mehr mit HBM auseinander gesetzt.
 
  • Gefällt mir
Reaktionen: C4rp3di3m
loco28 schrieb:
Und bei AMD, könnte man diese sinnlose Infinity-Cache abschaffen, was wieder kosten sparen würde und die 79xx Grafikkarte eine Leistungsschub verpassen, denn die verhungern eingentlich am Bandbreite.
Warum bringt dann memory OC so wenig? Und warum hat NVIDIA das Konzept dann auch übernommen?
 
Ich glaube mal dass die RTX 5000er serie einen sehr unerwartet großen Leistungssprung mitbringen wird... und das wird uns eine Niere kosten.
 
  • Gefällt mir
Reaktionen: dualcore_nooby
eQui schrieb:
Ich glaube mal dass die RTX 5000er serie einen sehr unerwartet großen Leistungssprung mitbringen wird

Wo soll der denn herkommen? Dass es von RTX 3000 auf RTX 4000 einen großen Sprung gab, war logisch, da wir von Samsung 8nm bei der RTX 3000 (entsprach ca. 10nm bei TSMC) auf TSMC N4 (5nm) gewechselt sind.

Das war ein satter Sprung von einem TSMC 10nm "Äquivalent" auf TSMC 5nm (aus Marketinggründen für nVidia als "4N" benannt).

Von RTX 4000 auf RTX 5000 gibt es einen vergleichsweise kleinen Hüpfer von TSMC 5nm (4N) auf TSMC 3nm.

Ich würde dringend dazu raten, die Erwartungen entsprechend anzupassen und bei der RTX 5000 keine Wunder zu erwarten.
Es wird sicherlich auf das Anwendungsgebiet ankommen, aber ich würde jetzt mal schätzen, dass wir bei Rasterizing "nur" so ca. +30% und bei Ray-/Pathtracing so ca. 50% sehen werden.

Jede positive Überraschung wird natürlich gerne mitgenommen, aber realistisch betrachtet, dürfte der Leistungssprung im Vergleich zur letzten Generation eher bescheiden ausfallen.
 
  • Gefällt mir
Reaktionen: bensen und BlueBringer
32GB HBM(X) auf einer RX8888 oder 5090 wäre schon ein Träumchen
Gerade wenn man seine GPU auch für Hardwarebeschleunigung nutzt nebenbei.

Schaden tut es nicht, wäre mal eine echte Neuerung und Preis ist quatsch wir reden hier von wenigen Euro oder glaubt ihr AMD hat die Karten damals verschenkt.
 
Fighter1993 schrieb:
Die alten AMD Karten hatten doch teilweise 512bit.
Genau deswegen schätze ich meine R9 390X im 2. Automat :love:
Ergänzung ()

theGucky schrieb:
Naja bei der 3080 war das nicht ver Fall... 699€ für 10 Chips und dicken 320bit Bus...
699 USD / 719 € war die UVP der 3080.
Und mit 1199 USD für die 3080Ti hat sich nVidia den RAM/das Interface mit 12 GB und 384 bit vergolden lassen.
Ergänzung ()

Tigerfox schrieb:
der R600 auf der Radeon HD2900 Pro/XT und der G200 auf der GeForce GTX 280/285, 512Bit hatten.
Die 290X/390X hatten auch 512bit (vor über 10 Jahren)
Tigerfox schrieb:
Mal den Teufel nicht an die Wand, 96Bit hatten wir noch nie!
INTEL´s Arc A380 und die "neue" RTX 3050 mit 6 GB haben 96bit
 

Anhänge

  • R9 390X OC.jpg
    R9 390X OC.jpg
    467,5 KB · Aufrufe: 79
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: M11E und Fighter1993
Zurück
Oben