News DDR5: JEDEC verabschiedet finale Spezifikationen

Holt schrieb:
Wichtiger ist aber, gerade bei Servern, dass man damit mehr unabhängige Zugriffe parallel abarbeiten kann, was bei der Zunehmenden Anzahl an Kernen bei vielen Anwendungen wichtig ist, da oft jeder Kerne andere Daten braucht und warten muss bis andere RAM Zugriffe erledigt sind damit er diese laden kann.
(Ich gehe mal von weiterhin zwei Dimms aus...mit 2GB 8Bit Chips und 32GB als neuem Gaming-PC-Standard)

Also wenn ich das richtig verstehe, hat mit DDR5 jeder Dimm statt 1x64Bit nun 2x32Bit Anbindung.....mit doppelter Frequenz also eine doppelte (theoretische-Peak)Bandbreite und weil die Bursts länger sind, sogar noch etwas mehr.

Aber diese 2x32 pro Dimm laufen nicht im dualchannel miteinander? oder?

So wie ich das verstehe laufen 1x32 von Dimm A mit 1x32 von Dimm B im dual Channel.....und die jeweils zweiten 32Bit laufen auch im dual Channel, aber unabhängig.....damit wird ermöglicht, dass zwei Kerne zeitgleich schreiben/kopieren können....und auch lesen, solange die benötigten Daten nicht im gleichen "dual channel Verbund" liegen?
Es ist also keine quadchannel-Bandbreite, sondern zwei verfügbare dual channel Bandbreiten.

Das wäre erstmal ziemlich cool, bedeutet aber auch, dass die Bandbreite des einzelnen CPU-Kerns nicht unbedingt doppelt so hoch liegen würde....der bekommt nur eine ähnliche Bandbreite wie DDR4(doppelte Frequenz aber nur 32 statt 64Bit)....
Es sei denn das ganze ist so variabel, dass eine Anfrage auch auf alle vier Channel aufgeteilt werden kann....was aus meiner Sicht keinen Sinn ergeben würde....
Das würde zusätzliche Logik bedeuten, die entscheidet, ob Schreibanfragen im dual oder quadchannel bearbeitet werden....viel zu viel Latenz....und beim Lesen würde es nur Vorteile durch eine Parallelisierung geben, wenn auch beide Anfragen vorher im "dual channel" geschrieben wurden....das nachzugucken und zu ordnen wäre wieder viel zu viel Latenz.

Holt schrieb:
Die meisten schauen ja nur auf die GB/s RAM Durchsatz die Benchmarks wie AIDA anzeigen, aber je mehr Kerne ausgelastet sind, umso unwichtiger ist die, umso wichtiger ist es dann die Latenz der Zugriffe zu senken und dies erreicht man indem man die Channels unabhängig voneinander betreibt.
Ich sehe da gerade für Spiele einen brauchbaren Vorteil, da die effektiven Latenzen damit sinken dürften.

Aber ist dass dann noch UMA oder schon Richtung NUMA?
 
  • Gefällt mir
Reaktionen: Smartbomb und Tanzmusikus
Baal Netbeck schrieb:
Also wenn ich das richtig verstehe, hat mit DDR5 jeder Dimm statt 1x64Bit nun 2x32Bit Anbindung.....mit doppelter Frequenz also eine doppelte (theoretische-Peak)Bandbreite und weil die Bursts länger sind, sogar noch etwas mehr.
Richtig, aber die doppelte Bandbreite hat man nur im ganged Modus, ganged oder unganged war früher schon bei AMD ein großes Thema, google mal danach, denn genau das ist das Thema wenn man von RAM Performance redet. Man kann es sich vorstellen wie bei 2 HDDs die man entweder im RAID 0 oder als JBOD (BIG) laufen. Bei RAID 0 erfolgt im Prinzip jeder Zugriff auf beide Platten, dafür hat man bessere Transferraten aber wenn zwei Zugriffe zeitgleich erfolgen sollen, muss einer warten bis der andere erfolgt ist. Beim JBOD (BIG= ist die erste Hälfte des Adressraums auf der Platte und die zweite Hälfte auf der zweiten, jeder Zugriff geht im Prinzip nur auf eine Platte, aber wenn zwei Zugriffe erfolgen und der eine auf die erste Hälfte des Adressraums des Volumens und der zweite auf die zweite Hälfte, dann können beide wirklich zeitgleich erfolgen, ohne Wartezeit für den Zweiten bis der Erste beendet ist.

Genauso ist es beim ganged oder unganged und auch da hängt es von der Anwendung ab, welcher schneller ist, auch wenn in den üblichen Benchmarks der RAM Bandbreite der ganged vorne liegt bzw. damals lag, denn dies ist ein altes Thema und meistens wird heute automatisch der ganged Modus aktiviert, wenn die Slots entsprechend bestückt sind.
Baal Netbeck schrieb:
Aber diese 2x32 pro Dimm laufen nicht im dualchannel miteinander? oder?
Dualchannel ist das falsche Wort, theoretisch könnten wohl auch beide an einem Channel hängen, als DIMM1 und DIMM2, also 2 DIMM pro Channel. Außerdem ist die eigentlich Frage eben ganged oder unganged.
Baal Netbeck schrieb:
Es ist also keine quadchannel-Bandbreite, sondern zwei verfügbare dual channel Bandbreiten.
Auch das ist so nicht richtig, egal ob ganged oder unganged ist die Bandbreite gleich, wenn man es richtig bencht. Bei Dual Channel unganged wurden bisher pro Zugriff nur halb so viele Bytes geladen, weil ja nur 64 Bit breit zugegriffen wurde, eben bisher mit 64 Bit, bei ganged aber mit 128 Bit. Bencht man singlethreaded, so ist die Bandbreite nur halb so hoch, bencht man mit zwei Threads auf entsprechend passende RAM Adressen, dann bekommt man in der Summe die gleiche Bandbreite.

Was besser ist, hängt von der Anwendung ab. Bei BL8 und 64 Bit Datenbreite werden mit jedem Zugriff 64 Byte geladen, im ganged Modus mit 128 Bit Datenbreite (Dual Channel bis DDR4) sind es entsprechend 128 Byte, werden davon aber weniger als die 64 Byte gebraucht die auch im unganged Modus geladen worden wären, dürfte bei einer Multithreadlast bei der ein anderer Kerne Daten aus einem ganz anderen Adressbereich braucht, die Wartezeit auf den anderen Zugriff eindeutig schlechter sein als die Tatsache in der gleichen Zeit zusätzliche Daten geladen zu haben die dann doch nicht benötigt werden. Dagegen ist eine Anwendung die alleine läuft und große RAM Bereiche sequentiell abarbeitet natürlich im ganged Modus im Vorteil, weil dabei mit jedem Zugriff mehr Daten geladen (oder speichert) werden und man damit weniger Verzögerungen durch die Zugriffe hat. Bei so groß 50ns Latenz der RAM Zugriffe und 5GHz CPU Takt reden wir hier von 250 CPU Takten. Klar versucht man dies in den CPUs durch Vorhersagen zu vermeiden, aber auch die sind nie perfekt, wurde nicht korrekt vorhergesagt welche Daten benötigt werden, muss die CPUs Takte unnötig verbummeln und wurden die falschen Daten vorhergesagt, muss ggf. auch noch gewartet werden bis der unnötige RAM Zugriff abgearbeitet wurde.
Baal Netbeck schrieb:
Das wäre erstmal ziemlich cool, bedeutet aber auch, dass die Bandbreite des einzelnen CPU-Kerns nicht unbedingt doppelt so hoch liegen würde....
Deswegen hängt es eben von der Anwendung ab. Tendenziell geht der Trend ja zu immer mehr CPU Kernen und die Software wird sich dem anpassen (müssen) und dies macht auch nur Sinn, wenn jeder Kern möglichst auf einem eigenen Teil der Daten arbeiten kann, man sieht es bei Cinebench ja schön wie jeder Thread einen Teil des Bildes bearbeitet, weil sonst zu viel Overhead beim der Synchronisierung zwischen den Thread entsteht. Damit greift aber auch jeder Thread auf andere Adressbereiche im RAM zu und der unganged Modus ist dann tendenziell im Vorteil, eben weil Zugriffe auf das RAM damit wirklich parallel möglich sind. Ob die wirklich parallel erfolgen können, hängt natürlich auch davon ab auf jede RAM Adressen jeweils zugegriffen wird.
Baal Netbeck schrieb:
Es sei denn das ganze ist so variabel, dass eine Anfrage auch auf alle vier Channel aufgeteilt werden kann....
Nein, denn jede RAM Adresse ist ja auch bei unganged auf einen bestimmten RAM Riegel zugewiesen, der an einem bestimmten Channel hängt.
Baal Netbeck schrieb:
Das würde zusätzliche Logik bedeuten, die entscheidet, ob Schreibanfragen im dual oder quadchannel bearbeitet werden....viel zu viel Latenz....und beim Lesen würde es nur Vorteile durch eine Parallelisierung geben, wenn auch beide Anfragen vorher im "dual channel" geschrieben wurden...
Nein, da die Daten ja immer an der gleichen RAM Adresse stehen und die Riegel ja fest an einem Channel hängen. Denk an das Beispiel oben mit RAID und JBOD (BIG), da stehen Daten auch fix an einer Adresse und damit auf einer der beiden Platten und wenn man dazwischen wechseln wollte, müssen man alle Daten verschieben.

Nochmal: Im ganged Modus ist RAM wie ein RAID 0 mit einer Stripesize von 8 Byte (bis einschl. DDR4) und im unganged Modus wie ein JBOD (BIG) mit z.B. 2 x 8GB, wo die ersten 8GB auf dem einen Riegel liegen und anderen 8 GB auf dem anderen Riegel. Würde man auf dem einen in den anderen Modus wechseln wollen, unganged auf ganged könnte man die ersten 8 Byte im ersten Riegel da lassen wo sie sind, die nächsten 8 Byte dort müsste dann aber die ersten 8 Byte im zweiten Riegel sein und die Bytes 8 bis 15 im ersten Riegel müssten wiederum auf die Adressen 17 bis 23 verschoben werden usw., also total langsam und damit unpraktisch.
Baal Netbeck schrieb:
Ich sehe da gerade für Spiele einen brauchbaren Vorteil, da die effektiven Latenzen damit sinken dürften.
Nur wenn dabei auf sehr unterschiedliche Adressen zugegriffen wird. Hat die Graka zu wenig RAM und es müssen ständig Daten zwischen dem RAM der Graka und der CPU ausgetauscht werden, dann dürfte es sich wohl eher ins Gegenteil umkehren. Die Gamer dürften aber sowieso weniger im Fokus dieser Entwicklung gestanden haben.

Diese Entwicklung macht nur Sinn, wenn man an den unganged Modus denkt und Multithreadanwendungen im Sinn hat. Denk dran, AMD hat mit dem 3950X und dem TR 3970X 8 Kerne pro RAM Channel eingeführt, beim 3990X sogar 16! Vor gar nicht so vielen Jahren waren beim Mainstream mit 4 Kernen und Dualchannel 2 Kerne pro Channel üblich. Im Sockel 1356 (Ivy Bridge-EN) gab es maximal 10 Kerne, also 3,3 pro RAM Channel, bei 2011-3 22 und bei 2066 maximal 18 Kerne für 4 Channels, also sagen wir mal 5 Kerne/Channel, beim LGA 3647 bis 28 Kerne für 6 Channels, mit 4,667 pro Kern also sogar etwas weniger. Natürlich helfen höhere RAM Frequenzen die Zeit für einen RAM Zugriff und damit Wartezeit auf den nächsten zu verringern, aber typische Multithreadlasten zeichnen sich eben dadurch aus, dass jeder Thread auf einen anderen RAM Bereich zugreift und dabei sind mehr RAM Channel sie unabhängig arbeiten (unganged Modus), eben von Vorteil.

Auch hier sieht man eben: Es ist nicht einfach und gelingt selten die maximale Singlethreadperformance mit der maximalen Multithreadperformance unter einen Hut zu bekommen!
 
  • Gefällt mir
Reaktionen: Smartbomb, bellencb, Matzegr und 3 andere
Holt schrieb:
Das ist ja nicht das einzige es innerhalb der Latenzzeit passiert, die Befehle, rows (Word Lines) und columns (Bit Lines) werden bei den DIMMs alle nacheinander über die gleichen Pins übertragen (HBM hat dafür einige Pins und daher auch eine geringere Latenz,weil dies parallel übertragen werden kann, aber HBM erforder wegen der vielen Pins immer einen Silizium Interposer), was jeweils zu entsprechenden Latenzen führt. Deswegen gibt es ja auch nicht nur eine Latenz, sondern einige Latenzen beim DRAM Zugriff.
War das nich nur wegen der vielen Datenpins?
Das Address/Data Multiplexing ist jetzt eigentlich nicht das Langsame am DRAM.
Nachdem der eine Addressteil übertragen wurde wird der intern verarbeitet und währenddessen wird schon der nächste Addressteil reingeschoben.
Da ich mit DDR RAM im embeddetbereich arbeite kenne ich mich mit den Timingdiagrammen durchaus aus.
Auch wenn das höchste der Gefühle momentan dort DDR2 ist, so viel anders sind die aber nicht zu 3 u. 4.
 
SV3N schrieb:
Weder noch, sondern einfach eine Verlagerung der Komplexität, weg von den Boards (die damit etwas günstiger werden könnten) hin zum DIMM.
Dafür werden die RAM-Riegel dann um so teurer, und man zahlt den Aufpreis dann pro Riegel (im Mainboard musste man den Spannungswandler nur einmal bezahlen).
 
Fritzler schrieb:
War das nich nur wegen der vielen Datenpins?
Auch, aber eben nicht nur, wenn man sowieso schon so viele Pins brr die Datenbreite braucht, dann kommt es auf ein paar mehr für die Adressierung ja auch nicht an. So viele Verbindungen kann man bei RAM Riegeln einfach nicht unterbringen, sonst wären zu viele Pins nötig und damit zz viel Platz, denn die Dichte der Pins ist eben begrenzt.
Fritzler schrieb:
Das Address/Data Multiplexing ist jetzt eigentlich nicht das Langsame am DRAM.
Es erhöht aber die Latenz eines RAM Zugriffs.
Fritzler schrieb:
Da ich mit DDR RAM im embeddetbereich arbeite kenne ich mich mit den Timingdiagrammen durchaus aus.
Wirklich? Wenn es wahr ist,. müsste ich doch offene Türen einrennen und nicht so einen Kommentar lesen.
 
PS828 schrieb:
Bei älteren Generationen ging es auch. Oder bezahlst du für das GB RAM immernoch das gleiche wie DDR1?
Das mag auf lange Sicht funktionieren. Aber mit Start von DDR5 wird das wohl erst mal das exakte Gegenteil sein.
Oder war DDR4 zu beginn sofort günstiger als DDR3?
 
Also wenn bei DDR4 die höchste Spezifikation 3200 sind und es 4800 OC Ram zu kaufen gibt, also 50% mehr Geschwindigkeit, dann sind bei DDR5 doch 12600 drin oder? Ich glaube aber, ich denke zu simpel :D
 
So ein Mist. Habe beim letzten Prozessor kauf schon gerade DDR4 verpasst. Und jetzt wo bei meinem alten i7 4790k der Wechsel ansteht muss ich auch wieder das "veraltete" DDR4 nehmen.
 
  • Gefällt mir
Reaktionen: dennisis
MeisterOek schrieb:
dann sind bei DDR5 doch 12600 drin oder?

Der Takt der zur Kommunikation mit dem Speicher genutzt wird, liegt bei der Hälfte der genannten Geschwindigkeit (weshalb auch DDR). Du kannst dir die Frage glaube ich selbst beantworten, inwiefern ein Takt von 6,3Ghz realistisch erscheint oder nicht.
 
  • Gefällt mir
Reaktionen: MeisterOek
hemmi1982 schrieb:
So ein Mist. Habe beim letzten Prozessor kauf schon gerade DDR4 verpasst. Und jetzt wo bei meinem alten i7 4790k der Wechsel ansteht muss ich auch wieder das "veraltete" DDR4 nehmen.

Ich bin in genau derselben Situation (auch mit altem 4790k Setup) 😂
 
hemmi1982 schrieb:
So ein Mist. Habe beim letzten Prozessor kauf schon gerade DDR4 verpasst. Und jetzt wo bei meinem alten i7 4790k der Wechsel ansteht muss ich auch wieder das "veraltete" DDR4 nehmen.

Naja die Preise stimmen:D
Mein erster DDR4-Riegel mit 8 GB hat 90 Euro gekostet :rolleyes:
 
Holt schrieb:
Wirklich? Wenn es wahr ist,. müsste ich doch offene Türen einrennen und nicht so einen Kommentar lesen.
Hachja die alte bekannte Arroganz des Holt, so kennt man ihn.
Haste denn mal die JEDEC SPEC zu HBM gelesen?
Row/Column (Addr+Command) sind zwar getrennte Busse, aber werden (pro Pseudo Channel) nicht gleichzeitig genutzt.
Es gibt immernoch die getrennten Kommandos Activate und danach R/W.
Siehe Anhang: "JESD235A_activate.pdf"

Eine Gleichzeitige Nutzung geht dann erst im Pseudo Channel Mode, da ist es dann aber eher ein Interleaving beider Pseudo Channels, also auch wieder der Zweiklang aus ACT+R/W.
Anhang: "JESD235A_Pseudo.pdf"
Wegen diesem Mode allein existiert die Trennung.

Übrigens: beide Busse zusammen haben weniger Leitungen als zB DDR4 bei der gemultiplexten Adresse:
14 (Spec) vs. 16 (MT40A1G4 512M)
Das Argument is also auch keins.

Zum DDR4:
Die 2 Takte für ACT fallen bei einem CL von zB 15 nun wirklich nicht ins Gewicht ;)
Damit konnte man bei DDR2 vllt noch argumentieren.

Zudem wäre eine gleichzeitige Übertragung auch nicht schneller, denn das Activate der Rows braucht eh länger als das Auswählen der Column.
Beim Activate werden die Kondenstorzellen ausgelesen, durch den Analogverstärker gejagt, der Pegel bestimmt und dementsprechend wird das DRAM interne Ausleseregister gefüllt.
Dann darf gelesen werden.
Die Physik lässt da leider nicht mit sich reden.

Daher empfehle ich dir mal etwas weniger überheblich zu sein und dir mehr Wissen anzueignen bevor du lospolterst denn sonst wirds peinlich ;)
 

Anhänge

Da kommt doch wieder richtig Laune auf 2021/22 mal wieder Hardware zu tauschen.
Eventuell schafft es Intel bis dahin ja sogar mit was neuem um die Ecke zu kommen.
Werden jedenfalls wieder paar spannende Jahre kommen, nach dem ewigen Stillstand bei den Quadcores eine nette Abwechslung.
 
Endlich mal wieder ein grosser Schritt, wobei der Anfang vermutlich noch zu vernachlässigen ist. Also 2022 oder 2023 wirds dann interessant.

Ich hab nu 32GB mit 3600 MHz verbaut, die bekommen dann in Zukunft nen 12 oder 16 Kern Ryzen 4xxx an die Seite und dann kann ich gemütlich abwarten das DDR5 flott und erschwinglich wird 😁. Dazu dann nen 6xxx oder 7xxx ryzen das wird sicher nen Sprung😁
 
Holt schrieb:
Ja, da jeder DIMM nun in zwei zu je 32 Bit (ggf. +8 bei ECC RAM) besteht und damit pro Slot schon zwei Channels nötig ist um das komplette RAM nutzen zu können.

Da wäre ich mir gar nicht so sicher.

Ich kann mich erinnern das ich mal in dem Dell DDR3 System nen einelnes Dualrank Modul drin hatte und im System dann DualChannel angezeigt wurde.

Das könnte ich mir dann genauso auch wieder bei den kleineren CPU Linien vorstellen.
 
Holt schrieb:
Auch hier sieht man eben: Es ist nicht einfach und gelingt selten die maximale Singlethreadperformance mit der maximalen Multithreadperformance unter einen Hut zu bekommen!
Ich antworte mal nicht auf die ganzen Infos einzeln....nur dass sie sehr interessant waren...Danke. :)

Für mich klingt der unganged mode nach der richtigen Lösung für fast alle Anwendungen.
APUs mal ausgenommen. ;)

Ich bin gespannt was die Praxis zeigen wird.....ich habe etwas Sorge, dass man in Zukunft "shunt-mod-ähnliches" auf seinem Ram machen darf, wenn man mehr Spannung für sein Ram-OC wünscht....aber mal sehen. ;)
Ergänzung ()

QShambler schrieb:
Ich kann mich erinnern das ich mal in dem Dell DDR3 System nen einelnes Dualrank Modul drin hatte und im System dann DualChannel angezeigt wurde.
Kann auch sein, dass ein Teil des Rams onboard verlötet war....so findet man das immer öfter in Laptops, wo dann 4 oder 8 GB verlötet sind und mit einem einzelnen Ram Dimm dual channel ermöglicht wird(oder es bei single channel bleibt, wenn man keinen Ram Dimm verbaut).
 
@Ko3nich richtig. Wie die Preise zu Beginn aussehen kann natürlich noch keiner wissen. Auf lange Sicht werden aber wie immer alle profitieren.
 
Baal Netbeck schrieb:
Kann auch sein, dass ein Teil des Rams onboard verlötet war....so findet man das immer öfter in Laptops, wo dann 4 oder 8 GB verlötet sind und mit einem einzelnen Ram Dimm dual channel ermöglicht wird(oder es bei single channel bleibt, wenn man keinen Ram Dimm verbaut).

Nein kann nicht sein. Nice Try aber nein.
Wenn ich 4Gb reinstecke und dann 4Gb habe nutzt er garantiert kein "Onboard Ram".
Ich hab so ein Gerät sogar noch hier da läuft gerade mein Freenas drauf. Und auch das Board Layout lässt kein solche Szenario erscheinen.
 
QShambler schrieb:
Nein kann nicht sein. Nice Try aber nein.
Kann ich mir halt anders nicht vorstellen.
Was sagt denn ein Benchmark wie Aida64?
Hast du da mit einem Dimm wirklich erwartbare dual channel Bandbreiten?
 
Zurück
Oben