News GPU-Gerüchte: GeForce RTX 4090, Radeon RX 7900 XT und Intel Battlemage

Sehr interessant, wie sich das Ganze langsam herauskristallisiert. 4 einzelne Chiplets für den Infinity Cache als Schnittstelle zwischen VRAM und GCD ergeben Sinn. Das sind dann 2 pro GCD, und die Caches sollen ja kohärent für beide GCDs behalten werden. So gesehen scheint die erste Twitter-Grafik zu stimmen, wo der I/O-Die auch unter den MCDs liegt.

morb schrieb:
die GPU Chips werden noch in „2D“ hergestellt, oder?
Wäre interessant, wenn sie es schaffen würden die Shader übereinander zu stapeln
Wie bei HBM schon sind zumindest die AMD-Chips "2,5D".
budspencer schrieb:
Ist das so richtig für mich zusammengefasst:

[...] allerdings wird man durch die Anbindung Performance-Einbußen bekommen. Diese will man mit Cache mindern und kaschieren.
Naja, da GPUs deutlich toleranter auf Latenzen reagieren, sollten die Performance-Einbußen, die das Aufteilen der Chips mit sich bringt, deutlich niedriger sein als bei den CPUs. Die Cache-Chiplets werden hingegen dafür sorgen, dass bei gleicher VRAM-Geschwindigkeit genug Dampf dahinter kommt, dass die vielen Shader gut gefüttert werden. Mich irritiert etwas die gleichbleibende Cache-Geschwindigkeit von 2TB/s, aber vielleicht reicht es ja damit.
mytosh schrieb:
AMD geht von 5.120 auf 15.360 Shader? Das wären ja einfach 3*6900XT = 7900XT.
Wahrscheinlich macht AMD den gleichen Schritt wie Nvidia 2020, nämlich die Shader pro CU zu verdoppeln ohne dass direkt die doppelte Leistung dabei herumkommt. Ich träume aber noch davon, dass sie es besser als Nvidia hinkriegen und die Karte richtig abgeht.
 
Bei den Nvidia-Chips finde ich den Leistungsbedarf mittlerweile extrem bedenklich.
Also beim besten Willen - bei den CPUs gibt es hier mittlerweile ein ausreichendes Bewusstsein für Kühlung/Austauschbarkeit von Kühlern und Begrenzung der Leistung in „normale“ Regionen während bei GPUs alles recht ist.
 
mytosh schrieb:
AMD geht von 5.120 auf 15.360 Shader? Das wären ja einfach 3*6900XT = 7900XT.
Nicht so ganz, da die Shader in dem Fall nicht 1:1 skalieren. Ebenso ist auch die Frage, was an Takt dabei rum kommt und ob es ggf. sogar ein Auslastungsproblem wieder gibt.

Auch wenn AMD den Treiber auf Wave32 umgestellt hat und die WGP jetzt statt 4 * Vec32 auf nun (vsl.) 8 * Vec32 zurück greifen.

Man wird sehen müssen, was da kommt.
budspencer schrieb:
Die GPU bei AMD sind weniger groß und raffiniert
Oh, die AMD-GPU ist im Einzelzeilen weniger Groß, aber in der Gesammtheit raffinierter als Ada. AMD muss/musste einige Probleme lösen um ein MCM-Design für eine GPU umzusetzen, die sich nun nach Außen wie ein monolitischer Chip verhält.

budspencer schrieb:
allerdings wird man durch die Anbindung Performance-Einbußen bekommen. Diese will man mit Cache mindern und kaschieren.
Welche Performance-Einbußen wird den AMD bei RDNA³ bekommen? Weißt du schon was, oder rätst du?

Wenn die letzten Patente sowie die ganzen Gerüchte stimmen, dann werden die beiden GPU-Chiplets sogar relativ gut skalieren können und das eben auch wegen dem Cache, da dieser die Datensynchronistation zwischen den Chiplets übernimmt. Wichtig ist hier der Signalweg und da hier gestapelt wird, gibt es kurze Signalwege.

Selbst bei NVIDIA ist auch der L2-Cache für die "Synchronistation" der gesamten GPU zuständig und ermöglicht es, dass die SMs Daten zeitnah austauschen können ohne über den VRAM zu gehen. NVIDIA wird jetzt auch nachgesagt, dass sie den L2-Cache massiv erweitern, was auch daran liegen könnte, dass aktuell kaum Gerüchte zu schnellerem GDDR6x-RAM verfügbar ist und NVIDIA hier Ada-Monster versorgen müssen und der L2-Cache als Puffer herhalten muss.

NVIDIA wird früher oder später auch auf ein MCM gehen und mich würde es nicht wundern, wenn da später der L2-Cache oder auch ein L3-Cache eine wichtige Rolle spielen wird.
 
  • Gefällt mir
Reaktionen: fox40phil, edenjung und MasterAK
Wenn AMDs Vorhersage stimmt und N5 für sie wirklich -50% Power bedeutet (was mehr ist als TSMC selbst angibt), können sie genauso in die Breite gehen wie es zuvor bei Zen 2 und N7 gemacht wurde: Doppelt so viele Kerne (Shader) bei gleicher TDP. Inwieweit AMDs verdreifachte ALUs sich dann doch auf den Stromverbrauch auswirken, wird spannend werden.
Ergänzung ()

Ich frage mich, ob Nvidia auch so viel aus N5 herausholen wird, oder ob AMD am Ende eventuell sogar den Prozess besser nutzen kann. Umgekehrt wäre natürlich auch möglich, dass Nvidia ein besonders cleveres Transistordesign bringt.
 
Genau die Shader-Schlacht lässt mich (abgesehen von den Preisen) die aktuelle GPU-Generation links liegen.

Ich bin gespannt, wie gut man die Shader-Bombasten Leistungsmäßig auf die Straße bekommt und wie sich der Stromverbrauch auswirkt.

Denke die nächste Generation wird wieder einen erheblichen Leistungssprung bringen, hoffe dass die Mainstream- und Einstiegsversionen dann nur noch 1 refresh Generation ertragen müssen, bevor es das Update mit mehr Shadern gibt.
 
Colindo schrieb:
Wahrscheinlich macht AMD den gleichen Schritt wie Nvidia 2020, nämlich die Shader pro CU zu verdoppeln ohne dass direkt die doppelte Leistung dabei herumkommt. Ich träume aber noch davon, dass sie es besser als Nvidia hinkriegen und die Karte richtig abgeht.
Ich bin da bei AMD etwas bessere Hoffnung als bei NVIDIA, einfach weil sich die Wave32 besser füllen lassen als die optimalen "Wave64" bei NVIDIA, die notwendig wären, dass beide Datenpfade optimal ausgelastet sind.

NVIDIA ist Ampere - nachdem ich da mal das Whitepaper für Entwicklung durchbin - schon irgendiwe auch ein kleines Softwaremonster, was die Entwicklung angeht, wenn man da wirklich maximale Leistung haben will. Entweder man nutzt die beiden Datenpfade in der vollen Breite aus, oder man liefert die Daten so optimiert, dass der Treiber mehre Threads passend für die Datenpfade zusammenfassen kann.

RDNA³ wird weiterhin den Vorteil haben, dass der Treiber nun Wave32 nutzt und damit entsprechend die Operationen auch in einem Takt ausgeführt werden. RDNA³ wird aber - ähnlich wie GCN - Threads brauchen oder AMD arbeitet auch erneut am Treiber und Shadercompiler, der es dann auch ggf. pro Shader ermöglich mehre gleichzeitige Wave32-Befehle auf eine WGP zu geben.

Man kann gespannt sein.
 
Colindo schrieb:
Achja, ganz vergessen, dass Nvidia noch bei Wave64 ist. Aber den Schritt zu Wave32 könnten sie jetzt auch machen, oder nicht?
Können: Ja!

Sie müssten dann nur auch noch mal das Design der SM anpassen und aus den aktuell zwei Datenpfaden dann 4 Pfade machen oder sie müssen hoffen, dass über 4 Threads auch 2 gleiche Operatoren zusammen kommen, dass man zwei Wave32 zusammen fassen kann für einen Datenpfad.
 
Reine Spekulation meiner Seite:

Nvidia Brechstange mit Max Leistungsaufnahme.

Intel steht und fällt mit dem Software Support seitens Intel sowie der Integration bereits vorhandener Techniken von Game Studios.

AMD mit ihrer Multichip Technik warum nicht wenn es bei Prozessoren geht warum dann nicht bei GPUs. Aber auch hier muss die Software passen die angesprochen wird. Nicht das es so ein Desaster wie SLI/CF wird.

Am Ende müssen wir alle warten bis Test wirklich Ausschlaggebende Ergebnisse zeigen.

Bin gespannt und Heiß was diese Technik uns geben wird. Kann es nicht abwarten.
 
  • Gefällt mir
Reaktionen: Shy Bell und Viper816
Rubyurek schrieb:
Merke aber ,dass die Treiber eher mist sind und für eine Spiele AMD GPUs problematisch sind.
Die grünen Agenten kochen auch nur mit Wasser und schlechte Treiber gibt es auf beiden Seiten. Ab RDNA 2 hat AMD aber deutlich nachgebessert.
 
  • Gefällt mir
Reaktionen: Laphonso
SV3N schrieb:
AMD Navi 3x auf Basis der RDNA-3-Architektur*
  • 15.360 Shader
  • Multi-Chip-Module
    • 7× Chiplets im MCM-Design insgesamt
      • 2× GDC („Graphics Complex Dies“) in 5 nm
      • 4× MCD („Memory Complex Dies“) in 6 nm
      • 1× Interconnector („I/O-Die“) in 6 nm
  • 256-Bit Speicherinterface mit GDDR6
  • 512 MB Infinity Cache

*) nicht offiziell bestätigt!
^klingt für mich logisch, darauf aufbauend könnte die Technik so funktionieren:
(Achtung purer Spekulatius zu Ostern😅)
  • UEFI / OS sehen nur den I/O-Die, der meldet Shader, IF-Cache und VRAM zurück.
    (interner Aufbau wird erstmal verschleiert)
  • Wenn die MCDs der IF Cache sind, werden sie mit höherer Bandbreite direkt an den GDCs hängen
    (2 MCD direkt pro GDC maybe, evtl. auch alle an beiden)
  • VRAM hängt "dazwischen" per I/O-Die.
  • Der I/O nimmt die Rohdaten, vom PCIe Bus, legt sie in der VRAM und verteilt die Tasks an die beiden GDCs die sich die Daten, ggf am I/O-Die vorbei in den IF-Cache legen und dann eigenständig darauf arbeiten.
  • Wenn der Frame fertig ist geht er über den I/O-Die zum Bildschirm.
So in etwa könnte ich mir das vorstellen, Freesync / Framepacing im I/O-Die verhindern Tearing und Mikroruckler und das OS merkt gar nicht das es quasi 2 GPU's drin hat.
Wenn Shader Blöcke, IF Cache und Co. gerade nicht gebraucht werden, schickt der I/O-Die sie schlafen.

Wenn das Konzept so in etwa funktioniert, könnte RDNA 3x echt effizient werden, die max. TDP/TGP/TBP whatever würde dann nur anliegen wenn man die Karte an die Grenzen zwingt (UHD, RT, 8K60, etc.).

Bin auf die Technik echt gespannt, bei mir wird dann Ende des Jahres eine (hoffentlich🙏) günstige RX6700XT/6750XT Sapphire Pulse einziehen.
 
Hauptsache man kriegt mal was für vernünftiges Geld...
 
Rubyurek schrieb:
Die sollen mal anfangen zu Forschen wie man Energieeffizienz richtig einsetzen kann in Richtung Gaming, dann Power hochschrauben.
Denke das tut man bereits, aber hebt es sich für die übernächste Generation auf.
Nvidia, AMD und Intel sind ja keine hinterhofschmieden die davon keine Ahnung haben wie man sowas umsetzt.
Allerdings wären dafür womöglich neue Verfahren notwendig.
Mit der 4090 kann Nvidia daher weiter machen wie bisher und erst mit der 5090 wirds eventuell wieder grün.
 
  • Gefällt mir
Reaktionen: Laphonso
R O G E R schrieb:
Schön das es weiter geht.
Nur die 600W finde ich schon sehr beängstigend irgendwie.
Wie möchte man sowas noch leise kühlen.
Wasser oder Stickstoff oder gleich mit kühlschrank
 
Meine gewagten Thesen (nur meine subjektive, pointierte Behauptung nur anhand der Indizien):

AMD wird mit RNDA 3 die Nvidia Flotte deutlich in der klassischen Rasterperformance hinter sich lassen und ein Monster in "RT off":
  • These #1: Zum ersten Mal seit 5 (?) GPU Generationen gehen die "schnellsten Gaming GPUs" Titel wieder an AMD und in den klassischen Rasterization Benchmarks werden ggf. sogar 2 (!) AMD RNDA3 GPUS oben stehen in den Tests, noch vor der 4090
  • These #2: Dort wo die 7900XT in 4K Ultra 100 fps erreicht, wird die 4090 nur 80 oder 85 fps nur stemmen
  • These #3: Die 7800XT wird bereits die 4090 in vielen Games einkassieren
  • These #4: Die 4070 wird akute Probleme haben, gegen eine 7700XT zu bestehen

Nvidia weiß, dass die klassische fps Krone an AMD gehen wird. Nvida, das deutet die Architektur an, pusht all-in im Raytracing und wird alle next gen Raytracing Games in Optik und Performance dominieren
  • These #1: Die kommenden Spiele Titel (abseits der AMD sponsored Games mit absichtlich kastrierten Raytracing Effekten wie in Far Cry und Resident Evil), die Raytracing als Feature haben, werden in den Maximalsettings in allen Tests stehen haben: "Die meisten Raytracing fps und schönsten Effekte nur mit RTX 4000 GPUs")
  • These #2: Die 4090 wird eine 7900XT in roh Raytracing Bechmarks mit allen RT enabled Effekten (Schatten, Licht, Reflexionen) bereits mit 60-70 % fps Vorsprung deklassieren
    Also 7900XT mit 50 fps im 4K Raytracing = 4090 mit über 80 fps im 4K Raytracing bei 1:1 Settings, ohne DLSS.
  • These #3: DLSS 3.x wird FSR 2.x in den Vergleichen der Qualität nochmals deutlich übertreffen und Ghosting weitestgehend eliminieren.

Nicht hauen, ich bin ja selbst gespannt wie weit ...oder wie knapp?...ich danebenliege :)
 
  • Gefällt mir
Reaktionen: fox40phil und hahaqp
Der avisierte Stromverbrauch finde ich einfach nur komplett aus der Zeit gefallen. Klimawandel, Nachhaltigkeit.........egal, wir nehmen mal die Brechstange :-)

Über AMD gabs da noch nicht so ganz viele Hinweise oder?
 
  • Gefällt mir
Reaktionen: Känguru
@ChrFr Falls du die Patentschriften von AMD noch nicht kennst: da gibt's noch mehr Details.
https://www.computerbase.de/2021-01/patent-amd-gpu-chiplet-design/
https://www.computerbase.de/2021-04/gpus-im-chiplet-design-amd-patente-bringen-den-cache-ins-spiel/

Die Chiplets arbeiten überhaupt nicht so, als wären es zwei GPUs. Die Arbeit wird direkt auf die vielen Shader aufgeteilt, als wäre es ein großer Chip. Eventuell gibt es eine Logik im I/O-Die, die erkennt, wann Aufgaben besser auf einem GCD belassen werden, damit nicht ein Polygon zur Hälfte auf dem einen oder anderen Die berechnet wird. Aber für die Software und die Treiber ändert sich nichts.
 
Die Preis/Leistung ist derart schlecht geworden, dass ich gerne ganz auf eine neue GPU verzichte. Ich zocke eigentlich gerne, aber das Ganze Brimborium um neue Karten zu Mondpreisen möchte ich nicht unterstützen. So bleibt es enen bei älteren Games oder niedrigeren Details auf einer 1070er und vielleicht etwas Gebrauchtes in ein paar Jahren.
Geht es anderen auch so?
 
  • Gefällt mir
Reaktionen: UnidkQ, Windell, kalle11 und 2 andere
Fangt schon mal das sparen an... :D
 
  • Gefällt mir
Reaktionen: edenjung, Zockmock und Laphonso
Zurück
Oben