Test RDNA 2 vs. RDNA vs. GCN im Test: IPC und CU-Skalierung bei Radeon RX seit GCN analysiert

@zeedy Ahh, hab die Unterhaltung nicht weit genug zurück verfolgt, ich dachte Hawaii sollte auch bei diesem Vergleich dabei sein^^
Ergänzung ()

Achja
Das bedeutet aber nicht, dass RDNA 2 eine perfekte CU-Skalierung zeigt, denn mehr als 75 Prozent der zusätzlichen Einheiten werden zu keiner Zeit in mehr Leistung umgewandelt.
Ich hatte ja damals vor dem Launch der ersten RDNA2 Karten bereits mit einer Skalierung von ca 0.6 für die reine CU Skalierung abseits der höheren Taktraten gerechnet und da wurde mir häufig zu viel Pessimismus vorgeworfen weil man in den sehr niedrigen CU Bereichen der 5500XT ja eine bessere Skalierung sehen könnte.

Und wir sehen: Von 40 auf 80 CUs sind es im Schnitt In FHD 0.5, in WQHD 0.6 und in 4K 0.69 ^^

Allein die Zusammensetzung der Endperformance von 5700XT zu 6900XT hatte ich anders spekuliert, da ich auch davon ausgegangen bin, dass 40 RDNA2 CUs bei gleichem Takt ca 10% schneller sein würden als 40 RDNA CUs.
Dass die spekulierte Endperformance trotzdem gepasst hat, liegt nun daran, dass der Takt deutlich höher liegt als die +10% die ich dort angenommen hatte.
 
Zuletzt bearbeitet:
Fighter1993 schrieb:
Falsch in Erinnerung der Infinity Cache limitiert nicht, auch nicht in 4K.

Zitat Test RX 6800XT

"Wie die Benchmarks zeigen, bleibt der Leistungssprung aber weit von den 7,5 Prozent entfernt. Gar so weit, dass man mit ziemlicher Sicherheit sagen kann, dass der Infinity Cache auch in 3.840 × 2.160 die Rechenleistung nicht limitiert. Im Gegenteil sogar, im Durchschnitt wird die Grafikkarte durch das Übertakten des Speichers nur um 1 Prozent schneller, sodass offenbar überhaupt kein generelles Limit an Speicherbandbreite vorliegt."
Ich kann von meiner Karte sagen, RAM >2000 MHz = weniger FPS, RAM <2000 MHz = weniger FPS. Die 2000 MHz (Stock) sind Peak :(
Nur "Fast Timing" bringen ein µ an Plus.
 
  • Gefällt mir
Reaktionen: GERmaximus
@Lord Maiki Solche Spannung-und-Leistungsaufnahme-pro-Takt-Diagramme sind immer interessant, schau ich gerne an. Wäre aber nicht das, was sich zeedy hier wünscht. Er will gerne bei den festgezurrten Takten die Leistungsaufnahme gemessen haben, was meiner Meinung nach wenigstens für Hawaii gegen RDNA1/2 nicht so sehr sinnvoll wäre. Wie viel eine 6700XT brauchen würde, wenn sie auf 5700XT-Niveau eingebremst würde, ist vielleicht schon eher interessant.

@zeedy Für RDNA1 vs RDNA2 bin ich Deiner Meinung, da kann man sich das ruhig mal anschauen.
 
  • Gefällt mir
Reaktionen: Ultharandor
flappes schrieb:
Im Prinzip wurde RDNA2 nur an das Fertigungsverfahren mit höheren Taktfrequenzen angepasst.
Richtig, und das mit dem Hintergrund dass man vermutlich etwas Fläche einspart. Ein 200mm² Chip mit 2000Mhz ist eben deutlich günstiger zu fertigen als ein 400mm² Chip mit 1000Mhz, dafür aber zugleich meist etwas ineffizienter da man eben den Takt prügeln muss.
 
  • Gefällt mir
Reaktionen: Bigfoot29 und Colindo
Wolfgang schrieb:
Wie stark profitieren die RDNA-2-Grafikkarten RX 6900 XT und 6800 (XT) von zusätzlichen Shadern-Clustern gegenüber der Radeon RX 6700 XT mit 40 CUs? Und wie viel schneller sind 40 RDNA-2-CUs als 40 von RDNA oder GCN? Umfangreiche Skalierungs- und IPC-Vergleiche liefern interessante, ja teilweise sogar überraschende Antworten.

Zum Test: RDNA 2 vs. RDNA vs. GCN im Test: IPC und CU-Skalierung bei Radeon RX seit GCN analysiert
Danke für den Bericht. Fand ihn sehr interessant!
 
Wolfgang schrieb:
Das Ding bringt bei Bandbreite und Effizienz so wie ich das sehe massive Vorteile und ermöglicht es AMD auch, sinnvolle VRAM-Größen zu fahren und das deutlich einfacher als Nvidia.
Das ist technisch ein Widerspruch in sich. Caches werden mit Ansteigen der zu cachenden Datengesamtmenge zunehmend ineffektiver, was im Extremfall fast bis zur Angleichung der physikalisch zur Verfügung stehenden Bandbreite zum last level Tier führen kann.

Was bei einer VRAM- Füllung von z.B. 8 GB noch gut funktionieren kann, muss keineswegs bei 16GB Füllung (je nach Dateninhalt und Cache- Steuerung) effektiv funktionieren.
Das wird sich meines Erachtens erst am Schluss der Lebensphase von RDNA2 zeigen (falls wir demnächst überhaupt Produktionen mit entsprechender VRAM- Nutzung sehen werden), ob die Architektur dann noch mit der höheren Gesamtbandbreite von Ampere mithalten kann.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: JPsy
Fighter1993 schrieb:
Falsch in Erinnerung der Infinity Cache limitiert nicht, auch nicht in 4K.

danke das hatte ich anders in Erinngerung, nämlich das als Fazit eben doch eine wenn auch nur leichte Limitierung durch den Cache rauskam, oder könnte es sein das es bei der 6900XT stärker auftritt ? und ich es deshalb so in Erinnerung habe ?

falls es da auch nicht das Problem ist, dann stellt sich halt doch wieder die Frage warum RDNA2 gerade in 4K etwas abfällt im Vergleich zu FHD und WHQD, liegt es doch daran das Nvidia bei höheren Auflösungen ihre CUs besser ausgelastet bekommt und darum im Vergleich besser performt ?
 
zeedy schrieb:
@Wolfgang ist denn ein Effizienzvergleich bei 2 GHz noch geplant als Update? Wäre ja kein großer Aufwand das nachzureichen 😅
Und wie sieht's eigentlich kit der Spannung aus, wenn die 6700XT auf 2 GHz heruntergetaktet wird?
Ein Effizienzvergleich bei 2,0 GHz bei 40, 60, 72 und 80 CUs? Oder bei was anderem?

Iscaran schrieb:
@Wolfgang
Könnt ihr den CU-scaling Test noch mit RDNA1 nachziehen (bei gleichem Takt wie RDNA2 mit 40CUs ?)

Mich würde doch sehr interessieren ob RDNA1 "nach oben hin" genauso oder evtl. schlechter skaliert wie RDNA2.
40 CUs RDNA 1 vs. vs. 40 CUs RDNA 2 bei gleichem Takt gibt es ja und RDNA 1 lässt sich sonst leider nicht bzg. CU-Skalierung vergleichen.
ilovebytes schrieb:
danke das hatte ich anders in Erinngerung, nämlich das als Fazit eben doch eine wenn auch nur leichte Limitierung durch den Cache rauskam, oder könnte es sein das es bei der 6900XT stärker auftritt ? und ich es deshalb so in Erinnerung habe ?

falls es da auch nicht das Problem ist, dann stellt sich halt doch wieder die Frage warum RDNA2 gerade in 4K etwas abfällt im Vergleich zu FHD und WHQD, liegt es doch daran das Nvidia bei höheren Auflösungen ihre CUs besser ausgelastet bekommt und darum im Vergleich besser performt ?
Ich behaupte von Tag 1 an, dass Ampere die vielen ALUs in niedrigen Auflösungen nicht gescheit auslasten kann, auch wenn viele das gerne immer umdrehen (RDNA 2 hat Probleme in hohen Auflösungen). Auf meine Behauptung deutet auch der Vergleich der Verhältnisse mit Turing hin. Aber beweisen (egal in welche Richtung) könnte man es wohl nur mit Entwicklertools und wirklich Ahnung, was man da macht.
 
  • Gefällt mir
Reaktionen: Bigfoot29, danyundsahne, Colindo und 2 andere
Der Vorteil von RDNA2 hängt auch von der Software ab. VRS+MeshShader+SamplerFeedback etc.
(da geht bestimmt noch Was in Zukunft)

btw.
Die min Fps in 4k zeigen keine Probleme mit der Cachegrösse.(6900xt)

Da werden wieder sinnlose Gerüchte verbreitet.
 
  • Gefällt mir
Reaktionen: Kodak und danyundsahne
Wolfgang schrieb:
Ich behaupte von Tag 1 an, dass Ampere die vielen ALUs in niedrigen Auflösungen nicht gescheit auslasten kann, auch wenn viele das gerne immer umdrehen (RDNA 2 hat Probleme in hohen Auflösungen).
Das liegt daran, dass Ampere weniger auf die Rasterisierung/Szenen- Geometriedurchsatz getrimmt ist, als auf pure Shaderleistung.

Und gemessen wird das bereits mit jedem Titel, den Ihr in niedrigen und in hohen Auflösungen durch den Parcours jagd.

Auch ein NVIDIA geht davon aus, dass der Hauptteil der Nutzer ihren Karten 1440P und mehr zumutet (eher 4K) und die neuen Features wie DLSS nutzen wollen.
Das gesamte Design ist auf hohe Auflösungen ausgelegt.
 
.Sentinel. schrieb:
Was bei einer VRAM- Füllung von z.B. 8 GB noch gut funktionieren kann, muss keineswegs bei 16GB Füllung (je nach Dateninhalt und Cache- Steuerung) effektiv funktionieren.
Das wird sich meines Erachtens erst am Schluss der Lebensphase von RDNA2 zeigen (falls wir demnächst überhaupt Produktionen mit entsprechender VRAM- Nutzung sehen werden), ob die Architektur dann noch mit der höheren Gesamtbandbreite von Ampere mithalten kann.
Es wird auf jeden Fall besser funktionieren als der Versuch 8/11 GB mit 16 GB zu befüllen. 😉
 
  • Gefällt mir
Reaktionen: Convert, Kodak, Rage und eine weitere Person
Danke für den Test.
Den finde ich viel interessanter als den Test zur 6700 XT.

Navi 10 hat also mehr IPC als die neuen Navi Chips, und auch die Shader skalieren nicht linear.
Das hätte ich schon vermutet, und euer Test zeigt dass jetzt noch einmal klar.
 
Zuletzt bearbeitet von einem Moderator:
Mich hätte noch interessiert, wie sich die RX580 als Übergangslösung zwischen den Hauptgenerationen eingefügt hat.
 
flappes schrieb:
Im Prinzip wurde RDNA2 nur an das Fertigungsverfahren mit höheren Taktfrequenzen angepasst.
Da ist einiges mehr passiert und das hat @Wolfgang auch gut ausgeführt:

Die Pipeline der sALUs als auch der VecALUs wurden etwas verlängert - schlechtere IPC - um höhere Takt fahren zu können.

Colindo schrieb:
Ich erinnere mich noch gut an den Bericht bei Polaris und Vega. Da war die Skalierung, besonders bei Vega, eine Katastrophe. Schön zu sehen, dass sich bei RDNA 2 so viel getan hat.
Das Problem bei GCN und Vega im speziellen war immer, dass pro 64 Shader gleich 4 zusätzliche Threads mit dazu kommen mussten, damit die man die CU auslastet.

8 mehr CU bedeuteten aso gleich 32 mehr Threads/Shader-Programme, die drauf müssen. Das hat da Skalierung natürlich versaut.

Jetzt kommt pro CU nur noch 2 Threads dazu und das ist halbwegs realistisch, gerade bei modernen Engines kommen ja genung Shader hinzu, die die CUs direkt dankend annehmen.

ilovebytes schrieb:
naja in 4K limitiert der Infininty Cache aber durchaus, habt ihr ja selber bereits etwas genauer untersucht - oder habe ich das falsch in Erinnerung ?
Nein, der limitiert da nicht wirklich. Viele Seiten haben das ja jetzt mehrfach getestet. Die RDNA "fallen" gegenüber den Ampere bei 4K, weil Ampere ab 4K langsam die schiere Anzahl an ALUs effektiver auf die Straße bringe kann.

Faust2011 schrieb:
Auch die Shader-Verdopplung macht seit Ampere einen Vergleich schwierig.
Nicht wirklich, weil Ampere sich mit den 128 Shadern wieder auf Pascal-Niveau begibt.

192 - 128 - 2 * 64 (INT + FP) - 2 * 64 (FP+FP/INT+FP)

Wenn man ehrlich ist, hatte ja auch bereits Turing mehr ALUs als angeben.
Faust2011 schrieb:
Die Performance bei bestimmten Datentypen hat sich theoretisch verdoppelt (waren es INT32 oder FP32?)
Die Leistung hat sich bei FP verdoppelt, da jetzt nun 2 Threads a 64 Werten pro SM laufen können.
JPsy schrieb:
AMD skaliert besser mit den CUs, und lastet sie auch besser aus
Was aber ein langer Weg war und 2019 auch mit einigen Treiberproblemen gesenegt war.

Von 4 * Vec16 (4 Threads) zu 2 * Vec32 in den CU zusammen mit der Umstellung von Wave64 auf Wave32. Das hat echt einige Zeit Probleme gemacht.
JPsy schrieb:
Ergo: In der nächsten Generation, die Nvidia vom Prozess her kleiner baut, wird über den Takt noch wesentlich mehr an Leistung(szuwachs) zu erwarten sein, und Nvidia muss "nur" das Auslastungsproblem lösen?
Das "Auslastungsproblem" lässt sich für NVIDIA nicht so einfach lösen, aber machbar ist es. Mich würde es nicht wundern, wenn in der nächsten Version wir statt 2 Datenpfade eventuell auch 4 Pfade finden.

Colindo schrieb:
Das heißt AMD hat beim Transistordesign irgendeine Magic Sauce gefunden, die alle Grafikkarten (Auch die Vega der APUs) höher takten lässt.
Ach, die haben keine Magic Sauce gefunden, die haben einfach die sALU und Vec32-ALU Pipeline etwas verlängert und konnten dadurch die GPU höher takten.
 
  • Gefällt mir
Reaktionen: Iscaran, Bigfoot29, Colindo und eine weitere Person
Hier liegt glaub ein Tippfehler vor:

AMD RDNA 2 vs. RDNA: Sind die CUs schneller geworden?

...
Navi 21 (RDNA 2) verfügt über 40 Compute-Units mit insgesamt 2.560 Shader-Einheiten – also genau wie Navi 10 (RDNA).
...

Ihr meint wohl Navi 22. ;) Auch im Untertitel vom Bild.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Wolfgang
Wolfgang schrieb:
Ich behaupte von Tag 1 an, dass Ampere die vielen ALUs in niedrigen Auflösungen nicht gescheit auslasten kann, auch wenn viele das gerne immer umdrehen (RDNA 2 hat Probleme in hohen Auflösungen). Auf meine Behauptung deutet auch der Vergleich der Verhältnisse mit Turing hin. Aber beweisen (egal in welche Richtung) könnte man es wohl nur mit Entwicklertools und wirklich Ahnung, was man da macht.
Ich bin da voll bei dir.

Ich hab mir ja die Nächte mit de Ampere-Whitepapers und einigen CUDA-Tests ja auch in die Richtung hin getestet: eine SM bei Ampere benötigt für die volle Auslastung 2 Vektoren mit je 64 Werten.

Je niedriger die Auflösungen ist, um so weniger Daten kommen pro Shader zusammen und damit auch kleineren Vektoren.
 
.Sentinel. schrieb:
Auch ein NVIDIA geht davon aus, dass der Hauptteil der Nutzer ihren Karten 1440P und mehr zumutet (eher 4K) und die neuen Features wie DLSS nutzen wollen.
Das gesamte Design ist auf hohe Auflösungen ausgelegt.
Da stimme ich mit dir ja auch völlig überein. Was aber eben bedeutet, dass Ampere (geplant) in niedrigen Auflösungen nicht gut ausgelastet wird, RDNA 2 (Navi 21) derweil aber keine Probleme mit 4K hat.
 
  • Gefällt mir
Reaktionen: jemandanders, Tanzmusikus und .Sentinel.
Zurück
Oben