Test AMD Radeon R9 Fury X im Test: Eine ernsthafte Alternative zu Nvidias Topmodellen

@ Fury X Besitzer

Mittels Sandra
http://www.ngohq.com/?page=Files&go=giveme&dwn_id=857

sollte man mal Speicherlatenz und Bandbreite testen können. Ich schau grad mal was die TI da bringt im Stock also Standard Taktraten.

Kann sein dass Latenz nur mittels Cuda geht (da gibts auch nen Banbdreitentest der etwas höher ausfällt). Kann es sein dass die angegebenen Bandbreiten von AMD / NV immer auf Duplex bezogen sind und Sandra hier mit 205GB/s nur eine Richtung testet? + eben die Komprimierung ...


Bandbreite:
SiSoftware Sandra

Benchmarkresultate
Gesamtspeicherleistung : 47.36GB/s
Bandbreite interner Speicher : 205GB/s
Bandbreite Datentransfer : 11GB/s
Typ : D3D 11
Ergebnisse : Höhere Werte sind besser.
Base 2 Ergebnis Multiplikatoren : 1GB(/s) = 1024MB(/s), 1MB(/s) = 1024kB(/s), 1kB(/s) = 1024 bytes(/s), usw.

Benchmark Timings
Zum Kopieren benötigte Zeit : 29ms
Zum Lesen benötigte Zeit : 546.22ms
Zum Schreiben benötigte Zeit : 539.2ms
Ergebnisse : Geringere Werte sind besser.

Leistung pro Thread
Gesamtspeicherleistung : 17MB/s
Bandbreite interner Speicher : 74MB/s
Threadanzahl : 2816
Ergebnisse : Höhere Werte sind besser.
Base 2 Ergebnis Multiplikatoren : 1GB(/s) = 1024MB(/s), 1MB(/s) = 1024kB(/s), 1kB(/s) = 1024 bytes(/s), usw.

Gegenüberstellung Leistung und Geschwindigkeit
Gesamtspeicherleistung : 7.34MB/s/MHz
Bandbreite interner Speicher : 31.77MB/s/MHz
Bandbreite Datentransfer : 1.70MB/s/MHz
Ergebnisse : Höhere Werte sind besser.

Benchmarkabbruch
Bandbreite interner Speicher : 205GB/s
Bandbreiteneffizienz : 66.18%
Bandbreite System zu Gerät : 11GB/s
Bandbreiteneffizienz : 70.47%
Bandbreite Gerät zu System : 10.87GB/s
Bandbreiteneffizienz : 69.57%
Ergebnisse : Höhere Werte sind besser.

Leistungsteststatus
Ergebnis-ID : NVIDIA GeForce GTX 980 Ti (22CU 2816SP SM5.2 1.1GHz/1.39GHz, 3MB L2, 6GB 6.61GHz/7GHz 384-bit, PCIe 3.00 x16) (D3D 11)
System : ASUS All Series ASUS MB (ASUS X99-S)
Kompatibel mit Plattform : x64
Gesamtspeicher : 5.9GB
Vom Test verwendeter Speicher : 756MB
Threadanzahl : 1
Systemtakt : 3.22MHz

Grafikkarte
Modell : NVIDIA GeForce GTX 980 Ti
Treiberversion : 10.18.13.5338
Chipsatz : NV32
Geschwindigkeit Shader : 1.1GHz
Minimale/Maximale/Turbo Geschwindigkeit : 135MHz - 1.39GHz
Spitzenprozessorleistung (PPP) : 6.2TFLOPS
Eingestellte Spitzenleistung (APP) : 5.58WT
Unified Shader : 2816 Einheit(en)
Kerne pro Prozessor : 22 Einheit(en)
OEM Hardware Nr. : VEN_10DE DEV_10DE REV_A1

Logische/Chipsatz Speicherbänke
Gesamtspeicher : 6GB
Speicherbusgeschwindigkeit : 2x 3.3GHz (6.61GHz)
Maximale Speicherbusbandbreite : 309.75GB/s

Video BIOS
Version : 84.00.32.00.90
Modell : 84.00.32.00.90

Neuestes BIOS
Herstellungsdatum : Dienstag, 30. Juni 2015
Update URL : In dieser Version (Lite) nicht verfügbar.

Führen Sie bitte ein Upgrade durch, um diese Funktion zu aktivieren und um weitergehenden Support und andere Vorteile zu erhalten.

(Gehen Sie zu 'Hilfe - Upgrade')

Bus
Typ : PCIe 3.00 x16 8Gbps
Maximale Busbandbreite : 15.63GB/s

Leistungstipps
Tipp 223 : Prozessorgeschwindigkeit ist unter Last geringer als erwartete Geschwindigkeit. Prüfen Sie die Energie- bzw. Leistungseinstellungen.
Tipp 1101 : Es ist ein Update für das Video BIOS verfügbar. Besuchen Sie hierzu die Webseite des Herstellers.
Tipp 2 : Drücken Sie die Eingabetaste oder doppelklicken Sie auf einen Tipp, um mehr Informationen zu erfahren.


Latenz:
SiSoftware Sandra

Benchmarkresultate
Latenzzeit Speicher : 217.5ns
Base 10 Ergebnis Multiplikatoren : 1s = 1000ms, 1ms = 1000µs, 1µs = 1000ns, usw.
Gschwindigkeitsfaktor : 3.50
Ergebnisse : Geringere Werte sind besser.

Gegenüberstellung Leistung und Geschwindigkeit
Latenzzeit Speicher : 0.03ns/MHz
Ergebnisse : Geringere Werte sind besser.

Benchmarkabbruch
2kB Bereich : 62.6ns / 73.0clocks
4kB Bereich : 62.6ns / 73.0clocks
8kB Bereich : 62.6ns / 73.0clocks
16kB Bereich : 62.6ns / 73.0clocks
32kB Bereich : 144.9ns / 170.0clocks
64kB Bereich : 172.8ns / 202.0clocks
128kB Bereich : 180.0ns / 211.0clocks
256kB Bereich : 183.1ns / 214.0clocks
512kB Bereich : 184.4ns / 216.0clocks
1MB Bereich : 184.9ns / 216.0clocks
2MB Bereich : 185.1ns / 217.0clocks
4MB Bereich : 212.2ns / 248.0clocks
8MB Bereich : 212.2ns / 248.0clocks
16MB Bereich : 217.5ns / 254.0clocks
32MB Bereich : 217.5ns / 254.0clocks
64MB Bereich : 214.0ns / 251.0clocks
Schnittstelle : CUDA

Leistungsteststatus
Ergebnis-ID : NVIDIA GeForce GTX 980 Ti (2816SP 22C 1.1GHz/1.39GHz, 3MB L2, 6GB 6.61GHz/7GHz 384-bit) (CUDA)
System : ASUS All Series ASUS MB (ASUS X99-S)
Kompatibel mit Plattform : x64
Gesamtspeicher : 128MB
Systemtakt : 595MHz

Grafikprozessor
Modell : NVIDIA GeForce GTX 980 Ti
Schnittstellenversion : 5.02
Treiberversion : 7.50.06.50
Geschwindigkeit Shader : 1.1GHz
Spitzenprozessorleistung (PPP) : 6.7TFLOPS
Eingestellte Spitzenleistung (APP) : 6WT
Gesamtspeicher : 6GB
Speicherbusgeschwindigkeit : 3.3GHz
OEM Hardware Nr. : VEN_10DE DEV_17C8 REV_A1
 
Zuletzt bearbeitet:
@Kraut
Ich habe deine Auswertung grad nur überflogen..
Aber wenn du mit FuryX vergleichen willst, wäre wohl was ohne Cuda gut oder?

Nai hat doch schon mal seinen Benchmark bzw. den OpenCl Umbau gepostet. Damit kann man zumindest die gleiche Basis schaffen...
 
Stimm das NAI tool sollte auch okay sein. Ich glaube Bandbreite misst Sandra ohne CUDA. Weiß nicht was da bei AMD Karten angeboten wird. Mal sehn ob das Nai Zeugs finde :P
 
Jup, denke auch dass da nen Schuh draus würde. Einfacher und zielorientierter Bandbreiten Test und schon wär die Geschichte vom Tisch.

......ooooooder wer weiß, vielleicht kommt Nai im besten/schlimmsten (wähle jeder seinen Favorit) Fall damit auch in AMD-Kreisen zu weltweiter Popularität? :eek:
Naja, Ernst beiseite Verehrte Hardwarefreunde. :)


Edit:
Das Cuda Ding ist ja in dem 970er VRAM Thread verlinkt.
Das OpenCL (oder ähnlich) Gegenstück irgendwo hier auf den letzten 2,3 Seiten von Nai verlinkt.
 
@Krautmaster

Das ist eine gute Idee! Leider bin ich letztes WE nicht großartig zum Testen gekommen. Das wird aber schnellstmöglich nachgeholt!
Ob mit oder ohne CUDA ist wohl indiskutabel. nVidia Karten haben und nutzen CUDA, sofern möglich. Daher muss natürlich die tatsächlich vorhandene Leistung gegenübergestellt werden.
 
ich denke Sandra geht im Prinzip schon, außer mir schickt jemand den Nai OpenCL link... finds nich so auf die Schnelle



zumindest für Bandbreiten test sollte das mit Sandra auch gehen...
Ergänzung ()

-> da is es http://www.forum-3dcenter.org/vbulletin/showpost.php?p=10500793&postcount=1408
Ergänzung ()

wenn ich jetzt noch wüsste wie ich das ausführen muss :P
 
@Krautmaster: Link darauf hatte @Nai verwiesen für non-CUDA-Tests.
 
Zuletzt bearbeitet: (War zu langsam... Tab im Browser war zu lange offen)
Ich vermute, dass NV aufgrund der besseren Auslastung des CPU Overhead unter DX11 in 1080p die höheren Werte beschert. Fury kann hier einfach nicht die Rohpower ordentlich auslasten. Kann gut sein, dass DX11 so schon tatsächlich ein "Flaschenhals" wird. Zumindstens für eine einzelne GPU.

Kann gut sein, dass AMD weiterhin stark auf DX12 hofft und nicht ohne Gründe ACE vor Monaten "promotet" hat. Immerhin wenn man glauben darf, was ACE verspricht, dürfte dann die Performance unter DX12 bei der Auflösung 1080p eventuell wieder steigen.


@Übernahmegeschichte
Es gibt nur eine Quelle und das ist Kitguru.
 
Zuletzt bearbeitet:
Faust2011 schrieb:
@Krautmaster: Link darauf hatte @Nai verwiesen für non-CUDA-Tests.

mal getestet und ausgeführt? Brauch ich noch iwas dazu? Einfaches via Admin Shell aufrufen haut nich hin.
Ergänzung ()

Armandex0 schrieb:
CUDA hier (am 15.01.15 von Nai verlinkt in nem Forenthread hier):
https://mega.co.nz/#!5pU0TZzI!bYaoUsJN9NvEWcO-2_ocg6cZ5EnrRoLzGqI2HG9mZG0


die geht nimmer

Edit: Hier geht sie https://www.computerbase.de/forum/threads/nais-benchmarkthread.1440618/#post-16923044
Die OpenCl Variante bekomm ich hier nich zum laufen
Ergänzung ()

Benchmarking DRAM
0 MiByte to 128 MiByte: 282.12 GByte/s Read, 277.99 GByte/s Write
128 MiByte to 256 MiByte: 281.51 GByte/s Read, 274.55 GByte/s Write
256 MiByte to 384 MiByte: 282.67 GByte/s Read, 267.17 GByte/s Write
384 MiByte to 512 MiByte: 281.88 GByte/s Read, 286.31 GByte/s Write
512 MiByte to 640 MiByte: 279.65 GByte/s Read, 274.55 GByte/s Write
640 MiByte to 768 MiByte: 282.91 GByte/s Read, 268.04 GByte/s Write
768 MiByte to 896 MiByte: 281.03 GByte/s Read, 280.25 GByte/s Write
896 MiByte to 1024 MiByte: 280.85 GByte/s Read, 274.33 GByte/s Write
1024 MiByte to 1152 MiByte: 282.06 GByte/s Read, 268.81 GByte/s Write
1152 MiByte to 1280 MiByte: 281.33 GByte/s Read, 280.31 GByte/s Write
1280 MiByte to 1408 MiByte: 280.97 GByte/s Read, 272.84 GByte/s Write
1408 MiByte to 1536 MiByte: 282.18 GByte/s Read, 269.03 GByte/s Write
1536 MiByte to 1664 MiByte: 280.85 GByte/s Read, 279.83 GByte/s Write
1664 MiByte to 1792 MiByte: 280.91 GByte/s Read, 272.38 GByte/s Write
1792 MiByte to 1920 MiByte: 282.73 GByte/s Read, 270.09 GByte/s Write
1920 MiByte to 2048 MiByte: 280.73 GByte/s Read, 279.77 GByte/s Write
2048 MiByte to 2176 MiByte: 281.03 GByte/s Read, 267.99 GByte/s Write
2176 MiByte to 2304 MiByte: 282.18 GByte/s Read, 286.37 GByte/s Write
2304 MiByte to 2432 MiByte: 280.73 GByte/s Read, 279.23 GByte/s Write
2432 MiByte to 2560 MiByte: 280.01 GByte/s Read, 267.66 GByte/s Write
2560 MiByte to 2688 MiByte: 281.45 GByte/s Read, 286.25 GByte/s Write
2688 MiByte to 2816 MiByte: 279.53 GByte/s Read, 278.46 GByte/s Write
2816 MiByte to 2944 MiByte: 280.55 GByte/s Read, 267.66 GByte/s Write
2944 MiByte to 3072 MiByte: 281.88 GByte/s Read, 286.12 GByte/s Write
3072 MiByte to 3200 MiByte: 279.71 GByte/s Read, 277.87 GByte/s Write
3200 MiByte to 3328 MiByte: 280.61 GByte/s Read, 267.38 GByte/s Write
3328 MiByte to 3456 MiByte: 280.91 GByte/s Read, 286.12 GByte/s Write
3456 MiByte to 3584 MiByte: 279.77 GByte/s Read, 271.88 GByte/s Write
3584 MiByte to 3712 MiByte: 282.36 GByte/s Read, 270.64 GByte/s Write
3712 MiByte to 3840 MiByte: 281.82 GByte/s Read, 285.06 GByte/s Write
3840 MiByte to 3968 MiByte: 280.07 GByte/s Read, 271.54 GByte/s Write
3968 MiByte to 4096 MiByte: 282.85 GByte/s Read, 272.10 GByte/s Write
4096 MiByte to 4224 MiByte: 281.39 GByte/s Read, 278.46 GByte/s Write
4224 MiByte to 4352 MiByte: 280.61 GByte/s Read, 270.92 GByte/s Write
4352 MiByte to 4480 MiByte: 282.42 GByte/s Read, 272.73 GByte/s Write
4480 MiByte to 4608 MiByte: 280.91 GByte/s Read, 278.17 GByte/s Write

sagt das Nai Cuda Bench Tool.

Edit. Interessant ist auch dass nur der L2 Benchmark iwi von meinem Ram OC abhängig ist. Der Ram Durchsatz allein scheint da iwi außen vor...
 
Zuletzt bearbeitet:
das ist echt interessant ja. Weicht schon dezent von 512 GB/s ab und die Testwerte sprechen auch irgendwie für sich...

Die Black Texture scheint bei Nvidia super komprimiert zu werden, effektiv erreicht man fast dieselbe Bandbreite wie Fiji. Random hat Fury X schon die Nase vorn. (wenn gleich man doch wesentlich mehr Bandbreite erwarten würde oder?)
Interessant wären noch Latenzen denn da könnte der Takt ne große Rolle spielen.

@Jesterfox

der Vergleich hinkt aber auch gewaltig ^^
 
Wieso? Der EDRAM war damals auch ne super exklusive neuartige Speichertechnologie die den damals noch externen Level2 Cache auf dem Board überflüssig gemacht hat ;-) Hat sich nur leider nicht durchsetzen können.
 
trotzdem sind GPUs ganz anders vom Speicher abhängig als CPU. Damals wie heute.

Wenn du zockst ist das Speicherinterface ner GPU durchweg massiv belastet, - bei ner CPU nen SI Limit hervorzurufen erfordert schon sehr speziellen Workload. Deswegen merkst von Single zu Dualchannel auch nicht eben riesen Performance Schübe / Einbrüche. Ne GTX 980 TI mit halber Bandbreite würde da schon eher "auffallen". :)

Also dieser Test oben ist schon sehr interessant. Ich denke auch nicht dass es die reine Bandbreite ist die Fiji vllt. ausbremst. Da spielt mehr mit rein, teils zeigt das der Test auch auf.

Bei normalen in Game Texturen können die Nvidia Karten hast gleich auf mit Fury X sein was schon ne neue Erkenntnis ist. Es erklärt noch nicht ganz wie Sapphire auf 450GB/s kommt und auch nicht wie AMD 512 Gb/s angeben kann.
 
Zuletzt bearbeitet:
joa, schon richtig. Aber selbst 10% sind hier ja schon "viel". bei 20-30% mehr Bandbreite wie man es bei HBM erwarten würde sind das schon schnell 10% mehr Gaming Performance, im Limit wäre das fast Linear. Limitieren wird die Bandbreite vermutlich nicht... aber mehr Performance wäre bestimmt drin.

Das Fazit selbst....

Speaking of which, if you dig deeper using our frame-time-focused performance metrics—or just flip over to the 99th-percentile scatter plot above—you'll find that the Fury X struggles to live up to its considerable potential. Unfortunate slowdowns in games like The Witcher 3 and Far Cry 4 drag the Fury X's overall score below that of the less expensive GeForce GTX 980.

What's important to note in this context is that these scores aren't just numbers. They mean that you'll generally experience smoother gameplay in 4K with a $499 GeForce GTX 980 than with a $649 Fury X. Our seat-of-the-pants impressions while play-testing confirm it. The good news is that we've seen AMD fix problems like these in the past with driver updates, and I don't doubt that's a possibility in this case. There's much work to be done, though.

auch da könnten die Latenzen wieder reinfunken. Aber dass ne GTX 980 da "smoother" wirklen soll als ne Fury X?
 
psYcho-edgE schrieb:

Gerade letztes Beispiel ist schön: Schreiben sowas, aber posten auch den neuen Kram. Klickfang eben.

Wir machen es nicht, weil Kitguru als Quelle suxx^^
Die haben keine Fury-Karte zum Test bekommen und sich beschwert, dass AMD ihnen schlechte/negative Berichterstattung vorgeworfen hätte. Jetzt zählt mal 1+1 zusammen. Imo ist diese neue Meldung genau so viel wert wie die "Preissenkungen bei Nvidia nach Fury-Launch" der letzten Woche. Ausgedacht bzw. auf so wackligen "Sources" stehend, dass sie keine Beachtung wert ist.
 
m0LN4r schrieb:
Wie "verdammt Effektiv" muss das sein damit man mit 4096bit/512GB/s kaum schneller im endefekt ist als eine graka mit 384bit/340GB/s ??
Das ist 3700bit/160GB/s weniger und noch immer schneller.

Also, mal abgesehen von den Spekulationen, dass die Bandbreite abweicht von den genannten 512GBit/s, hat das eine mit dem anderen nichts zu tun, sofern die Bandbreite nicht limitiert... Sprich: Leistung des Chips hat erstmal nichts damit zu tun.
Außerdem: Schon klar, dass Bandreite sich aus Multiplikation von Busbreite und Takt ergibt? 500 MHz sind "dezent" weniger als 3000 MHz bei der 390X.

m0LN4r schrieb:
Ich beziehe mich auf den zusammenhang zwichen den beiden 390X und Fury X. Fury X hat 40% mehr shader, VIEL schnelleren Vram und bietet nur 20-25% mehr leistung als 390X und ist noch immer Langsammer als 980Ti?

Fiji ungleich Hawaii. Hawaii ist der ältere Chip mit einer anderen Gewichtung aus Fron/Back-End zu Shadern etc. Wurde auch erklärt, dass Limitierungen vorliegen und "mehr und noch mehr" nicht unbedingt die Lösung ist. Außerdem: Je mehr man die Shader quält im Verhältnis zum "Rest", stimmt auch wieder die Leistung in Bezug auf Hawaii.

m0LN4r schrieb:
Na dann wie würde eine 390X mit 8GB speicher und 4000 Shader denn gegen die Fury X antreten?
[...]

Warum? - ist hier die Frage und ob HBM eigentlich was in wirklichkeit zum performance (fps) was brinng?

Wurde die Fury X mit 8GB GDDR5 genau so schnell sein wie eine 390X mit 4000 Shadern ?

Fury X wäre mit GDDR5 nicht schneller, das eine hat mit dem anderen nichts zu tun. Bandbreite darf nur nicht limitieren und HBM bietet Verbrauchsvorteile. Blas ne 390X auf 4096 Shader auf und du hast gefühlte 400W Leistungsaufnahme ggü der Fury X und 980 TI, aber mit Sicherheit auch mehr Leistung.

HBM bringt später natürlich was in Bezug auf Performance, weil die Bandbreite später noch wichtig wird, wenn die Rohleistung des Chip weiter zunimmt. Jetzt erstmal ermöglicht es nur, den Dual/Triple-Head-Verbrauch, BluRay und max. Leistungsaufnahme deutlich zu senken und nicht total erbärmlich ggü Nvidia und dem Vorgänger auszusehen.
 
Zurück
Oben