GeForce RTX 2080 & 2080 Ti im Test: Heute mehr Leistung und viel Zukunft

 6/8
Update Wolfgang Andermahr
1.881 Kommentare

Sondertests auf Turing, Pascal und Vega

Mit einer neuen Architektur wie Turing lassen sich diverse Zusatztests machen. Für den Launch-Artikel hat sich die Redaktion auf nur einige davon konzentriert. Viele weitere sind möglich und werden mit der Zeit folgen.

DirectX 11 vs. DirectX 12 vs. Vulkan vs. Async Compute

Nvidia-Grafikkarten hatten mit einer Low-Level-API wie DirectX 12 oder Vulkan bis jetzt immer einige Probleme. Vor allem, wenn Async Compute genutzt wird. Bei der Performance der API selbst hat es offenbar keine Änderungen gegeben. Die Geschwindigkeit von dieser hängt primär mit der Integrierung der Entwickler zusammen. Zumal Spiele wie Shadow of the Tomb Raider gezeigt haben, dass DirectX 12 auch auf einer Nvidia-Grafikkarte gut laufen kann.

Allerdings gibt es kleinere Anzeichen, dass Async Compute auf Turing besser als auf Pascal funktioniert, auch wenn es nur bedingte Testmöglichkeiten gibt – die meisten Low-Level-Spiele lassen kein separates An- und Abschalten des Features zu.

High-Level- vs. Low-Level-API
High-Level- vs. Low-Level-API – Ashes of the Singularity
  • DirectX 11:
    • Nvidia GeForce RTX 2080 Ti
      73,5
    • Nvidia GeForce GTX 1080 Ti
      62,4
    • Nvidia GeForce RTX 2080
      61,8
    • Nvidia GeForce GTX 1080
      47,7
    • AMD Radeon RX Vega 64
      40,1
  • DirectX 12:
    • Nvidia GeForce RTX 2080 Ti
      74,2
    • Nvidia GeForce GTX 1080 Ti
      59,0
    • Nvidia GeForce RTX 2080
      57,2
    • Nvidia GeForce GTX 1080
      48,4
    • AMD Radeon RX Vega 64
      41,4
  • DirectX 12 + Async Compute:
    • Nvidia GeForce RTX 2080 Ti
      74,6
    • Nvidia GeForce GTX 1080 Ti
      58,1
    • Nvidia GeForce RTX 2080
      57,5
    • Nvidia GeForce GTX 1080
      47,1
    • AMD Radeon RX Vega 64
      47,0
  • Vulkan:
    • Nvidia GeForce RTX 2080 Ti
      77,1
    • Nvidia GeForce RTX 2080
      59,8
    • Nvidia GeForce GTX 1080 Ti
      58,0
    • AMD Radeon RX Vega 64
      47,3
    • Nvidia GeForce GTX 1080
      44,9
  • Vulkan + Async Compute:
    • Nvidia GeForce RTX 2080 Ti
      78,5
    • Nvidia GeForce RTX 2080
      60,5
    • Nvidia GeForce GTX 1080 Ti
      57,3
    • AMD Radeon RX Vega 64
      47,7
    • Nvidia GeForce GTX 1080
      44,5
Einheit: Bilder pro Sekunde (FPS)

So verlieren zum Beispiel in Ashes of the Singularity beide Pascal-Grafikkarten minimal Performance, wenn Async Compute zum Einsatz kommt. Die Turing-Modelle legen hingegen minimal zu, sowohl unter DirectX 12 als auch unter Vulkan. In Strange Brigade wird Pascal mit Async Compute erneut minimal langsamer – unter Vulkan sind es immerhin drei Prozent auf der GeForce GTX 1080 Ti. Die GeForce RTX 2080 Ti legt mit Vulkan aber um ein Prozent zu. Dasselbe gilt für Wolfenstein 2. Die Pascal-Grafikkarte schafft mit Async Compute dieselbe Leistung, das neue Turing-Flaggschiff legt um drei Prozent zu.

Das sind zwar immer nur minimale Unterschiede, jedoch wird es mit Turing und Async Compute zumindest in jedem der drei Spiele schneller, mit Pascal hingegen langsamer oder es gibt keinen Unterschied. Das ist eine positive Tendenz. AMD profitiert immer noch deutlich mehr von Async Compute als Nvidia. Allerdings hat eine Radeon-Grafikkarte auch eher Schwierigkeiten die ALUs unter DirectX 11 auszulasten. Das klappt mit DirectX 12 in Verbindung mit Async Compute teilweise deutlich besser, weshalb eine GeForce-Grafikkarte sehr wahrscheinlich nie so viel zulegen wird wie ein AMD-Gegenstück – solange sich bezüglich der Einheitenauslastung nichts ändert.

HDR-Benchmarks zeigen eine Überraschung

Ein erster Benchmark-Test mit HDR hat überraschende Ergebnisse zu Tage gebracht. Auf einer AMD Radeon verringert HDR nur minimal die Performance. Auf einer GeForce-Grafikkarte der Pascal-Generation gibt es dagegen einen größeren Leistungsverlust. Die neuen Benchmarks zeigen nun interessante Änderungen.

HDR
HDR – Assassin's Creed: Origin
  • 3.840 × 2.160, 60 Hz, SDR:
    • Nvidia GeForce RTX 2080 Ti
      64,6
    • Nvidia GeForce RTX 2080
      52,4
    • Nvidia GeForce GTX 1080 Ti
      48,8
    • Nvidia GeForce GTX 1080
      37,7
    • AMD Radeon RX Vega 64
      34,9
  • 3.840 × 2.160, 60 Hz, HDR:
    • Nvidia GeForce RTX 2080 Ti
      63,9
    • Nvidia GeForce RTX 2080
      51,6
    • Nvidia GeForce GTX 1080 Ti
      46,8
    • Nvidia GeForce GTX 1080
      35,7
    • AMD Radeon RX Vega 64
      34,5
  • 3.840 × 2.160, 144 Hz, HDR:
    • Nvidia GeForce RTX 2080 Ti
      63,9
    • Nvidia GeForce RTX 2080
      51,6
    • Nvidia GeForce GTX 1080 Ti
      44,9
    • AMD Radeon RX Vega 64
      34,5
    • Nvidia GeForce GTX 1080
      34,3
Einheit: Bilder pro Sekunde (FPS)

Geblieben ist auch bei den neusten Tests, dass Pascal durch die Darstellung von HDR in den meisten Spielen etwas mehr Leistung als aktuelle Radeon-Grafikkarten von AMD verliert. Der Unterschied liegt aber meistens nur bei geringen zwei Prozent. Allerdings verlieren GeForce GTX 1080 und GeForce GTX 1080 Ti interessanterweise ein ordentliches Stück mehr Performance, wenn in 3.840 × 2.160 mit HDR der Monitor nicht mehr mit 60 Hz, sondern mit 120 Hz angesteuert wird. Eine Radeon RX Vega 64 interessiert dies überhaupt nicht, diese läuft unabhängig der Bildwiederholfrequenz gleich schnell. Die ebenso stattfindende Unterabtastung im YUV-Format ist dabei nicht das Problem. Übrigens verliert Pascal auch in SDR Geschwindigkeit, wenn 120 Hz anstatt 60 Hz ausgegeben werden. Aber deutlich weniger als mit HDR.

Turing macht mit HDR alles besser als Pascal

Mit Turing hat es in der HDR-Darstellung jedoch Verbesserungen gegeben. Denn HDR kostet auf einer GeForce RTX 2080 und einer GeForce RTX 2080 Ti vergleichbar viel oder gar weniger Leistung als auf einer AMD-Grafikkarte. Darüber hinaus macht es auf Turing keinerlei Unterschied mehr, ob der Monitor mit 60 Hertz oder mit 120 Hertz angesteuert wird.

Bei Tessellation gibt es einen Gleichstand

Der obligatorische Tessellation-Test zwischen einer GeForce GTX 1080 Ti und einer GeForce RTX 2080 Ti zeigt wenig spannendes. Nvidia hat für Tessellation bei Turing keinerlei Verbesserungen angekündigt. Da auch die Anzahl der Polymorph-Engines in einem Streaming Multiprocessor unverändert geblieben ist, sind auch die Ergebnisse fast identisch. Die GeForce RTX 2080 Ti erledigt die Arbeit etwas schneller, aber eben im Prinzip völlig gleich.

Tessellation – SubD11
0,0532,41.064,81.597,22.129,62.662,0Bilder pro Sekunde (FPS) Faktor 1Faktor 3Faktor 5Faktor 7Faktor 9Faktor 11Faktor 13Faktor 15Faktor 17Faktor 19Faktor 21Faktor 23Faktor 25Faktor 27Faktor 29Faktor 31Faktor 33Faktor 35Faktor 37Faktor 39Faktor 41Faktor 43Faktor 45Faktor 47Faktor 49Faktor 51Faktor 53Faktor 55Faktor 57Faktor 59Faktor 61Faktor 63

GPU-Compute auf Turing funktioniert gut

Pascal zeigt häufig eine schlechte Leistung mit GPU-Compute. Volta hat das Problem behoben und das gilt auch für Turing. Die GeForce RTX arbeitet mit GPU-Compute sehr schnell.

Beim integrierten Benchmark im Radeon Pro Renderer (dieser nutzt Raytracing, aber nicht die RT-Kerne in Turing) arbeitet die GeForce RTX 2080 in etwa doppelt so schnell wie die GeForce GTX 1080. Dasselbe gilt für die GeForce RTX 2080 Ti im Vergleich zur GeForce GTX 1080 Ti. Auch im Luxmark-Test verdoppelt sich die Performance in etwa. Während im Radeon Pro Renderer Turing jedoch auch klar schneller als die AMD Radeon RX Vega 64 ist, ist diese im einfachen Testszenario im Luxmark gleich schnell wie die GeForce RTX 2080. Weitere Tests werden zeigen müssen, ob dies nur eine Ausnahme ist.

GPU Compute
GPU Compute – Luxmark
  • Simple:
    • Nvidia GeForce RTX 2080 Ti
      42.670
    • AMD Radeon RX Vega 64
      31.445
    • Nvidia GeForce RTX 2080
      30.195
    • Nvidia GeForce GTX 1080 Ti
      21.411
    • Nvidia GeForce GTX 1080
      13.804
  • Complex:
    • Nvidia GeForce RTX 2080 Ti
      9.226
    • Nvidia GeForce RTX 2080
      6.802
    • AMD Radeon RX Vega 64
      5.956
    • Nvidia GeForce GTX 1080 Ti
      5.774
    • Nvidia GeForce GTX 1080
      3.850
Einheit: Punkte

An die Compute-Leistung der Volta-GPU auf der Titan V kommt der TU102 auf der GeForce RTX 2080 Ti nicht heran. Diese bietet in dieser Disziplin noch einmal 20 Prozent mehr Performance. Ein Grund könnte die durch den HBM2-Speicher höhere Speicherbandbreite der Titan V sein.

Ethereum-Mining ist nicht überragend

Auch wenn das Thema Mining mittlerweile weniger bedeutend geworden ist, ist es interessant herauszufinden, wie gut Turing bei diesem Thema und der Ethereum-Währung arbeitet. Die Antwort lautet: Deutlich schneller als Pascal, aber nicht überragend schnell. So liefert die GeForce RTX 2080 69 Prozent mehr ETH-Leistung als die GeForce GTX 1080. Mit den gemessenen 35,5 MH/s ist Turing aber kaum schneller als die Radeon RX Vega 64. Erst die GeForce RTX 2080 Ti setzt mit 48,7 MH/s gut einen drauf. Die Titan V liefert bei ETH eine deutlich besser Leistung ab und kommt auf etwa 67 MH/s.

Mining – ETH
  • Claymore:
    • Nvidia GeForce RTX 2080 Ti
      48,7
    • Nvidia GeForce RTX 2080
      35,5
    • AMD Radeon RX Vega 64
      34,6
    • Nvidia GeForce GTX 1080 Ti
      32,2
    • Nvidia GeForce GTX 1080
      21,0
Einheit: Mhash/s

Maschinelles Lernen mit TensorFlow (Update)

TensorFlow ist ein auf dem Gebiet maschinelles Lernen weitverbreitetes Framework, fungiert also als Backend vieler Deep-Learning-Anwendungen. Neben großen Unternehmen setzen auch viele Forschungseinrichtungen darauf. Google hat mit der Tensor Processing Unit (TPU) sogar eigenes Silizium dafür entwickelt.

Als Benchmark wurde eine TensorFlow-Implementierung eines neuronalen Netzes für Bild-Klassifikation (ResNet-50) genutzt. Das Netz nutzt die Grafikkarte zur Berechnung der Klassifikationsentscheidung. Die Ergebnisse geben an, wie viele Bilder das neuronale Netz pro Sekunde klassifiziert.

TensorFlow
    • Nvidia GeForce RTX 2080 Ti FE
      273,0
    • Asus GeForce RTX 2080 Ti Strix OC
      272,0
    • Nvidia GeForce RTX 2080 FE
      207,0
    • Asus GeForce RTX 2080 Strix OC
      205,0
    • Nvidia GeForce GTX 1080 Ti FE
      199,0
    • Nvidia GeForce GTX 1080 FE
      138,0
Einheit: Bilder pro Sekunde (FPS)

Von den Tensor-Kernen der Turing-Architektur kann die Anwendung allerdings nicht profitieren, da die Eingabe in FP32 und nicht in FP16 erfolgt. Auch in diesem Fall sind damit die Anpassungen an der herkömmlichen Architektur und die Taktraten für den Vorsprung von GeForce RTX auf GeForce GTX verantwortlich. Zwei ebenfalls mit getestete Custom Designs von Asus können sich in dieser Anwendung nicht von der Founders Edition absetzen, weil weder Power noch Temperatur Target, sondern der maximal per Firmware zugelassene Takt limitieren und beide Serien hier quasi im selben Betriebszustand agieren.

Im zweiten TensorFlow-Benchmark (GitHub) vergleicht ComputerBase die Leistung der Grafikkarten einer ResNet-152-Implementierung. Um den Einfluss der Tensor-Kerne zu erfassen, wird das Modell mit normaler (FP32) und halber (FP16) Genauigkeit getestet. Es werden sowohl die Geschwindigkeit beim Training des neuronalen Netzes (Forward- und Backward-Pass) als auch nur bei der Klassifikation der Daten (Forward-Pass) gemessen. Nvidia erläutert in einem Video, wie bestehende neuronale Netze auf FP16 angepasst werden können, ohne dass diese ungenauer arbeiten.

TensorFlow 2
  • Evaluierung (FP32):
    • Nvidia GeForce RTX 2080 Ti FE
      343,0
    • Nvidia GeForce GTX 1080 Ti FE
      250,0
    • Nvidia GeForce RTX 2080 FE
      240,0
    • Nvidia GeForce GTX 1080 FE
      71,0
  • Training (FP32):
    • Nvidia GeForce RTX 2080 Ti FE
      77,0
    • Nvidia GeForce RTX 2080 FE
      59,0
    • Nvidia GeForce GTX 1080 Ti FE
      57,0
    • Nvidia GeForce GTX 1080 FE
      43,0
  • Evaluierung (FP16):
    • Nvidia GeForce RTX 2080 Ti FE
      446,0
    • Nvidia GeForce RTX 2080 FE
      322,0
    • Nvidia GeForce GTX 1080 Ti FE
      308,0
    • Nvidia GeForce GTX 1080 FE
      219,0
  • Training (FP16):
    • Nvidia GeForce RTX 2080 Ti FE
      91,0
    • Nvidia GeForce RTX 2080 FE
      70,0
    • Nvidia GeForce GTX 1080 Ti FE
      64,0
    • Nvidia GeForce GTX 1080 FE
      52,0
Einheit: Bilder pro Sekunde (FPS)

Einen Vorteil durch die Tensor-Kerne lässt allerdings auch dieser Benchmark nicht erkennen, bei Volta (aktuell nicht im Zugriff der Redaktion) ist das wiederum der Fall. Die verwendeten TensorFlow-Binaries wurden mit CUDA 9 kompiliert, Turing benötigt aber CUDA 10, um die Tensor-Kerne anzusprechen. Sobald TensorFlow-Binaries mit CUDA 10 verfügbar sind, wird ComputerBase die Tests wiederholen.