GeForce RTX 2080 & 2080 Ti im Test: Heute mehr Leistung und viel Zukunft
6/8Sondertests auf Turing, Pascal und Vega
Mit einer neuen Architektur wie Turing lassen sich diverse Zusatztests machen. Für den Launch-Artikel hat sich die Redaktion auf nur einige davon konzentriert. Viele weitere sind möglich und werden mit der Zeit folgen.
DirectX 11 vs. DirectX 12 vs. Vulkan vs. Async Compute
Nvidia-Grafikkarten hatten mit einer Low-Level-API wie DirectX 12 oder Vulkan bis jetzt immer einige Probleme. Vor allem, wenn Async Compute genutzt wird. Bei der Performance der API selbst hat es offenbar keine Änderungen gegeben. Die Geschwindigkeit von dieser hängt primär mit der Integrierung der Entwickler zusammen. Zumal Spiele wie Shadow of the Tomb Raider gezeigt haben, dass DirectX 12 auch auf einer Nvidia-Grafikkarte gut laufen kann.
Allerdings gibt es kleinere Anzeichen, dass Async Compute auf Turing besser als auf Pascal funktioniert, auch wenn es nur bedingte Testmöglichkeiten gibt – die meisten Low-Level-Spiele lassen kein separates An- und Abschalten des Features zu.
So verlieren zum Beispiel in Ashes of the Singularity beide Pascal-Grafikkarten minimal Performance, wenn Async Compute zum Einsatz kommt. Die Turing-Modelle legen hingegen minimal zu, sowohl unter DirectX 12 als auch unter Vulkan. In Strange Brigade wird Pascal mit Async Compute erneut minimal langsamer – unter Vulkan sind es immerhin drei Prozent auf der GeForce GTX 1080 Ti. Die GeForce RTX 2080 Ti legt mit Vulkan aber um ein Prozent zu. Dasselbe gilt für Wolfenstein 2. Die Pascal-Grafikkarte schafft mit Async Compute dieselbe Leistung, das neue Turing-Flaggschiff legt um drei Prozent zu.
Das sind zwar immer nur minimale Unterschiede, jedoch wird es mit Turing und Async Compute zumindest in jedem der drei Spiele schneller, mit Pascal hingegen langsamer oder es gibt keinen Unterschied. Das ist eine positive Tendenz. AMD profitiert immer noch deutlich mehr von Async Compute als Nvidia. Allerdings hat eine Radeon-Grafikkarte auch eher Schwierigkeiten die ALUs unter DirectX 11 auszulasten. Das klappt mit DirectX 12 in Verbindung mit Async Compute teilweise deutlich besser, weshalb eine GeForce-Grafikkarte sehr wahrscheinlich nie so viel zulegen wird wie ein AMD-Gegenstück – solange sich bezüglich der Einheitenauslastung nichts ändert.
HDR-Benchmarks zeigen eine Überraschung
Ein erster Benchmark-Test mit HDR hat überraschende Ergebnisse zu Tage gebracht. Auf einer AMD Radeon verringert HDR nur minimal die Performance. Auf einer GeForce-Grafikkarte der Pascal-Generation gibt es dagegen einen größeren Leistungsverlust. Die neuen Benchmarks zeigen nun interessante Änderungen.
Geblieben ist auch bei den neusten Tests, dass Pascal durch die Darstellung von HDR in den meisten Spielen etwas mehr Leistung als aktuelle Radeon-Grafikkarten von AMD verliert. Der Unterschied liegt aber meistens nur bei geringen zwei Prozent. Allerdings verlieren GeForce GTX 1080 und GeForce GTX 1080 Ti interessanterweise ein ordentliches Stück mehr Performance, wenn in 3.840 × 2.160 mit HDR der Monitor nicht mehr mit 60 Hz, sondern mit 120 Hz angesteuert wird. Eine Radeon RX Vega 64 interessiert dies überhaupt nicht, diese läuft unabhängig der Bildwiederholfrequenz gleich schnell. Die ebenso stattfindende Unterabtastung im YUV-Format ist dabei nicht das Problem. Übrigens verliert Pascal auch in SDR Geschwindigkeit, wenn 120 Hz anstatt 60 Hz ausgegeben werden. Aber deutlich weniger als mit HDR.
Turing macht mit HDR alles besser als Pascal
Mit Turing hat es in der HDR-Darstellung jedoch Verbesserungen gegeben. Denn HDR kostet auf einer GeForce RTX 2080 und einer GeForce RTX 2080 Ti vergleichbar viel oder gar weniger Leistung als auf einer AMD-Grafikkarte. Darüber hinaus macht es auf Turing keinerlei Unterschied mehr, ob der Monitor mit 60 Hertz oder mit 120 Hertz angesteuert wird.
Bei Tessellation gibt es einen Gleichstand
Der obligatorische Tessellation-Test zwischen einer GeForce GTX 1080 Ti und einer GeForce RTX 2080 Ti zeigt wenig spannendes. Nvidia hat für Tessellation bei Turing keinerlei Verbesserungen angekündigt. Da auch die Anzahl der Polymorph-Engines in einem Streaming Multiprocessor unverändert geblieben ist, sind auch die Ergebnisse fast identisch. Die GeForce RTX 2080 Ti erledigt die Arbeit etwas schneller, aber eben im Prinzip völlig gleich.
GPU-Compute auf Turing funktioniert gut
Pascal zeigt häufig eine schlechte Leistung mit GPU-Compute. Volta hat das Problem behoben und das gilt auch für Turing. Die GeForce RTX arbeitet mit GPU-Compute sehr schnell.
Beim integrierten Benchmark im Radeon Pro Renderer (dieser nutzt Raytracing, aber nicht die RT-Kerne in Turing) arbeitet die GeForce RTX 2080 in etwa doppelt so schnell wie die GeForce GTX 1080. Dasselbe gilt für die GeForce RTX 2080 Ti im Vergleich zur GeForce GTX 1080 Ti. Auch im Luxmark-Test verdoppelt sich die Performance in etwa. Während im Radeon Pro Renderer Turing jedoch auch klar schneller als die AMD Radeon RX Vega 64 ist, ist diese im einfachen Testszenario im Luxmark gleich schnell wie die GeForce RTX 2080. Weitere Tests werden zeigen müssen, ob dies nur eine Ausnahme ist.
An die Compute-Leistung der Volta-GPU auf der Titan V kommt der TU102 auf der GeForce RTX 2080 Ti nicht heran. Diese bietet in dieser Disziplin noch einmal 20 Prozent mehr Performance. Ein Grund könnte die durch den HBM2-Speicher höhere Speicherbandbreite der Titan V sein.
Ethereum-Mining ist nicht überragend
Auch wenn das Thema Mining mittlerweile weniger bedeutend geworden ist, ist es interessant herauszufinden, wie gut Turing bei diesem Thema und der Ethereum-Währung arbeitet. Die Antwort lautet: Deutlich schneller als Pascal, aber nicht überragend schnell. So liefert die GeForce RTX 2080 69 Prozent mehr ETH-Leistung als die GeForce GTX 1080. Mit den gemessenen 35,5 MH/s ist Turing aber kaum schneller als die Radeon RX Vega 64. Erst die GeForce RTX 2080 Ti setzt mit 48,7 MH/s gut einen drauf. Die Titan V liefert bei ETH eine deutlich besser Leistung ab und kommt auf etwa 67 MH/s.
Maschinelles Lernen mit TensorFlow (Update)
TensorFlow ist ein auf dem Gebiet maschinelles Lernen weitverbreitetes Framework, fungiert also als Backend vieler Deep-Learning-Anwendungen. Neben großen Unternehmen setzen auch viele Forschungseinrichtungen darauf. Google hat mit der Tensor Processing Unit (TPU) sogar eigenes Silizium dafür entwickelt.
Als Benchmark wurde eine TensorFlow-Implementierung eines neuronalen Netzes für Bild-Klassifikation (ResNet-50) genutzt. Das Netz nutzt die Grafikkarte zur Berechnung der Klassifikationsentscheidung. Die Ergebnisse geben an, wie viele Bilder das neuronale Netz pro Sekunde klassifiziert.
Von den Tensor-Kernen der Turing-Architektur kann die Anwendung allerdings nicht profitieren, da die Eingabe in FP32 und nicht in FP16 erfolgt. Auch in diesem Fall sind damit die Anpassungen an der herkömmlichen Architektur und die Taktraten für den Vorsprung von GeForce RTX auf GeForce GTX verantwortlich. Zwei ebenfalls mit getestete Custom Designs von Asus können sich in dieser Anwendung nicht von der Founders Edition absetzen, weil weder Power noch Temperatur Target, sondern der maximal per Firmware zugelassene Takt limitieren und beide Serien hier quasi im selben Betriebszustand agieren.
Im zweiten TensorFlow-Benchmark (GitHub) vergleicht ComputerBase die Leistung der Grafikkarten einer ResNet-152-Implementierung. Um den Einfluss der Tensor-Kerne zu erfassen, wird das Modell mit normaler (FP32) und halber (FP16) Genauigkeit getestet. Es werden sowohl die Geschwindigkeit beim Training des neuronalen Netzes (Forward- und Backward-Pass) als auch nur bei der Klassifikation der Daten (Forward-Pass) gemessen. Nvidia erläutert in einem Video, wie bestehende neuronale Netze auf FP16 angepasst werden können, ohne dass diese ungenauer arbeiten.
Einen Vorteil durch die Tensor-Kerne lässt allerdings auch dieser Benchmark nicht erkennen, bei Volta (aktuell nicht im Zugriff der Redaktion) ist das wiederum der Fall. Die verwendeten TensorFlow-Binaries wurden mit CUDA 9 kompiliert, Turing benötigt aber CUDA 10, um die Tensor-Kerne anzusprechen. Sobald TensorFlow-Binaries mit CUDA 10 verfügbar sind, wird ComputerBase die Tests wiederholen.