Radeon RX Vega 64 & 56 im Test: Der helle Stern wirft lange Schatten
tl;dr: Mit Radeon RX Vega 64 und 56 bietet AMD zwei Jahre nach der Radeon R9 Fury X endlich wieder High-End-Grafikkarten für Spieler. Wie spekuliert haben sie nicht die „Ti“ sondern Nvidia GeForce GTX 1080 und 1070 zum Ziel. Im Test überzeugt vor allem das kleinere Modell. Davon abgesehen lässt Vega viele fragende Blicke zurück.
AMD Radeon RX Vega 64 & 56 im Test
Zwei Jahre hat es gedauert: Die letzte High-End-Grafikkarte von AMD erschien am 24. Juni 2015 in Form der Radeon R9 Fury X (Test) und seit dem 17. Mai 2016 ist die schnellere GeForce GTX 1080 ohne Konkurrenz. Und noch darüber residiert seit dem Frühjahr 2017 die GeForce GTX 1080 Ti (Test).
Mit über einem Jahr Verzögerung macht AMD mit Vega jetzt endlich Nvidia Pascal Konkurrenz. Und das „endlich“ ist wörtlich zu nehmen, denn offiziell über Vega gesprochen hat AMD bereits Ende des vergangenen Jahres. Mehr Details gab es – inklusive Seitenhieb – Anfang 2017 und abschließend Ende Juli. Für professionelle Kunden ist die Vega als Frontier Edition bereits seit Wochen am Markt.
Heute nun dürften Tests zu den ersten zwei Grafikkarten für Spieler veröffentlicht werden. Es handelt sich um das neue Topmodell Radeon RX Vega 64 und die etwas abgespeckte Version Radeon RX Vega 56. Beide Grafikkarten sollen mit der optimierten Architektur nicht nur deutlich schneller als der Vorgänger werden, sondern auch deutlich zukunftssicherer sein.
Konkurrenz für GeForce GTX 1080 und 1070
Wer bis zuletzt einen Gegenspieler zur GeForce GTX 1080 Ti erwartet hat, dem sei allerdings schon an dieser Stelle gesagt: AMD hat Nvidias Flaggschiff weiterhin nichts entgegen zu setzen. Auch offiziell heißt die Konkurrenz GeForce GTX 1080 (Test) und GeForce GTX 1070 (Test), die UVP von Vega ist mit 499 Euro respektive 405 Euro entsprechend gewählt. Alle Spekulationen um spezielle Treiber für RX Vega, die die Leistung in Spielen deutlich gegenüber der Frontier Edition für Prosumer erhöhen, werden vorerst nicht erfüllt.
Wie sich die beiden neuen Grafikkarten mit Vega-10-GPU gegenüber der Konkurrenz schlagen, das konnte ComputerBase über die letzten Tage mit den schwarzen Referenzdesigns von Radeon RX Vega 64 und RX Vega 56 testen. Für das große Modell blieben dafür knapp fünf Tage, für das kleinere knapp drei Tage Zeit.
ComputerBase hat weitere Analysen mit Vega durchgeführt. Sie umfassen mit Stand 16. August 2017 einen Vergleich von Vega mit Fury X (Fiji) bei gleichem Takt, Benchmarks zur Auswirkung von aktiviertem HBCC in Spielen sowie erweiterte Tests zum Übertakten und sind auf der Seite „Weitere Testergebnisse (Update 16.8.2017)“ einsehbar.
Kurzzusammenfassung: Bei gleichem Takt für GPU und HBM(2) kann sich Radeon RX Vega 64 im Durchschnitt über alle Spiele um sechs Prozent von der Radeon R9 Fury X absetzen, die Radeon RX Vega 56 liegt mit Fiji exakt gleich auf. HBCC wiederum bringt in vielen Spielen schon heute kleine Vorteile, einzelne Titel mit großen Problemen sehen HBCC an und HBCC aus im Durchschnitt hingegen sowohl bei den FPS als auch bei den 99-Percentile-Frametimes gleich auf.
In einem separaten Artikel hat sich ComputerBase auch der Mining-Leistung von Vega in der Zwischenzeit noch detaillierter angenommen. Weitere Analysen folgen.
10 Vorteile der Vega-Architektur
Vega (benannt nach dem hellsten Stern im Sternbild Lyra) stellt laut AMD den größten Sprung in der Architektur seit der Einführung von Graphics Core Next mit der Radeon HD 7970 (Test) zum Jahreswechsel 2011 auf 2012 dar. Genau genommen hat AMD allerdings erstmals überhaupt seit Einführung von Graphics Core Next (GCN) grundlegend etwas verändert. Der Wechsel soll es laut AMD in sich haben und nicht nur für heutige Programme und Spiele, sondern auch für zukünftige Titel eine hohe Leistung bieten.
Die Konfiguration von Vega 10 entspricht Fiji
Sowohl die Radeon RX Vega 64 als auch die Radeon RX Vega 56 basieren auf der Vega-10-GPU. Sie wird im 14-nm-FinFET-Verfahren bei Globalfoundries gefertigt, ist 486 mm² groß und setzt sich aus 12,5 Milliarden Transistoren zusammen. Damit ist Vega 10 noch komplexer als Nvidia GP102. Mit neuer Fertigung konnte die Packdichte signifikant gegenüber Fiji mit weniger Transistoren auf größerer Fläche deutlich erhöht werden.
Chip | Vega 10 | Fiji | GP104 | GP102 |
---|---|---|---|---|
z.B. auf | RX Vega 64 / 56 | Fury (X) | GTX 1080 / 1070 | GTX 1080 Ti |
Transistoren | ca. 12,5 Mrd. | ca. 8,9 Mrd. | ca. 7,2 Mrd. | ca. 12,0 Mrd. |
Fertigung | 14 nm FinFET | 28 nm HP | 16 nm FinFET | 16 nm FinFET |
Chipgröße | 486 mm² | 596 mm² | 314 mm² | 471 mm² |
Packdichte* | 25,7 | 14,9 | 22,9 | 25,5 |
* In Millionen Transistoren pro mm² |
Der grobe Aufbau von Vega 10 ist gegenüber Fiji allerdings gleich geblieben: Es gibt immer noch einen Command Processor, einen Workgroup Distributor, vier ACE- und zwei HWS-Einheiten, die die Rechenaufgaben für Pixel- und Compute-Aufgaben verteilen. Vega 10 ist in vier Graphics Pipelines aufgeteilt.
Jede Pipeline enthält eine Geometry Engine sowie einen Draw Stream Binning Rasterizer. Zudem gibt es 16 NCUs und vier Pixel Engines mit jeweils vier ROPs. Pro Graphics Pipeline sind also 1.024 Shadereinheiten, 64 Texture Mapping Units sowie 16 ROPs vorhanden. In Summe gibt es wie bei Fiji 4.096 ALUs, 256 TMUs und 64 ROPs. Letztere sind ab Vega direkt mit dem L2-Cache verbunden, der mit 4.096 KB verdoppelt worden ist.
Innerhalb dieser Eckdaten soll sich allerdings extrem viel getan haben. AMD hat bereits zwei Mal darüber gesprochen. Die folgenden Abschnitte fokussieren sich deshalb auf zehn wesentliche und/oder heute erstmals genannte Details.
1. Leistungsfähigere ALUs mit Rapid Packed Math
Die mit GCN eingeführten ALUs sind nicht grundlegend für Vega verändert worden. Allerdings beherrschen sie nun „Rapid Packed Math“ (RPM). So konnten bereits die ALUs von Polaris Rechenaufgaben mit einer Genauigkeit von FP16 (der Standard ist FP32) annehmen und bearbeiten, hier bleibt die Performance unverändert, einzig Registerspeicher konnten gespart werden. Vega kann FP16-Befehle dagegen jetzt doppelt so schnell abarbeiten, indem Anstatt einer FP32- zwei FP16-Berechnungen durchgeführt werden.
Theoretisch verdoppelt dies die Rechenleistung. In der Praxis fällt der Unterschied aber deutlich geringer aus, denn im Spielealltag benötigt ein Shader meistens immer noch eine Präzision von 32 Bit, oder andere Flaschenhälse bleiben. AMD hat einen angepassten Test des 3DMark gezeigt, der durch RPM etwa 20 Prozent zulegen konnte. Eine Herausforderung: Anwendungen profitieren nicht automatisch, sondern müssen dafür ausgelegt werden. Wolfenstein II soll ein erster Titel sein. Diese Änderung an den ALUs hat AMD dazu veranlasst, die Compute Unit in „Next Generation Compute Unit“ (NCU) umzubenennen. Sie ist grundsätzlich nutzbar.
2. High Bandwith Cache Controller – noch inaktiv
Der High Bandwith Cache Controller (HBCC) ist ein weiteres Highlights der neuen Vega-Architektur. Er spricht nicht nur den verbauten (und auf RX Vega vorerst 8 GB großen) HBM2-Speicher an, sondern kann bis zu 512 TB Virtual Address Space adressieren. Dafür muss der HBCC auf externen Speicher zu greifen, beispielsweise den Arbeitsspeicher oder den Massenspeicher. Die Radeon-RX-Grafikkarten für Spieler beschränken sich allerdings auf den Arbeitsspeicher.
Das Resultat: Normalerweise wird das Speichermanagement der Grafikkarte durch das Spiel festgelegt. Ist der HBCC aktiviert, übernimmt hingegen er zu einem Großteil die Arbeit. Das kann von Vorteil sein, weil HBCC so genanntes (flexibel großes) Page-Based Memory Management nutzt, das die Speicherdaten selbstständig in für die GPU optimale Pages aufteilt. Auf dieser Basis ist es zum Beispiel nicht nötig, immer einen kompletten Datensatz im Grafikspeicher zu halten. Dieser kann zum Teil im Grafikspeicher und zum anderen Teil im Systemspeicher liegen. Aktive Pages werden im High Bandwidth Cache (HBM2-Speicher) gehalten, während inaktive in den Systemspeicher geschoben werden. Ohne HBCC würde auch inaktive Teile durchweg im Grafikspeicher gelassen oder müssten komplett in den Systemspeicher und bei erneuter Verwendung wieder zurück kopiert werden.
Problem: Aktuell ist der HBCC standardmäßig noch abgeschaltet, da die gesammelten Erfahrungen nicht ausreichend sind, um den HBCC durchweg zu aktivieren. Dies kann im Radeon-Settings-Menü jedoch geändert werden. Darauf hin lässt sich auf der Radeon RX Vega konfigurieren, wie viel Arbeitsspeicher der High Bandwidth Cache Controller als erweiterten GPU-Speicher nutzen soll – maximal 64 Gigabyte sind möglich.
3. Draw Stream Binning Rasterizer – bei RX Vega aktiv
Eine weitere größere technische Änderung ist der „Draw Stream Binning Rasterizer“ (DSBR) als Teil der verbesserten Pixel-Engine. Während klassisches so genanntes „Immediate-Mode“-Rendering alle Polygone stur in der Reihenfolge rendert, wie diese in der Rechenpipeline eintreffen, arbeitet der Draw Stream Binning Rasterizer wie ein „Tiled Renderer“ und versucht nicht sichtbare Polygone so schnell wie möglich zu verwerfen.
Der Draw Stream Binning Rasterizer teilt das Bild in eine konfigurierbare Anzahl von Kacheln ein. Jede Kacheln wird individuell bearbeitet. Zunächst prüft der DSBR, ob ein Polygon innerhalb einer Kachel von einem anderen vollständig oder teilweise überdeckt werden. Dasselbe wird später auch mit Pixel Shading durchgeführt.
Sind Polygone oder Pixel innerhalb eines Kachels bedeckt, werden diese gar nicht erst gerendert. Da das Bild in mehrere Kacheln eingeteilt wird, ist dies auch mit Teilstücken eines Polygons möglich. Allerdings gibt es auch Render-Situationen, in denen der Draw Stream Binning Rasterizer nicht funktionieren würde. Deshalb beherrscht Vega ebenso noch den traditionellen Immediate-Mode.
Laut AMD kann durch die neue Technik massiv Bandbreite zum „Off-Chip-Speicher“ (HBM2) gespart werden, da die tatsächlich benötigten Daten öfter auch in einem kleineren On-Chip-Speicher (L2-Cache) gespeichert werden können und von Kachel zu Kachel „weitergegeben“ werden. Durch weniger Kommunikation mit dem Off-Chip-Speicher reduziere sich zudem die Leistungsaufnahme. AMD spricht von bis zu 33 Prozent gesparter Bandbreite und bis zu zehn Prozent mehr Performance durch den DSBR. Nvidia nutzt „Tiled Renderer“ bereits seit Maxwell.
Anders als bei der Radeon Vega Frontier Edition ist der DSBR auf der Radeon RX Vega bereits mit dem ersten Treiber aktiviert und soll in den meisten Spielen auch genutzt werden. Eigene Untersuchungen von ComputerBase mit Hilfe des Tools Trianglebin bestätigen, dass Vega in der Tat anders als GCN rendert. Das von Maxwell und Pascal bekannte Muster lässt sich aber nicht erkennen.
4. Primitive Shader – noch inaktiv
Vega kommt darüber hinaus mit einer neuen Geometry Engine daher. Sie verändert die traditionelle Renderpipeline und ersetzt Vertex Shading sowie Primitive/Geometry Shading durch Primitive Shader. Diese sollen deutlich früher im Rechenvorgang als die traditionelle Pipeline das so genannte „Culling“ durchführen und so nicht sichtbare Geometrie verwerfen. Die Primitive Shader können verschiedene Formen von Geometrie berechnen. Neben dem allgemeinen Verwerfen der Geometry sollen die Primitive Shader vor allem beim Nutzen von Shadow-Maps eine Hilfe sein. Auch weitere Einsatzszenarien wie Partikeleffekte oder Multi-View-/Multi-Resolution-Rendering (für VR) sind denkbar.
Laut AMD soll die maximale Durchsatzleistung für Geometrie auf Vega durch die „Next-Generation Geometry Engine“ um den Faktor vier höher ausfallen als beim traditionellen Rendern. Die Primitive Shader werden vom Treiber verwaltet und müssen nicht manuell in die Software integriert werden. Entwickler können das aber tun.
Problem: Auch dieses Funktion ist im Treiber derzeit noch deaktiviert. Vega nutzt aktuell also nur die traditionelle Pipeline. Wann sich das ändert? AMD nennt keinen Termin.
5. Mehr Takt als mit Fiji und Polaris
Die Vega-10-GPU kann deutlich höhere Taktraten fahren als noch Fiji (Fury X: 1.050 MHz ab Werk) oder auch Polaris (RX 580: 1.425 MHz ab Werk). AMD spricht von Frequenzen von 1,75 GHz und mehr. Pascal wiederum erreicht über 2,0 GHz.
Um den höheren Takt zu ermöglichen hat AMD unter anderem die Pipeline verlängert. Allerdings will der Hersteller darauf geachtet haben, dies nur bei latenzunkritischen Einheiten durchzuführen, da ansonsten die Performance zu sehr leiden würde. Die ALUs haben zum Beispiel immer noch eine vier Stufen lange Pipeline, exakt wie bei GCN. Allerdings musste AMD dafür die ALUs trotzdem anpassen, um höhere Taktraten zu ermöglichen und spricht in diesem Zusammenhang von einer völligen Neustrukturierung, um die internen Verdrahtungen so kurz wie möglich zu halten. In einigen Fällen mussten die Verbindungen sogar völlig neu erstellt werden.
6. Höhere Energieeffizienz mit Deep-Sleep-Mode
Die verbesserte Energieeffizienz von Vega soll sich nicht nur unter Last, sondern auch im Leerlauf auf dem Windows-Desktop bemerkbar machen. hier gibt es einen neuen Deep-Sleep-Modus, der die GPU teilweise nur mit 27 MHz taktet. Verschiebt man ein Fenster, liegen knapp 50 MHz an, auf Internetseiten mit viel Anzeigen sind es rund 100 MHz.
Drei parallel an die Grafikkarte angeschlossene (unterschiedliche) Monitore ändern an den Frequenzen dabei nichts. Und anders als auf der Radeon R9 Fury (X) taktet sich auf Vega auch der HBM2-Speicher herunter. Anstatt mit 945 MHz oder 800 MHz wird er auf dem Desktop mit 167 MHz angesteuert. Liegt eine Teillast an, beträgt der Takt 500 MHz.
7. DirectX 12 mit Feature-Level 12_1
Vega kann erstmals mit dem Feature-Level 12_1 von DirectX 12 umgehen und zwar als erste diskrete Grafikkarte überhaupt in jeder Eigenschaft bis hinauf zur höchsten Ausbaustufe.
8. Zwei Mal Ultra HD mit je 120 Hz und mehr Hertz für HDR
Vega 10 unterstützt den DisplayPort 1.4 mit HBR3 sowie HDMI 2.0b – soweit nichts neues. Trotzdem hat es bei Vega Verbesserungen in der Monitorunterstützung gegeben. Während zum Beispiel Polaris nur einen 4K-Monitor mit 120 Hz ansteuern kann, sind zwei solche Displays auf Vega möglich. Ähnliches gilt für den HDR-Einsatz mit einer höheren Farbtiefe von bis zu zwölf Bit. Hier kann Polaris nur einen 4K-Monitor mit 60 Hz ansteuern, Vega 10 aber deren drei. Zudem ist Vega die erste AMD-GPU, die einen 4K-Monitor mit 120 Hz und HDR mit einem Bild beliefern kann. Dasselbe gilt für ein 5K-Display mit 60 Hz und HDR. AMD hat auf Vega zudem die SR-IOV-Virtualisierungsunterstützung erweitert, die nun auch auf die Videoeinheiten zugreifen kann: Vega 10 kann in einer virtuellen Umgebung die Hardware-Encodierung mit bis zu 16 gleichzeitigen Nutzern teilen.
9. Videoeinheit beherrscht VP9 bis zu Ultra HD
AMD hat bei Vega 10 auch die Videoeinheiten überarbeitet. Sie kann wie bei Polaris Ultra-HD-Videos mit 10 Bit und 60 Hz mit dem HEVC-Codec decodieren, neu hinzugekommen ist der VP9-Codec bis hinauf zu Ultra HD, wobei die Berechnungen die Video Codec Engine (VCE) nicht alleine durchführen kann, sondern die Shadereinheiten unterstützend eingreifen müssen. Als neue Formate gibt es in Vega 1.080p240, 1.440p120 und 2.160p60 im HEVC-Codec und 1.080p120, 1.440p60 sowie 2.160p60 mit H2.64. Zudem kann 3.840 × 2.160 mit H.264 mit 60 FPS encodiert werden, während dies bei Polaris nur mit bis zu 30 FPS möglich ist.
10. Infinity Fabric mit eigener Taktdomäne
Diverse Einheiten wie zum Beispiel das PCIe-Interface, die Multimedia-, die Display-Einheiten und der HBM2-Speicher sind per Infinity Fabric miteinander verbunden. Je nach benötigter Geschwindigkeit hat AMD die Verbindungsbandbreite skaliert. Anders als auf den Ryzen-CPUs hat das Infinity Fabric auf Vega 10 jedoch eine eigene Taktdomäne, da es ansonsten zu Schwierigkeiten kommen würde, wenn die GPU herunter taktet. In dem Fall hätten zum Beispiel die Videoeinheiten zu wenig Bandbreite für die volle Leistung übrig und die GPU müsste unnötig hochtakten.
AMD Radeon RX Vega 64 | AMD Radeon RX Vega 56 | |
---|---|---|
Chip: | Vega 10 | |
Transistoren: | ca. 12,5 Mrd. | |
Fertigung: | Globalfoundries 14 nm | |
Shader-Einheiten: | 4.096 | 3.584 |
Basis-Chiptakt: | 1.247 MHz | 1.156 MHz |
Maximaler Chiptakt: | 1.580 MHz | 1.525 MHz |
TFLOPs (FP32): | 12,9 TFLOPs | 10,9 TFLOPs |
TFLOPs (FP16): | 25,8 TFLOPs | 21,8 TFLOPs |
KI-Kerne: | Keine | |
TFLOPs (FP16) mit KI: | Nein | |
Raytracing: | Nein | |
ROPs: | 64 | |
Pixelfüllrate: | 101 GPix/s | 98 GPix/s |
TMUs: | 256 | 224 |
Texelfüllrate: | 405 GTex/s | 342 GTex/s |
DirectX (Feature-Level): | 12_1 | |
Speichergröße: | 8 GB HBM2 | |
Speichertakt: | 945 MHz | 800 MHz |
Speicherinterface: | 2.048 Bit | |
Speicherbandbreite: | 484 GB/s | 410 GB/s |
Leistungsaufnahme Typisch/Maximal: | 295 Watt/? | 210 Watt/? |