Nvidia Quadro RTX: Turing mit bis zu 16 TFLOPS und RT-Cores für Raytracing

Update Wolfgang Andermahr
262 Kommentare
Nvidia Quadro RTX: Turing mit bis zu 16 TFLOPS und RT-Cores für Raytracing
Bild: Nvidia

Nvidia CEO Jensen Huang hat die Katze aus dem Sack gelassen – zumindest ein Stück weit. Auf einem Special Event zur Siggraph hat Huang den Nachfolger der Pascal-Architektur angekündigt, der tatsächlich auf den Namen „Turing“ hört. GeForce-Produkte machen aber nicht den Anfang, sondern professionelle Quadro-RTX-Grafikkarten.

Nvidia will Turing mit dem Ziel entwickelt haben, Raytracing-Effekte in Echtzeit zu ermöglichen. Das war nach Microsofts Vorstoß mit DXR in DirectX 12 und Nvidias Umsetzung RTX zur GDC 2018 vermutet worden. Bisher war nur Volta in der Lage, entsprechende Software in Hardware zu beschleunigen. Turing kann das jetzt auch – und zwar per dedizierten Schaltkreisen. Zusätzlich zu den bereits von Volta bekannten Tensor-Cores für AI gibt es bei Turing auch noch so genannte „RT-Cores“ für Raytracing – die klassischen CUDA-Cores bleiben natürlich bestehen.

Raytracing soll 25× schneller auf Turing als auf Pascal sein

Auch wenn Nvidia nur (sehr) grob auf die neue Architektur eingegangen ist (Details sollen später folgen), sind immerhin erste Eckpunkte bekannt. Demzufolge hat Nvidia auch die Tensor-Cores gegenüber Volta verändert, sodass sie sich nun besser für De-Noising und AI Inference eignen. Die Raytracing-Leistung der RT-Kerne in Verbindung mit den Tensor-Cores soll gegenüber Pascal um den Faktor 25 höher sein und um Faktor 30 höher als mit modernen CPUs. Nvidia nennt 10 Gigarays in der Sekunde für Turing.

Nvidia Turing-GPU
Nvidia Turing-GPU (Bild: Nvidia)

Doch nicht nur die gesonderte Hardware für Raytracing und Deep Learning soll verbessert worden sein, auch der klassische Rasterization-Ansatz soll mit Turing Fortschritte gemacht haben – was auch ohne Raytracing Vorteile für die GeForce-Grafikkarten in Spielen bedeuten könnte. Nvidia nennt für Turing den dreifachen Pixeldurchsatz pro Streaming Multiprocessor als bei Pascal und eine Billion Dreiecke soll Turing pro Takt ausspucken können. Um das zu erreichen wurde die Grafik-Pipeline erweitert, Nvidia spricht von einer „neuen, programmierbaren Shading-Technologie“.

Turing kann FP16-Befehle wie Pascal in doppelter Geschwindigkeit ausführen. Neu ist zudem, dass INT8-Berechnungen mit höherer Performance unterstützt werden. Weitere Formate mit noch geringerer Präzision sollen ebenfalls erstmals unterstützt werden. Zur FP64-Leistung hat sich Nvidia dagegen nicht geäußert.

Die ersten Grafikkarten mit GDDR6-Speicher und bis zu 48 GB

Real-Time-Raytracing auf Nvidia Turing
Real-Time-Raytracing auf Nvidia Turing (Bild: Nvidia)

Wenig verwunderlich wird die neue Architektur auf GDDR6-Speicher setzen. Nvidia nennt explizit GDDR6 von Samsung, der 40 Prozent schneller als GDDR5X bei einer zugleich besseren Energieeffizienz arbeiten soll. Weil nicht klar ist, welchen Typ GDDR5X Nvidia als Basis heranzieht, lässt sich aber noch nicht mit Sicherheit auf die Taktraten des GDDR6 schließen.

Turing unterstützt Multi-GPU. Zumindest die professionellen Quadro-Grafikkarten setzen dafür auf NVLink der zweiten Generation, der in beide Richtungen 100 Gigabyte in der Sekunde übertragen kann. Ob die Verbindung auch bei den Spieler-Grafikkarten bleibt, ist noch ein Geheimnis. Darüber hinaus unterstützt Turing VirtualLink über USB Type-C für kommende VR-Headsets.

Nvidia hat drei Quadro-Grafikkarten auf Basis von Turing angekündigt. Und alle Modelle machen gleich im Namen klar, was sie besonders gut können sollen: Raytracing. Zur Kennzeichnung dient auch in diesem Fall das Kürzel RTX, das Nvidia auch für Echtzeit-Raytracing in Spielen verwendet. Die neuen Produkte sind die Quadro RTX 8000, die Quadro RTX 6000 und die Quadro RTX 5000.

Quadro RTX 8000 mit 4.608 Shadern, 16 TFLOPS und 48 GB Speicher

Die Quadro RTX 8000 als neues Topmodell setzt auf 4.608 Shadereinheiten, die eine FP32-Performance von 16 TFLOPS aufweisen. Damit muss der Takt bei etwa 1,75 GHz liegen. Ob dies der Vollausbau von Turing ist, ist unklar, aber durchaus wahrscheinlich. zugleich wird die Quadro RTX 8000 576 Tensor-Cores sowie einen 48 Gigabyte großen GDDR6-Speicher besitzen. 10 Gigarays/sec nennt Nvidia für das Flaggschiff als Leistungswert bei Raytracing. Zum Vergleich: Die Quadro GV100 auf Basis von Volta verfügt über 5.136 ALUs bei 14,8 TFLOPS, 640 (ältere) Tensor-Cores und 32 GB HBM2-Speicher.

Die neuen Quadro-Grafikkarten im Vergleich
Quadro RTX 8000 Quadro RTX 6000 Quadro RTX 5000 Quadro GV100 Quadro P6000
Architektur Turing Turing Turing Volta Pascal
FP32-ALUs 4.608 4.608 3.072 5.120 3.840
Tensor-Kerne 576 576 384 640
RT-Kerne
FP32-Leistung 16 TFLOPS ? TFLOPS ? TFLOPS 14,8 TFLOPS 12 TFLOPS
Taktrate
(berechnet)
~1.750 MHz ? MHz ? MHz ~1.455 MHz ~1.550 MHz
Speicherausbau 48 GB GDDR6 24 GB GDDR6 16 GB GDDR6 32 GB HBM2 24 GB GDDR5X
Speichertakt 7.000 MHz 7.000 (?) MHz 7.000 (?) MHz 850 MHz 5.000 MHz
Speicherinterface 384 Bit 384 Bit 256 Bit 4.096 Bit 384 Bit
Speicherbandbreite 672 GB/s 672 GB/s (?) 448 GB/s (?) 870 GB/s 480 GB/s

Als zweitem im Bunde stehen der Quadro RTX 6000 dieselbe Anzahl an Shader- und Tensor-Kerne zur Verfügung, der Speicher ist aber auf 24 Gigabyte halbiert. Die Quadro RTX 5000 verfügt noch über 3.072 ALUs, 384 Tensor-Kerne, 16 Gigabyte Speicher und liefert noch 6 Gigarays in der Sekunde.

Gegen Ende des dritten Quartals oder im vierten Quartal (Nvidia nennt zwei verschiedene Termine) sollen die Profi-Turing-Modelle verfügbar sein. Nvidia nennt für die Quadro RTX 8000 einen Straßenpreis von 10.000 US-Dollar (vor Steuern), 6.300 US-Dollar für die Quadro RTX 6000 und 2.300 US-Dollar für die Quadro RTX 5000.

Quadro RTX 8000 und RTX 6000
Quadro RTX 8000 und RTX 6000 (Bild: Nvidia.com)

Und was bedeutet das für GeForce mit Turing?

Auch wenn es noch keine Informationen über die Gaming-Grafikkarten gibt, galt bereits als gesichert, dass auch die neuen GeForce-Modelle auf Turing setzen werden. Und nach der Ankündigung der Quadro-Modelle führt daran auch kein Weg mehr vorbei. Vermutlich wird die Serie damit ebenfalls auf Real-Time-Raytracing-Effekte in Spielen auf Basis von RTX setzen, weshalb die 3D-Beschleuniger tatsächlich nicht mehr auf „GeForce GTX“, sondern auf „GeForce RTX“ hören dürften.

Die technischen Spezifikationen deuten zudem darauf hin, dass die vorgestellten Quadro-Modelle auf zwei GPUs basieren. Die Quadro RTX 8000 und Quadro RTX 6000 auf dem großen Chip und die Quadro RTX 5000 auf einer kleineren GPU. Entsprechend ist davon auszugehen, dass die Spielergrafikkarten als mögliche GeForce RTX 2080 und GeForce RTX 2070 zunächst nur auf dem kleineren Chip basieren. Und der größer Chip kommt dann – vielleicht mit abgeschalteten Einheiten – zu einem späteren Zeitpunkt als GeForce RTX 2080 Ti und als vollaktivierte Titan Xt.

Wie schnell Turing in Spielen sein wird, bleibt indes weiterhin unklar. Die RT- sowie Tensor-Kerne müssen von der Software unterstützt werden, damit sie einen Vorteil bringen. Damit bleibt insbesondere zu Anfang die entscheidende Frage, wie viel schneller pro ALU Turing als Pascal ist. Und natürlich auch wie die Taktraten ausfallen werden. Da vor allem ersteres noch völlig unklar ist, bleibt jede Aussage zum Leistungssprung von Pascal auf Turing in Spielen reine Spekulation.

Update

Nvidia hat mittlerweile weitere Details bekannt gegeben. So ist die größte Turing-GPU, die vermutlich auf die Bezeichnung GT102 hört, satte 754 mm² groß und verfügt über 18,6 Milliarden Transistoren. Der GP102 (Pascal) kommt im Vergleich dazu auf 471 mm² bei 11,8 Milliarden Transistoren, der ausschließlich professionelle GV100 (Volta) auf 815 mm² bei 21,1 Milliarden Transistoren – Turing ist also gar nicht so viel kleiner.

Während die riesige Die-Größe im Profi-Markt kein Problem darstellt, da dort hohe Preise verlangt werden können, stellt sich aber automatisch die Frage, was im Consumer-Segment geschieht. Selbst die kleinere Turing-GPU wird entsprechend sicherlich immer noch um die 500 mm² groß sein und könnte damit trotz 12-nm-Fertigung größer als der GP102 sein. Es ist davon auszugehen, dass der große Turing zunächst beziehungsweise zu einem späteren Zeitpunkt ausschließlich als teure Titan-Semi-Profi-Grafikkarte erscheinen wird.

Der GDDR6-Speicher arbeitet mit 7.000 MHz

Als GDDR6-Speichertakt gibt Nvidia 7.000 MHz an, der schnellste GDDR5X arbeitet aktuell mit 5.500 MHz. Da die Quadro RTX 8000 über ein 384 Bit breites Speicherinterface verfügt, beträgt die Speicherbandbreite dann 672 GB/s. Die Quadro RTX 5000 erreicht mit einem 256 Bit Interface noch 448 GB/s. Die große Turing-GPU bietet zudem einen 6 MB großen L2-Cache. Das ist doppelt so viel wie auf Pascal und genauso viel wie auf Volta.

Nvidia deutet Turing für GeForce an

Nvidia hat darüber hinaus ein Video ins Netz gestellt, das andeutet, dass es – wenig verwunderlich – Turing bald auch für Spieler geben wird. In dem Video sind Hinweise gestreut, dass die Grafikkarten GeForce RTX 2000 heißen werden. Darüber hinaus finden sich Koordinaten in dem Video, die auf Köln zeigen. Dort findet vom 22. bis zum 25. August die Gamescom statt. Nvidia hat zudem bereits vorher angekündigt, dass es am 20. August um 18:00 Uhr einen Livestream von der Gamescom 2018 geben wird, der „spektakuläre Überraschungen“ zeigen wird. Turing für GeForce wird dann vermutlich vorgestellt werden.

Exkurs: Was ist Raytracing?

ComputerBase hatte sich bereits vor Jahren in der Serie „Raytracing in Spielen“ mit dem Thema Raytracing befasst. Die darin präsentierten Informationen und Erkenntnisse zur alternativen Rendering-Methode sind auch heute noch gültig.

ComputerBase hat die Informationen zu diesem Inhalt vorab von Nvidia unter NDA erhalten. Einzige Vorgabe war der Veröffentlichungszeitpunkt. Eine Einflussnahme auf die Berichterstattung gab es nicht.