Bericht RTX-3000-Technik im Detail: Floating Point ist Amperes Liebling

Wadenbeisser · 7. September 2020

@KlaraElfer

Du ließt auch nur was du willst, oder?
Die Intel Chips liegen nur dann vorn wenn wenn nicht mehr Kerne genutzt werden als diese besitzen und diese schneller sind weil sie z.B. einfach nur stumpf höher getaktet sind.
Damit liegt die Ursache auch weiterhin darin begraben das die Spiele unfähig sind die CPU, und damit sind alle Kerne gemeint, auszulasten. Das funktioniert allerdings nur dann wenn man bereits in der Region des CPU Limits des Programms operiert.

Schon zahlen einige nur allso bereitwillig mehr für den langsameren Prozessor, selbst dann wenn auch dieser nur zu einem Bruchteil ausgelastet wird. Siehe die zeitweilige Mode HPC Modelle zu kaufen weil der Turbo im Rahmen des größeren TDP Limits die genutzten Kerne ein bischen höher taktete. Da zahlte man dann auch gern für 5-10% gern ein vielfaches des Preises obwohl nur die Hälfte bis 1/3 der Kerne genutzt wurden. Schon freut man sich nen Kullerkeks über diesen minimalen Vorsprung und pfeift auf die doppelte bis dreifache vorhandene Leistung.

Klingt wenig sinnvoll aber so ist das nunmal mit Proll Faktoren.
Ist halt wie beim Auto Tuning, verschlingt idR. Unsummen für einen minimalen Nutzen obwohl es mehr bringen würde wenn man das Geld an anderer Stelle investiert hätte bei der man nicht auf dicke Hose machen kann.

Andere die auf die Prollerei verzichten leben einfach nur ihr Hobby und gehen damit nicht anderen auf den Keks.

.Sentinel. · 7. September 2020

Wadenbeisser schrieb:
Die Intel Chips liegen nur dann vorn wenn wenn nicht mehr Kerne genutzt werden als diese besitzen und diese schneller sind weil sie z.B. einfach nur stumpf höher getaktet sind.

Das ist ein wenig unfair formuliert. Ist doch gerade die Taktfrequenz etwas, um das mit hohem technischen Aufwand gekämpft wird.
Die Taktfrequenz ist zudem einer der Größen, die Kompromisse in anderen Bereichen erfordert: Packdichte, Gate- Breite etc.

AMD würde mit den aktuellen Ryzens mit ihrem IPC- Vorsprung nochmal anders dastehen, könnten sie Allcore "stumpf" auf 5GHz takten.

Singlecoreleistung ist und bleibt Trumpf, da damit Leistung universal und in allen Bereichen anwendungs- und workloadunabhängig zur Verfügung steht.
Hören zwar viele nicht gerne, wird aber auch für die Zukunft (wenn auch vielleicht in beschränkterem Maße) Gültigkeit behalten.

hurga_gonzales · 7. September 2020

So wie es aussieht, bietet die 3070 eine echt schlechte Rohleistung und kann nur unter ganz bestimmten Voraussetzungen, die aber fast keine Spiele bieten, brillieren.
Hier und bei der 3080 kann AMD Punkte gut machen. Wenn etwas in Richtung der 3090 von AMD käme, wäre ich echt (positiv) überrascht.

evilhunter · 7. September 2020

@hurga_gonzales

Wie kommst du darauf, dass die 3070 eine schlechte Rohleistung bietet? Die Grunddaten klingen erstmal sehr gut. Wenn sie sich in Spielen beweist, dann ist da eigentlich gar nichts schlecht.
RT und Tensor Leistung über einer 2080TI, das ist sogar ziemlich gut.

monitorhero · 7. September 2020

Wenn man sich mal die Steam Datenanalyse anschaut erklärt dass vielleicht auch die niedrigeren Preise für die neuen Nvidia Karten. Schließlich pusht man seit einer Weile RTX und es wird kaum adaptiert. Es hat wohl weniger mit AMD zu tun, dass die Preise nutzerfreundlicher werden. Nur ein Bruchteil an Usern nutzt überhaupt eine 2060 und selbst diese bietet sehr schlechte RTX Leistung.

acc · 7. September 2020

schonmal was von early adopter aufschlägen gehört? das erklärt so einiges, warum der preis bei turing so hoch war und nun mit ampere sinkt.

monitorhero · 7. September 2020

acc schrieb:
schonmal was von early adopter aufschlägen gehört? das erklärt so einiges, warum der preis bei turing so hoch war und nun mit ampere sinkt.

Mit realistischen Preisen hätte Nvidia es zumindest geschafft Early Adopter zu bekommen. Die Produktionskosten waren im leben nicht so hoch, wie Nvidia seine Preise gestaltet hat. Und keiner hat sie dazu gezwungen, zumal sie zu dem Zeitpunkt auch keine ernstzunehmende Konkurrenz fürchten mussten.

.Sentinel. · 7. September 2020

monitorhero schrieb:
Wenn man sich mal die Steam Datenanalyse anschaut erklärt dass vielleicht auch die niedrigeren Preise für die neuen Nvidia Karten. Schließlich pusht man seit einer Weile RTX und es wird kaum adaptiert. Es hat wohl weniger mit AMD zu tun, dass die Preise nutzerfreundlicher werden. Nur ein Bruchteil an Usern nutzt überhaupt eine 2060 und selbst diese bietet sehr schlechte RTX Leistung.

Man muss da sehr genau differenzieren, bietet die alte RTX reihe keine wirkliche Einstiegsklasse (Preisklasse bis 250,-€), auf welcher sich die meisten User tummelt.

Mit der Wachablösung der ersten RTX Generation ist die Wahrscheinlichkeit hoch, dass wir aber Karten mit dem kompletten RTX- Featureset in diesem Bereich sehen werden, wodurch einer massenhaften Verbreitung dieser Technik nichts mehr im Wege stehen würde. Zudem steigen ja die Konkurrenten auch mit RTRT in den Markt ein.

Man darf die Verbreitung auch nicht unterschätzen.

Ich sehe auf Steam derzeit folgende Zahlen in %:
2060 2.77
2070 S 1.97
2070 1.89
2060s 1.2
2080 0.96
2080ti 0.91
2080s 0.77

Gehen wir nun im schlechtesten Fall davon aus, dass sich das Survey auf active Users bezieht. Davon hat Steam derzeit um die 100 Mio.
Davon haben 10,56% eine RTX GPU im Rechner.
Es hätten dort also 10,56 Mio User eine teure RTX Grafikkarte in Betrieb.

Best case für nvidia-> Gehen wir davon aus, dass in der Statistik alle User berücksichtigt werden (also auch Accountleichen), dann besäßen von den ca. 1Mrd. gesamtangemeldeten Usern 105 Mio. User eine RTX Karte.

In beiden Fällen befinden wir uns in einer Größe der Installationsbasis, für die Publisher und Spieleentwickler durchaus auch einen Mehraufwand bzw. eine Sonderbehandlung bei AAA Produktionen in Betracht ziehen.

Sind es gerade diese Enthusiasten, mit Grafikkarten einer höheren Klasse, die genau auf den Konsum derlei AAA Spiele abzielen.

Auch wenn nicht alle auf Raytracing stehen, so kann man sich bei einer guten Implementation in einem Titel doch sicher sein, dass ein großteil der Nutzer, die dieses Feature an Bord haben, unter umständen auch deshalb zu solch einem Titel greift, weil es derzeit noch wenig angeboten wird und somit eine hohe Nachfrage da ist.

Beispiel: Im Leben hätte ich mir keinen Shooter mehr zugelegt, da diese Zeit für mich einfach vorbei ist. Das Spielprinzip ist ausgelutscht.
Als absoluter RTRT Enthusiast, habe ich mir aber sowohl Battlefield 1, als auch Wolfenstein Youngblood zugelegt, einfach um die Technologie zu testen.

Ich hatte bei beiden Titeln dann entgegen meiner Erwartungen doch wieder einen heidenspaß.

Also- Man erhält zusätzliche mediale Aufmerksamkeit und erreicht auch einen höheren Anteil an Absatz im Verhältnis zur Installationsbasis, wenn der Markt noch exklusiv ist.

In 2-3 Jahren kräht kein Hahn mehr nach Hybrid- RT- Effekten, weil sie in der Normalität einzug gehalten haben.
Der Wegbereiter hat und hatte es aber immer schwer im Grafikkartensektor.

Ich glaube, dass da vielen inzwischen das Gespür dafür abhanden gekommen ist, wie es vor den Zeiten der ewigen Evolution war, also als Grafikkarten noch regelmäßig einem Technologiewechsel unterworfen waren.

evilhunter · 7. September 2020

@.Sentinel.

Ich denke man kann noch ergänzen, dass durch die höhere Verbreitung von RTX Hardware, inklusive neuer Konsolen, die Engine Hersteller ja auch schon angefangen haben die Implementierung zu vereinfachen.
Der Aufwand jetzt ist geringer als zu Anfang.
Das sieht man an Spielen wie Industria, das Kern Team besteht immerhin nur aus 2 Mann, die auch auf Raytracing setzen werden.

Grüße
evil

Andregee · 7. September 2020

evilhunter schrieb:
@hurga_gonzales

Wie kommst du darauf, dass die 3070 eine schlechte Rohleistung bietet? Die Grunddaten klingen erstmal sehr gut. Wenn sie sich in Spielen beweist, dann ist da eigentlich gar nichts schlecht.
RT und Tensor Leistung über einer 2080TI, das ist sogar ziemlich gut.

Er hat den Artikel gelesen. Du scheinbar nicht. Die Ampere Architektur bewerkstelligt gegenüber Turing eben nur unter bestimmten Vorraussetzungen seitens der Software eine höhere Leistung. Wenn nun Spiele diese Vorraussetzungen nicht erfüllen ist der Leistungszuwachs von Ampere architekturseitig quasi nicht vorhanden.
Da muss schon hinterfragt werden, wie hoch die Quote der Software ist, die davon profitiert. Sollte diese recht gering sein, kann AMD mit einer eher universal angelegten Leistungssteigerung teils deutlich profitieren.

Mircosfot · 7. September 2020

Bis heute gibt es kein Spiel für das es sich lohnt so eine GPU zuzulegen. Tetris mit Raytracing, DLSS und in 8K? brauche ich nicht! Was wir brauchen sind Spiele! Kein HD Remaster- Müll sondern absolut neues!

KlaraElfer · 7. September 2020

Wadenbeisser schrieb:
Die Intel Chips liegen nur dann vorn wenn wenn nicht mehr Kerne genutzt werden als diese besitzen und diese schneller sind weil sie z.B. einfach nur stumpf höher getaktet sind.

Als momentan ist ein 10900K in 99,99% der Spiele vor einem 3950x/3900x.
Du verleugnest an der Stelle die viel wichtigere Singlethreadleistung, welche einfach durchschlägt.
Ob sich dann in 5 Jahren, wenn Spiele besser mit mehr als 20 Threads umgehen könne, die Rangfolge verschiebt ist anzunehmen, im Moment aber Zukunftsmusik.

Ryzen 4000 wird mit einer 6c12t CPU den 3950x in der Spieleleistung übertreffen, Kerne hin oder her.

Wadenbeisser schrieb:
Damit liegt die Ursache auch weiterhin darin begraben das die Spiele unfähig sind die CPU, und damit sind alle Kerne gemeint, auszulasten.

Das hat mit Unfähigkeit nichts zu tun.
Es gibt einfach gewisse Prozesse die sich bei der Spieleentwicklung nicht parallelisieren lassen und sequentiell ablaufen. Das rendering zu splitten ist schwer, aber es wird auch in Zukunft Schritt für Schritt nach vorne gehen, das dauert aber Jahre, bis Jahrzehnte und wird eher bei Strategietiteln mit vielen Einheiten auftauchen.

Wadenbeisser · 7. September 2020

@Mircosfot

Shadow of the Tomb Raider wäre ein solcher Kandidat denn vom Spielprinzip her hat es genau das was man dafür benötigt um sowas zur Geltung zu bringen, Zeit um sich umzuschauen und das Bild auf sich wirken zu lassen.
Die ganzen Ambitionen aus der Multiplayer Shooter Sparte waren praktisch sinnlos weil man entweder genau dafür keine Zeit hat oder es wegen der Frameratenmaximierung ohnehin nicht genutzt wird.

.Sentinel. schrieb:
Das ist ein wenig unfair formuliert. Ist doch gerade die Taktfrequenz etwas, um das mit hohem technischen Aufwand gekämpft wird.
Die Taktfrequenz ist zudem einer der Größen, die Kompromisse in anderen Bereichen erfordert: Packdichte, Gate- Breite etc.

Ist es nicht, es ist nur schonungslos formuliert weil es nur ein Faktor ist der vor allem aktuell auf kosten der Effizienz vorangetrieben wird. Es ist für Intel lediglich die naheliegendste Stellschraube um die Preise des Produkts trotz geringerer Rechenleistung hoch zu halten.

evilhunter · 7. September 2020

@Andregee

Witzige Unterstellung. Danke, der Tag fängst schon lustig an

Hättest du seinen Text und meinen Text durchgelesen, wüsstest du worauf ich hinaus will.

1. Er schreibt " unter ganz bestimmten Voraussetzungen, die aber fast keine Spiele bieten "
Das stimmt so eben nicht. Die Angabe bei Turing war noch, dass auf 100 FP Instruktionen circa 36 Integer kommen. Selbst wenn sich, dass durch Optimierungen etwas verschoben hat sind Spiele immer noch FP lastig.
Das heißt, dass die neuen FP Einheiten für einen Schub sorgen werden.
Ihr vergesst, dass die ersten Vergleiche, dass auch schon belegen.

2. RT und Tensor Core Fähigkeiten ignoriert ihr beide komplett.

3. Ich schreibe selbst, dass die Rohdaten nicht schlecht sind und sich das in Spielen beweisen muss.
Da für dich:

evilhunter schrieb:
Die Grunddaten klingen erstmal sehr gut. Wenn sie sich in Spielen beweist, dann ist da eigentlich gar nichts schlecht.

Also ich unterstelle dir einfach mangelnde Leseverständnis.

Grüße
evil

.Sentinel. · 7. September 2020

Andregee schrieb:
Er hat den Artikel gelesen. Du scheinbar nicht. Die Ampere Architektur bewerkstelligt gegenüber Turing eben nur unter bestimmten Vorraussetzungen seitens der Software eine höhere Leistung.

Das steht so aber nicht im Text bzw. kann ich das so nirgends rauslesen. Es steht drin, wie die SMs mit ensprechenden Instruktionen umgeht. Mehr nicht und mehr ist auch diesbezüglich meines Wissens nicht bekannt.

Wenn nun Spiele diese Vorraussetzungen nicht erfüllen ist der Leistungszuwachs von Ampere architekturseitig quasi nicht vorhanden.

Das ist extrem, extrem unwahrscheinlich. Oder denkst Du, dass sie all die gezeigten Titel haben umprogrammieren lassen? Das wäre der direkte Todesstoß für die Karte, wenn die alten Titel nicht schneller liefen.

Da muss schon hinterfragt werden, wie hoch die Quote der Software ist, die davon profitiert. Sollte diese recht gering sein, kann AMD mit einer eher universal angelegten Leistungssteigerung teils deutlich profitieren.

Wenn dem so wäre, hättest Du recht. Der Scheduler von Ampere kann aber wohl noch gerade so unterscheiden, ob nun INT oder FP Berechnungen folgen und das entsprechend verteilen....
Das ist ja unter Anderem die Ureigene Aufgabe von den Warp Schedulern, deren es 4 Pro SM gibt.

Schau Dir mal das hier ab 1.4.1.1. an:
https://docs.nvidia.com/cuda/archive/10.1/pdf/Turing_Tuning_Guide.pdf

Davon kann man auch ableiten, dass wenn sich nichts grundlegend geändert hat, eben auch nicht ein ganzer SM in den INT/FP Mode Switchen muss, nur weil eine INT Instruktion im Anflug ist.

Insofern ist ein Szenario, in welchem Ampere nicht schneller als Turing ist, eher worst case theoretischer Natur. Allein die I/O Reorganisation sorgt auch ohne den Umbau der SMs für Geschwindigkeitszuwächse.

Wadenbeisser · 7. September 2020

KlaraElfer schrieb:
Als momentan ist ein 10900K in 99,99% der Spiele vor einem 3950x/3900x.
Du verleugnest an der Stelle die viel wichtigere Singlethreadleistung, welche einfach durchschlägt.
Ob sich dann in 5 Jahren, wenn Spiele besser mit mehr als 20 Threads umgehen könne, die Rangfolge verschiebt ist anzunehmen, im Moment aber Zukunftsmusik.

Und wieviel % der Spiele sind mit singlecore oder dualcore Prozessoren zufrieden oder haben ganz einfach nicht den Bedarf weil sie ganz einfach alt genug sind?

Ich leugne garnichts sondern glorifiziere nur nicht alles in den Himmel was Platzhirsch so treibt denn genau diese Lobpreserei schadet dem Kunden nur.
Singletread Leistung ist nur ein Faktor von vielen und setzt man diesen Fakt konsequent durch müßten die Preise für das langsamere Produkt ganz einfach sinken. Da hat natürlich wiederum 2 Konsequenzen für die Hersteller.
1.) Produkte mit weniger Kernen (welche dann für die jeweilige Software reichen) müßten höher takten damit man mehr von den günstiger herzustellenden Produkten verkaufen kann
2.) Um wieder bessere Preise zu erzielen umss man stärker in die Software Entwicklung investieren um auch die teureren Produkte besser zu verkaufen indem man sich von der Anwendungsleistung her deutlich von Produkten absetzen kann. Der Kunde profitiert letztendlich von deutlich mehr direkt nutzbarer Rechenleistung.
Nach dem was du gern hättest gibt es überhaupt keine Ambitionen dazu denn es ist ganz einfach egal wie schnell das produkt ist und ob er es effizient nutzen kann, der Kunde zahlt ja dennoch Höchstpreise. Diese Investitionen spart man sich dann ganz einfach aus betriebswirtschaftlichen Gründen.

Solange ein vielfaches der Rechenleistung ungenutzt brach liegt ist es mir ganz einfach egal ob etwas im einstelligen bis unteren zweistelligen Prozentbereich schneller ist. Es rentiert sich für mich als Kunde ganz einfach nicht die aufgerufenen Preise zu zahlen.

Andregee · 7. September 2020

.Sentinel. schrieb:
Das steht so aber nicht im Text bzw. kann ich das so nirgends rauslesen. Es steht drin, wie die SMs mit ensprechenden Instruktionen umgeht. Mehr nicht und mehr ist auch diesbezüglich meines Wissens nicht bekannt.

Ein SM von Turing kann also maximal 64 FP32- und 64 INT32-Berechnungen gleichzeitig durchführen. Ein SM von Ampere dagegen entweder 128 FP32- oder 64 FP32- und 64 INT32-Berechnungen – je nachdem, welchen Workload die Anwendung an die Grafikkarte verteilt. Je nach Szenario weist ein Ampere-SM also dieselbe Rechenleistung wie ein Turing-SM auf (wenn FP und INT gleichzeitig berechnet werden), oder die doppelte Rechenleistung (wenn nur FP berechnet wird).

Wie viel mehr Leistung durch diese Anpassung in der Praxis ankommt, hängt im Wesentlichen von zwei Faktoren ab. Der erste ist die Anwendung selbst.

Angenommen, ein Spiel verlangt primär nach Gleitkomma-Berechnungen, wird ein Ampere-SM deutlich rechenstärker als ein Turing-SM sein. Gibt es dagegen verhältnismäßig viele Ganzzahlen-Berechnungen, nähert sich die Rechenleistung an. Von gleich schnell bis doppelt so schnell ist theoretisch alles möglich und es kann durchaus passieren, dass die Anwendung, die Turing aufgrund verhältnismäßig vieler INT-Berechnungen besonders gut schmeckt, Ampere eher weniger liegt, während die Titel, in denen Turing kaum bis gar nicht von den zusätzlichen INT-Einheiten profitiert, Ampere besonders gut liegen. Langsamer als ein Turing-SM ist ein Ampere-SM aber in keinem Fall.

Tommy Hewitt · 7. September 2020

Mircosfot schrieb:
Was wir brauchen sind Spiele!

Bisher war es ja meist ein entweder-oder mit RT.

Battlefield -> Spiegelungen
Metro -> Beleuchtung
Tomb Raider -> Schatten

Mit Cyberpunk kommt ja jetzt ein Spiel, das alles vereint. Und in Zukunft wird das wohl immer häufiger werden. Zum Start von Turing mussten die ganzen Engines erst aktualisiert werden, RayTracing gab es oftmals nicht zum Launch der Spiele und wurde später nachgepatcht.

snickii · 7. September 2020

Tommy Hewitt schrieb:
Mit Cyberpunk kommt ja jetzt ein Spiel, das alles vereint.

Deswegen sollte man wohl erstmal abwarten ob das wirklich so funktioniert nach den 2 Verschiebungen des Release-Termins. Ich bin gespannt wie das dann läuft mit den neuen Karten.

.Sentinel. · 7. September 2020

Andregee schrieb:
Ein SM von Turing kann also maximal 64 FP32- und 64 INT32-Berechnungen gleichzeitig durchführen. Ein SM von Ampere dagegen entweder 128 FP32- oder 64 FP32- und 64 INT32-Berechnungen – je nachdem, welchen Workload die Anwendung an die Grafikkarte verteilt. Je nach Szenario weist ein Ampere-SM also dieselbe Rechenleistung wie ein Turing-SM auf (wenn FP und INT gleichzeitig berechnet werden), oder die doppelte Rechenleistung (wenn nur FP berechnet wird).

Das Whitepaper wirds zeigen. Ich halte es für höchst unwahrscheinlich, dass Durch das Zuteilen eines einzigen Ints, der gesamte SM für einen Cycle "blockiert" wird.

Bericht RTX-3000-Technik im Detail: Floating Point ist Amperes Liebling

Wadenbeisser

Gast

Admiral

Captain

Lt. Commander

Lt. Junior Grade

Lt. Commander

Lt. Junior Grade

Admiral

Lt. Commander

Rear Admiral

Lt. Commander

KlaraElfer

Gast

Wadenbeisser

Gast

Lt. Commander

Admiral

Wadenbeisser

Gast

Rear Admiral

Commodore

‎

Admiral