Bericht RTX-3000-Technik im Detail: Floating Point ist Amperes Liebling

Oneplusfan schrieb:
Dabei waren sehr interessante Statements hier zu lesen. Mich würde vor allem interessieren, ob bisherige Spiele mit der neuen Ampere Konfiguration besser skalieren, bzw. wie es da bei zukünftigen Spielen aussehen wird.

Oft wurde auch vorgeworfen, dass die bisherigen Benchmarks gecherrypickt waren (was durchaus nachvollziehbar ist). Allerdings fehlt mir hierzu bisher die technische Begründung. Sind die dort verwendeten Engines besonders Ampere-freundlich? Wenn ja, warum?

Es ist eine sehr stark auf die Zukunft ausgerichtete Architektur, die Probleme haben könnte sich in älteren Spielen stark von Turing abzusetzen. Moderne Engines setzen immer mehr auf Shader (FP32), während Einheiten wie TMUs, Rasterizer, Tesselation immer unwichtiger werden. Mesh Shading in DX12.2 ist da zb der Ansatz, um das stark auf die Shader auszulagern, Raytracing braucht das ebenso. Doom ist ein Paradebeispiel für eine moderne Engine, der es hauptsächlich um Shader geht und jeder weiß, dass die Entwicklung da auch hin geht.

Alte Engines, die vom Rasterizer, TMUs etc limitiert werden, werden dagegen nur mäßig profitieren. Das Blabla hier im Thread von wegen, "wenn Int32 genutzt wird, ist aber nur die Hälfte der Leistung da und es sind keine echten Cuda Cores" kannst ignorieren. Das war bis auf Turing nie anders. Es ist in gewisser Weise eine kleine Rolle Rückwärts, so dass die Cuda Cores teilweise wieder ähnlicher zu Pascal sind, wo Int32 auch auf den FP32 Einheiten lief.
 
  • Gefällt mir
Reaktionen: Oneplusfan
Teralios schrieb:
Aber die feine Aufteilung, von der du hier schriebst, beherrscht Ampere anscheinend nicht, sonst hätte NVIDIA das auch angekündigt, zumal man mit so einer feinen Aufteilung in die gleichen Probleme wie AMD mit GCN rennen würde.
Das ist eben die Krux. Ich denke nach diesem Artikel übrigens eher, dass AMD aufholen kann, als zuvor, da AMD enorm viel Aufwand in eine Optimierung der Auslastung steckt und Nvidia durch ihre Änderung der Recheneinheiten eher Nachteile erhält.
 
  • Gefällt mir
Reaktionen: McFritte
noxon schrieb:
Man erkennt das zum Beispiel auch an der Raytracing Hardware. Während Nvidia jetzt schon die nächste Generation anbieten kann, die mit Motion Blur umgehen kann und effektiver arbeitet wird AMD bei RDNA2 noch nicht einmal die Features bieten können, die Nvidia mit ihrer ersten Generation anbieten konnte.
AMD wird lediglich den Ray Intersection Test per Hardware durchführen. Die tatsächlichen Berechnungen des BVH wird AMD aber in den Shadern durchführen müssen. NVidia kann das auf den Turing Karten bereits in den RT Kernen.
Daran erkennt man, dass selbst das Raytracing Feature bei AMD nicht langfristig geplant und entwickelt wurde, sondern hastig hinzugefügt, weil man auf Nvidia reagieren muste.
Was verdient man denn bei AMD als GPU Ingenieur/ Designer? Scheinst ja schon alles über den kommen Big Navi zu Wissen, schon Lotto gespielt heute?
 
Mcr-King schrieb:
Naja aber wesentlich Teurer 700 zu 1500 ist doch etwas zuviel finde ich, dazwischen ist mehr als genug Platz für eine Ti. 😉

Ja das stimmt, nur wird die nicht jetzt gerade erscheinen. Leider finde ich. Mir hat das bei Pascal damals mächtig gestunken, dass die 1080Ti erst ein halbes Jahr später erschien, wodurch ich die 1080 also nur ein halbes Jahr im Einsatz hatte. Da ich dort nicht noch mindestens ein halbes Jahr verstreichen lassen möchte und ich auch gern mehr Leistung und mehr Speicher als bei der derzeitigen 2080Ti haben möchte, werde ich mir eben die 3090 zulegen. Und das muss eben nun mal jeder, wem das Angebot von 3070 und 3080 nicht zusagt. Oder er jammert oder wartet oder er kauft gar nichts oder alles zusammen.^^
 
  • Gefällt mir
Reaktionen: Jeffry26 und Mcr-King
Wadenbeisser schrieb:
Technologieen wie DLSS sehe ich eher als ein gutes Feature um mit schwachbrüstige Hardware dennoch gute Frameraten auf hochauflösenden Dsiplays zu erhalte.
Das sagst du, aber bedenkst du dabei auch, dass praktisch jedes Spiel, das du heute Spiel auch schon Techniken wie TAA oder CBR einsetzt? Die rendern jetzt intern auch schon in reduzierter Auflösung.
Einziger Unterschied ist, dass die bei weitem nicht so gute Ergebnisse liefern, wie DLSS und dennoch wird das momentan weitläufig eingesetzt, weil es einfach nicht sinnvoll wäre wirklich jeden Pixel mit jedem Frame immer wieder neu zu berechnen.
 
  • Gefällt mir
Reaktionen: KlaraElfer und .Sentinel.
Wenn ich den Artikel richtig verstanden habe, kann Turing 64 FP32 UND 64 INT32-Berechnungen gleichzeitig durchführen, während Ampere hier entweder 128FP32 ODER 64FP32 UND 64 INT32-Berechnungen durchführen kann.
Da sich also theoretisch die Anzahl der ALUs für FP verdoppelt hat, spricht Nvidia hier auch von den doppelten CUDA-Cores bei Ampere.

Jetzt stellt sich mir die Frage, ob die im Digital Foundry Video genutzten Spiele, vornehmlich FP-Berechnungen durchführen oder nicht. Sollte dies zutreffen, wurde die Software explizit für Ampere herangezogen, um die theoretische Überlegenheit gegenüber Turing darstellen zu können. Im Worst Case könnte Ampere aber auch, wenn das Verhältnis zwischen FP und INT Berechnungen gleich ausfällt, nahezu auf Turing-Niveau landen.

Habe ich das richtig verstanden?

Ich bin zwar heiß auf die 3090, aber da mein präferiertes Modell samt Wasserkühler eh nicht direkt zum Start verfügbar sein wird und ich sehen möchte ob sich AMD zumindest zwischen 3080 und 3090 positionieren kann, warte ich vlt. doch den Release von AMD ab.
 
canada schrieb:
Was verdient man denn bei AMD als GPU Ingenieur/ Designer? Scheinst ja schon alles über den kommen Big Navi zu Wissen, schon Lotto gespielt heute?
Man muss nicht bei AMD arbeiten um deren Patente einsehen zu können.
Mehr als den Abstract muss man noch nicht einmal lesen um zu verstehen, wie es funktionieren wird.

Keyword ist hier: "The intersection testing result and indications for BVH traversal are returned to the shader via a texture data return path. The shader reviews the intersection results and the indications to decide how to trasverse to the next BVH node."
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Colindo
„Ein SM von Ampere dagegen entweder 128 FP32- oder 64 FP32- und 64 INT32-Berechnungen – je nachdem, welchen Workload die Anwendung an die Grafikkarte verteilt. Je nach Szenario weist ein Ampere-SM also dieselbe Rechenleistung wie ein Turing-SM auf (wenn FP und INT gleichzeitig berechnet werden), oder die doppelte Rechenleistung (wenn nur FP berechnet wird). Das ist der Grund, warum sich die theoretische FP32-Rechenleistung bei Ampere gegenüber Turing mehr als verdoppelt hat und Nvidia in Bezug auf die Anzahl der FP32-ALUs jetzt von der doppelten Anzahl CUDA-Cores redet.“🧐🤨
Ein intelligenter Ansatz, aber stattdessen das der ebenso intelligent verkauft wird, Greift die Marketingabteilung auf schnöde Werbung zurück... Ich sehe hier eher, analog zu CPUs, „5248 SM mit HT“ anstatt „10496 SM“....
Eine verständnisfrage hätte ich aber: Die Variable „int“(Ganzzahlen) ist doch letztlich eine teilmenge der fließkommazahlen. Beide jedoch befinden sich im definitionsbereich der reellen Zahlen. Die frage ist: warum programmiert man nicht alles auf float? Dann hätte ich doch ebenfalls alle zahlen die bräuchte, aber doppelte Rechenleistung?
 
Zuletzt bearbeitet von einem Moderator:
KlaraElfer schrieb:
Das Problem immer mehr Transistoren mittels kleinerer Fertigungen zusammenzupacken, kann mit RTRT und DeepLearning deutlich entzerrt werden. Was reines Pathtracing angeht können nun auch Chipletlösungen wie im CPU Bereich besser forciert werden.
Das ist nicht ganz richtig. Raytracing ist viel besser parallelisierbar als Rasterising, was die Nutzung von immer mehr Transistoren in kleinerer Fertigung vereinfacht, nämlich indem man immer mehr die Anzahl der SM erhöht. In Chiplets kann es funktionieren, wenn alle Chiplets eine sehr hohe Bandbreite zum VRAM mit niedriger Latenz haben. Besonders die Latenz könnte ein Problem sein.
 
[wege]mini schrieb:
Solange das Alleingänge wie bei DLSS sind wird es sich nicht durchsetzen können, da ist meiner MEinung schon eine allgemeine Schnittstelle nötig und die wird sicherlich nicht von nvidia kommen.

noxon schrieb:
Das sagst du, aber bedenkst du dabei auch, dass praktisch jedes Spiel, das du heute Spiel auch schon Techniken wie TAA oder CBR einsetzt? Die rendern jetzt intern auch schon in reduzierter Auflösung.
Was glaubst du wohl warum ich "Technologieen wie" schrieb. ;)
 
  • Gefällt mir
Reaktionen: noxon
Taxxor schrieb:
Überlanges Zitat durch Moderation entfernt
Sehr guter Hinweis. Psycho hat da echt ziemlichen Unfug geschrieben.
 
Zuletzt bearbeitet von einem Moderator: (Überlanges Zitat durch Moderation entfernt)
  • Gefällt mir
Reaktionen: Lübke82
cypeak schrieb:
wenn die fps hoch sind und frametimes dabei angenehm konstant bleiben, sollte niemand ein problem damit haben, wenn die gpu mal etwas in den speicher nachladen muss!
Erklärst du mir mal bitte, wie diese beiden Bedingungen gleichzeitig erfüllt sein sollen? Mir scheint, du verstehst nicht, was ein zu kleiner VRAM bewirkt.
xexex schrieb:
Wenn du es genauer nimmst, wird gezielt nach oben geblasen und nicht in Richtung des CPU Kühlers. Entweder saugt dort nun ein großer CPU Lüfter die Luft an, die Wärme wird über ein Mesh im "Deckel" rausgeführt oder es sitzen oben Lüfter die diese Wärme abführen.
Ich hoffe, CB untersucht mehrere Lüfterbestückungen und gibt eine Empfehlung für die FEs ab. Oder @Jan?
 
Psychodelik schrieb:
Überlanges Zitat durch Moderation entfernt
AMD´s Grafiksparte hat NULL mit der CPU Sparte zu tun. Das kannst du dementsprechend überhaupt nicht übertragen.

Klar betreibt AMD R&D, technologisch hinkt man Nvidia aber deutlich hinterher. Das wird auch Big Navi nicht negieren, schon gar nicht nach dem was Nvidia da rausgehauen hat.

Das ist auch gar nicht schlimm, wenn AMD ne Karte bringt die Effizient ist, und wie erwartet etwa 2080ti Leistung bringt und dabei mit 16 GB einen guten Preis hat wird diese Karte berechtigterweise ihre Käufer finden.

Mit heutigem Wissensstand aber schwer vorstellbar, da die 3070 mit runden 500 EUR preislich einfach schwer zu knacken sein wird, wenn man denn 16 GB Vram verbaut.
Und will man die 3080 erreichen hilft nur die Brechstange. Sowas will dann auch keiner.

Man muss doch kein Prophet sein, um zu erkennen das AMD mit Big Navi einfach viel zu spät kommt. Das Ding hätte letzes Jahr kommen müssen. Jetzt ist alles wieder wie erwartet. Ein AMD "Wunder" wie bei den CPUs wird es nicht geben.
 
Zuletzt bearbeitet von einem Moderator: (Überlanges Zitat durch Moderation entfernt)
StefVR schrieb:
Wo bleiben die 4K Ultrawide Monitore ? Sollte gar kein Problem sein für 1440p mit dlss 2.0 upscaling und HDMI 2.1 jetzt

Was du als 4K Ultrawide bezeichnest nennt man zwangsläufig auch 5k UHD (5120x2160). Also da gibt es ja schon was.^^
 
Motion blur gefallt mir nicht.
Ist in meine Ansicht wie 'lens flare', yuck.

Komischerweise sagt jeder 'diese Monitor ist scheiße sie hat motion blur' und danach spendieren sie fuhr berechnete motion blur in spiele :)

Die Grafikkarte sind jedoch sehr interessant, versteh mir nicht falsch.
 
noxon schrieb:
In Zukunft wird es dank RT aber immer wahrscheinlicher, dass mehr und mehr auf FP zurückgegriffen werden muss und daher ist es ganz praktisch, dass diese Kerne auch für FP herhalten können. Das Ganze ist also weniger ein Problem, sondern eine Lösung, wie man dem zukünftigem FP Bedarf gerecht werden kann.

Eigentlich scheint es sogar genau umgekehrt zu sein, wenn man dem glaubt was Nvidia zur Nutzung von integer gesagt hat.
“Most traditional graphics operations are independent and purely FP (shading a pixel for example doesn’t require you to know about the surrounding pixels and is essentially just a bunch of dot products and multiply-adds) but ray tracing through an octree requires alternating integer and FP operations. For example, you need to find the nearest sub tree that a ray intersects to recurse into that sub tree. Intersecting with the objects is a FP operation, but deciding which is the nearest is integer and Boolean logic.
https://www.gamersnexus.net/guides/3364-nvidia-turing-architecture-technical-deep-dive

An dieser Stelle finde ich die Änderungen nun erst recht interessant, wenn man bedenkt, dass viele Spiele auch in der Zukunft kein RT nutzen werden.

AMD hat ja angekündigt RT Berechnungen über die normalen Shader durchführen zu lassen, was möglicherweise dazu führen wird, dass diese Karten in RT Spielen abstinken, aber in Spielen die nur klassische Shader nutzen mit Nvidia mithalten können.

Die Änderungen die Nvidia nun mit Ampere eingeführt hat, wirken dem entgegen, da man nun die Anzahl der FP Einheiten selbst verdoppelt hat und in Spielen die kein RT verwenden, diese Einheiten zur klassischen Berechnung genutzt werden können. Die Anzahl der Integer Berechnungen in solchen Spielen dürfte ziemlich gering sein, nicht umsonst sahen frühere GPUs eher so aus, bevor der ganze GPGPU Kram populär wurde.
1599311575593.png

https://www.hardwaretimes.com/amd-n...he-radeon-and-geforce-graphics-architectures/
 
  • Gefällt mir
Reaktionen: Lübke82 und pipip
CrustiCroc schrieb:
Und will man die 3080 erreichen hilft nur die Brechstange. Sowas will dann auch keiner.
Naja was anderes als Brechstange ist so eine 3080 mit 320W auch nicht, das sind schließlich 95W mehr als der Vorgänger
 
SKu schrieb:
Jetzt stellt sich mir die Frage, ob die im Digital Foundry Video genutzten Spiele, vornehmlich FP-Berechnungen durchführen oder nicht. Sollte dies zutreffen, wurde die Software explizit für Ampere herangezogen, um die theoretische Überlegenheit gegenüber Turing darstellen zu können.
Die Sache ist die, das bei modernen "Engines" - unabhängig, ob man RT implementiert oder nicht - der Bedarf nach FP-Leistung aktuell stärker steigt, als der nach INT.

Vor 2 oder waren es 3 Jahren, hat NVIDIA mit viel Tamtam angekündigt, dass man nun FP + INT zur gleichen Zeit durchführen kann da bei modernen Engine der Bedarf nach "INT" zu nimmt, was zum teil auch an RT liegt.

Jetzt stellt sich aber aktuell raus - nach einigen Recherchen und Blicke in die aktuellen Engnines - dass der Bedarf nach FP32-Leistung eben stärker ansteigt als gleichzeitig nach INT-Berechnung.

Deswegen bei Ampere quasi die 180° Rolle rückwärts. Was aber in meinen Augen auch ein genialer Schachzug ist, auch wenn nicht so elegant wie die CU bei AMD.

Man hat nun die meiste Zeit volle FP32-Leistung und kann dann bei Bedarf die INT-Berechnungen rein klatschen, ohne dass diese ALUs einfach nur Platz verschwenden.


Aber ich merke aktuell eines: Marketing-Geblubber sollte man wirklich lieber ein zweimal nach prüfen und vor allem aber nicht blind nachplappern. Vor 2 Jahren hieß es - auch hier - das ja moderne Engines immer INT-Lastiger werden, jetzt drehen alle das genau anders rum und am Ende ist man nur noch verwirrt und zweifelt mit der Zeit sogar an dem eigenen Wissen + dem Wissen der freunde, die in der Branche arbeiten. XD Ich glaub ich weiß warum ich bei Datenbanken bleibe!
 
  • Gefällt mir
Reaktionen: noxon, .Sentinel. und Colindo
xexex schrieb:
AMD hat ja angekündigt RT Berechnungen über die normalen Shader durchführen zu lassen, was möglicherweise dazu führen wird, dass diese Karten in RT Spielen abstinken, aber in Spielen die nur klassische Shader nutzen mit Nvidia mithalten können.

Die Änderungen die Nvidia nun mit Ampere eingeführt hat, wirken dem entgegen, da man nun die Anzahl der FP Einheiten selbst verdoppelt hat und in Spielen die kein RT verwenden, diese Einheiten zur klassischen Berechnung genutzt werden können.

Das Thema hatten wir doch letztens erst, RT läuft bei AMD genau so über die shader, wie bei Nvidia auch.
Nur die BVH abfragen lagert man bei Nvidia auf die RT Cores aus, bei AMD entsprechend in die TMUs
 
Zurück
Oben