News DirectX 12: Nvidia-Treiber soll Async Compute nachreichen

seahawk · 18. September 2015

Ich glaube man verkennt einige Punkte, AMD braucht ACE um ihre Shaderprozessoren auslasten zu können, NV braucht es nicht, da die Auslastung auch sequentiell in der Regel sehr gut ist. Die Grundunterschiede der Architekturen (sprich viele Recheneinheiten bei mäßiger Auslastung gegen wenige bei hoher) sind aber schon lange vor DX12 entstanden. Bereits bei R600 und der TerraScale Architektur hatte AMD den Ultra threaded dispatch processor an Bord, der Threads verwaltete.

ampre · 18. September 2015

Was mich wundert ist das Amd beim Polygonendurchsatz auf einmal so gut dasteht im 3dmark Drawcall Test. Gibt's dafür eine Erklärung? Immerhin hat Nvidia 2 Rasterizer mehr und die Raserizer sollen ja laut Nvidia doppelt so effizient sein. Das die bei einem relative Realen Benchmark dann so einbrechen wundert mich etwas!?

RayKrebs schrieb:
Also auch in Wikipedia steht drin.

https://en.wikipedia.org/wiki/Mantle_(API)
Beispiel:

GPU-bound scenarios
Mantle is also designed to improve situations where high resolutions and “maximum detail” settings are used, although to a somewhat lesser degree, as these settings tax GPU resources in a way that is more difficult to improve at the API level. While Mantle provides some built-in features to improve GPU-bound performance, gains in these cases are largely dependent on how well Mantle features and optimizations are being utilized by the game engine. Some of those features include:

-Reduction of command buffers submissions
-Explicit control of resource compression, expands and synchronizations
-Asynchronous DMA queue for data uploads independent from the graphics engine
-Asynchronous compute queue for overlapping of compute and graphics workloads
-Data formats optimizations via flexible buffer/image access
-Advanced Anti-Aliasing features for MSAA/EQAA optimizations
-Native multi-GPU support

Welche "Mantle" Spiele welche Features nutzen ist ja was ganz anderes. Bei DX ist es ja ebenso. Aber es gehörte grundsätzlich dazu und ich denke nicht ohne Grund. Denn AMD kennt sicherliche seine Schwächen und Stärken ihrer Architektur.

Ja Asynchronus Compute war in Mantle enthalten aber ich glaube das war erst mal nicht das Augenmerk worauf sich AMD gestürzt hat. Es waren in erster Linie die Drawcalls wo ja Nvidia weit Führend war in DX11. Erst mit Fiji machen die ACEs Sinn, den Fiji bringt 4000 Shader die wollen ausgelastet werden. Wenn ein Chip am meisten davon profietiert dann Fiji bei der 290x dürfte das noch nicht so der fall sein.

SuddenDeathStgt · 18. September 2015

ampre schrieb:
Mal schauen ob du da mithalten kannst. SuddenDeath aber vermutlich kneifst du ja (Siehe Auflösung)! Wer hält mit seine Titan x 980ti dagegen :-)

Ja, ich kneife & es ist mMn erbärmlich, dass man da "8K-Geschütze auffährt" ...Ich würde doch erst mal sagen, toppe die Ergebnisse @720 & 1080p, dann können wir weiter reden.^^

ampre schrieb:
Der Test würde mich mal mit einer Nvdia Karte der 900 Generation interessieren. Bei Suddendeath sieht man ja das die Karte ganz schön einbricht bei steigender Auflösung.

Boah, bricht die Karte ein & ich muss gestehen, dass ist ja unfassbar.^^

ampre · 18. September 2015

Es war als sportlicher Wetbewerb gemeint. Stats mal was zu posten was uns weiter bringt und Wissen schafft nur Beleidigungen!

Du bist so berechenbar!

P.s. In 1080p sind wir ja gleich auf!

SuddenDeathStgt schrieb:
Ja, ich kneife & es ist mMn erbärmlich, dass man da "8K-Geschütze auffährt" ...Ich würde doch erst mal sagen, toppe die Ergebnisse @720 & 1080p, dann können wir weiter reden.^^

Boah, bricht die Karte ein & ich muss gestehen, dass ist ja unfassbar.^^

SuddenDeathStgt · 18. September 2015

Was denn für Beleidigungen? Ich habe deine These widerlegt, nicht mehr & nicht weniger! Ich finde es beaduerlich bzw. schlimm, dass Du dies als "Beleidigung" auffasst. Das ist aber nicht mein Pro.... ;-)

In 1080p sind wir ja gleich auf!

Klein Maxwell "zieht auch dort deine Hawaii ab", so viel zum Thema sportlicher Wettbewerb ...^^

Nai · 18. September 2015

@ Ampre
Tut mir leid ich dachte nicht, dass es dich so erzürnt, wenn ich das zitiere was du hier schreibst.

Ich wollte das Verhalten von NVIDIA auch ethisch nicht gut heißen. Das einzige was mich hier stört ist hier das massive Schwarz-Weiß-Denken und die daraus resultierende Anhimmelung von AMD als das Gute und die Anfeindung von NVIDIA als das Böse. Darunter fallen solche Aussagen wie dein "NVIDIA macht seine GPUs (im Gegensatz zu AMD) nicht mit Liebe" oder Pipapas "AMD will technische Innovationen. NVIDIA und Intel wollen nur Kunden melken". Jedes wirtschaftliche Unternehmen hat in seinen Handlungen primär den Profit vor Augen. Dementsprechend sind sämtliche Aussagen eines Unternehmens auch nur als PR, die die Wirklichkeit zu gunsten des Profits verzerrt oder verfälscht, zu werten. Dies schließt die Aussagen von NVIDIA zur Speicherproblematik der Geforce 970 mit ein. In dieser Hinsicht sind meines Erachtens die Unterschiede in Ethik und Ehrlichkeit auch nur graduell, ob ein Unternehmen es mit den quantitativen Eigenschaften seines Produkts nicht ganz so genau nimmt (wie NVIDIA bei seinem Speicherinterface, andere Unternehmen bei Tests unter "Laborbedingungen", "Bis zu"-Eigenschaften usw.), Cherry-Picking bei Produkteigenschaften betreibt (in jeder Werbepräsentation von AMD oder NVIDIA in massen zu finden), oder bei qualitativen Eigenschaften (AMD beim Overclocking der Fury oder beim Hype vom Bulldozers) stark übertreibt.

Krautmaster · 18. September 2015

wie wäre es mit ein paar DX12 Benchmarks?

-> DX12 mit FRAPS und diese Demo hier:

http://www.file-upload.net/download-10916825/INFILTRATOR-DX12.rar.html

siehe News:
http://www.pcgameshardware.de/Unreal-Engine-Software-239301/Specials/Infiltrator-Demo-1171726/

Ich denke FHD wäre okay oder? Ich lass mal 60s benchmarken, DX12 vs DX11.

Ergänzung (18. September 2015)

Edit:

DX12 FHD
%windir%\system32\cmd.exe /q/c start InfiltratorDemo.exe ResX=1920 -ResY=1080 -D3D12 -novsync

Frames, Time (ms), Min, Max, Avg
4838 | 60000 | 61 | 107 | 80.633

DX11 FHD
%windir%\system32\cmd.exe /q/c start InfiltratorDemo.exe -ResX=1920 -ResY=1080 -novsync

Frames, Time (ms), Min, Max, Avg
4947 | 60000 | 51 | 106 | 82.450

im ersten run, GTX 980 TI OC

Mal sehn wie konstant die Werte sind.

Edit:

second rn DX12:
Frames, Time (ms), Min, Max, Avg
4832, 60000, 61, 107, 80.533

second run DX11

Frames, Time (ms), Min, Max, Avg
4844, 60000, 48, 107, 80.733

Scheint als würde aktuell DX12 etwas langsamer laufen als DX11 (bei Nvidia) - jedoch sind die Min Frames schon ne Ecke besser.

Ergänzung (18. September 2015)

in 4K sieht sich DX11 sichtbar flüssiger an

DX11
Frames, Time (ms), Min, Max, Avg
1784, 60000, 23, 37, 29.733

DX12
Frames, Time (ms), Min, Max, Avg
1484, 60000, 18, 32, 24.733

Scheint als muss Nvidia da erstmal die DX11 Performance erreichen...

Relaxo32 · 18. September 2015

Hab die Demo auch mal ausprobiert.

Zunächst zu meiner Hardware:
CPU: I5-2400@ 3820Mhz
RAM: 8GB 1333Mhz
GPU: HD 7950@900Mhz @PCIe 2.0x4 (Grund: x-Fi Soundkarte)

Hab die Demo vorher einmal durchlaufen lassen, weil sie unter DX12 beim ersten Durchlauf immer wieder kurze Ruckler hatte, danach nicht mehr.
Jeweils ein Volldurchlauf bis zu der Stelle an der das UE Logo am Ende stoppt. Hab den Test auch mehrmals gemacht um etwagige größere Schwankungen durch meine eigene Reaktionszeit zum Start/Stop zur FPS Aufzeichnung auszuschließen. Schwankt in etwa bei 0,5FPS bei etwa 2s Start/Stop Unterschied.

DX 12@1920x1080:
Frames: 5690 - Time: 217813ms - Avg: 26.123 - Min: 14 - Max: 62

DX 11@1920x1080:
Frames: 7240 - Time: 219906ms - Avg: 32.923 - Min: 18 - Max: 75

Anders als bei PCGH geäußert läuft die Demo bei mir auf meiner Radeon auch unter DX12, wenn auch merklich schlechter.
Ein Grund hierfür könnte sein, dass unter DX12 meine CPU nicht voll ausgelastet wird. Alle 4 Kerne dümpeln bei etwa 70% Auslastung rum. Unter DX11 hingegen werden 2 Kerne zu 100%, die anderen beiden zu 95% ausgelastet.
Könnte das vllt. daher kommen, weil die CPU unter DX12 entlastet wird/besser ausgelastet (eines der Features von DX12)?

Ansonsten sehr hübsch anzusehen, muss ich sagen. Die Tiefenunschärfe usw. finde ich zwar nervig, aber die Modelldetails und Effekte sind sehr schön anzusehen.

Krautmaster · 18. September 2015

wenn ichs ganz durchlaufen lasse... (bis Logo Beginn...)

GTX 980 TI OC

FHD DX11
Frames, Time (ms), Min, Max, Avg
17971, 209329, 15, 147, 85.851

FHD DX12
Frames, Time (ms), Min, Max, Avg
16959, 209453, 12, 121, 80.968

4K DX11
Frames, Time (ms), Min, Max, Avg
6765, 209438, 10, 50, 32.301

4k DX12
Frames, Time (ms), Min, Max, Avg
5652, 209547, 9, 48, 26.972

SuddenDeathStgt · 18. September 2015

DX12 ein Run
Frames: 3191 - Time: 60000ms - Avg: 53.183 - Min: 25 - Max: 69

DX11 ein Run
Frames: 3484 - Time: 60000ms - Avg: 58.067 - Min: 40 - Max: 75

Nur ein Run mit DX12 & danach DX11. "Gefühlt" performte der DX12-Bench ebenfalls klaglos, trotz der ~25Min-FPS. Grafik & Sound sind spitze & Games mit solch einer Qualy, werden sicherlich noch einige Zeit auf sich warten lassen ...normal.^^
DX12 benötigt bzw. lagert mit gleiche Settings ~1GB mehr ein (siehe AB-Bildchen) als unter DX11 ... :-)

edit:
Ich mach mal noch ein Run & erhöhe die Zeitangabe ...

Krautmaster · 18. September 2015

60s ab Start reicht eig schon für n Vergleich - zumal vergleichbar =) Danke schonmal. FHD nehm ich an?

ampre · 18. September 2015

@Nai
Doch es gibt einen Unterschied zu den "bis zu" und der GTX 970. Während "bis zu" noch im weitesten Sinne der Warheit entspricht waren die Angaben des Caches und den Rops bei der GTX 970 zu 100% gelogen. Zu den Caches und Rops gibt es bis heute kein Statment von Nvidia, wohlwissend das sie aufgrund dieser Angaben jeden Fall vor Gericht verlieren würden! (Das ist meine Meinung) Das ist ein schmaler Grad den Nvidia aber mittlerweile weit überschritten hat und das AMD ein besseres Unternehmen ist, sieht man daran dass sie versuchen keine Schmierenkampagne zu fahren, AMD könnte weit mehr Marktanteile zurückgewinnen wenn sie bei Nvidia die Finger in die Wunde legen würden, machen sie aber nicht! Daran erkennt man das wirtschaftliche Intressen nicht immer Vorrang haben in Unternehmen. Ich kenne genug Unternehmen wo die Wirtschaft die 2 Geige spielt und es hauptsächlich um ein schöne Zeit Miteinander und tolle neue Produkte geht da man wirklich daran glaubt mit seinem Produkt was zu bewirken!
Aber wie manche hier denken lässt tief blicken wie es in vielen Deutschen Unternehmen zugeht!

Im übrigen kann man Nvidia mit Async Copute keine Lüge vorwerfen. Sie unterstützen es ja, nur halt mehr schlecht als recht!

Krautmaster · 18. September 2015

vielleicht sollte man die Benchmarks in einen Thread auslagern

Macht wer einen oder mach ich morgen.

SuddenDeathStgt · 18. September 2015

Klaro @1080p. Bereits mit 1440p hat eine 970er "schwer zu knabbern". Hier noch einige Pics mit 1440p "im worst case" + ein sprodisches CPU-Limit... :-)

DX12 @1080p
Frames: 12584 - Time: 220000ms - Avg: 57.200 - Min: 26 - Max: 122

DX11 @1080p
Frames: 13969 - Time: 220000ms - Avg: 63.495 - Min: 28 - Max: 138

DX11 @1440p
Frames: 9506 - Time: 220000ms - Avg: 43.209 - Min: 21 - Max: 102

-Ich mach keinen ...^^

Krautmaster · 18. September 2015

ok 220000 is ne gute Zeit wobei das Logo am Ende vielleicht das Ergebnis verfälscht

Wie wäre es mit 200s ^^

SuddenDeathStgt · 19. September 2015

Aber nur die Max-Werte & auch nur ein kleines Muggaseggele den Averagewert, wenn überhaupt. Teste es ...^^

Krautmaster · 19. September 2015

soooo
https://www.computerbase.de/forum/threads/infiltrator-dx12-benchmarks.1514870/

ampre · 19. September 2015

Kann jemand mal im 3dmark dx12 drawcalltest mit einer gtx980 oder Titan x die drawcalls testen? Würde mich interessieren!

Iscaran · 23. September 2015

Gibt es denn eigentlich schon Tests mit dem upgedateten Treiber mittlerweile ?

Oder gibt es noch keinen Treiber ?

Ext3h · 23. September 2015

Iscaran schrieb:
Gibt es denn eigentlich schon Tests mit dem upgedateten Treiber mittlerweile ?

Oder gibt es noch keinen Treiber ?

Es gibt noch keine Treiber. Es wird die unter Umständen auch nicht so schnell geben.

Defakto "kann" die Hardware von GK110, GK20X, GM10X und GM20X "Async Compute" nicht - bzw. nicht vollständig. Theoretisch "könnte" man dafür die HyperQ-Funktionalität verwenden, allerdings fehlt der ein wichtiges Feature: Barrieren zwischen Queues.

Die Idee bei den Async Queues bei DX12, ist dass diese über simple Barrieren miteinander synchronisiert werden können, und diese Barrieren in Hardware, oder zu mindestens Hardware-nah aufgelöst werden so dass die GPU nahezu verzögerungsfrei zwischen zwischen verschiedenen Aufgaben wechseln kann, abhängig davon was gerade bereits fertig ist.

Da Nvidias Hardware das aktuell nicht kann, haben Sie die Barrieren in Software im Treiber gelöst. Und dabei hat Oxide aufgrund verschiedener Umstände (unter anderem extrem hohe CPU-Last) zum einen den Software-Scheduler so weit aus gebremst dass dadurch die Grafikkarte nicht mehr richtig versorgt wurde, und zum anderen oben drein auch noch den Treiber so weit überlastet dass der nicht mehr nur noch langsam, sondern komplett fehlerhaft gearbeitet hat.

Mit etwas Glück kann Nvidia die Firmware der Karten mit HyperQ-Funktionalität (konkret: Karten mit "Grid Management Unit") aktualisieren und darüber ebenfalls Async Queue-Support wie für DX12 benötigt hin bekommen. Das wird dann allerdings auch nur in Software laufen - wenngleich nicht mehr auf der CPU sondern auf einem Microcontroller der direkt in der GPU sitzt. Kepler-Karten vor GK110 und alle Fermi-Karten werden das nie in Hardware können, da keine programmierbare Steuereinheit vorhanden ist.

In jedem Fall ist das allerdings einiges an Arbeit, und selbst wenn es gelingt, wird das trotzdem nicht so gut funktionieren wie bei AMD, deren Hardware bereits seit der aller ersten GCN Version vollständig auf Async Compute ausgelegt war, und - selbst wenn Nvidia es schafft die Hardware zum laufen zu bringen - immer noch einen um den Faktor 8-16x höheren Grad an Parallelität in Hardware erreicht.

Oxide war übrigens ein gutes Beispiel dafür, wie sauber Async Compute bei AMD funktioniert wenn man NICHT optimiert, sondern einfach nur intuitiv drauf los hackt. Mal eben 30%+ Leistungszuwachs bei AMD an einem einzigen Tag. Und ein kompletter Totalausfall bei Nvidia.

News DirectX 12: Nvidia-Treiber soll Async Compute nachreichen

Lt. Junior Grade

Lt. Commander

Banned

Lt. Commander

Banned

Lt. Commander

Fleet Admiral

Commander

Fleet Admiral

Banned

Anhänge

Fleet Admiral

Lt. Commander

Fleet Admiral

Banned

Anhänge

Fleet Admiral

Banned

Fleet Admiral

Lt. Commander

Captain

Cadet 2nd Year