News DirectX 12: Nvidia-Treiber soll Async Compute nachreichen

Ich glaube man verkennt einige Punkte, AMD braucht ACE um ihre Shaderprozessoren auslasten zu können, NV braucht es nicht, da die Auslastung auch sequentiell in der Regel sehr gut ist. Die Grundunterschiede der Architekturen (sprich viele Recheneinheiten bei mäßiger Auslastung gegen wenige bei hoher) sind aber schon lange vor DX12 entstanden. Bereits bei R600 und der TerraScale Architektur hatte AMD den Ultra threaded dispatch processor an Bord, der Threads verwaltete.
 
Was mich wundert ist das Amd beim Polygonendurchsatz auf einmal so gut dasteht im 3dmark Drawcall Test. Gibt's dafür eine Erklärung? Immerhin hat Nvidia 2 Rasterizer mehr und die Raserizer sollen ja laut Nvidia doppelt so effizient sein. Das die bei einem relative Realen Benchmark dann so einbrechen wundert mich etwas!?

RayKrebs schrieb:
Also auch in Wikipedia steht drin.

https://en.wikipedia.org/wiki/Mantle_(API)
Beispiel:

GPU-bound scenarios
Mantle is also designed to improve situations where high resolutions and “maximum detail” settings are used, although to a somewhat lesser degree, as these settings tax GPU resources in a way that is more difficult to improve at the API level. While Mantle provides some built-in features to improve GPU-bound performance, gains in these cases are largely dependent on how well Mantle features and optimizations are being utilized by the game engine. Some of those features include:

-Reduction of command buffers submissions
-Explicit control of resource compression, expands and synchronizations
-Asynchronous DMA queue for data uploads independent from the graphics engine
-Asynchronous compute queue for overlapping of compute and graphics workloads
-Data formats optimizations via flexible buffer/image access
-Advanced Anti-Aliasing features for MSAA/EQAA optimizations
-Native multi-GPU support

Welche "Mantle" Spiele welche Features nutzen ist ja was ganz anderes. Bei DX ist es ja ebenso. Aber es gehörte grundsätzlich dazu und ich denke nicht ohne Grund. Denn AMD kennt sicherliche seine Schwächen und Stärken ihrer Architektur.

Ja Asynchronus Compute war in Mantle enthalten aber ich glaube das war erst mal nicht das Augenmerk worauf sich AMD gestürzt hat. Es waren in erster Linie die Drawcalls wo ja Nvidia weit Führend war in DX11. Erst mit Fiji machen die ACEs Sinn, den Fiji bringt 4000 Shader die wollen ausgelastet werden. Wenn ein Chip am meisten davon profietiert dann Fiji bei der 290x dürfte das noch nicht so der fall sein.
 
Zuletzt bearbeitet:
ampre schrieb:
Mal schauen ob du da mithalten kannst. SuddenDeath aber vermutlich kneifst du ja (Siehe Auflösung)! Wer hält mit seine Titan x 980ti dagegen :-)
Ja, ich kneife & es ist mMn erbärmlich, dass man da "8K-Geschütze auffährt" ...Ich würde doch erst mal sagen, toppe die Ergebnisse @720 & 1080p, dann können wir weiter reden.^^

ampre schrieb:
Der Test würde mich mal mit einer Nvdia Karte der 900 Generation interessieren. Bei Suddendeath sieht man ja das die Karte ganz schön einbricht bei steigender Auflösung.
Boah, bricht die Karte ein & ich muss gestehen, dass ist ja unfassbar.^^
 
Es war als sportlicher Wetbewerb gemeint. Stats mal was zu posten was uns weiter bringt und Wissen schafft nur Beleidigungen! :confused_alt:
Du bist so berechenbar!

P.s. In 1080p sind wir ja gleich auf!

SuddenDeathStgt schrieb:
Ja, ich kneife & es ist mMn erbärmlich, dass man da "8K-Geschütze auffährt" ...Ich würde doch erst mal sagen, toppe die Ergebnisse @720 & 1080p, dann können wir weiter reden.^^


Boah, bricht die Karte ein & ich muss gestehen, dass ist ja unfassbar.^^
 
Zuletzt bearbeitet:
Was denn für Beleidigungen? Ich habe deine These widerlegt, nicht mehr & nicht weniger! Ich finde es beaduerlich bzw. schlimm, dass Du dies als "Beleidigung" auffasst. Das ist aber nicht mein Pro.... ;-)

In 1080p sind wir ja gleich auf!
Klein Maxwell "zieht auch dort deine Hawaii ab", so viel zum Thema sportlicher Wettbewerb ...^^
 
@ Ampre
Tut mir leid ich dachte nicht, dass es dich so erzürnt, wenn ich das zitiere was du hier schreibst.

Ich wollte das Verhalten von NVIDIA auch ethisch nicht gut heißen. Das einzige was mich hier stört ist hier das massive Schwarz-Weiß-Denken und die daraus resultierende Anhimmelung von AMD als das Gute und die Anfeindung von NVIDIA als das Böse. Darunter fallen solche Aussagen wie dein "NVIDIA macht seine GPUs (im Gegensatz zu AMD) nicht mit Liebe" oder Pipapas "AMD will technische Innovationen. NVIDIA und Intel wollen nur Kunden melken". Jedes wirtschaftliche Unternehmen hat in seinen Handlungen primär den Profit vor Augen. Dementsprechend sind sämtliche Aussagen eines Unternehmens auch nur als PR, die die Wirklichkeit zu gunsten des Profits verzerrt oder verfälscht, zu werten. Dies schließt die Aussagen von NVIDIA zur Speicherproblematik der Geforce 970 mit ein. In dieser Hinsicht sind meines Erachtens die Unterschiede in Ethik und Ehrlichkeit auch nur graduell, ob ein Unternehmen es mit den quantitativen Eigenschaften seines Produkts nicht ganz so genau nimmt (wie NVIDIA bei seinem Speicherinterface, andere Unternehmen bei Tests unter "Laborbedingungen", "Bis zu"-Eigenschaften usw.), Cherry-Picking bei Produkteigenschaften betreibt (in jeder Werbepräsentation von AMD oder NVIDIA in massen zu finden), oder bei qualitativen Eigenschaften (AMD beim Overclocking der Fury oder beim Hype vom Bulldozers) stark übertreibt.
 
Zuletzt bearbeitet:
wie wäre es mit ein paar DX12 Benchmarks?

-> DX12 mit FRAPS und diese Demo hier:

http://www.file-upload.net/download-10916825/INFILTRATOR-DX12.rar.html

siehe News:
http://www.pcgameshardware.de/Unreal-Engine-Software-239301/Specials/Infiltrator-Demo-1171726/

Ich denke FHD wäre okay oder? Ich lass mal 60s benchmarken, DX12 vs DX11.
Ergänzung ()

Edit:

DX12 FHD
%windir%\system32\cmd.exe /q/c start InfiltratorDemo.exe ResX=1920 -ResY=1080 -D3D12 -novsync

Frames, Time (ms), Min, Max, Avg
4838 | 60000 | 61 | 107 | 80.633

DX11 FHD
%windir%\system32\cmd.exe /q/c start InfiltratorDemo.exe -ResX=1920 -ResY=1080 -novsync

Frames, Time (ms), Min, Max, Avg
4947 | 60000 | 51 | 106 | 82.450


im ersten run, GTX 980 TI OC

Mal sehn wie konstant die Werte sind.

Edit:

second rn DX12:
Frames, Time (ms), Min, Max, Avg
4832, 60000, 61, 107, 80.533


second run DX11

Frames, Time (ms), Min, Max, Avg
4844, 60000, 48, 107, 80.733

Scheint als würde aktuell DX12 etwas langsamer laufen als DX11 (bei Nvidia) - jedoch sind die Min Frames schon ne Ecke besser.
Ergänzung ()

in 4K sieht sich DX11 sichtbar flüssiger an

DX11
Frames, Time (ms), Min, Max, Avg
1784, 60000, 23, 37, 29.733

DX12
Frames, Time (ms), Min, Max, Avg
1484, 60000, 18, 32, 24.733

Scheint als muss Nvidia da erstmal die DX11 Performance erreichen...
 
Zuletzt bearbeitet:
Hab die Demo auch mal ausprobiert.

Zunächst zu meiner Hardware:
CPU: I5-2400@ 3820Mhz
RAM: 8GB 1333Mhz
GPU: HD 7950@900Mhz @PCIe 2.0x4 (Grund: x-Fi Soundkarte)

Hab die Demo vorher einmal durchlaufen lassen, weil sie unter DX12 beim ersten Durchlauf immer wieder kurze Ruckler hatte, danach nicht mehr.
Jeweils ein Volldurchlauf bis zu der Stelle an der das UE Logo am Ende stoppt. Hab den Test auch mehrmals gemacht um etwagige größere Schwankungen durch meine eigene Reaktionszeit zum Start/Stop zur FPS Aufzeichnung auszuschließen. Schwankt in etwa bei 0,5FPS bei etwa 2s Start/Stop Unterschied.

DX 12@1920x1080:
Frames: 5690 - Time: 217813ms - Avg: 26.123 - Min: 14 - Max: 62

DX 11@1920x1080:
Frames: 7240 - Time: 219906ms - Avg: 32.923 - Min: 18 - Max: 75


Anders als bei PCGH geäußert läuft die Demo bei mir auf meiner Radeon auch unter DX12, wenn auch merklich schlechter.
Ein Grund hierfür könnte sein, dass unter DX12 meine CPU nicht voll ausgelastet wird. Alle 4 Kerne dümpeln bei etwa 70% Auslastung rum. Unter DX11 hingegen werden 2 Kerne zu 100%, die anderen beiden zu 95% ausgelastet.
Könnte das vllt. daher kommen, weil die CPU unter DX12 entlastet wird/besser ausgelastet (eines der Features von DX12)?

Ansonsten sehr hübsch anzusehen, muss ich sagen. Die Tiefenunschärfe usw. finde ich zwar nervig, aber die Modelldetails und Effekte sind sehr schön anzusehen.
 
wenn ichs ganz durchlaufen lasse... (bis Logo Beginn...)

GTX 980 TI OC

FHD DX11
Frames, Time (ms), Min, Max, Avg
17971, 209329, 15, 147, 85.851

FHD DX12
Frames, Time (ms), Min, Max, Avg
16959, 209453, 12, 121, 80.968


4K DX11
Frames, Time (ms), Min, Max, Avg
6765, 209438, 10, 50, 32.301

4k DX12
Frames, Time (ms), Min, Max, Avg
5652, 209547, 9, 48, 26.972
 
Zuletzt bearbeitet:
DX12 ein Run
Frames: 3191 - Time: 60000ms - Avg: 53.183 - Min: 25 - Max: 69

DX11 ein Run
Frames: 3484 - Time: 60000ms - Avg: 58.067 - Min: 40 - Max: 75


Nur ein Run mit DX12 & danach DX11. "Gefühlt" performte der DX12-Bench ebenfalls klaglos, trotz der ~25Min-FPS. Grafik & Sound sind spitze & Games mit solch einer Qualy, werden sicherlich noch einige Zeit auf sich warten lassen ...normal.^^
DX12 benötigt bzw. lagert mit gleiche Settings ~1GB mehr ein (siehe AB-Bildchen) als unter DX11 ... :-)

edit:
Ich mach mal noch ein Run & erhöhe die Zeitangabe ...
 

Anhänge

  • Infiltrator_VRAM_DX12.PNG
    Infiltrator_VRAM_DX12.PNG
    3,5 KB · Aufrufe: 463
60s ab Start reicht eig schon für n Vergleich - zumal vergleichbar =) Danke schonmal. FHD nehm ich an?
 
Zuletzt bearbeitet:
@Nai
Doch es gibt einen Unterschied zu den "bis zu" und der GTX 970. Während "bis zu" noch im weitesten Sinne der Warheit entspricht waren die Angaben des Caches und den Rops bei der GTX 970 zu 100% gelogen. Zu den Caches und Rops gibt es bis heute kein Statment von Nvidia, wohlwissend das sie aufgrund dieser Angaben jeden Fall vor Gericht verlieren würden! (Das ist meine Meinung) Das ist ein schmaler Grad den Nvidia aber mittlerweile weit überschritten hat und das AMD ein besseres Unternehmen ist, sieht man daran dass sie versuchen keine Schmierenkampagne zu fahren, AMD könnte weit mehr Marktanteile zurückgewinnen wenn sie bei Nvidia die Finger in die Wunde legen würden, machen sie aber nicht! Daran erkennt man das wirtschaftliche Intressen nicht immer Vorrang haben in Unternehmen. Ich kenne genug Unternehmen wo die Wirtschaft die 2 Geige spielt und es hauptsächlich um ein schöne Zeit Miteinander und tolle neue Produkte geht da man wirklich daran glaubt mit seinem Produkt was zu bewirken!
Aber wie manche hier denken lässt tief blicken wie es in vielen Deutschen Unternehmen zugeht!


Im übrigen kann man Nvidia mit Async Copute keine Lüge vorwerfen. Sie unterstützen es ja, nur halt mehr schlecht als recht!
 
Zuletzt bearbeitet:
Klaro @1080p. Bereits mit 1440p hat eine 970er "schwer zu knabbern". Hier noch einige Pics mit 1440p "im worst case" + ein sprodisches CPU-Limit... :-)

DX12 @1080p
Frames: 12584 - Time: 220000ms - Avg: 57.200 - Min: 26 - Max: 122

DX11 @1080p
Frames: 13969 - Time: 220000ms - Avg: 63.495 - Min: 28 - Max: 138

DX11 @1440p
Frames: 9506 - Time: 220000ms - Avg: 43.209 - Min: 21 - Max: 102

-Ich mach keinen ...^^
 

Anhänge

  • UE4Game_2015_09_18_23_41_05_074.jpg
    UE4Game_2015_09_18_23_41_05_074.jpg
    102,9 KB · Aufrufe: 465
  • UE4Game_2015_09_18_23_41_09_855.jpg
    UE4Game_2015_09_18_23_41_09_855.jpg
    217,9 KB · Aufrufe: 452
  • UE4Game_2015_09_18_23_41_35_530.jpg
    UE4Game_2015_09_18_23_41_35_530.jpg
    221,5 KB · Aufrufe: 452
  • UE4Game_2015_09_18_23_41_36_952.jpg
    UE4Game_2015_09_18_23_41_36_952.jpg
    159,7 KB · Aufrufe: 457
  • UE4Game_2015_09_18_23_41_41_698.jpg
    UE4Game_2015_09_18_23_41_41_698.jpg
    185,6 KB · Aufrufe: 452
  • UE4Game_2015_09_18_23_41_54_000.jpg
    UE4Game_2015_09_18_23_41_54_000.jpg
    198,9 KB · Aufrufe: 463
Aber nur die Max-Werte & auch nur ein kleines Muggaseggele den Averagewert, wenn überhaupt. Teste es ...^^
 
Kann jemand mal im 3dmark dx12 drawcalltest mit einer gtx980 oder Titan x die drawcalls testen? Würde mich interessieren!
 
Gibt es denn eigentlich schon Tests mit dem upgedateten Treiber mittlerweile ?

Oder gibt es noch keinen Treiber ?
 
Iscaran schrieb:
Gibt es denn eigentlich schon Tests mit dem upgedateten Treiber mittlerweile ?

Oder gibt es noch keinen Treiber ?
Es gibt noch keine Treiber. Es wird die unter Umständen auch nicht so schnell geben.

Defakto "kann" die Hardware von GK110, GK20X, GM10X und GM20X "Async Compute" nicht - bzw. nicht vollständig. Theoretisch "könnte" man dafür die HyperQ-Funktionalität verwenden, allerdings fehlt der ein wichtiges Feature: Barrieren zwischen Queues.

Die Idee bei den Async Queues bei DX12, ist dass diese über simple Barrieren miteinander synchronisiert werden können, und diese Barrieren in Hardware, oder zu mindestens Hardware-nah aufgelöst werden so dass die GPU nahezu verzögerungsfrei zwischen zwischen verschiedenen Aufgaben wechseln kann, abhängig davon was gerade bereits fertig ist.

Da Nvidias Hardware das aktuell nicht kann, haben Sie die Barrieren in Software im Treiber gelöst. Und dabei hat Oxide aufgrund verschiedener Umstände (unter anderem extrem hohe CPU-Last) zum einen den Software-Scheduler so weit aus gebremst dass dadurch die Grafikkarte nicht mehr richtig versorgt wurde, und zum anderen oben drein auch noch den Treiber so weit überlastet dass der nicht mehr nur noch langsam, sondern komplett fehlerhaft gearbeitet hat.

Mit etwas Glück kann Nvidia die Firmware der Karten mit HyperQ-Funktionalität (konkret: Karten mit "Grid Management Unit") aktualisieren und darüber ebenfalls Async Queue-Support wie für DX12 benötigt hin bekommen. Das wird dann allerdings auch nur in Software laufen - wenngleich nicht mehr auf der CPU sondern auf einem Microcontroller der direkt in der GPU sitzt. Kepler-Karten vor GK110 und alle Fermi-Karten werden das nie in Hardware können, da keine programmierbare Steuereinheit vorhanden ist.

In jedem Fall ist das allerdings einiges an Arbeit, und selbst wenn es gelingt, wird das trotzdem nicht so gut funktionieren wie bei AMD, deren Hardware bereits seit der aller ersten GCN Version vollständig auf Async Compute ausgelegt war, und - selbst wenn Nvidia es schafft die Hardware zum laufen zu bringen - immer noch einen um den Faktor 8-16x höheren Grad an Parallelität in Hardware erreicht.

Oxide war übrigens ein gutes Beispiel dafür, wie sauber Async Compute bei AMD funktioniert wenn man NICHT optimiert, sondern einfach nur intuitiv drauf los hackt. Mal eben 30%+ Leistungszuwachs bei AMD an einem einzigen Tag. Und ein kompletter Totalausfall bei Nvidia.
 
Zurück
Oben