News Windows 10: Nvidia gibt DirectX-12-Treiber mit WHQL-Zertifikat frei

Nai · 19. Mai 2015

Maxwell SASS hat DP-Instruktionen
NVIDIA Blockdiagramme sind nie vollständig (die DP-Units bei der Geforce 680 waren auch ned eingezeichnet, oder bei den Maxwell SMMs fehlt zum Beispiel der Konstantencache)

Laggy.NET · 19. Mai 2015

kisser schrieb:
Im GPU-Limit wird sich da aber nicht viel tun. Derzeit reden doch alle von 4k-Gaming und da werden sich weder Mantle noch DX12 erheblich von einer DX11-Implementierung absetzen. Sofern man nicht gezielt so programmiert, dass die Drawcall-Limitierung von DX11 eine Rolle spielt (Stichwort: Star Swarm Demo).
Bei dem verlinkten Test muss man ferner berücksichtigen, dass AMDs DX11 Umsetzung bezüglich der Drawcalls deutlich "suboptimal" ist.

Was heißt hier GPU limit. Mit AMD Karte im rechner hat hat man z.B. mit nem aktuellen i3 selbst in so nem popeligen Schlauchshooter wie CoD ein CPU limit teils weit unterhalb der 60 FPS:
http://www.eurogamer.de/articles/20...-spieler-ein-game-changer-ist-digital-foundry
Selbst mit nem i5 oder i7 sollte z.B. 120-144 Hz Gaming dann schon knapp werden.

Und selbst mit nem i5 oder i7 kommt man in Spielen wie BF4 oder Crysis 3 (und sehr vielen weiteren) oft ins CPU limit. Bei den meisten Spielen sind wir schon mehr oder weniger an der Grenze. Die CPU performance hat also meistens auch trotz vermeintlichem GPU Limit Auswirkungen. Und wenn es nur Teilabschnitte des Spiels sind. (oder die min. FPS)
Selbst das Spiel "Thief" hat von Mantle profitiert, obwohl es wirklich sehr geringe Anforderungen an die CPU hat...

Und ja, dass die Performance durch Mantle im Gegensatz zu DX11 bei AMD Karten so extrem ansteigt ist natürlich dem Overhead Problem der AMD Treiber geschuldet. Das verstärkt den Unterschied und nVidia hat gezeigt, dass sie mit Windows 8.1 + Treiber Optimierung in BF4 auch halbwegs mit Mantle mithalten können. Aber nVidia kann auch nicht zaubern. Bei Project Cars merke ich trotz nVidia Karte ein teils starkes CPU limit. Mit DX12 sollte sowas Geschichte sein. Der optimierte Overhead der nVidia Treiber ist in den meisten Spielen nur ein Tropfen auf dem heißen Stein im vergleich zu dem, was man mit DX12 erwarten kann.

Daedal · 19. Mai 2015

Nai schrieb:
Maxwell SASS hat DP-Instruktionen
NVIDIA Blockdiagramme sind nie vollständig (die DP-Units bei der Geforce 680 waren auch ned eingezeichnet, oder bei den Maxwell SMMs fehlt zum Beispiel der Konstantencache)

Das hat wenig Aussagekraft. Schließlich muss auch die 1/32DP debuggt werden wenn man Software schreibt.

Bei der 680 konnte das auch bestätigt werden. Zur Maxwell gibt es keine Bestätigung. Nvidia hat die einzige mir bekannte technische Dokumentation die nicht zuverlässig ist...des öfteren wie man auch zur GTX 970 sehen konnte. Hier hat das Marketing deutlich zu viel Einfluß.

Nai · 19. Mai 2015

Das hat wenig Aussagekraft. Schließlich muss auch die 1/32DP debuggt werden wenn man Software schreibt.

Was hat das mit dem debuggen zu tun?
Es macht keinen Sinn und ist zudem auch nur schlecht machbar extra eine Double-Precision-Funktion als Instruktion im Instruktionsset für das Debuggen vorzutäuschen, wenn sie nicht nativ ausgeführt werden würde.
Des Weiteren sind emulierte Funktionen (double Kehrwert, double Invsqrt, double Potenzfunktion und double Winkelfunktionen) auch beim Debuggen in CUDA als solche im SASS erkennbar, da sie aus mehreren DP-Befehlen bestehen.

Bei der 680 konnte das auch bestätigt werden.

Die Newsseiten stützen sich alle auch nur auf die NVIDIA-Whitepaper und NVIDIA-Specs. Nur dass bei Maxwell anscheinend einige Newsseiten das Whitepaper nicht ordentlich gelesen oder verstanden haben (grobe Fehler sind häufiger als man denkt, da viele Redakteure keinen Informatikabschluss haben). Da dir der Gedanke anscheinend gefällt willst du nur diesen News-Seiten glauben schenken.

Da hilft es vermutlich auch nicht wenn ich sage, dass ich das vor längerer Zeit einmal auf einer Maxwell (750 TI) gebenchmarkt habe und sich die DP-Performance so verhalten hat, wie man durch 4 DP-Units erwarten würde. Aber meinen anderen ominösen Benchmark glaubst du sicher, weil es deiner Meinung entspricht.

Locuza · 19. Mai 2015

Daedal schrieb:
Ergänzung (19. Mai 2015)

Noch abschließende zum DX12 Featurelevel der GPUs:
https://www.computerbase.de/forum/t...tungssteigerung.1474016/page-12#post-17400561

Wäre schrecklich wenn so ein Quark abschließend wäre.
Der ganze Beitrag dichtet sich halbgar irgendetwas zusammen.
Hust* nicht unähnlich wie es bei einigen anderen Menschen vorkommt.

Als ob MS wegen Nvidia alleine 3 Tier-Stufen für das Binding-Model spezifizieren musste.
Und der Beitrag führt es dann inkorrekt weiter, indem er von DX12 Tier 2 und Tier 3 redet, was es gar nicht gibt.

Nai schrieb:
Da dir der Gedanke anscheinend gefällt willst du nur diesen News-Seiten glauben schenken.

Hier liegt wohl das Hauptproblem begraben.

m0LN4r · 19. Mai 2015

@an Computerbase

Wird es einen performance benchmark geben für Win7 vs. win8.1 vs win10 WHQL treiber geben???
Ich glaube das Spieler auf der ganzen Welt auf ein solchen offizielen benchmark warten...

Es wäre interesant es deutclich zu wissen wie und wo die performance unterschiede erscheinen.

Ich schlage vor ein par ältere karten wie 470-570-670-770-970,
bevorzugsweise in neuen und älteren spielen.

Es geht halt nicht nur um performance boost, sondern auch vielleicht um performance verlust.

Danke

kisser · 19. Mai 2015

Laggy.NET schrieb:
Was heißt hier GPU limit.

Dass die GPU am Füllraten-, Bandbreiten- und/oder Rechenleistungslimit operiert. Die theoretische Leistungsfähigkeit einer GPU, ausgedrückt in Pixel-/Texelfüllraten, Bandbreite und GFlops sind unabhängig von der verwendeten API.
Dass sich die praktische Performance von der CPU-Limitierung weg verschieben wird mit DX12 steht ja außer Frage.
Aber man sollte in 4k-Auflösung keine immensen Sprünge gegenüber Dx11 erwarten.

Daedal · 19. Mai 2015

Nai schrieb:
Da hilft es vermutlich auch nicht wenn ich sage, dass ich das vor längerer Zeit einmal auf einer Maxwell (750 TI) gebenchmarkt habe und sich die DP-Performance so verhalten hat, wie man durch 4 DP-Units erwarten würde. Aber meinen anderen ominösen Benchmark glaubst du sicher, weil es deiner Meinung entspricht.

Interessant. Hast du die irgendwo dokumentiert und veröffentlicht? Denn anscheinend hast du da andere Ergebnisse als öfentliche Tests zeigen.

Du wirst verzeihen, dass ich dich bisher nicht für kompetenter halte als so manche Hardware-Redaktion, und daher auch nicht einfach auf dein Wort vertraue. Dies hat sehr wenig damit zu tun, dass ich mir Wünsche Nvidia hätte keine DP-Einheiten. Wie du selber sieht besorge ich mir auch die Quellen selber die du nicht in der Lage bist deinen Ausfühungen ungefragt zuzufügen. Das ist ein Punkt warum ich deine Beiträge kritisch sehe.

Z.B. ist dieser Test bestens dukomentiert und widerspricht deinem Beitrag:
http://www.dahlsys.com/misc/fermi_vs_maxwell/
Fazit:

It looks like the only reason to hold on to GTX Fermi cards would be if you have workloads that use double precision floating point, as gaming cards of the Kepler and Maxwell generations are very weak in those areas.

Dort sind weitergehend auch die Ursachen für die unterschiedlichen Szenarien beschrieben - für mich ist das bisher als Referenz anzusehen, da technisch nachvollziehbar und dokumentiert.
Da ich weiss, dass du diese GTX 970 Memory Tool kürzlich veröfentlicht hast und sicherlich nicht völlig unwissend bist, so wundere ich mich über die seltsame Weise wie du dieses Thema hier angehst - das wirkt nicht sonderlich überzeugend.

Locuza · 19. Mai 2015

Daedal schrieb:
Z.B. ist dieser Test bestens dukomentiert und widerspricht deinem Beitrag:
http://www.dahlsys.com/misc/fermi_vs_maxwell/

In wie fern widerspricht er seinem Beitrag?

Pro SMM werden 128 FP32 und 4 FP 64 ALUs verbaut.
Das ergibt dann bei Maxwell ein DP:SP Ratio von 1:32.

Für einen GM107:
SP: 1306 GFLOPs.
DP: 41 GFLOPs.

Im Mandelbrot liegt der DP-Wert bei 37 GFLops und ungefähr genau dort, wo er sein sollte.
Fermi ist natürlich stärker, weil er ein Ratio von 1:2 verwendet.
Aber man sieht auch das Fermi weit weg von seinen theoretischen Werten ist.
Sowohl SP, als auch DP-Werte sind weit unter der theoretischen Grenze.

Edit:

Siehe Nai's Beitrag unten.
Ich habe ganz vergessen, dass Nvidia bei Fermi die Consumer-Varianten beim DP-Durchsatz beschneidet.
Entsprechend liegt das Fermi-Ratio nicht bei 1:2, sondern 1:8).

Nai · 19. Mai 2015

Interessant. Hast du die irgendwo dokumentiert und veröffentlicht? Denn anscheinend hast du da andere Ergebnisse als öfentliche Tests zeigen.

Müsste ich erst wieder einbauen.

Dort sind weitergehend auch die Ursachen für die unterschiedlichen Szenarien beschrieben - für mich ist das bisher als Referenz anzusehen, da technisch nachvollziehbar und dokumentiert.

Das Widerspricht der Tatsache mit den DP-Units wie fern? Hast du hier mal wieder ne Quelle gepostet ohne sie *aufmerksam* durchzulesen?

Schau dir das Mandelbrot Beispiel an:
Bei Fermi beträgt die DP-Performance in etwa 82 \% des Peak Werts gemäß Specs (137 GFLOPS vs 169 GFLOPS) -> kein Widerspruch zu den Specs
Bei Maxwell beträgt die DP-Performance in etwa in etwa 90 \% des Peak Werts gemäß Specs (37 GFLOPS vs 41 GFLOPS) -> kein Widerspruch zu den Specs

Interessanterweise beträgt hier bei Fermi beträgt die SP-Performance nur 40 \% der Peak-Performance und bei Maxwell 36 \% der Peak-Performance. Das deutet hin dass hier etwas im "Argen" ist. Eventuell ein Fehler in der Berechnung oder eine Limitierung durch Latenzen, weil er den Loop nicht geunrollt hat?

Des Weiteren schildert die Quelle nur die Beobachtungen aus den Benchmarks und geht nicht auf die Ursachen der gemessenen Performance ein, also wieso sind die DP-Performance und die SP-Performance so wie sie gemessen wurden. Dementsprechend ist die Diskussion des Benchmarks ungeeignet um sie als Argumentation für das Nicht-Vorhandensein von DP-Units heranzuziehen.

Daedal · 19. Mai 2015

Locuza schrieb:
In wie fern widerspricht er seinem Beitrag?

Pro SMM werden 128 FP32 und 4 FP 64 ALUs verbaut.
Das ergibt dann bei Maxwell ein DP:SP Ratio von 1:32.

Wenn es DP-Einheiten gäbe wäre es kleiner. Das ist ja der Beweis ^^

Nai schrieb:
Das Widerspricht der Tatsache mit den DP-Units wie fern? Hast du hier mal wieder ne Quelle gepostet ohne sie *aufmerksam* durchzulesen?

Ausfmerksam...soso.

FP64 performance is 26% of FP32 on GF110 and 8% on GM107.

Kaum eine Verbeserung der DP-Performance, oder? Kepler hatte noch DP-Einheiten, und die Bildunterschrift as Nvidias Doku stammt wohl noch aus der Zeit bvor sie beschlossen haben das raus zu schmeissen für die Effizienz.

Nun da wir uns einig sind, dass die Quelle relevant ist, können wir das gerne detailiert durch gehen und ich lasse mich auch liebend gern überzeugen mit technischen Fakten.

Für die Zukunftsfähigkeit und mein Argument, dass Maxwell zu schwach ist bei DP wird das wohl kaum eine Rolle spielen. Zumal die grossen GM200 auch nicht mehr als diese 8% bieten.

Ergänzung (19. Mai 2015)

Nai schrieb:
Des Weiteren schildert die Quelle nur die Beobachtungen aus den Benchmarks und geht nicht auf die Ursachen der gemessenen Performance ein, also wieso sind die DP-Performance und die SP-Performance so wie sie gemessen wurden.

Findest du? Ich denke er hat da deutlich mehr geschrieben als du bisher zu deinen Messwerten.

Nai · 19. Mai 2015

Wenn es DP-Einheiten gäbe wäre es kleiner. Das ist ja der Beweis ^^

Er berechnet das Ratio zwischen SP_gemessen und DP_gemessen. Der Wert wird so groß weil SP_gemessen aus *irgendwelchen nicht dokumentierten Gründen* deutlich kleiner als SP_peak ist. Wenn er den Wert zwischen DP_gemessen und DP_peak berechnen würde, dann würde er in etwa einen Wert von 1 erhalten, was in Einklang mit den Specs stehen würde.

Daedal · 19. Mai 2015

Das behauptest du nun weil die Daten nicht zu deiner Behauptung passen? ^^

Das stimmt nicht aus nicht dokumentierten Gründen? Die du aber sofort erkannt hast weil sie mit deinen überhaupt nicht dokumentierten Werten (und auch noch nicht mal benannten Werte) nicht übereinstimmen?

Na dann, werde ich wohl nun das Abo zu dem Thema löschen.

Ich habe da auch mal was gemessen, das war völlig anders da. Weisst du?

Locuza · 19. Mai 2015

Die Daten passen weder zu Fermi noch Maxwell überein.
Der SP-Wert ist bei beiden viel stärker abweichend, als der DP-Wert.
Bei Fermi GF110 kommt auch nicht das 1:8 Ratio heraus, sondern 1:3,8. (Theoretisch 1:8)
Bei Maxwell GM 107 1:13. (Theoretisch 1:32).

Nai · 19. Mai 2015

Das behauptest du nun weil die Daten nicht zu deiner Behauptung passen? ^^

Nicht weil es nicht zu meiner Behauptung passt, sondern weil das Ergebnis nicht zu seinem Benchmark "passt" oder zumindest komisch ist. Er hat hier ein Benchmark was durch den FP-Durchsatz limitiert sein sollte, wodurch man in etwa die Peak-Performance erreichen sollte: "The algorithm consists of a loop with 14 floating point operations, a branch and an integer subtraction and test for zero. " Er ist aber aus irgendwelchen Gründen weit von der SP-Peak Performance weg, während seine DP-Performance den Erwartungen entspricht. Ergo scheint es wahrscheinlich, dass etwas an dem SP-Benchmark "schief" oder "suboptimal" abläuft, während man mit den DP-Benchmark alles in Ordnung zu sein scheint. Wegen der Anomalie im SP-Benchmark ist es nicht sinnvoll das Ratio der GPU zwischen DP und SP durch DP_gemessen und SP_gemessen zu bestimmen.

Ich weiß nicht was ich sonst noch sagen sollte:
In NVIDIA Specs steht dass es 4 DP-Units hat -> NVIDIA Specs seien falsch, da es auf einigen News-Seiten stand das nicht und sie das nur vergessen haben rauszueditieren
In dem SASS hat es DP-Instruktionen -> Die werden bestimmt nur emuliert
Emulation von DP-Instruktionen ist sinnfrei -> keine Antwort mehr
In dem Benchmark verhält es sich so als ob es 4 DP-Units hätte -> Nai interpretiert das Benchmark falsch (?)
Und wenn ich mir morgen mal die Karte einbauen sollte um das Benchmark zu machen heißt es garantiert: Du hast dir die Werte nur ausgedacht. . . . . . Also werde ich nichts daran ändern können, dass du es nicht glauben willst.

Was ich hier mal wieder sehe ist, dass fast jeder so tut als wüsste er alles besser und die Behauptungen eines Daedal ins Lächerliche zieht. Dabei ist er der einzige hier, der seine Behauptungen auch mit Fakten/Links belegt und generell einen gut informierten Eindruck macht.

Armandex0 · 19. Mai 2015

Ich Fass es nicht dass Ihr Euch nach wie vor mit so einem offensichtlichem Troll müht... Geht auf seine Argumente ein und er treibt einfach im Zweifel ne andre Sau durchs Dorf. Und die paar "quick Benches" wie es in der Quelle heißt sind für gar nichts Referenz. Das war auch nichtmal der Anspruch des Autors sondern lediglich Daedals Postulat.
Die rumtrollerei hier angesichts Leuten die sich sogar noch damit auseinander setzen nervt

W4RO_DE · 19. Mai 2015

Ich bin eigentlich ganz froh darüber, dass Nai ein paar Dinge ins rechte Licht rückt. Aber ich kann deinen Post schon nachvollziehen.

Krautmaster · 21. Mai 2015

absolut.

Moon_Knight · 21. Mai 2015

Ich sagte das schon mal früher: Nai wird einfach nicht genug geschätzt. Ich hätte ihn schon 10mal in einen Sonderposten der Moderation erhoben.
Ka, warum das noch nicht geschehen ist. Man schätzt wohl eher den cholerischen Typ, der sinnlos Karten zückt, als Leute mit echtem Know-how.

nur ein Mensch · 21. Mai 2015

Fried_Knight schrieb:
Ich sagte das schon mal früher: Nai wird einfach nicht genug geschätzt. Ich hätte ihn schon 10mal in einen Sonderposten der Moderation erhoben.
...

Na nun entscheid dich mal... erst schätzen und dann mit einem Mod-Posten bestrafen? ;p

News Windows 10: Nvidia gibt DirectX-12-Treiber mit WHQL-Zertifikat frei

Lt. Commander

Laggy.NET

Gast

Banned

Lt. Commander

Lieutenant

Lieutenant

Admiral

Banned

Lieutenant

Lt. Commander

Banned

Lt. Commander

Banned

Lieutenant

Lt. Commander

Lt. Junior Grade

W4RO_DE

Gast

Fleet Admiral

Moon_Knight

Gast

Lt. Commander

Ähnliche Themen