Vielleicht liest du jetzt nochmal in aller Ruhe meinen Ursprungsbeitrag durch und die Zusamenhänge werden klar.
https://www.computerbase.de/forum/t...stungssteigerung.1474016/page-5#post-17368012
Krautmaster schrieb:
https://www.computerbase.de/forum/t...stungssteigerung.1474016/page-5#post-17368012
Daedal schrieb:Genau so war mein erster Absatz gemeint in dem Beitrag den du zitiert hast
Ich dachte hier kennen alle die Quelle dass dieser Effekt genutzt wird. Siehe z.B.
http://www.anandtech.com/show/8546/nvidia-gameworks-more-effects-with-less-effort
Alle Titel mit "particel PhysX" nutzen diesen Effekt.
Project Cars fur Staub, Dreck und Gras das aufgewirbelt wird.
Krautmaster schrieb:
Und alles passt zusaammen:Krautmaster schrieb:Edit.
Wenn PhysX so viel ausmacht erklärt es auch die CPU Skalierung. Gut möglich dass diverse Gameworks Erweiterungen auf PhysX aufbauen.
Edit2:
wobei hier das Abschalten bei GPU PhysX bzw Umschalten auf CPU, bei Nvidia ja sogar zur Besserung führt... ergo kanns das auch nicht wirklich sein.
Daedal schrieb:Ja und auch absolut konsistent wenn man sich die Beiträge anschaut. Dies liegt aber daran, dass nicht jegliche Physik auf der GPU gerechnet wird. Es ist eine Lastverteilung, die man nicht für jedes System vorhersehen kann. Die dortigen User waren alle im GPU Limit und hatten noch 25% oder mehr CPU Reserven auf dem Hauptthread. Alle anderen Threads liegen mit ca. 5% fast brach. Hier hat die Entlastung der GPU mehr eingebracht als die Entlastung der CPU zuvor mit GPU PhysX. Bei einer GTX970 dürfte dies nicht mehr der Fall sein wie bei der 780 Ti, da Maxwell doppelte PhsyX Performance bietet wie diese Analyse zeigt.Krautmaster schrieb:Edit2:
wobei hier das Abschalten bei GPU PhysX bzw Umschalten auf CPU, bei Nvidia ja sogar zur Besserung führt... ergo kanns das auch nicht wirklich sein.
https://developer.nvidia.com/content/maxwell-gpu-physx-particles
Hier wohl auch durch das neue Feature der shared memory atomis:
Nur hier sehen wir auch was bei der Benutzung dieses Features weiterhin für eine Konsequenz entsteht. Ich habe das mal blau markiert.We can see from the above profile that using shared atomics results in a 2x performance improvement. However, using atomics comes with caveats. Due to the nature of atomics, execution becomes non-deterministic. Using the parallel prefix sum example, we can see that the sequence of the prefix sum is in increasing order or in the general case, it has a predictable order. Unfortunately, when using atomics, the ordering is no longer guaranteed because it depends on scheduling and how conflicts are resolved by the GPU. So depending on the use case and algorithm, use of atomics could lead to non-deterministic ordering of the final results and this could make debugging much more difficult. The recommendation is to have a deterministic version to fall back on for debugging or to sort the final results so that ordering can be restored.
Man sieht, dass es ein neues Scheduling der GPU erfordert wegen möglichen Kollision im Speicher. Es gäbe einen Fallback-Pfad den man erstellen soll. Ich vermute, dass genau hier der Hund begraben liegt, und auf diesem Fallbackpfad nachgebesert werden muss. Die Keplers performen ja auch schlechter, was in etwa konsistent ist mit den Forenmeldungen, da Kepler halb soviel PhysX Performance aufbringt im Vergleich zu Maxwell. Daher fallen auch diese zurück in den Benches, haben aber sicherlich noch ein besseres Scheduling verbaut für Nvidia optimierten Code als das was für AMD dann genutzt wird im Fallback Modus (Falls die dann nicht mit Nvidias Scheduling arbeiten müssen) Da geht alles drauf auf die CPU. Hier kann man sicher nachbesseren, doch völlig lösen wird sich das Dilema nicht lassen, denke ich.
Zuletzt bearbeitet: