syfsyn
Admiral
- Registriert
- Nov. 2010
- Beiträge
- 8.294
Überraschend schneller aber mit nenn haken den keiner bemerkt hat.
zwar haben die reviewer das whitepaper aber es ist noch nicht öffentlich verfügbar daraus die Bilder deuten es an Nvidia hat die sm so umgebaut das folgendes drin ist
128 hybrid fp32/int32 Einheiten mit 4 sfu 4 tensor 4 tmu kernen das neue ist das es alles hybrid alu sind womit die software hier entscheidet was wieviel arbeitet nimmt man die bisherige 64+64 wovon 64 hybrid sind konnten dort 3/4 der 64alu für fp32 genutzt werden was aber in der Regel nur 64fp32+ 24 hybrid =88fp32 waren da 40int32 laufen mussten jetzt dürfte das besser ausgelastet werden womit ich mit 96fp32 rechne was die Zahlen auch hergeben.
Da es aber dynamisch angepasst wird kann es auch bei nur den 64fp32 enden in legacy code wie dx9 oder ogl was bei ada und ampere auch so war. bsp farcry 2 von 2009 pascal gp106 vs ampere ga106 +30% bei faktisch doppelten alu.
Wenn dx12_1 ft lvl 9_10_11 genutzt wird erhöht sich das auf die min fp32 von ada und ampere was 80fp32 (64fp32 +16 min fp32 per hybrid ) wären dazu kommt der verdacht das die rop da diese nicht angestiegen sind die Bildausgabe per default hochskaliert sprich 88% Renderscale.
Das wird man erst bei den Neuen Treibern erst merken.
Sprich nur dx12_2 können die 96fp32 nutzen per sm und dies mit den auto upscaled dann die 33% erreichen (2,2ghz) pathtraced test von pcgh.
Erst der Test zur rtx5080 nächste Woche wird Klarheit bringen da man dort nicht power limitiert ist
Diese sku hat 360w tbp und nur 84sm was den Takt auf grob 2,7ghz prügeln wird.
Womit folgendes erreicht wird
rtx5080 vs rtx4080
dx12_2 +36% (sofern kein PL greift)
dx12_1 +13%
dx9 ogl +24%
Am schlimmsten trifft es die rtx5070 (2,5ghz)
rtx5070 vs rtx4070
dx12_2 +19%
dx12_1 +0%
dx9 ogl +9%
Cpu limits ausgenommen gpu load bei 95-99%
Der Samsung sf4 node der vermutlich genutzt wird für den gb205 ist etwa 20% ineffizienter als der tsmc n5
Sollte dennoch tsmc n5 genutzt werden wäre die tbp der sku viel zu hoch da hätte es auch die 220w tbp gereicht.
Den ohne den auto upscaler komme ich auf maxed 16-20% gb202 vs ad102
Die hier grob +25% kommen wohl sehr wahrscheinlich vom cpu limit daher sage ich ja beim rtx5080 Test wird Klarheit kommen was den zutrifft
Ich hätte echt gedacht das man die Aufforderung die gpu load anzugeben bei einen HIGH END gpu Test mal durchdringt.
Die Daten sind da ist ja nicht mehr 2009 wo man nur fraps hatte.
zwar haben die reviewer das whitepaper aber es ist noch nicht öffentlich verfügbar daraus die Bilder deuten es an Nvidia hat die sm so umgebaut das folgendes drin ist
128 hybrid fp32/int32 Einheiten mit 4 sfu 4 tensor 4 tmu kernen das neue ist das es alles hybrid alu sind womit die software hier entscheidet was wieviel arbeitet nimmt man die bisherige 64+64 wovon 64 hybrid sind konnten dort 3/4 der 64alu für fp32 genutzt werden was aber in der Regel nur 64fp32+ 24 hybrid =88fp32 waren da 40int32 laufen mussten jetzt dürfte das besser ausgelastet werden womit ich mit 96fp32 rechne was die Zahlen auch hergeben.
Da es aber dynamisch angepasst wird kann es auch bei nur den 64fp32 enden in legacy code wie dx9 oder ogl was bei ada und ampere auch so war. bsp farcry 2 von 2009 pascal gp106 vs ampere ga106 +30% bei faktisch doppelten alu.
Wenn dx12_1 ft lvl 9_10_11 genutzt wird erhöht sich das auf die min fp32 von ada und ampere was 80fp32 (64fp32 +16 min fp32 per hybrid ) wären dazu kommt der verdacht das die rop da diese nicht angestiegen sind die Bildausgabe per default hochskaliert sprich 88% Renderscale.
Das wird man erst bei den Neuen Treibern erst merken.
Sprich nur dx12_2 können die 96fp32 nutzen per sm und dies mit den auto upscaled dann die 33% erreichen (2,2ghz) pathtraced test von pcgh.
Erst der Test zur rtx5080 nächste Woche wird Klarheit bringen da man dort nicht power limitiert ist
Diese sku hat 360w tbp und nur 84sm was den Takt auf grob 2,7ghz prügeln wird.
Womit folgendes erreicht wird
rtx5080 vs rtx4080
dx12_2 +36% (sofern kein PL greift)
dx12_1 +13%
dx9 ogl +24%
Am schlimmsten trifft es die rtx5070 (2,5ghz)
rtx5070 vs rtx4070
dx12_2 +19%
dx12_1 +0%
dx9 ogl +9%
Cpu limits ausgenommen gpu load bei 95-99%
Der Samsung sf4 node der vermutlich genutzt wird für den gb205 ist etwa 20% ineffizienter als der tsmc n5
Sollte dennoch tsmc n5 genutzt werden wäre die tbp der sku viel zu hoch da hätte es auch die 220w tbp gereicht.
Den ohne den auto upscaler komme ich auf maxed 16-20% gb202 vs ad102
Die hier grob +25% kommen wohl sehr wahrscheinlich vom cpu limit daher sage ich ja beim rtx5080 Test wird Klarheit kommen was den zutrifft
Ich hätte echt gedacht das man die Aufforderung die gpu load anzugeben bei einen HIGH END gpu Test mal durchdringt.
Die Daten sind da ist ja nicht mehr 2009 wo man nur fraps hatte.