Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsGPU-Gerüchte: Die GeForce RTX 4090 kommt vor RTX 4080 und RTX 4070
Aber das liegt doch wieder hier wahrscheinlich auch an der Software. Nvidia schafft es es mit Optix ihre Raytracing-Einheiten einzusetzen. Werden die Raytracing-Einheiten der AMD-Karten überhaupt verwendet?
Dass das Raytracing erheblich schneller läuft, wenn Spezialhardware verwendet wird, ist natürlich klar.
Es ist das grundsätzliche Problem für AMD, dass Nvidia, in all den Jahren in denen AMD nur das notwendigste in die Software investiert hat, massiv in die Software investiert hat. Diesen Vorsprung kann AMD nicht über Nacht aufholen.
Cyberpunk 2077 ist was speziell ohne dlss kann man 4k und dxr vergessen selbst bei ner rtx3090
Die nächste gen schafft es vielleicht dxr auf 2160p ohne dlss bei 40fps zu sein und mit etwa 60fps
Dabei muss aber auch gesgt werden das es einen benchmark gibt wad dxr voll ausnutzt und das wäre ezbench 4k ist da extrem fordernd da es sich um alle dxr features handelt
Licht schatten spiegellungen und reflexionen
Und das ganz ohne fake maps bei den Texturen
Die ue5 wird einiges verändern da man auf die fake Berechnungen verzichten kann und stattdessen upscaling nutzen wird
Das spart zeit bei der Entwicklung da man nur noch assets und level designen muss
Plus Wegpunkte erstellen und clipping Fehler suche.
Ich wünschte das mehr Spiel engines auf diesen Ansatz gehen würde
Was performance angeht nun ohne upscaling egal ob temporär wie tsr, fsr oder ML mit dlss
Die basis Auflösung wird zukünftig auf 720p bis 1080p sein für 2160p
Und damit ist man bei high end gpu derzeit bei etwa 60fps ohne upscaling
Rtx 4090 wird aber ein Schluckspecht eher wird man zur rtx4080 greifen den 450w tbp gehen noch
Was mir sauer aufstößt ist das die kleineren sku allesamt ne tbp klasse aufsteigen
rtx4060 (ad106) vermutlich 225w bei etwa 18tf
Die gründe können nur sein das ada ein Wärmedichteproblem hat den die transistor dichte steigt um 50%
Eigentlich müsste nvidia größere chips für kleinere sku nutzen das will man vermeiden wegen Wirtschaftlichkeit. Also prügelt man den Takt so extrem hoch um den Voraussichtlichen preis anstieg zu rechtfertigen.
Rrechnet also mitn rtx 4060 bei 450€
Und dabei wäre meine sku eher die rtx4070 (ad104 46-52sm 2,0-2,2ghz) aber 300w tbp nein danke vermutlich etwa 29tf. 600€
Darum erwarte ich erst bei backwell eine deutliche Stromersparnis bis zu 30% aber die preise werden Steigen.
Wenn backwell endlich mcm nutzen wird könnte man größere chips bauen bsp wäre etwa ein 36sm chiplet und maxed 4 davon im bund (1200mm²) für high end und 18sm bei low end bis zu 4 chips (600mm²)
Dazu ein controrler chip und einen aktiven interposer mit hbm am rand
Den die bandbreite wird zum Problem werden ab 40tf die cache Lösung bei ada hilft nur bedingt. man schafft es gerade noch auf 60tf auszulasten danach wird man eher vom vram ausgebremst ohne gddr7 mit 32-40gbits wird das nix
Daher sehe ich die rtx4090 als halo Produkt mit beschnittenen chip bei maxed 110sm 24gb gddr6x 24gbits bei etwa 1,9ghz 600w tbp (56tf oder etwa +84%)
Der wirklich Vollausbau mit 126sm aktiv von 144 sehen wir erst wenn gddr7 bereit ist.
Der Grund warum nvidia so dermaßen auf die taktkeule haut liegt einfach daran das amd mcm Ansatz billiger zu fertigen ist und mehr Leistung gibt durch höheren takt von bis zu 3,0ghz.
Sicher ist high end hat 48wgp im chip aktiv vermutlich zwischen 40-44
Und da wir wissen das rdna3 quasi mcm ist und die L3 speicher ausgelagert sind
das macht die gpu zum halben mcm design da nur die Flächen intensiven caches ausgelagert werden.
Der inf cache wird eine hohe Bedeutung haben
Das I/O sitzt in den mem chips und der inf cache auf der gpu oben drauf bin echt gespannt wie das amd gelöst hat mit der latenz wenn der L2 oder L3 nicht so nah an den wgp liegt.
Die rop müssten in den mem chips sein oder auf dem chip oben drauf
Nvidia indes wird ein klassischen Monolithen bauen der zudem sehr dicht und heiß wird darum der enorme Strombedarf.
Da sehe ich erst Entspannung wenn nvidia auf chiplets gehen wird wie nvidia das latenzproblem lösen wird ist auch unklar.
Die alternative wäre die Stromeinsparung nur durch Änderung der arch zu erreichen siehe hopper effektiv 144shader pro sm und der schrink nur bei 10% statt wie bei ada 50%
3nm müsste schon nur ein schrink von nur 10% haben um die chips höher zu Takten und den strombedarf gleich bleibt was aber min 300w tbp fürn GB104 bedeuten würde.
Mir wäre es lieber man würde den Takt senken Statt 2,2ghz auf 1,8ghz und dann 60sm aktiv auf 4nm.
Und dann bei etwa 28tf und nur 200w tbp kommen dann ne sku mit 52sm und ein target bei 150w tbp was dann 1,6ghz wären 22tf
Das wäre ein würdiger Nachfolger meiner derzeitigen gpu
aber sku konfigs werden erst ein Jahr vor release festgelegt und erst bei tape out endgültig sortiert wie viele sm aktiv bleiben
Das ist yield und fehlerrate abhängig physisch haben
ad102 144sm
ad103 110sm
ad104 72sm
ad106 48sm
ad107 24sm
Nutzen kann man nur 126, 84sm, 60sm, 36sm, 20sm
Und das sind die vollausbau chips die es zu release also dieses Jahr nicht gibt.
Daher sind die specs auf tpu sehr wahrscheinlich nur das die sku anders sind
rtx4090 110sm ad102 (2022q3))
rtx4080 72smad ad103 (2022 q3)
rtx4070 52sm ad104 (2022 q4)
rtx4060 32sm ad106 (2023 q1)
rtx 4050 20sm ad107(2023 q2)
rtx 4030 12sm ad10b erst ab 2024
Die zwischen zeit wird man wohl ampere auslaufen lassen
also eol
ga102 ab q2 2022
ga104 ab q3 2022
ga106 q4 2022
Ab dann werden die chips nicht mehr gefertigt
Nvidia will eine Überproduktion wie beim ende von pascal vermeiden der durch das mining verursacht wurde.
Nun zur nächsten gen
backwell könnte 18sm pro gpc haben 2gpc bilden ein chip=36sm maxed 4 chips =144sm*144=20736 shader vs aktuelle kommend 16128 shader aktiv von 18432 bei ada
Dann ab dem GB104 1gpc = chiplet 18*4=72sm*144=10368 shader bei 2,2ghz 300w =70tf
Nur welche sku das wird ist offen ich gehe von ner rtx5080 aus
Den der große sprung kommt mit ada, backwell wird die tbp bei den sku geraderücken.
eine 60er gpu sollte maxed 175w ziehen eher sogar 120w
Und da sind vermutlich 54sm sicher also nur 3 gpc und 44sm aktive bei 150w und 2,2ghz
macht dann 27,8tf als rtx5060
passend dazu das ab 2024 die ps5 pro mit 30tf kommt rdna3 mit 20wgp =5120shader bei 3,0ghz=30tf
Dies bedingt aber schnellere CPU`s oder ich Wechsel auf 1440p
Billig wird das nicht für mich in 3 Jahren wenn rtx5060 kommt.
Netzteil gpu und Monitor den atx3 wird Pflicht wenn kompatibel mit atx 2,52 wenn nicht muss sowieso ein neues Netzteil her was dann min 750w sein muss.
Ada wird noch 6+8pin Stecker haben backwell nur den 16 pin mit spitzen bis zu 300w bei den Einstiegs chip (06er Klasse).
Das machen die pcie5 specs erforderlich ob dann der verbrauch auch auf dem level ist, ist unklar ich hoffe nicht.
Verdammt schade das ich bei ada nicht einsteigen werde dafür ist der strombedarf zu hoch
Und die Anforderungen bei 1080p noch nicht so hoch den die derzeit 9-10tf für 1080p etwa 75fps werden noch bis Mitte 2024 reichen
Der rest regelt dlss 3 und fsr 2 bzw tsr, danach allerdings wird min 20tf Pflicht werden wenn nicht sogar 30tf
öhm, nö, natürlich meinte ich immer nur die leistungsdecke im nvidia portfolio
was ich aber nicht explizit dazugeschrieben hatte, weil ich dachte das es klar ist, das die 4090er das nvidia feld anführen wird (die ti mal beiseite gelassen)
aber wie dem auch sei: wenn die 4090 rauskommt wird sie auch die generelle leistungsdecke bestimmen, und deswegen wird das natürlich mit spannung erwartet. auch bezgl. verbrauch, temperaurentwicklung etc.
Ergänzung ()
Onkel Föhn schrieb:
Und ja, ich weiß, jeder Bench in dem eine Rote schneller ist, ist Cherry ...
sagen wir es mal so: jeder bench, der von der gaming realität ganz weit weg ist bzgl. erreichter FPS werte, ist irrelevant, weils dir ja nichts bringt.
dann kannste auch userbenchmark als maßstab nehmen und dann ist die 1080 ti besser als die 6700 XT
Wissen wir nicht. Die Leaker sind sich uneinig darüber, wie die Funktionen auf die einzelnen Chips gesplittet werden. Es könnte auch einfach identisch aufgebaute Chips, die alle Funktionseinheiten enthalten, geben und von denen dann ja nach GPU ein, zwei oder drei Stück.
öhm. ja, das hättest dazu schreiben sollen ! (bzgl. Interpretationsspielraum)
Weil was Du denkst, weiß KEIN anderer.
Den Rest werden wir sehen, wenn´s soweit ist ...
MfG Föhn.
Ergänzung ()
Melu76 schrieb:
sagen wir es mal so: jeder bench, der von der gaming realität ganz weit weg ist bzgl. erreichter FPS werte, ist irrelevant, weils dir ja nichts bringt.
dann kannste auch userbenchmark als maßstab nehmen und dann ist die 1080 ti besser als die 6700 XT
Ok ich habe nur den ersten Abschnitt gelesen.
Aber ich meinte nicht, dass die böse Software die arme AMD-Karte benachteiligt, sondern dass die Software inklusive Treiber die AMD bereitstellt nicht so gut ist wie die von Nvidia. Bei den Games konnte AMD viel aufholen. Es würde mich wundern, wenn dies AMD beim auf dem Client vernachlässigten GPGPU im selben Maße geschafft hätte.
Und das Video habe ich nicht angeschaut.
Wenn es selbst ohne RT-Einheiten einen großen Unterschied gibt:
Die RTX3090 hat eine sehr viel höhere theoretische Performance als die RX6900XT
35,6 TF vs 23 TF, d. h. die Peakperformance der RTX 3090 liegt 50 % über der RX6900. Dies wirkt sich bei den Games nicht deutlich aus. Aber beim GPGPU muss dieser Unterschied sichtbar werden.
Hinzu kommt, dass selbst als die AMD-Karten die besseren theoretische FP-Leistung hatten meines Wissens die Nvidia-Karten immer schneller gerechnet haben. Das AMD die theoretische Performance selbst beim GPGPU nicht auf die Straße gebracht hat.
Grundsätzlich gilt also: Beim reinen Rechnen hat die RTX3090 einen Vorteil in der Hardware von 50 % gegenüber der RX6900XT. Alles was oben drauf kommt muss aus dem Softwarestack kommen.
Beim Raytracing kenne ich mich noch weniger aus. Aber so wie verstanden habe unterstützen die Raytracing-Einheiten von Nvidia mehr Operationen als die von AMD.
Warnings aside there is a clear indication that HIP performs considerably worse per dollar than Optix on recent cards. At the extremes of the chart you could replace a RX 6800 with a RTX 2060 pocket $700 and have a card that renders about 20% faster…
To link this back the thread topic the feedback is HIP and Blender are a poor fit, is it time to consider another approach?
OptiX makes use of what’s known as the “RT Cores” in Nvidia RTX hardware. This greatly accelerates speed at which ray traversal is done on Nvidia hardware. AMD GPUs (Starting with the RX 6000 series) also have things known as “ray accelerators”. They do the same sort of thing as the RT Core, speed up ray traversal. BUT at this current point in time, the HIP implementation found in Blenders Cycles is lacking support for the ray accelerators. Hence why the HIP result may look “quite bad” compared to OptiX result.
Adding support for the ray accelerators is currently on the “TODO” list for HIP (⚓ T91571 Cycles HIP device 4) and once it is implemented, HIP performance on AMD GPUs with ray accelerators will likely see a great performance improvement.
However, this fact that “performance should get better in the future” doesn’t change the fact that performance isn’t “better now”. It’s just something to consider when looking at your results and thinking about why AMD with HIP is slower than Nvidia with OptiX and what could be done to improve it in the future.
Another factor that affects the performance of a Nvidia/AMD GPU in these renders is the actual performance of the device. When comparing the current generation of hardware (RTX 3000 series and RX 6000 series), there is a trend that when comparing similar class/price hardware, the Nvidia GPU will have higher theoretical FP32 compute performance than the AMD GPU. For example, the RTX 3080 has a theoretical FP32 compute performance of 29.77 TFLOPs while the RX 6800XT (a similarly classed/priced GPU) has a theoretical FP32 compute performance of 20.74 TFLOPs. (FP32 is a commonly used form of compute and Cycles probably uses it quite a bit.)
This is “theoretical compute performance”. Hence achieving this level of performance in an application is highly unlikely. But let’s assume Cycles is 100% optimized for both Nvidia CUDA and AMD HIP. Then most Nvidia GPUs of this current generation will out perform an AMD GPU from this generation in the same GPU price class. As it just has more compute performance.
The only way for a GPU with lower theoretical compute performance to outperform a GPU with more is if the software is un-optimized for the GPU with more theoretical compute performance, or the combination of a variety of hardware factors on the faster GPU lead to it being under utilized.
This probably explains some of the observations you saw when comparing performance. And the only way for this to be fixed (By fixed, I mean get AMD GPUs in the same price class as Nvidia GPUs to perform the same in HIP and CUDA) is if HIP is further optimized for AMD hardware, and CUDA/OptiX optimization remains stagnant or receives a bunch of un-optimizaitons.
This issue of AMD with HIP being slower than Nvidia with CUDA isn’t a problem with HIP at all (when comparing the current generation at the same price range). It’s a problem with how you’re comparing two GPUs with similar prices expecting them to perform the same, when in fact they have significantly different performance characteristics and you shouldn’t expect them to perform the same.
This trend of Nvidia having more compute than AMD at the same class/price of GPU this generation could change with future generations of hardware. Next GPU generation AMD could release similarly classed/prices GPUs with much higher theoretical compute performance than Nvidia. Or it could be the other way around. No one knows for certain. But I just wanted to point out this observation when looking at this current generation of hardware and their performance to price ratio in HIP and CUDA.
Der Radeon ProRender nutzt die afaik aber schon. Und zwar nur bei AMD. Dass hier dann trotzdem Nvidia führt, ist schon merkwürdig. Wahrscheinlich eine Kombination aus schlechter/unausgereifter Software und schlichtergreifend unterlegener Hardware.
Nun zur Aufklärung bei amd wird RT in den tmu berechnet bei nvidia sind es dedizierte cores die alleine für strahlen zuständig sind
Amd ist quasi software Lösung während nvidia eine dedizierte hardware Lösung ansetzt
Das nvidia hier schneller ist ist einleuchtend.
Was amd mit rnda3 ändert wissen wir noch nicht könnte sein das die tmu aufgebohrt werden oder auch dedizierte RT core Einzug erhalten letztere wäre denkbar.
mehr tmu können RT beschleunigen sind aber sehr Flächenintensiv.
Daher gehe ich fast davon aus das amd auch so ne art RT core verwenden wird.
Nvidia wird indes 3rd gen rt core nochmal die Leistung verdoppeln also weniger rt core für mehr DXR
Und da der kleinste chip ad107 24sm aktiv vermutlich 20 16 12 allesamt dxr unterstützen wird.
Im Klartext ab 2024 gibt es keine neue nvidia gpu mehr ohne RT wobei die mit 12sm sogar die Leistung der rtx3050 erreicht
Eine 12sm chip sehe ich als rtx4030 bei etwa 100€ einstieg.
Nvidia hat samsung fertigung komplett fallengelassen. und somit ist ampere als ersatz für günstige htpc gpu Geschichte.
Das wird ada mit ad107 und ad10b irgendwann 2024 bis 2025
Also.. solange nicht von NV oder Intel angeführt wird zumindest. Hat man ja über die Jahre immer schön gesehen wie Benchmarks diskreditiert werden von diesen Firmen, bis sie selbst dann wieder an der Spitze standen in selbigen^^
Ray Traversal wird wie bei Turing und Ampere auch auf RDNA 2 in separaten Einheiten beschleunigt. Dafür hat AMD in jede Compute Unit einen „Ray Accelerator“ (RA) verbaut, Navi 21 bietet also 80 RAs. Ein RA kann pro Takt vier Ray/Box-Schnittstellen oder eine Ray/Dreiecksschnittstelle berechnen, was um den Faktor 10 schneller sein soll, als wenn dies alles per Compute Shader berechnet werden würde. Anders als bis jetzt vermutet, soll der RA auch gleichzeitig zu den FP32-ALUs und den restlichen Einheiten einer Compute Unit arbeiten können. AMD spricht explizit von „no blocking“ während Ray Traversal berechnet wird.
Da AMD die Raytracing-Einheit in der Compute Unit verbaut, skaliert ihre Anzahl automatisch mit den anderen Bauteilen der CU. Die Radeon RX 6900 XT kann also auf 80 RAs bei 80 CUs, die Radeon RX 6800 XT auf 72 RAs bei 72 CUs und die Radeon RX 6800 auf 60 RAs bei 60 CUs zurück greifen. Zukünftige kleinere RDNA-2-Grafikkarten werden dieses Schema fortsetzen."
Irgendwie orientiert sich Nvidia an der Fermi 500er Serie... + evtl. noch 5-10% Aufschlag
GeForce GTX 550 Ti = bis zu 163W -> 4050er
GeForce GTX 560 Ti = bis zu 208W -> 4060er
GeForce GTX 560 Ti 448 = bis zu 258W -> 4060Ti
GeForce GTX 570 = bis zu 287W -> 4070er
GeForce GTX 580 = bis zu 318W -> 4080er + 10% Aufschlag
GeForce GTX 590 = bis zu 444W -> 4090er + 5% Aufschlag
sagen wir es mal so: jeder bench, der von der gaming realität ganz weit weg ist bzgl. erreichter FPS werte, ist irrelevant, weils dir ja nichts bringt.
teardown ist aber ein voxel spiel und hat rein gar nix mit dxr zutun also wird vermutlich auch kein RT core verwendet
Das kann man höchstens ein spiel sehen das die rop nicht nutzt und stattdessen ganz auf shader laufen und da hat nvidia eben mehr verbaut als amd
Wäre ja auch traurig für Nvidia, wenn es anders wäre. AMD ist im Vergleich zu Nvidia und Intel halt immer noch klein und das merkt man dann insbesondere an der Software, da kann AMD mit beiden nicht mithalten, weil Geld und Manpower fehlen.
Der Radeon ProRender nutzt die afaik aber schon. Und zwar nur bei AMD. Dass hier dann trotzdem Nvidia führt, ist schon merkwürdig. Wahrscheinlich eine Kombination aus schlechter/unausgereifter Software und schlichtergreifend unterlegener Hardware.
Der Pro render inzwischen schon. Aber den Benchmark den ich gezeigt habe verwendet Cycles. Und hier werden die Raytracing Einheiten nicht verwendet.
Aber das ist auch der Preis den AMD dafür zahlen muss, dass sie ihre Hardware auf eine optimale Umsetzung von Games zugeschnitten haben. Und bei den Raytracing Einheiten kann dies schlicht und einfach bedeuten, dass AMD im ersten Anlauf nicht mehr umsetzen wollte. Man wird sehen was bei RDNA 3 rauskommt.
Generell gilt bei Gaming ist die Software inzwischen gut. Bei GPGPU ist die Sitiation auf dem Client immer noch bescheiden. Hier ist nicht zu übersehen dass AMD über Jahre hinweg nur in HPC investiert hat. Das ändert sich jetzt. Aber es wird noch eine Weile dauern bis es sich auswirkt.
Und dass AMD in Open Source macht, liegt vor allem daran, dass niemand eine proprietäre Software von AMD unterstützen würde. AMD hat schlicht andere keine Wahl. Dies sagt AMD übrigens auch selbst.
Aber die Situation mit GPGPU im allgemeinen und Rendering für Bender im besonderen unterstreicht noch einmal, es bringt nicht generalisierende Debatten zu führen. Es kommt darauf an wofür man die GPU einsetzen will. Da gibt es viele Fälle bei denen AMD mit Nvidia gleichauf ist. Aber es gibt ebenso Fälle bei denen Nvidia deutlich vorne liegt.
Und beim GPGPU zeiht sich, dass es immer etwas mehr Aufwand bedeutet auf AMD zu setzen. Hier hat sich mittlerweile einiges an Frust aufgestaut. Vor allem weil erst in diesem Jahr RDNA und RDNA 2 unterstützt werden und weil der Support für Polaris fallengelassen wurde.
Ergänzung ()
HerrRossi schrieb:
Wäre ja auch traurig für Nvidia, wenn es anders wäre. AMD ist im Vergleich zu Nvidia und Intel halt immer noch klein und das merkt man dann insbesondere an der Software, da kann AMD mit beiden nicht mithalten, weil Geld und Manpower fehlen.
Gefehlt haben. Inzwischen hat AMD das Geld und setzt auch die Manpower ein. Aber einen Rückstand von mehreren Jahren holt man eben nicht über Nacht auf.
Aber Leute, die heute GPGPU machen wollen, sind eindeutig besser dran auf Nvidia zu setzen. Das ist die Realität.
Und dass AMD die Architektur auf Gaming Lasten zugeschnitten hat, bedeutet dass die Karten bei vielen GPGPU Lasten nicht mit Nvidia mithalten können.
Beides zusammengenommen kann in einigen Anwendungen zu ernüchternden Ergebnissen führen. Und es kommt schlicht und einfach darauf an, ob man diese Anwendungen benötigt oder nicht.
Selbstverständlich und ich finde das auch nicht wirklich schlimm. Wie du schon richtig geschrieben hast, kann AMD nicht jahrelange Probleme über Nacht aufholen.
Mich hat es sowieso sehr überrascht, dass sie im Gaming so stark aufholen konnten, ich hätte nicht damit gerechnet, dass sie sogar mit Nvidias Flaggschiffen mithalten können, zumindest in der Rasterizing-Performance, in Sachen Raytracing liege ich mit meiner 2080ti sogar auch schon hinter 6800XT ff. zurück.
ETI1120 schrieb:
Beides zusammengenommen kann in einigen Anwendungen zu ernüchternden Ergebnissen führen. Und es kommt schlicht und einfach darauf an, ob man diese Anwendungen benötigt oder nicht.
Ernüchtert kann ja eigentlich nur derjenige sein, der sich vorher nicht informiert, das würde ich bei (semi-)professionellen Usern jetzt mal ausschließen.