Bericht RX 6800 (XT) und 6900 XT: AMD greift Nvidia RTX 3070, 3080 und 3090 an

Monstranz schrieb:
DX12 waere fuer mich interessanter gewesen.
Für mich auch. Noch dazu werden die in dem Test zu 100% nur den Singelplayer gestetst haben. Im Multiplayer sieht das Ganz anders aus:
1604074773805.png1604074789909.png
DX12 rennt bei mir und meinen Einstellungen in BF5 weit besser als DX11. In DX12 hab ich mehr min FPS als durchschnittliche FPS in DX11. :freak:
GerryB schrieb:
Bei 144 Fps würde man eh per Chill die Obergrenze ziehen.
Das ist Ansichsstsache. Bei mir können es nicht genug FPS sein.
Ich kann nicht einmal Anno 1800 mit weniger als 60fps Spielen ohne das es mir zu mühsam wird, weil alles viel zu verzögert geht. Ich hab Anno 1800 so eingestellt, dass ich immer mindestens 70fps habe.
Ich würde nie im Leben mit einem Framlimiter oder irgendeinem Sync (V-Sync, G-Sync, FreeSync: hab ich alles durch und ist mir zu träge) spielen.
 
  • Gefällt mir
Reaktionen: Monstranz
LukS schrieb:
@eyedexe
Wobei man auf der Seite scheinbar mehr Cherrypicking als bei der Präsentation gemacht hat. 🤔
Die GPUs schneiden da nochmal weit besser ab, als in der Präsentation. 🤔
Das liegt wohl eher daran, dass hier die API festgelegt wurde, während bei der Präsentation immer die jeweils beste genommen wurde

Außerdem denke ich auch, dass die Werte dort neuer sind, die aus der Präsentation waren vom 18.10.
Und dort steht generell SAM enabled, bei der Präsentation war das für die 6800XT zumindest nicht der Fall.
 
  • Gefällt mir
Reaktionen: LukS und Colindo
LukS schrieb:
Für mich auch. Noch dazu werden die in dem Test zu 100% nur den Singelplayer gestetst haben. Im Multiplayer sieht das Ganz anders aus:
Anhang anzeigen 985789Anhang anzeigen 985790
DX12 rennt bei mir und meinen Einstellungen in BF5 weit besser als DX11. In DX12 hab ich mehr min FPS als durchschnittliche FPS in DX11. :freak:
Hattest Du FFR of in DX11. Im MP geben sich DX12 oder DX11 mit FFR nicht viel bei den FPS. Mit DX12 wirkt der MP runder, direkter beim Aimen. Bei DX11 + FFR hab ich oft geflucht, "wo kommt der denn her". Spiele mit 5700XT WQHD 144Hz.
 
  • Gefällt mir
Reaktionen: LukS
Taxxor schrieb:
Dass die 3070 ein stärker beschnittener GA102 sein muss, ist klar, der GA104 ist mit der 3070 ja schon ausgereizt.

Aber dass die 3080Ti den GA102 "knapp als Vollausbau" bekommt, ist unwahrscheinlich, immerhin hat die 3090 ja schon nicht den Vollausbau, wenn sie dann noch 20GB hat, wie soll man sie dann bepreisen?

1000€ und sagen "Danke liebe Kunden dass ihr unsere 3090 für 1500€ gekauft habt, hier ist eine Karte mit 2% weniger Leistung und dem fast gleichen VRAM für zwei Drittel dessen was wir euch letzten Monat abgenommen haben."

Wäre nicht das erste mal das sowas passiert, vor allem bei Nvidia (Gtx 280, Gtx titan->Gtx780 Ti)... Early Adopter wurden seit gefühlt "Äonen" schon abgestraft und es funktionierte stets.
 
  • Gefällt mir
Reaktionen: DrFreaK666
20 TFLOPS, bei AMD weniger 20% wie immer bei AMD :daumen:

Amd konnte bei Compute immer mithalten aber wenn es um Spiele geht 20% weniger deren TFLOPS und man ist bei der Spiele Leistung von Nvidia, das geht seit der HD 5870 so :freak:
 
@Colindo :) Wollt auch grad schreiben: @seth777 Seit der 1. Navi hat AMD die Auslastung der Hardware doch deutlich verbessert. Voraussichtlich wird sich die 6900XT (20,6 TFLOPS) mit der RTX 3090 (35,7 TFLOPS) messen. ;) MFG Piet
 
  • Gefällt mir
Reaktionen: DF86, Colindo und Fuchiii
Monstranz schrieb:
Hattest Du FFR of in DX11. Im MP geben sich DX12 oder DX11 mit FFR nicht viel bei den FPS.
nein, das war schon mit FFR on. Mit FFR off würde es noch schlechter für DX11 aussehen. Davon hab ich aber keinen Benchmark mehr gespeichert.
Monstranz schrieb:
Mit DX12 wirkt der MP runder, direkter beim Aimen.
Ja, da kann ich dir nur zustimmen. Auch ein Freund mit Ryzen 1600X und GTX 1080 findet DX12 viel reaktiver beim Zocken von BF5 (er spielt auf 3440x1440, niedrige Einstellungen, so wie ich). Ich glaube da bist du nicht der einzige den es so geht.
 
  • Gefällt mir
Reaktionen: Monstranz
Teralios schrieb:
Deswegen schrieb ich ja auch, dass man es in einer vereinfachten Form umgesetzt hat. ;)

Das Paper geht natürlich noch mal ein Stück weiter mit der dynamischen Aufteilung. Nur sieht man durchaus Anleihen aus dem Patent als auch eben dem Paper bereits in RDNA, besser man sieht eine entsprechende Reorganistation der CUs zu den WGP und dass man für die WGPs nun einen gemeinsamen L1-Cache verwendet.

Fuer die WGP gibt es wahrscheinlich nochmals ein anderes Patent. Ich werde es mir aber nicht antun danach zu suchen.

Teralios schrieb:
Stimme ich dir vollkommen zu, ich denke das wird bei AMD auch der nächste Schritt sein, bei RDNA2 sehe ich den Schritt aber noch nicht, eher dann bei RDNA3 eventuell sogar erst bei RDNA4.

Wobei hier auch die Frage ist: Kommt das Patent auf CU/WGP-Basis, dass dort die L0-Caches verbunden werden, oder dynamisiert man dann den L1-Cache auf Shader-Arrray-Ebene, sodass dann die 2 SA pro SE erst mal dynamisch ihren L1-Cache verbinden.

Man kann hier jetzt echt viel spekulieren und überlegen, was kommt und wie es kommt. ;)

Das stellt das Patent nicht ganz klar. Es hoert sich aber danach an, dass CUs in Clustern sind. Aber ja, koennte natuerlich auch anders sein.

Teralios schrieb:
Ich denke, dass Problem ist, dass die möglichen »Fallstricke« wenn es denn mal wirklich zu einem vollständigen »Miss« kommt, sprich vom L1 - L3 (bei RDNA L0 - L3) für viele in der Regel sich sehr katastrophal anhören.

Nur das ist ein so katastrophaler Worstcase, dass in dem Fall nicht mal mehr die höchste Bandbreite hilft, um hier wirklich noch Geschwindigkeit zu retten und selbst die Latenz zum RAM kann hier nicht mehr soviel retten.

Dazu halt die Sache, dass man durchaus auch unterscheiden muss zwischen OoO-Designs mit spekulativer Ausführung bei CPUs und eben GPUs, die in der Regel ein IO-Design nutzen und wesentlich strikter arbeiten.

Im Endeffekt ist das durchaus ein interessantes und komplexes Thema und man muss je nach den Designs auch die Caches unterschiedlich designen und organisieren.

Ja, ein totaler Miss hoert sich schlimm an, aber passiert ausserst selten. Und selbst dann ist der Overhead nicht so hoch wie es sich anhoert. Die Bandbreiten und Geschwindigkeiten sind hoeher je naeher man an der Execution Unit sitzt. Wir hatten es im Studium bei einem primitiven Prozessor der nur die Mandelbrotmenge berechnet hat. Der Cache hat die Berechnung locker mehr als verdoppelt. Wenn man das ganze noch etwas intelligenter handhabt geht da wirklich viel. Das ist den meisten halt nicht klar.

Teralios schrieb:
Ich denke nicht nur, dass du recht hast in dem Fall, sondern sicher, dass du da recht hast. Sehe ich mir alle Entscheidungen von AMD bei den GPUs sowie eben auch bei den CPUs der letzten Jahre an, dann arbeitet AMD seit Vega auf ein MCM/Chiplet-System auch bei den Grafikkarten hin: Vega führte »HBCC« ein, auch wenn es bei RDNA und RDNA2 nicht als Feature dabei ist als ganzes, denke ich schon, dass man einige »Techniken« für den VRAM übernommen hat, vor allem jetzt mit dem Infiniti-Cache. Vega führte DSBR (Tiled-Based-Render) ein, sucht man sich da Informationen zusammen, scheint AMD hier in letzter Zeit auch darauf hingearbeitet zu haben, dass dieser feinere Tiles benutzt. Die Umstellung von Wave64 auf Wave32 beim Treiber, was die Datenmenge pro Befehl durchaus verringert.

Ja, es sieht einiges danach aus. Fuer mich sieht AMD da auch besser aufgestellt aus als Nvidia oder Intel. Eben weil schon viel in der Richtung gemacht wird.

Teralios schrieb:
Bei Zen arbeitet man beim Infinit Fabric darauf hin, dass auch hier die Latenzen möglichst geringer werden, man arbeitet an der Bandbreite usw.

Die Not die CPU mit Chiplets umzusetzen duerfte sich auszahlen. Infinity Fabric ist mittlerweile schon ziemlich weit fortgeschritten. Wenn man das gut skalieren kann, dann duerfte man es bald in jedem AMD Produkt wiederfinden. Und die Moeglichkeit moeglichst kleine Dies herstellen zu koennen ist einiges wert. Damit skaliert die Leistung, wenn auch nicht ganz, fast linear und man kann extrem billig weitere Leistung drauf packen. Wer auch immer damit zuerst bei GPUs kommt hat einiges gewonnen.

Teralios schrieb:
Nehm ich mein theoretisches Wissen hinzu, was man ggf. an Daten puffern muss, wie man Daten/Tiles effizient verteilt usw. Mich würde es nicht wundern, wenn wir einen Main/Controller-DIE bei der GPU bekommen, der die Tiles dann an "GPU-Chiplets" verteilt und die GPU-Chiplets entsprechend den großen L2-Cache haben und der Main/Controller-DIE eigentlich nur ein riesiger Infintie-Cache-DIE wird, der die die Abfrage der GPU-Chiplets puffert.

Jup, wuerde sich perfekt anbieten bei Chiplets. Und selbst das koennte man wieder, wenn man uebertreibt, hierarchisch aufbauen wenn noetig. Ich bin ja gespannt wann es kommt und ob dann gleich der 160 CU Chip auftaucht. 4 x 40 CU Chiplets duerften ziemlich klein und guenstig werden in 5nm.
 
  • Gefällt mir
Reaktionen: LukS und Monstranz
ThirdLife schrieb:
AMD ist back in business dank Ryzen und Epyc, sicher nicht dank Vega.

Das war bezogen um die Einahme der GPU Spalte. Ganz besonders durch Mining.

Naja, und welcher normale Kunde der nicht wie wir hier ist will sich ausgiebig damit beschäftigen eine Karte so weit auszureizen dass sie halbwegs tauglich ist ? Absurd. Ne 2060S überholen ? Selbst Vega 64 ist 12-13% schlechter als eine 2060S hier im CB Rating.

stimmt bin in der Zeile verrutscht es geht um die normale 2060 und die kriegt man mit Tuning sogar mit der Vega56. Es geht nicht um Casuals aber auch die sind in der Lage 2 Werte im Treiber zu ändern.
 
Kacha schrieb:
Fuer die WGP gibt es wahrscheinlich nochmals ein anderes Patent. Ich werde es mir aber nicht antun danach zu suchen.
Ist ja verständlich, im Endeffekt sind wir hier ja nur aus Spaß an unserem Hobby am Diskutieren, da muss man nicht immer alles bis ins kleinste Detail belegen. :D

Kacha schrieb:
Das stellt das Patent nicht ganz klar. Es hoert sich aber danach an, dass CUs in Clustern sind. Aber ja, koennte natuerlich auch anders sein.
Die CUs wurden ja bisher immer, sowie die WGP in den Shader Array/Engine organisiert. (Ich weiß gerade nicht ob das Shader Array erst mit RDNA dazu kam als neue zwischen Stufe oder schon immer da war.

Aber im Patent wird eben von dem Shader Array/Engine gesprochen und die CU die in diesen organisiert sind und dass dort der L1-Cache verbunden wird.

Frage ist halt jetzt, wenn sie es auf RDNA mit anwenden irgendwann, ob nun die L0d - entspricht im Paper den L1d, verbinden oder dort einfach die WGP so lassen mit ihrem LDS und L0d und die L1 im Shader Array verbinden, wenn es zu zu vielen misses kommt.

Ich muss dazu aber auch sagen, dass ich früher oder später durchaus auch sehe, dass die RDNA CU/WGP und der Aufbau auf Shader Array und Shader Engine durchaus auch bei CDNA sehe.

Man sagt zwar RDNA eine »Compute«-Schwäche nach, aber das ist in der Betrachtung so nicht ganz richtig, wenn man Vega56 als auch Vega64 mit der 5700 XT vergleicht. Da stehen 40 CU gegen 56 und 64 und selbst Takt normiert stehen dann 10,1 TFlops gegen 5,83 und dass Vega dann mit NAVI den Boden wischt ist klar.

Der »passendere« Vergleich - Anzahl der CU - wäre eher die RX 480/580 gegen die 5700, beide haben 2304 Shader in 36 CUs. Bei der RX 580 steht dann takt normiert 4,8 TFlops gegen 5,3 TFlops. Und in dem Vergleich schneidet Navi in OpenCL-Benchmarks plötzlich eben nicht mehr so schlecht ab gegenüber GCN. Da gibt es dann natürlich ein paar Benchmarks die für GCN sprechen und GCN mit Navi durchaus den Boden wischt, genau so gibts aber auch einige Benchmarks dann, bei den Navi mit GCN regelrecht den Boden wischt.

Kacha schrieb:
Und selbst dann ist der Overhead nicht so hoch wie es sich anhoert.
Und auch dann kommt es immer noch darauf an, ob wir von OoO-Designs oder IO-Designs reden und ob der Prozessor eine spekulative Ausführung von Befehlen unterstützt, ob eine Sprungvorhersage usw. notwendig ist.

Moderne CPUs können bei einen vollständigen Cache-Miss und dann der Anforderung aus dem Arbeitsspeicher, im schlimmsten Fall sogar vom Datenträger, noch andere Aufgaben dazwischen schieben, die sie ausführen können, während man auf Daten wartet.

Und bei In-Order-Designs gibt es genug Möglichkeiten die Gefahr für einen Cache-Miss quasi auf 0 zu reduzieren.

Kacha schrieb:
Wir hatten es im Studium bei einem primitiven Prozessor der nur die Mandelbrotmenge berechnet hat. Der Cache hat die Berechnung locker mehr als verdoppelt.
Wir hatten was Ähnliches gehabt. Später dann auch in einer Vorlesung. Wir haben dann auch in einer Vorlesung darüber gesprochen, wie intelligentes Prefetching von Daten auch die Ausführungsgeschwindigkeit erhöht und wie man mögliche »Flaschenhälse« umgehen kan.

Kacha schrieb:
Die Bandbreiten und Geschwindigkeiten sind hoeher je naeher man an der Execution Unit sitzt.
Wobei hier die Bandbreite ja mehr »Nebeneffekt« der Nähe zu den Registern ist und diese eben die Daten schnell genug in die passende Register schaufeln müssen.

Aber ja, je näher man kommt, umso schneller wird der Cache, wobei man hier ja auch wieder etwas »unterscheiden« muss. Der L1 heute ist an die »Register« schneller angebunden als an den L2, während der L2 an den L1 schneller angebunden ist als an den L3 usw.

Ach, jetzt wird es kompliziert, ich bekomme Kopfschmerzen!

Kacha schrieb:
Wenn man das ganze noch etwas intelligenter handhabt geht da wirklich viel. Das ist den meisten halt nicht klar.
Es ist ja auch ein komplexes Thema, dass auch einiges an Knowhow benötigt. Es ist nicht »kompliziert«, die Grundlagen sind sogar recht simpel, aber man muss schon einiges an Hirnschmalz verwenden um zu wissen, wann welche Daten wo sein müssen.


Kacha schrieb:
Damit skaliert die Leistung, wenn auch nicht ganz, fast linear und man kann extrem billig weitere Leistung drauf packen. Wer auch immer damit zuerst bei GPUs kommt hat einiges gewonnen.
Wobei die Skalierung hier eher davon abhängt wie die Tiles/Chiplets usw. organisiert werden.


Kacha schrieb:
Jup, wuerde sich perfekt anbieten bei Chiplets. Und selbst das koennte man wieder, wenn man uebertreibt, hierarchisch aufbauen wenn noetig.
Also gerade bei der Bildsynthese bietet es sich an dass man mit einem Controller-Worker-Prinzip arbeitet, erade beim Tiled-Based-Rendering. Der Controller verteilt die Daten auf die freien Worker, lässt diese rechnen und nimmt die fertigen Daten und gibt die dann raus.

Gleichberechtigte Worker, die sich synchronisieren müssen, könnten hier recht schnell die Skalierung massiv nach unten ziehen.

Kacha schrieb:
Ich bin ja gespannt wann es kommt und ob dann gleich der 160 CU Chip auftaucht. 4 x 40 CU Chiplets duerften ziemlich klein und guenstig werden in 5nm.
Also RDNA 3 halte ich durchaus für realistisch, die Weichen sind dafür gestellt. Intel scheint ja bei Xe bereits mit »Tiles« zu arbeiten, wobei hier aktuell die Frage ist, was man da unter Tiles versteht.

AMD hat auf jeden Fall nun bei RDNA 2 eine Struktur aufgebaut, die sich als Grundlage für ein Chiplet-Design eignet.
 
Hat weniger mit AMD zu tun als vielmehr mit den developern die immer noch zu gerne DX11 machen.

Sobald DX12 oder Vulkan anliegt ist die Auslastung top.

seth777 schrieb:
20 TFLOPS, bei AMD weniger 20% wie immer bei AMD :daumen:

Amd konnte bei Compute immer mithalten aber wenn es um Spiele geht 20% weniger deren TFLOPS und man ist bei der Spiele Leistung von Nvidia, das geht seit der HD 5870 so :freak:
 
seth777 schrieb:
Amd konnte bei Compute immer mithalten aber wenn es um Spiele geht 20% weniger deren TFLOPS und man ist bei der Spiele Leistung von Nvidia, das geht seit der HD 5870 so :freak:
Und jetzt ists genau umgekehrt und die 30TFLOP 3080 liegt gleichauf mit der 20.7TFLOP 6800XT oder wird leicht geschlagen^^
 
  • Gefällt mir
Reaktionen: Fighter1993
Man kann die Beiden net vgl. weil bei NV ca. 1/3 für Integer gebraucht wird.
A kann net gleichzeitig wie noch T.
Genauso ist auch bei RT das Verhältnis gaaanz anders durchgemischt, ohne das man direkt auf die Fps rückschliessen kann. Die 3070 = ca. 2080Ti. (Wer kann schon im direkten Gameanwendungsfall sagen, ob Zeile 1 oder Zeile 2 günstiger ist)

Die FLOPs+RAY´s sind daher erstmal für Gamer gar net aussagekräftig.
Was man evtl. bedenken sollte, RT+DLSS(quality) sparen vermutlich in einigen Games keinen Vram ggü. Nativ.
(somit wäre ne 8GB-3070 eigentlich net sehr zukunftssicher vgl. mit der ollen Ti)

Wie AMD-RT arbeitet wird man sehen, vermutlich eher wie T.(bzgl. Zeile 1+2)
Synthetische Benchmarks und auch das PortRoyal-Leak mit unfertigen Treibern kann man net 1:1 auf Games
übertragen.(spart Euch die Diskussionen bis zum Review)
Dito wird man evtl. Superresi und DLSS(quality) auch net 1:1 vgl. können, würde Da warten mit vorschnellen
Einschätzungen.
 

Anhänge

  • 3070-RT-Leistung.png
    3070-RT-Leistung.png
    43,6 KB · Aufrufe: 251
Zuletzt bearbeitet:
GerryB schrieb:
Man kann die Beiden net vgl. weil bei NV ca. 1/3 für Integer gebraucht wird.
Ähm, und der INT-Workflow liegt bei AMD dann magischerweise nicht an, sonder AMD muss nur FP berechnen.

Sorry, aber das was du schreibst ist einfach Falsch. Auch bei AMD fallen diese Berechnungen an und laufen auch gleichzeitig ab. AMD hat nur bereits zu GCN-Zeiten dafür gesorgt, dass man für die ALUs keinen Kontext-Switch mehr benötigen und auf einer CU bis zu 4 Threads laufen. Nun hat man die WGP aus zwei CU, dieauch bis zu 4 Threads bearbeiten kann und daher kann AMD die ALUs wesentlich feiner auf den Workflow anpassen, als es NVIDIA kann. Bei einem INT + FP Workflow wird bei NVIDIA immer die hälfte der 128 ALUs für INT reserviert (intern sind die 128 ALUs noch mal in 4 Blöcke geteilt, ist aber egal) weil sie SM mit zwei Datenpfaden arbeitet. Bei einer WGP ist im besten Fall nur eine eine Vec32 mit den INT Befehlen blockiert, während die andern 3 Vec32 die FP-Berechnungen durchführen.

AMD hatte mit GCN die wesentlich flexiblere Architektur, NVIDIA hat mit Ampere erst jetzt wirklich auf Hardware Ebene aufgeholt und muss lernen damit umzugehen, den diese Flexibilität hat ihren Preis.
 
  • Gefällt mir
Reaktionen: E1nweg, foo_1337, LukS und eine weitere Person
Benni82 schrieb:
Ich kann mich gar nicht entscheiden.Nehme ich die 6800 oder die 6800XT?!

Meint ihr die 6800 reicht für 1440p und dauerhaft 144fps in jedem Spiel mit max Details?
Es kommt immer dafauf an, wenn dir weniger FPS ausreichen dann nimm die RX 6800, wenn du aber, die maximale Leistung haben willst mit AMD, tja dann nimm die
RX 6900!

Immerhin hast du schon im Gegensatz zum Kauf einer RTX 3090, eine ganze Stange Geld gespart, vieleicht kannst du dir auch später, eine zweite RX 6900 zulegen!

Mfg
Ergänzung ()

Freaske schrieb:
Die 6800xt scheint leider nur 2x DP zu bieten, ich bräuchte eigentlich 3x DP (simracing mit triple-screen). Gibt es wenn man einen USB-C zu DP Adapter verwendet Nachteile?
Ein Adapter hat immer Nachteile, ich zB, brauche bei meiner noch GTX 1080ti, einen DisplayPort 1.4 zu HDMI 2.1 Adapter, um 120 HZ, auf dem Fernseher zu haben.

Mein TV unterstützt aber auch G-SYNC & Freesync, das bedeutend, durch ein Adapter habe ich dann zwar in 4K die gewünschten 120 Herz in 4K, aber kein G-SYNC & Freesync mehr.

Der Adapter ist von AMD, es gibt keinen besseren auf dem Markt.

Wegen diesen Ergebnissen, verzichte ich lieber auf diesen Adapter, und warte noch ab, bis ich endlich eine neue Grafikkarte besitze.

Mfg
Ergänzung ()

squadric schrieb:
Geht doch gar nicht um Probleme. Geht darum das Gsync dann nicht funzt. 🙄Das ist sehr wohl ein Kriterium.
Kleiner Tip, ich kaufe immer das was zu mir passt und Leistungsmäßig, sowie, Geldmäßig.

Daher hat mein Fernseher G-SYNC & Freesync.

Ich habe mir so einen Fernseher, mit Absicht gekauft, weil niemand weiß was die Zukunft so bringt, und so habe ich beide Techniken, und bin da etwas unabhängiger.

Kaufe dir also lieber ein Monitor der beides kann!
Ich würde den reinen G-SYNC Monitor sofort verkaufen!
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Freaske
Die 6900 ist mir zu teuer.Ich denke ich werde die 6800XT nehmen.
 
  • Gefällt mir
Reaktionen: DrFreaK666, Dittsche und Fuchiii
Zurück
Oben