News Xe SS: Intels DLSS-Konkurrent mit KI auch für AMD und Nvidia

Da sieht FSR richtig alt gegen aus. Ich hoffe, dass Intel XeSS für alle GPUs freischaltet, die über die entsprechenden Int4/8 Einheiten verfügen.
 
Zuletzt bearbeitet von einem Moderator:
  • Gefällt mir
Reaktionen: =rand(10)
Da Intel GPUs in absehbarer Zeit nicht den Marktanteil von Nvidia GPUs haben und Intel auch nicht das Entwicklerteam hat, das die Implementierungen für die Spielehersteller gratis macht wird die Verbreitung in erster Linie davon abhängen, wie gut oder schlecht das Ganze bei Nvidia und AMD GPUs läuft:

Ich sehe für XeSS nur dann eine Chance wenn es:
.) Auf Nvidia GPUs nicht schlechter läuft (bezogen auf Qualität/Performance) als DLSS, womit sich die Hersteller gleich für die Variante mit dem breiten GPU Support entscheiden
.) Oder wenn es auf AMD GPUs deutlich besser läuft als FSR und AMD anfängt die Lösung zu pushen statt eine eigene raus zu bringen
.) Oder wenn es sich ähnlich leicht wie FSR integrieren lässt (was ich jedoch bezweifle) und dabei bessere Ergebnisse als FSR liefert und dieses somit ersetzt

Falls es auf Nvidia/AMD Karten performancetechnisch so schlecht läuft, dass es keinen Sinn ergibt, so denke ich nicht, dass viele Spielehersteller sich damit beschäftigen werden solange Intel nicht auch ohne diese Technologie einen gewissen Marktanteil erreicht.
Ergänzung ()

ZeroStrat schrieb:
Da sieht FSR richtig alt gegen aus. Ich hoffe, dass Intel XeSS für alle GPUs freischaltet, die über die entsprechenden Int4 Einheiten verfügen.
FSR hat 2 entscheidende Vorteile:
.) Es lässt sich extrem einfach auch im Nachhinein in jedes Spiel integrieren
.) Es hat so gut wie keinen Performance Overhead

In beiden Punkten wird XeSS vermutlich schlechter abschneiden d.h. der Algorithmus muss dementsprechend bessere Ergebnisse liefern.
 
Für einen Wiedereintritt in den Markt der dedizierten GPU macht das Sinn. Scheint so als würde Intel diesmal Nägel mit Köpfen machen. Mir soll´s recht sein. Am allerliebsten wäre mir die stecken die Köpfe mit AMD zusammen und machen das dann open source.
ZeroStrat schrieb:
Da sieht FSR richtig alt gegen aus.
Schön dass das auch schon in einem Video mit 1080p so deutlich zu erkennen ist. ;)
 
andr_gin schrieb:
und Intel auch nicht das Entwicklerteam hat, das die Implementierungen für die Spielehersteller gratis macht
Ich vermute dafür ist Budget vorhanden und es werden noch News dazu erscheinen. Die hier vorgestellte GPU mit allen (Prozess)Details war sicher sehr teuer in der Entwicklung, da hört man sicher nicht beim Support mit ein paar Entwicklern auf!
 
ZeroStrat schrieb:
Da sieht FSR richtig alt gegen aus. Ich hoffe, dass Intel XeSS für alle GPUs freischaltet, die über die entsprechenden Int4 Einheiten verfügen.

Oh ja, dass konnte ja auch bisher wirklich getestet werden.

Aber wen wunderts...du glaubst halt sofort alles, wenn es auf ner Folie blau hinterlegt ist.
 
  • Gefällt mir
Reaktionen: nap
Nvidias Turing- und Ampere-Architektur kann INT8 mit DP4a über die Tensor-Kerne beschleunigen, doch ist unklar, ob das von alleine und ohne Codeanpassung mit der maximalen Performance passieren wird
Angeblich laufen FP16-Berechnungen bei den größeren Turing-GPUs und vermutlich auch Ampere-GPUs über die Tensor-Kerne, wobei der TU116 dedizierte FP16-Kerne dafür besitzt.
Das "DP4a" auch über die Tensor-Kerne implementiert ist, dazu findet man (ich) keine Bestätigung.
Es gibt eine Präsentation von Nvidia die auf Seite 35 von einem vierfachen INT8-Durchsatz, auf Seiten der CUDA-Cores, für Volta und Turing spricht:
https://developer.download.nvidia.c...ensor-core-performance-the-ultimate-guide.pdf

AMDs RDNA 2 kann INT8 mit Rapid Packed Math über die FP32-ALUs beschleunigen, doch ob dies auch mit DP4a-Instruktionen geht, ist aktuell noch nicht gesichert. Die Redaktion versucht derzeit, diese Information von AMD in Erfahrung zu bringen, ist sich aber ziemlich sicher, dass die neuen Radeons (aber nur RDNA 2) damit umgehen können
Packed-Math beschreibt das zusammenfassen bzw. das Packen von zwei gleichen Operationen.
DP4a stellt ein gemischtes (Präzision) Skalarprodukt dar, genau die gleiche Operation unterstützt AMD in vielen GPU-Chips:
Eim0opEWoAEZOwN.jpg


Die erste GPU, welche Skalarprodukte für 2xFP16 + FP32, 4xINT8 + INT32 und 8xINT4 + INT32 unterstützt hat, war Vega20 bzw. die Radeon VII, Instinct MI60, etc.
EQsiODvXUAAG2Kb.jpg


Navi10 unterstützt keine mixed dot-product instructions, dafür aber Navi14 (5500 Series) und Navi12 (5600 Pro bei Apple, mit HBM2-Speicher).
Dies weiß man dank AMD's LLVM compiler für GFX1011(Navi12) und GFX1012 (Navi14):
https://llvm.org/docs/AMDGPU/AMDGPUAsmGFX1011.html

Alle PC RDNA2 GPUs von AMD unterstützen DP4a, sprich Navi21, Navi22, Navi23, Navi24, Van Gogh/Mero (Steam Deck), Rembrandt (APU für 2022 mit 8x Zen3+-Kernen und 12x RDNA2 CUs).
Zusätzlich auch die Xbox Series X/S.

Die einzigen zwei Chips, welche mixed dot-products nicht unterstützen, sind Navi10 und GFX1013, Letzteres eine kommende APU mit einer GPU, welche Raytracing unterstützt, aber kein DP4a und von der Konfiguration her genauso aussieht wie die PS5...
Zusammen mit anderen Behauptungen kann man seit längerem davon ausgehen, dass die PS5 kein DP4a unterstützt.
 
  • Gefällt mir
Reaktionen: Shy Bell, noxon, Colindo und 4 andere
Wenn Intel cool wäre, könnte ich XeSS auf der iGPU laufen lassen (zumindest zum Teil) wenn ich keine Matrix-Beschleuniger dabei habe... gerne auch nur auf der Intel-iGPU, AMD liefert ja eh keine auf aktuellen Ryzen :D
 
I'm unknown schrieb:
Ich vermute dafür ist Budget vorhanden und es werden noch News dazu erscheinen. Die hier vorgestellte GPU mit allen (Prozess)Details war sicher sehr teuer in der Entwicklung, da hört man sicher nicht beim Support mit ein paar Entwicklern auf!
Hier geht es nicht so sehr um das Budget. Man muss die Entwickler erst einmal habe. Nvidia hat ja schon seit Jahren ein entsprechendes Entwicklerteam, das die Spieleentwickler unterstützt. Das ist ja kein supportpersonal, das gelegentlich ein paar Anfragen beantwortet. Nvidia schickt hier die Entwickler Vor Ort zu den Spieleentwicklern, wo sie als Teil des Entwicklerteams DLSS in den Source Code des Spiels integrieren und entsprechend optimieren, zumindest war das bei den ersten Implementierungen so. Da kann man einen Spielehersteller schnell überzeugen, da es nichts kostet. Im Best case läuft das Spiel auf Nvidia GPUs besser. im Worst case hat man kostenlose Werbung für das Spiel in Reviews und auf der Nvidia Seite.
Ergänzung ()

der Unzensierte schrieb:
Schön dass das auch schon in einem Video mit 1080p so deutlich zu erkennen ist. ;)
Das ist wieder einmal geschicktes Marketing:
.) Den Vergleich 4K Native vs. 4K XeSS sieht man ungezoomt in 1080p
.) Für den Vergleich mit 1080p wurde dann aber schön auf 2x bzw. 4x reingezoomt, dass man es ja gut sieht. Abgesehen davon sieht es so aus als wären für 1080p schlechtere Texturen geladen worden.
 
Zuletzt bearbeitet:
@Wolfgang
andr_gin schrieb:
Das ist wieder einmal geschicktes Marketing:
Wie konntest Du das verlinkte Video im Artikel anschauen?
https://www.computerbase.de/2021-08...dia/#abschnitt_xe_ss_aehnelt_nvidia_dlss_sehr

Ich sehe nur "Dieses Video ist nicht verfügbar."

 
Da Intel auch nichts zu verschenken hat, drei Schwalben noch keinen Sommer machen und die auch nicht ganz doof sind, gehe ich nicht von einem Preiskampf aus. Das wird stabil auf gleichem Niveau sein wie bei den anderen beiden. Aber ich lass mich gern vom marktselbstregulierenden Gegenteil überzeugen :)
 
@Locuza Erstmal danke für deine Auflistung der Fähigkeiten einzelner GPUs. Eben habe ich noch gesehen, dass Pascal wohl DP4a voll auf den Shadern unterstützt.
Locuza schrieb:
Angeblich laufen FP16-Berechnungen bei den größeren Turing-GPUs und vermutlich auch Ampere-GPUs über die Tensor-Kerne, wobei der TU116 dedizierte FP16-Kerne dafür besitzt.
Die Tensor-Cores können, soweit ich weiß, nur fix die Tensor-Berechnung aus Matrix-Multiply und Matrix-Add. DP4a ist ja, wie du sagst, ein Skalarprodukt, das würde nicht passen. Ich denke die DP4a-Berechnung wird auf den Shadern stattfinden.
 
  • Gefällt mir
Reaktionen: GerryB und ZeroStrat
der Unzensierte schrieb:
Schön dass das auch schon in einem Video mit 1080p so deutlich zu erkennen ist. ;)
FSR ist halt nicht wirklich etwas besonderes. Ein klassischer Shader zum Skalieren und um dann noch eine künstliche Schärfe verleihen - letztendlich kann das jeder aktuelle Fernseher.

Allein durch die verwendete Technick - und dafür brauche ich nicht einmal das Video anzusehen - finde ich schon Xe SS interessanter. Wie gut Intel das Potential ausschöpft werden wir sicherlich mit der Zeit sehen. Und auch DLSS hat ja gebraucht um zu reifen ;).

Sehe ich jetzt mal als Mittelfinger gegen AMD an, nach dem Motto: So geht das. FSR ist halt wirklich nur irgendetwas herausgehauen, das man halt sagen kann: Schaut, wir haben auch so etwas wie DLSS. Wenn Xe SS auf AMD problemlos läuft, würde mich wundern, wenn in 5 Jahren noch jemand von FSR spricht.

Und dann soll das Zeug Open Source werden. Geil. Und das von der Firma, bekannt durch die MKL-Geschichte. Zeiten ändern sich...
 
Warum FSR so ist, wie Es ist hat doch Locuza indirekt mit erwähnt.
Die PS5 kann kein DP4a und daher funzt halt ein einfaches FSR plattformübergreifend für ALL.
(schon mal in Hinsicht auf zukünftige PC-Ports von Sony)

Der große Rest kann sich dann schonmal langsam auf die INTEL-Lösung einschiessen.
 
Wolfgang schrieb:
Auf Intels GPUs wird das neuronale Netzwerk mittels der Matrix-Engines und damit dem Äquivalent zu Nvidias Tensor-Kernen beschleunigt, was zu einer optimalen Performance und Bildqualität führen soll, aber auch auf Nvidias GPUs und sogar den GPUs von AMD ohne KI-Funktionen.
Wo genau hat AMD keine KI-Funktionen in ihren GPUs? Und wie kann es dann sein, dass in Caffe (eines der bekanntesten Deep Learning Frameworks für KI) eine Radeon Pro 6800 (also quasi eine RX 6800) schneller als eine RTX A5000 (etwas reduzierte 3080) ist (vgl. Test bei Igor's Lab), wenn AMD keine KI Funktionen hat?

Was ihr vermutlich meint, ist, dass AMD keinen dedizierten Schaltungen für KI hat. Aber die Shader können sehr wohl mit den geringen Genauigkeiten umgehen und davon profitieren. INT4 läuft 8x so schnell als INT32 und INT8 4x so schnell als INT32, also mit optimaler Performance für KI Berechnungen. Die Folie hattet ihr glaube ich sogar bei der Vorstellung von Navi21 in eurem Artikel.
Bei NVidia ist das anders. Hier müssen die Berechnungen über die Tensore Cores laufen, weil deren Shader nur INT32 können (und da auch nur jeder zweite Shader bei Ampere). Eine INT4 Berechnung über die Shader wäre bei NVidia also nur in jedem 2. Shader möglich und würde dann keinen Vorteil gegenüber einer INT32 Berechnung bringen.
Oder anders ausgedrückt: NVidia nutzt für AI die Tensore Cores, da ihre Shader das nicht effizient können, AMD nutzt für AI darauf hin optimierte Shader. Aber KI können trotzdem beide, nur eben auf eine andere Art und Weise.
 
  • Gefällt mir
Reaktionen: Tanzmusikus
Colindo schrieb:
@Locuza Erstmal danke für deine Auflistung der Fähigkeiten einzelner GPUs. Eben habe ich noch gesehen, dass Pascal wohl DP4a voll auf den Shadern unterstützt.

Die Tensor-Cores können, soweit ich weiß, nur fix die Tensor-Berechnung aus Matrix-Multiply und Matrix-Add. DP4a ist ja, wie du sagst, ein Skalarprodukt, das würde nicht passen. Ich denke die DP4a-Berechnung wird auf den Shadern stattfinden.
Vermutlich unterstützen alle Consumer-Pascals DP4a, also GP102 (1080Ti), GP104 (1080/70), GP106 (1060), etc.
Mit der Ausnahme vom großen HPC-Chip GP100, welcher das nicht tut.
____

Laut Anandtech verwenden die RTX-Turing GPUs die Datenpfade von den Tensor-Cores für Double-Rate FP16-Durchsatz (Keine Matrix Ops):
Something that escaped my attention with the original TU102 GPU and the RTX 2080 Ti was that for Turing, NVIDIA changed how standard FP16 operations were handled. Rather than processing it through their FP32 CUDA cores, as was the case for GP100 Pascal and GV100 Volta, NVIDIA instead started routing FP16 operations through their tensor cores.
https://www.anandtech.com/show/13973/nvidia-gtx-1660-ti-review-feat-evga-xc-gaming/2

Der kleine TU116 besitzt keine Tensor-Cores und für FP16-Berechnungen gibt es neue und dedizierte FP16-Einheiten, doppelt soviele im Vergleich zu den FP32-Einheiten, weswegen man auf den gleichen Durchsatz kommen kann, wie bei den größeren Turing-Chips.

Wenn DP4a bei allen GPUs unterstützt wird, dann wird das aber wahrscheinlich über die CUDA-Cores laufen bzw. vermutlich über die INT32-ALUs?

GerryB schrieb:
Warum FSR so ist, wie Es ist hat doch Locuza indirekt mit erwähnt.
Die PS5 kann kein DP4a und daher funzt halt ein einfaches FSR plattformübergreifend für ALL.
(schon mal in Hinsicht auf zukünftige PC-Ports von Sony)

Der große Rest kann sich dann schonmal langsam auf die INTEL-Lösung einschiessen.
Plattformübergreifend ist sicherlich nicht das Maxime von AMD gewesen, die PS5 ist nicht AMDs Problem und die eigene Hardware, ohne DP4a Support, treibt AMDs Gaming-Umsatz sowieso nicht voran.
Es ist schlichtweg nicht einfach ein Netzwerk zu erstellen, was gute Resultate liefert, dass ist wohl das Hauptproblem von AMD gewesen und wieso man auf schnellere und günstigere Alternativen gesetzt hat.
 
Zuletzt bearbeitet:
Locuza schrieb:
Plattformübergreifend ist sicherlich nicht das Maxime von AMD gewesen, die PS5 ist nicht AMDs Problem und die eigene Hardware. ohne DP4a Support, treibt AMDs Gaming-Umsatz sowieso nicht voran.
Es ist schlichtweg nicht einfach ein Netzwerk zu erstellen, was gute Resultate liefert, dass ist wohl das Hauptproblem von AMD gewesen und wieso man auf schnellere und günstigere Alternativen gesetzt hat.
Wenn man bedenkt, wie lange der Lebenszyklus eines Playstation SoC ist, wundert mich die Entscheidung von AMD doch sehr. Man wird doch nicht bei AMD davon ausgehen, dass man die nächsten 6 Jahre kein NN fürs Upscaling hat?! Oder eine PS5 Pro wird es können. Alles andere wäre verwunderlich.
 
ZeroStrat schrieb:
Wenn man bedenkt, wie lange der Lebenszyklus eines Playstation SoC ist, wundert mich die Entscheidung von AMD doch sehr. Man wird doch nicht bei AMD davon ausgehen, dass man die nächsten 6 Jahre kein NN fürs Upscaling hat?! Oder eine PS5 Pro wird es können. Alles andere wäre verwunderlich.
Es war nicht AMDs Entscheidung, sondern die von Sony.
Die Xbox Series X/S unterstützt DP4a, neben VRS, wo Microsoft selber behauptet hat, dass man bis zum letzten Moment gewartet hat, bevor man die SoCs finalisiert hat, um die neusten Features von AMD haben zu können.
AMD und Sony haben, auf Basis der IP-Versionen, sehr früh begonnen an der PS5 zu arbeiten, sogar früher als AMD an Navi1X für den PC-Markt.
Da waren vermutlich noch einige Features weiter weg und die Entwicklung hat dann insgesamt länger gedauert, als ursprünglich vorgesehen, am Ende war das Launchfenster der PS5 und Xbox Series gleich, Letztere setzt aber auf einige neuere IP-Blöcke.
 
  • Gefällt mir
Reaktionen: Tanzmusikus und ZeroStrat
Tanzmusikus schrieb:
@Wolfgang

Wie konntest Du das verlinkte Video im Artikel anschauen?
https://www.computerbase.de/2021-08...dia/#abschnitt_xe_ss_aehnelt_nvidia_dlss_sehr

Ich sehe nur "Dieses Video ist nicht verfügbar."

Hier ist der korrekte Link. Computerbase hatte anscheinend auf das falsche Video gelinked:
 
  • Gefällt mir
Reaktionen: Tanzmusikus
Zurück
Oben