News Gerüchteküche: AMDs RDNA-2-Serie besteht angeblich aus drei GPUs

Taxxor schrieb:
warum man sich bei Sony für 36CUs bei hohem Takt entschieden hat statt wie Microsoft für 52CUs bei niedrigerem Takt.

Beide gambeln.

MS ist konservativer. Jeder Chip, der vom Band fällt, schafft ihre Taktrate, was den Einkaufspreis drückt, trotz größerer Fläche.

Sony hofft auf wirklich gute Chips und theor. Taktraten über 2.4 Ghz (damit wären sie bei 2 Ghz fast im SweetSpot). Das geht zwar nicht mit jedem Chip, kostet Geld durch Selektion, bringt aber auch Vorteile.

800Mhz, 1600Mhz und 2400Mhz sind die großen Kennzahlen, um die bei 7nm im Graka Segment gekämpft wird und jeder versucht, das Beste damit zu bauen.

Warum sich genau diese Zahlen ergeben haben, kann keiner sagen.

mfg
 
Jetzt wo der Trailer zum neuen Assassins Creed draußen ist.. Jep ich brauch definitiv Navi 21 für meinen neuen UHD Monitor :D

Na los AMD.. Ende des Jahres wirds Zeit ^^
 
GERmaximus schrieb:
warum lässt du dieses Argument nicht gelten?. Nur weil ich bereit bin bis zu 1200€ für eine GPU zu bezahlen, bedeutet das doch nicht automatisch das ich auch das doppelte bereit bin zu bezahlen für 5-8% Mehrleistung. Einfach weil das p/l grottenschlecht ist. Klar ist es bereits bei der 2080s oder der Ti, da hast du recht. Jedoch sind 1200€ für zb 100fps was anderes als 2700€ für 108fps.

Das erinnert mich so ein bisschen an das Argument: wer einen Golf r fährt dem ist egal was der Sprit kostet.... WTF woher kommt diese dümmliche Ansicht (nicht auf dich bezogen sondern allgemein)

Ich lasse das Argument nicht gelten im Sinne von "Ich will halt das Beste haben!". Die Rtx 2080 Ti ist aber nicht das Beste. Mag kleinlich sein, aber wahr. Würde man sagen, "Ich will das beste Produkt haben, ab dem Segment wo von der Konkurrenz nichts mehr geboten wird!", dann ja. Aber das Beste ist die 2080 Ti faktisch einfach nicht. Da kneif ich immer die Augen zusammen, wenn als Argument für die 2080 Ti gebracht wird: "Ich will halt das beste was es auf dem Markt gibt!". Da denk ich mir nur: "Belüg dich doch nicht selbst!".
 
  • Gefällt mir
Reaktionen: Cpt.Willard und GERmaximus
PS828 schrieb:
Na los AMD.. Ende des Jahres wirds Zeit ^^

Da ich Technik liebe, hoffe ich ja eigentlich immer noch auf einen Knaller Big-Navi, damit Nvidia den ordentlichen Ampere für kleines Geld (so um die 1k) bringen muss und wir nicht noch 2 Jahre warten müssen.

2nm von TSMC 2025 late (hört man) mit McM wird aktuelle Technik sowieso obsolet machen. :bussi:

Evtl. dauert es bis 2027, kommen wird sie auf jeden Fall.

mfg

p.s.

Ich kann immer nur versuchen zu erklären, WAS da wirklich in den nächsten 5-10 Jahren gebaut wird. Heutige Hardware ist im Vergleich zum Jahr 2030 nicht einmal ansatzweise vergleichbar, zu Hardware des Jahres 2010 zu heute.

Hoffentlich, nutzt man es ordentlich und vernünftig.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: PS828
Shoryuken94 schrieb:
Es ist schon recht naiv zu glauben, dass AMD da groß was an den Preisen macht. Die ziehen doch lieber selbst die preise an. Die Preis / Leistung der kleinen Navi Karten ist ja sogar teils schlechter als bei Nvidia.
wird mal wieder zeit für nen 3. player
 
  • Gefällt mir
Reaktionen: Shoryuken94 und Strahltriebwerk
Zubz3ro schrieb:
wird mal wieder zeit für nen 3. player

2022 kommt der erste wirkliche Aufgallopp.

Dann herrscht so etwas wie "Krieg" am Hardwaremarkt. Wer bis 2030 wirklich überleben wird, kann keiner sagen und ich hätte nichts dagegen, wenn keiner verliert.

32nm war 2010 noch Standart. 1nm werden wir bis 2030 erleben. Das sind (1/32)² als Größe in Fläche ausgedrückt.

Hier wird Leistung frei, die war 2010 zwar theoretisch denkbar, so richtig fassbar ist es jedoch heute noch nicht.

mfg
 
  • Gefällt mir
Reaktionen: pietcux
Darauf ein paar Reime. :smokin:

Nicht Spekulatius noch Gerüchte wolln wir haben, sondern wolln an frischen GPUs uns Laben.
Die Grünen sind uns nicht geheuer, sind ihre Preis doch viel zu teuer.
Ist die Lederjacke frohen Mutes, so führt er im Schilde doch nichts Gutes.
Willst du Leistung ohne Ende, so warte auf die rote Wende.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ThePlayer und knoxxi
Strahltriebwerk schrieb:
Willst du Leistung ohne Ende, so warte auf die rote Wende.


Tja, da warten die Leute aber schon ziemlich lange. Dann wurde die große Wende mal wieder versprochen, die Gerüchte sind hochgekocht, der Hype gestiegen und gekommen ist dann am Ende meist ein mittelmäßiges Produkt. Den 1080Ti Killer haben wir bis heute nicht wirklich gesehen und auch die tollen kühlen leisen Grafikkarten von AMD sucht man bis heute vergebens.

Aber mal wieder einen Schwung aus der Gerüchteküche...

Vielleicht wird Big Navi doch ein großer Wurf. Es gibt Gerüchte, dass Nvidia für die 3080Ti den großen Chip (GA100) nutzt und nicht wie die letzten Jahre einen kleineren 102er Chip. Würde wohl nur passieren, wenn Big Navi wirklich gut einschlägt.

1588343639190.png


Nur ein Gerücht, aber ein spannendes. Ich denke tatsächlich, dass der GA100 8000+ Shader haben wird. Der 12nm GV100 hatte ja schon 84 CUs mit insgesamt 5376 Shadern. In 7nm wären 128 Cus durchaus denkbar. Es gab ja auch Einträge in Benchmarkdatenbanken mit unbekannten Nvidia Chips mit über 100CUs.

Ich denke aber, dass das Lineup etwas anders aussehen wird. Kann mir nicht vorstellen, dass die den GA100 in den massenmarkt bringen, alleine wei der sicherlich komplett auf HBM ausgelegt ist.

Ich könnte mir ein GA102(der fehlt in der Tabelle ja interessanterweise) als 3080Ti vorstellen. Evtl. dann mit 96CUs (6144 Shader) und GDDR6. Den GA100 dann maximal als Titan.

Mal schauen, aber wäre durchaus interessant und würde darauf schließen lassen, dass Big Navi einiges auf dem Kasten hat.
 
  • Gefällt mir
Reaktionen: pietcux
@Shoryuken94. die Liste ist doch sehr Optimistisch.

Bisher hatte Samsung bei gleicher Transistoren Anzahl/Fertigung mehr Platz benötigt. Da würde NVIDIA schon wieder bei 7-800mm landen.
 
Colindo schrieb:
Willkommen in der Welt der neuen Technologien. Passiert eben immer mal wieder, dass Neues nicht ordentlich ankommt. Und bei RTX war es sicherlich so. Alleine dass DLSS jetzt erst so funktioniert, wie es anfangs beworben wurde, und eben wie oft angemerkt bisher nur in zwei Spielen.

Ich frage mich, ob Nvidia in der nächsten Generation massiv Tensor-Cores erhöht, wenn, wie @ZeroZerp sagt, demnächst Denoising auf denen ausgeführt werden kann. DLSS+Denoising wäre für Turing zuviel, würde ich sagen.

Wenn sie ihre Tensor Cores erhoehen bleibt weniger Platz um die Shader zu erhoehen. Tensor Cores sind extrem spezialisiert und fuer allgemeine Aufgaben wenig zu gebrauchen. Deswegen tippe ich auch eher darauf, dass sie langsam dazu uebergehen entweder die Tensor order die RT Funktionalitaet zu integrieren.

ZeroZerp schrieb:
Sind 4 - Wolfenstein Youngblood, Control, Deliver us the Moon und Mechwarrior 5

Es wird sich zeigen, wie sich das weiterentwickelt, aber der Performanceimpact, den man in Summe ohne Nachteile durch DLSS erhält, ist enorm. Es ist ein Killerfeature, welches die Turing- Generation 1 auch in künftigen Titeln zu guten Leistungen verhelfen wird, wohingegen die anderen nicht auf stochastisches Rendering spezialisierten und ohne KI- Fähigkeiten ausgestatteten Karten relativ schnell wegbrechen werden.

Ich glaube nicht, dass Turing schlecht altern wird. Zumal da noch ungenutzte Technologien wie Mesh shader brach liegen.


Man munkelt, dass man sie über alle klassen verdoppelt. Wenn man die schiere Rechenleistung von den Dingern ansieht, sollte da ein verbessertes DLSS und zugleich noch mehrstufiges Denoising drin sein.

Ist aber schwer einzuschätzen, da es meines Wissens keinen offiziellen Status darüber gibt, wie sehr die Tensor- Kerne durch DLSS allein an ihre Grenzen gebracht werden....

Spannend wird der Ansatz von AMD zum Thema KI- Supersampling. Mal sehen, was die ihrem Baby da so mit auf den Weg geben. Ohne wirds künftig nicht mehr gehen, da man sonst zu viel Leistung auf der Straße liegen lässt.

LG
Zero

DLSS wird erst ab dem Zeitpunkt Sinn machen an dem es von einem generellen Modell getragen wird. Der derzeitige Ansatz ein Modell fuer jedes Spiel und selbst da fuer jede Aufloesung zu trainieren ist extrem ineffizient. Es ist wenig verwunderlich, dass ziemlich wenige Spiele es einsetzen bei dem Aufwand. Ob die Turing Karten allerdings fuer ein generelles Modell reichen ist alles andere als gegeben. Gerade falls die Kerne bei der neuen Generation massiv ansteigen koennte es sein, dass Turing ziemlich schnell teurer Elektroschrott ist.

Teralios schrieb:
Hui, den Greenscreen of Dead hatte ich öfters mal mit meiner GeForce GTX 980. Gerade als ich noch Win 7 verwendet, während das Problem dann mit Win8 als auch Win 10 nicht mehr vorhanden war. XD

Leider vergessen hier manche aber, dass das dort wo das Problem zutage tritt, auch die Ursache zu finden ist. All zu oft habe ich die Grafikkarte im Verdacht oder den Treiber, und dann war es was anderes, was dazwischen schoss.

Schuldzuweisung muss schnell gehen, spaetere Veraenderung der Meinung: unerwuenscht. Hatte es in meinem HTPC, dass bei h265 Videos unter Kodi immer wieder der Treiber abgeschmiert ist. Nach laengerer Suche war es im Endeffekt der RAM. Mit neuem RAM ist der Fehler komplett verschwunden.

Und wenn ich immer wieder hoere wie schlecht die AMD Treiber sind erinnere ich mich an den 32 zu 64 Bit Umstieg. Nvidias Leistung da unterirdisch zu nennen ist sogar noch ein Lob.

Teralios schrieb:
Das primäre Problem für nVidia wird der Platz sein mit der Zeit. Die Probleme beim Powerbudget sind eher zu vernachlässigen, solange nicht alle Einheiten zur gleichen Zeit laufen müssen, bekommen sie alle ihre Energie.

Problematisch würde es erst werden, wenn z.B. INT32, FP32 Shader als auch TC zur gleichen Zeit anfangen zu rechnen und dann sich im Weg stehen, aber bisher läuft alles recht schön nacheinander ab. ;)

Platz wird so oder so ein Problem, wenn Nvidia aber Shader, Tensor, und RT Cores alle gleichzeitig nutzen will kann das Powerbudget auch schnell zum Problem werden. Und es sieht so aus als wollen sie alles gleichzeitig verwenden.

Teralios schrieb:
DLSS wird nVidia weiter verfolgen, da DLSS ein probates Mittel ist den Ressourcenbedarf für immer höhere Auflösungen abzufedern.

DLSS, genau so VRS sind - auch wenn es einigen nicht gefällt - der aktuell logische Schluss. Der Zug mit dem Namen "Silizium-Transistor" befindet sich auf einem Gleis, dass früher oder später sein Ende erreichen wird und das Ende ist hier auch in Sicht. Alternativen wie Transistoren auf Basis von Kohlenstoff sind zwar bereits bekannt, jedoch von der Marktreife noch entfernt. Der letzte Meilenstein war eine 16Bit-CPU mit knapp um die 14.000 oder 16.000 Transistoren.

Die nächste Auflösung mit 8K steht in den Startlöchern und viele moderne Spiele haben bei "vollen" Details selbst mit 4K ihre Probleme, auch auf dem PC.

AMD arbeitet nicht umsonst auch quasi an einer DLSS-Lösung für ihre Grafikkarten, auch wenn sie über Shader gehen möchten. *Dazu gleich etwas mehr.

DLSS ist nicht der einzige logische Schritt. Es gibt genug Moeglichkeiten auf Hardwareebene das ganze einigermassen kosteneffizient zu gestalten. Ausserdem benoetigt DLSS genauso Hardware und Platz. Damit gewinnt man vielleicht eine Generation, das war es aber schon.

Zumal DLSS wie es heute ist mehr Spielerei als nuetzlich ist. Erst mit einem generellen Modell macht das ganze wirklich Sinn. Davon ist Nvidia aber noch ein gutes Stueck entfernt wenn man es jetzt erst geschafft hat das ganze fuer 2 Spiele brauchbar zu trainieren.

Teralios schrieb:
Aktuell fährt nVidia mit dieser Taktik noch gut. Die Frage ist, wie lange es noch so sein wird. Wobei nVidia, bevor sie RT-Cores als auch TensoreCores "integrieren" wohl erst mal ihre Cuda-Cores noch mal umorganisieren werden, damit diese so flexibel wie AMDs CU sind. Damit wäre für nVidia dann schon sehr viel gewonnen.

Platz kostet recht schnell mehr und senkt die Yields. Wenn sie die Cuda Cores flexibler machen, wird aber wieder der Energiebedarf steigen. Die Karten sind effizient weil viel ueber Software laeuft, halt zum Preis, dass die Hardware unflexibel ist. Das wird ein netter Spagat dann.

Wobei ich da die letzten Tage auch einen netten Artikel auf TweakTown(?) gesehen habe die meinten, dass die 3080ti mit 8192 Cuda Cores und 1024 Tensor Cores kommt. Klar, Nvidia legt gleich einen Riesenchip auf in 7nm der wohl eher wieder in die selbe Richtung wie die 2080ti geht. Und falls der kommt, dann traeumen einige wohl, dass es unter 1000 Euro kommt. Bei der Groesse waeren 2000 als Mindestpreis aber sowas von gesetzt.

Teralios schrieb:
Also eines ist Sicher: Du wärst spitze im Marketing. Wäre ich du, ich würde bei nVidia mal anrufen, ob sie dich nicht unter Vertrag nehmen wollen. Aber nicht unter 250.000 anfangen, das bist du nämlich in dem Fall mindestens Wert. Und das ist in dem Fall ein Kompliment!

Was du hier jedoch ansprichst, ist in der Regel weder für AMD noch NVIDIA ein Hardware Problem als viel mehr ein Softwareproblem. AI-Algorithmen kann man auch recht gut über die Shader laufen lassen. Hier ist es dann eher eine Frage der "Effizienz".

Man wird abwarten müssen, wie weit AMD mit ihrer DLSS-Alternative auf DirectML-Basis kommt.

Ok, hier musste ich lachen. Bei den Kommentaren von ihm kommt mir aehnliches in den Kopf. Keine Ahnung warum er das jedes mal bei Nvidia und Intel macht. Viel inhaltliches ist oft nicht dabei.

@Shoryuken94 Nichts fuer ungut, aber die Werte fuer die 3080ti sind eher Wunschdenken als sonst irgendwas. Wie @Grundgütiger schon anmerkte waere der Chip riesig bei einer fuer Nvidia neuen Fertigung. Bei der Groesse wird der Yield trotzdem ziemlich schlecht sein. Falls die wirklich so kommt, dann kannst du aber von richtig gesalzenen Preisen ausgehen.

Bzw. Preise, natuerlich reduziert AMD seine Preise nicht und passt sich an. Nvidia hat testet doch jetzt schon seit mindestens zwei Generationen aus wie bloe... einfach sich Spieler von ihrem Geld trennen. Und sie haben rausgefunden, dass das einfacher ist als einem Kind den Lolli zu klauen. Da passt sich AMD natuerlich gerne an, und auch ein dritter wuerde sich nicht die Marge versauen lassen. Die Preisregionen sind erstmal gesetzt oder werden erhoeht. Das einzige worauf wir hoffen koennen ist wirklich mehr Leistung beim gleichen Preis und nicht Turing v2, das auch noch verteidigt wird mit "mehr Leistung kostet mehr". Aber eben nicht ueber Generationen, das nennt man Stagnation.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: ThePlayer
Kacha schrieb:
Deswegen tippe ich auch eher darauf, dass sie langsam dazu uebergehen entweder die Tensor order die RT Funktionalitaet zu integrieren.
Bin mir nicht sicher, wie du das meinst, denn es gibt zwei Möglichkeiten: Sie lassen die Shader so, wie sie sind, und geben denen die RT- und Tensor-Aufgaben, dann wird wieder alles langsam wie bei der 1080Ti mit ihren 1,1 GRays/s. Oder sie erweitern die Shader, was wieder Chipfläche frisst.

Also ich denke wirklich nicht, dass da viel geht. Ganz davon abgesehen, dass diese Funktionseinheiten wirklich nicht so viel Chipfläche fressen (Quelle). Da hat die Parallelisierung von FP32 und INT sicher mehr Platz verschlungen (meine Einschätzung).
Kacha schrieb:
Davon ist Nvidia aber noch ein gutes Stueck entfernt wenn man es jetzt erst geschafft hat das ganze fuer 2 Spiele brauchbar zu trainieren.
Wie Zerozerp mich korrigierte sind es zurzeit vier Spiele. Möchte nicht die Ursache für falsche Aussagen sein ;)
 
Kacha schrieb:
Wenn sie ihre Tensor Cores erhoehen bleibt weniger Platz um die Shader zu erhoehen.
Aha- Wieviel Platz nehmen denn die neuen Einheiten ein und wie sind diese organisiert?

Ab welchem Verhältnis wird es denn unrentabel? Schon mal daran gedacht, dass Du ohne RT Shaderorezahlen über 5K immer schlechter ausgelastet kriegst?

Wie hoch ist den das Platzbudget der neuen nvidia reihe?

Tensor Cores sind extrem spezialisiert und fuer allgemeine Aufgaben wenig zu gebrauchen.
Ja- Eine Beschleunigung von Spielen um 100% und teils mehr ist natürlich sehr "unbrauchbar".
Wenn sie dafür allein 20% auf dem die wegenehmen würden (was sie nicht tun), wäre es immernoch mehr als rentabel.

Du könntest natürlich wahlweise auch den Takt verdoppeln oder 130% mehr Shader auf die Karte packen...

Deswegen tippe ich auch eher darauf, dass sie langsam dazu uebergehen entweder die Tensor order die RT Funktionalitaet zu integrieren.
Aus den oben genannten Gründen tippe ich darauf, dass sie die RT- Funktionalität und die Tensor Cores erhöhen werden, weil die entwicklungstechnisch wieder hohe Skalierungen bzw. Geschwindigkeitszuwächse versprechen.

DLSS wird erst ab dem Zeitpunkt Sinn machen an dem es von einem generellen Modell getragen wird.
Super- Dann ist der Zeitpunkt ja vor einem viertel Jahr gekommen.

Der derzeitige Ansatz ein Modell fuer jedes Spiel und selbst da fuer jede Aufloesung zu trainieren ist extrem ineffizient. Es ist wenig verwunderlich, ... Gerade falls die Kerne bei der neuen Generation massiv ansteigen koennte es sein, dass Turing ziemlich schnell teurer Elektroschrott ist.
Leider offenbarst Du mit diesem Absatz Dein völliges Desinteresse an diesem Thema. Geh ins Netz und informier Dich über DLSS 2.0 bevor Du weiterschreibst.

Platz wird so oder so ein Problem, wenn Nvidia aber Shader, Tensor, und RT Cores alle gleichzeitig nutzen will kann das Powerbudget auch sc... es sieht so aus als wollen sie alles gleichzeitig verwenden.
Genau davon haben sie in nächster Zeit mehr als genug (Platz).
RTRT wirds aufgrund seiner massiv parallelen Verarbeitung richten.

Einfach mehrere kostengünstige Chiplets draufbauen- Schon ist Platz kein Problem mehr.

DLSS ist nicht der einzige logische Schritt. Es gibt genug Moeglichkeiten auf Hardwareebene das ganze einigermassen kosteneffizient zu gestalten.
Aha- DLSS ist also nicht hardwarebasiert? Wieso denkst Du es sei nicht kosteneffizient?

Wieviel kostet es denn?
Welche anderen Möglichkeiten siehst Du denn?

Ausserdem benoetigt DLSS genauso Hardware und Platz. Damit gewinnt man vielleicht eine Generation, das war es aber schon.
Ach so siehst Du das- Man gewinnt nur neine Generation.
Ja- Dann ists natürlich Mist...
Oh mann

Zumal DLSS wie es heute ist mehr Spielerei als nuetzlich ist. Erst mit einem generellen Modell macht das ganze wirklich Sinn. Davon ist Nvidia aber noch ein gutes Stueck entfernt wenn man es jetzt erst geschafft hat das ganze fuer 2 Spiele brauchbar zu trainieren.
Siehe oben. Recherchiere DLSS 2.0

Bei der Groesse waeren 2000 als Mindestpreis aber sowas von gesetzt.
Ich nehm Dich beim Wort.

Ok, hier musste ich lachen. Bei den Kommentaren von ihm kommt mir aehnliches in den Kopf. Keine Ahnung warum er das jedes mal bei Nvidia und Intel macht. Viel inhaltliches ist oft nicht dabei.
Danke für das Kompliment. Und sowas schreibst Du nachdem Du obenstehenden Text verfasst hast? Ernsthaft?

Bzw. Preise, natuerlich reduziert AMD seine Preise nicht und passt sich an. Nvidia hat testet doch jetzt schon seit mindestens zwei Generationen aus wie bloe... einfach sich Spieler von ihrem Geld trennen.
AMD beweist in ihrer zweiten Sparte aber das Gegenteil. Dort nehmen sie die Preise, die sie minimal gehen können.

Somit legt das den Schluss nahe, dass GPUs zu produzieren wirklich so aufwändig und teuer geworden ist.

Und sie haben rausgefunden, dass das einfacher ist als einem Kind den Lolli zu klauen. Da passt sich AMD natuerlich gerne an, und auch ein dritter wuerde sich nicht die Marge versauen lassen.
Auch hier- Sie beweisen im CPU Sektor, dass Deine Aussage falsch ist.

Das einzige worauf wir hoffen koennen ist wirklich mehr Leistung beim gleichen Preis und nicht Turing v2, das auch noch verteidigt wird mit "mehr Leistung kostet mehr".
Nix stagniert, das "System" immer mehr Leistung fürs Geld oder weniger Geld gilt auch jetzt noch.

LG
Zero
 
Zuletzt bearbeitet:
Kacha schrieb:
Wenn sie ihre Tensor Cores erhoehen bleibt weniger Platz um die Shader zu erhoehen. Tensor Cores sind extrem spezialisiert und fuer allgemeine Aufgaben wenig zu gebrauchen.
Im Ganzen hast du da recht. Wobei ich mir da auch immer schwer tue, es als "Tensor Core" als ganzes zu sehen, denn im Endeffekt ist es einfach ein "FMA"-Befehl, der auf eine Tensor-Matrix ausgeführt wird und eben nur das.

Gleichzeitig muss man aber auch anerkennen, dass es das eben sehr schnell kann.


Kacha schrieb:
Und es sieht so aus als wollen sie alles gleichzeitig verwenden.
Sollte irgendwann ein Renderer wirklich alles zur gleichen Zeit anfordern, dann hast du auf jeden Fall recht und dann könnte NVIDIA ein Problem bekommen.

Aktuell sieht es aber noch nicht danach aus, wodurch NVIDIAs-Ansatz relativ gut funktioniert. Aktuell werden die Recheneinheiten in der GPU relativ "einseitig" belastet. Sprich erst kommen die Shader dran, sodass die INT32 und FP32-ALUs zur gleichen Zeit belastet werden. Anschließend folgen die RT-Cores, es folgt wieder ein Block, die primär die Shader belastet und dann kommen die TCs dran.

Klar liegt auch während der RT-Core-Phase als auch TC-Phase Last auf den Shadern, aber die Last ist recht klar verteilt.

geforce-rtx-gtx-dxr-metro-exodus-rtx-rt-core-dlss-frame-expanded.png

(Quelle: nVidia!)

Es ist recht gut zu erkennen. Deswegen funktioniert NVIDIAs-Konzept der getrennten Einheiten aktuell auch sehr gut. Hoch spezialisierte Einheiten sind effizienter als Generalisten. Aber sie brauchen eben auch Platz und wenn man wirklich alles an Leistung fordert, steht sich es im Weg.

Hier wird man warten müssen.

Kacha schrieb:
DLSS ist nicht der einzige logische Schritt. Es gibt genug Moeglichkeiten auf Hardwareebene das ganze einigermassen kosteneffizient zu gestalten. Ausserdem benoetigt DLSS genauso Hardware und Platz. Damit gewinnt man vielleicht eine Generation, das war es aber schon.
Ich habe auch nicht geschrieben, dass es der einzige logische Schritt ist, sondern dass es neben VSR ein logischer Schluss ist.

Und natürlich gibt es auch noch Tricks bei der Hardware, die man anwenden kann, wobei diese Tricks wiederum auch in den Engines umgesetzt werden müssen. Eine Sache kennen wir ja schon: Rapid Packed Math.

Ebenso schlummern ja weitere Tricks bereits in der Hardware. Vega brachte ja die Primitive Shaders und in Turing schlummern die Mesh Shaders. Beides sehr ähnlich. (Auch hier kann man also primär wieder davon sprechen, dass NVIDIA gerade mal zu GCN aufgeschlossen hat, was die allgemeine GPU-Hardware angeht. ;))

Ebenso gibt es ja auch weitere Software-Tricks wie Checkerboard-Rendering und Co. Es gibt also eine Vielzahl von Tricks, mit denen man arbeiten kann. Jedoch benötigen einige eben auch explizit die Anpassung der Software an die Hardware.

Mit würde es nicht wundern, wenn wir irgendwann sogar die Konzepte der "lazy" ALU in den GPUs Einzug halten. (Ich würde gerne das Paper verlinken, aber ich find es auf die Schnelle nicht, gab aber auch mal nen Bericht auf Heise und Golem dazu.) Sodass eben auch Rundungsfehler und kleinere Ungenauigkeiten bei der Berechnung geduldet werden. Klar, klingt im ersten Moment wahnsinnig, vor allem wenn man daran denkt, was für ein Wirbel der FDIV-Bug damals bei Intel auslöste, aber im Endeffekt geht es genau darum, dass nicht jede Berechnung richtig akkurat sein muss.

Aber, eines muss man sagen: Es ist nicht nur ein Hardware-Problem, sondern auch ein Software-Problem. Hier ist allgemein eine Entwicklung notwendig.


Kacha schrieb:
Zumal DLSS wie es heute ist mehr Spielerei als nuetzlich ist. Erst mit einem generellen Modell macht das ganze wirklich Sinn. Davon ist Nvidia aber noch ein gutes Stueck entfernt wenn man es jetzt erst geschafft hat das ganze fuer 2 Spiele brauchbar zu trainieren.
Da stimme ich dir zum großen Teil zu. DLSS hat aktuell das Problem, dass es für jedes Spiel nicht nur separat implementiert werden muss, nein, es muss auch für jedes Spiel trainiert werden und da kommt es halt auch darauf an, wie gut die "KI" trainiert wird.

Ein genereller Ansatz wäre zu begrüßen, aber da kommen wir halt wieder an die Grenzen von Deep Learning in seiner aktuellen Form. Sobald Abstraktion erwartet wird, kracht es.

Kacha schrieb:
Wobei ich da die letzten Tage auch einen netten Artikel auf TweakTown(?) gesehen habe die meinten, dass die 3080ti mit 8192 Cuda Cores und 1024 Tensor Cores kommt. Klar, Nvidia legt gleich einen Riesenchip auf in 7nm der wohl eher wieder in die selbe Richtung wie die 2080ti geht. Und falls der kommt, dann traeumen einige wohl, dass es unter 1000 Euro kommt. Bei der Groesse waeren 2000 als Mindestpreis aber sowas von gesetzt.
Wobei man da sagen muss, dass es wir hier "nur" von den 8192 FP32-CCs sprechen, die gleiche Menge an INT32-CCs kommen noch mal obendrauf. ;)

Wenn wir fies sind, könnte man jetzt schreiben, dass NVIDIA nun massiv viele Shader braucht um mit AMD mitzuhalten. Im Ganzen hätte nämlich eine 3080 TI ganze 16384 Shader unter der Haube.

Kacha schrieb:
Ok, hier musste ich lachen. Bei den Kommentaren von ihm kommt mir aehnliches in den Kopf. Keine Ahnung warum er das jedes mal bei Nvidia und Intel macht. Viel inhaltliches ist oft nicht dabei.
Inhaltlich ist das, was er zum großen Teil schreibt, nicht falsch. Ich hab oft nur das Gefühl, dass er sich mit manchen Themen zu oberflächlich befasst und daher dann gewisse Aspekte außer Acht lässt und es dann in der Regel halt sehr oberflächlich/einseitig ist, was er schreibt.

Er ist in der Regel, was die Möglichkeiten der NVIDIA-Hardware sowie Intel Hardware gut informiert, vergisst aber dann sich auch mal die Gegenseite anzusehen und daher wirkt es dann oft so, als würde er AMD schlecht reden wollen. Dazu kommt dann eine gewisse Schwäche als auch ein Hang für Marketing-Blabla bei ihm.

Das ändert aber nichts daran, dass er inhaltlich in der Regel - im Gegensatz zu einer anderen Person, die ich nicht namentlich erwähne - richtig liegt, auch wenn es manchmal einseitig ist. Und was ich @ZeroZerp hoch anrechne ist, dass er auch auf Kritik eingeht, auch wenn man manchmal zu oft den Holzhammer braucht. Aber er macht es wenigstens und was ich ihm noch viel höher anrechne: Er ist direkt und kann auch mit ebenso direktem Echo umgehen, ohne dass er dann "beleidigt" ist.

Colindo schrieb:
Da hat die Parallelisierung von FP32 und INT sicher mehr Platz verschlungen (meine Einschätzung).
Hat es in dem Fall auch.

Der GP104 hat bei 2560 CU (Pro SM: 128 FP32-ALU) ca. 314mm². Der TU106 hat bei 2304 CU (Pro SM: 64 FP32-ALU + 64 INT32-ALU) 445 mm². Der TU104 benötigt für seine 3072-Shader 545mm², während der GP102 mit seinen 3840 auf "nur" 471mm² kommt.

Die SM bei NVIDIA ist, wenn man es genau nimmt, immer noch sehr unflexibel. Jetzt können die Blöcke zwar 64 INT-Werte und 64 FP-Werte zur gleichen Zeit berechnen, aber diese Aufteilung ist eben hart in Hardware drin.

AMDs CU sind da deutlich flexibler. Bei GCN können die 4 Vec16-Einheiten flexibel auf die Werte verteilt werden. So können alle 4 FP-Werte annehmen, oder nur 2 und 2 kümmern sich um INT oder eben 3 für INT und eine für FP. Bei RDNA ist es auch so, auch wenn es nun 2 Vec32-Einheiten sind. Eine kann bei Bedarf mit INT-Werten befüllt werden, die andere mit FP-Werten.

Um aber weiterhin eine recht "flexibel" Einteilung der Vec-Einheiten zu haben, werden 2 CU zu einer Working-Group zusammen gefasst, sodass nicht zu viel "leerlauf" vorkommt, wenn INT und FP-Werte gleichzeitig berechnet werden müssen.

Nimmt man es "genau" so entspreicht eine Working Group bei AMD aus 2 CUs aktuell einer SM von NVIDIA, was die "ALUs" angeht. Beide haben 128. ;)
 
Colindo schrieb:
Bin mir nicht sicher, wie du das meinst, denn es gibt zwei Möglichkeiten: Sie lassen die Shader so, wie sie sind, und geben denen die RT- und Tensor-Aufgaben, dann wird wieder alles langsam wie bei der 1080Ti mit ihren 1,1 GRays/s. Oder sie erweitern die Shader, was wieder Chipfläche frisst.

Also ich denke wirklich nicht, dass da viel geht. Ganz davon abgesehen, dass diese Funktionseinheiten wirklich nicht so viel Chipfläche fressen (Quelle). Da hat die Parallelisierung von FP32 und INT sicher mehr Platz verschlungen (meine Einschätzung).

Eher die Erweiterung von Shadern. Ja, das kostet auch Chipflaeche, aber wenn man es richtig umsetzt kann man sie auch fuer andere Aufgaben einsetzen.

Colindo schrieb:
Wie Zerozerp mich korrigierte sind es zurzeit vier Spiele. Möchte nicht die Ursache für falsche Aussagen sein ;)

2 statt 4, ok, immer noch nicht berauschend.

ZeroZerp schrieb:
Aha- Wieviel Platz nehmen denn die neuen Einheiten ein und wie sind diese organisiert?

Ab welchem Verhältnis wird es denn unrentabel? Schon mal daran gedacht, dass Du ohne RT Shaderorezahlen über 5K immer schlechter ausgelastet kriegst?

Wie hoch ist den das Platzbudget der neuen nvidia reihe?

Laut diesem Reddit Eintrag, 1.25mm² fuer einen Tensor Core und 0.7mm² fuer einen RT Core. Bei der 2080ti also grobe 10% fuer eine relativ kleine Anzahl an Cores. Falls die spekulierte 3080ti wirklich so kommen sollte waere man mit 1024 Tensor Cores und einer angenommenen 50% Reduzierung in Flaeche durch den Shrink (laut Wikichip sind es von TSMC 16nm zu 7nm keine 50%, sondern eher 40%) bei 640mm². Selbst mit nur 512 sind es noch 320mmmm² und damit fast so gross wie der zukuenftige mittlere Chip der AMD nachgesagt wird. Die 256 RT Cores wuerden dann nochmal ca 90mmmm² beanspruchen.

Mir ist durchaus klar, dass ein erhoehter Grad an Parallelisierung in der Regel mehr Overhead erfordert, aber deine plakative Behauptung, und warum keine 5k Shader, solltest du mit etwas mehr Informationen untermauern.

ZeroZerp schrieb:
Ja- Eine Beschleunigung von Spielen um 100% und teils mehr ist natürlich sehr "unbrauchbar".
Wenn sie dafür allein 20% auf dem die wegenehmen würden (was sie nicht tun), wäre es immernoch mehr als rentabel.

Du könntest natürlich wahlweise auch den Takt verdoppeln oder 130% mehr Shader auf die Karte packen...

Ich gebe mal ein ungenuegend in Sachen Textverstaendnis, da ich klar sage, dass DLSS wie es jetzt ist unbrauchtbar ist und es erst brauchbar wird wenn es durch ein generelles Modell und nicht ein Modell fuer jedes Spiel und jede Aufloesung erreicht wird. Mal abgesehen davon, dass DLSS genauso diminishing returns hat und nicht magisch einfach weiter skaliert.

ZeroZerp schrieb:
Aus den oben genannten Gründen tippe ich darauf, dass sie die RT- Funktionalität und die Tensor Cores erhöhen werden, weil die entwicklungstechnisch wieder hohe Skalierungen bzw. Geschwindigkeitszuwächse versprechen.

Wie oben dargelegt kostet das eben doch ganz gut Platz und es skaliert eben auch nicht ewig. Von dem her, klar werden sie es erstmal erhoehen, aber den Platz rein dafuer zu opfern macht wenig Sinn solange sie kein generelles Modell haben das ueberall funktioniert. Ansonsten sehen sie naemlich ziemlich bloed aus in 99% der Spiele, da DLSS so wie es jetzt ist eben doch mit ziemlich viel Aufwand verbunden ist. RT duerfte einfacher sein und sich am ehesten durch die Konsolen durchsetzen.

ZeroZerp schrieb:
Super- Dann ist der Zeitpunkt ja vor einem viertel Jahr gekommen.

Leider offenbarst Du mit diesem Absatz Dein völliges Desinteresse an diesem Thema. Geh ins Netz und informier Dich über DLSS 2.0 bevor Du weiterschreibst.

DLSS 2.0 ueberfliegen verneint deine Aussage ziemlich schnell. Es benoetigt immer noch eine Anpassung pro Spiel, bzw. die richtigen Informationen der Game Engine. Ja, sie sind einen kleinen Schritt weiter, aber noch lange nicht dort wo sie sein muessten. So lange das Modell nicht komplett im Treiber ist und auch keine Informationen mehr direkt von der Engine/dem Spiel benoetigt, so lange ist es nett, aber nicht toll. Mir ist durchaus klar warum Nvidia noch nicht so weit ist und warum das gar nicht so einfach wird. Es ist toll, dass du das derzeitige Stadium schon so gut findest, aber wir sind noch ein gutes Stueck von "wir schmeissen Tensor Cores drauf und haben magisch mehr Leistung" entfernt.

ZeroZerp schrieb:
RTRT wirds aufgrund seiner massiv parallelen Verarbeitung richten.

Einfach mehrere kostengünstige Chiplets draufbauen- Schon ist Platz kein Problem mehr.

Ah, ok, ja, klar... Der "irgendwas wird es magisch richten" Ansatz.

ZeroZerp schrieb:
Aha- DLSS ist also nicht hardwarebasiert? Wieso denkst Du es sei nicht kosteneffizient?

Wieviel kostet es denn?
Welche anderen Möglichkeiten siehst Du denn?

DLSS ist in der Tat nicht hardwarebasiert, aber ich denke das sollte dir klar sein. Man kann neuronale Netze direkt in Hardware implementieren, allerdings hat man dann ein Netz und fertig. Von her, DLSS ist Software. Natuerlich laeuft Software auf irgendeiner Hardware, aber das macht es nicht hardwarebasiert.

Du hast ja selber schon MCM angesprochen. Ausserdem gibt es genauso Forschung dazu verschiedene Strukturgroessen im selben Chip zu nutzen fuer unterschiedliche Komponenten. Oder um es mit deinen Worten zu sagen, einfach mal recherchieren.

ZeroZerp schrieb:
Ach so siehst Du das- Man gewinnt nur neine Generation.
Ja- Dann ists natürlich Mist...
Oh mann

Eine Generation ist ok, aber jetzt nichts herausragendes, es sind 2 Jahre. Da muss man jetzt nicht in Jubel ausbrechen, zumal DLSS eben nicht einfach unendlich weiter skaliert. Genauso wie neuronale Netze nicht einfach so einfach skalieren. Da gibt es genug Probleme die Vorteile ganz schnell wieder auffressen.

ZeroZerp schrieb:
Siehe oben. Recherchiere DLSS 2.0

Siehe oben, nein.

ZeroZerp schrieb:
Ich nehm Dich beim Wort.

Gerne. Aber nur um das noch einmal in Kontext zu bringen, da der anscheinend immer schnell verloren geht. Wenn Nvidia die 3080ti mit 8192 Shadern, 1024 Tensor Cores, 256 RT Cores in 7nm bringt und damit ganz schnell bei einem 800mmmm² Chip ist wie die derzeitige 2080ti, dann ja, dann wird das richtig kosten.

ZeroZerp schrieb:
Danke für das Kompliment. Und sowas schreibst Du nachdem Du obenstehenden Text verfasst hast? Ernsthaft?

Ja.

ZeroZerp schrieb:
AMD beweist in ihrer zweiten Sparte aber das Gegenteil. Dort nehmen sie die Preise, die sie maximal gehen können.

Somit legt das den Schluss nahe, dass GPUs zu produzieren wirklich so aufwändig und teuer geworden ist.

Nein, nicht wirklich. Zumindest nicht so wie du vermeinst es herzuleiten. Jedes Unternehmen versucht seinen Profit zu maximieren und lotet aus was fuer Preise es verlangen kann. Das einzige was fest ist ist der minimale Preis, der der mindestens alle Kosten abdeckt. Alles darueber bestimmt der Markt und der Kunde. Ist der Kunde bereit viel zu zahlen wird der Preis eben so hoch wie moeglich angesetzt. Genau das was Nvidia die letzten zwei Generationen knallhart auslotet.

Das einzige das wirklich etwas darueber aussagt ob GPUs aufwaendiger und teurer wurden sind die Forschungs- und Produktionskosten, aber ganz sicher nicht der Endkundenpreis. Und ja, mir ist durchaus klar, dass die beiden Posten groesser werden, aber nicht in dem Mass in dem Nvidia uns das klarmachen will. Die optimieren ihren Profit und natuerlich macht AMD da froehlich mit und steigert ihre Marge ebenfalls. Denn die Spieler machen ja froehlich mit. Da wuerden einen die Aktionaere ja kreuzigen, wenn man das nicht macht.

ZeroZerp schrieb:
Auch hier- Sie beweisen im CPU Sektor, dass Deine Aussage falsch ist.

Siehe oben, falsche Herleitung.

ZeroZerp schrieb:
Nix stagniert, das "System" immer mehr Leistung fürs Geld oder weniger Geld gilt auch jetzt noch.

Mit viel Fantasie, ja.

Edit:

Teralios schrieb:
Im Ganzen hast du da recht. Wobei ich mir da auch immer schwer tue, es als "Tensor Core" als ganzes zu sehen, denn im Endeffekt ist es einfach ein "FMA"-Befehl, der auf eine Tensor-Matrix ausgeführt wird und eben nur das.

Gleichzeitig muss man aber auch anerkennen, dass es das eben sehr schnell kann.

Ist mir klar, die Teile koennen eine Operation sehr schnell und das war es. Ohne das ganze drumherum sind die Teile ziemlich nutzlos.

Teralios schrieb:
Sollte irgendwann ein Renderer wirklich alles zur gleichen Zeit anfordern, dann hast du auf jeden Fall recht und dann könnte NVIDIA ein Problem bekommen.

Aktuell sieht es aber noch nicht danach aus, wodurch NVIDIAs-Ansatz relativ gut funktioniert. Aktuell werden die Recheneinheiten in der GPU relativ "einseitig" belastet. Sprich erst kommen die Shader dran, sodass die INT32 und FP32-ALUs zur gleichen Zeit belastet werden. Anschließend folgen die RT-Cores, es folgt wieder ein Block, die primär die Shader belastet und dann kommen die TCs dran.

Klar liegt auch während der RT-Core-Phase als auch TC-Phase Last auf den Shadern, aber die Last ist recht klar verteilt.

Anhang anzeigen 912546
(Quelle: nVidia!)

Es ist recht gut zu erkennen. Deswegen funktioniert NVIDIAs-Konzept der getrennten Einheiten aktuell auch sehr gut. Hoch spezialisierte Einheiten sind effizienter als Generalisten. Aber sie brauchen eben auch Platz und wenn man wirklich alles an Leistung fordert, steht sich es im Weg.

Hier wird man warten müssen.

OK... das ist aber ein sehr primitives Konzept und verschenkt einiges an Leistung wenn das ganze nur hintereinander funktioniert. Ich bin davon ausgegangen, dass das ganze parallel laeuft, aehnlich der Instruction Pipeline von Prozessoren. So ist es natuerlich klar, dass sie keine Powerbudget Probleme haben. Wenigstens gibt es dann noch Optimierungspotential.

Teralios schrieb:
Ich habe auch nicht geschrieben, dass es der einzige logische Schritt ist, sondern dass es neben VSR ein logischer Schluss ist.

Und natürlich gibt es auch noch Tricks bei der Hardware, die man anwenden kann, wobei diese Tricks wiederum auch in den Engines umgesetzt werden müssen. Eine Sache kennen wir ja schon: Rapid Packed Math.

Ebenso schlummern ja weitere Tricks bereits in der Hardware. Vega brachte ja die Primitive Shaders und in Turing schlummern die Mesh Shaders. Beides sehr ähnlich. (Auch hier kann man also primär wieder davon sprechen, dass NVIDIA gerade mal zu GCN aufgeschlossen hat, was die allgemeine GPU-Hardware angeht. ;))

Ebenso gibt es ja auch weitere Software-Tricks wie Checkerboard-Rendering und Co. Es gibt also eine Vielzahl von Tricks, mit denen man arbeiten kann. Jedoch benötigen einige eben auch explizit die Anpassung der Software an die Hardware.

Mit würde es nicht wundern, wenn wir irgendwann sogar die Konzepte der "lazy" ALU in den GPUs Einzug halten. (Ich würde gerne das Paper verlinken, aber ich find es auf die Schnelle nicht, gab aber auch mal nen Bericht auf Heise und Golem dazu.) Sodass eben auch Rundungsfehler und kleinere Ungenauigkeiten bei der Berechnung geduldet werden. Klar, klingt im ersten Moment wahnsinnig, vor allem wenn man daran denkt, was für ein Wirbel der FDIV-Bug damals bei Intel auslöste, aber im Endeffekt geht es genau darum, dass nicht jede Berechnung richtig akkurat sein muss.

Aber, eines muss man sagen: Es ist nicht nur ein Hardware-Problem, sondern auch ein Software-Problem. Hier ist allgemein eine Entwicklung notwendig.

Ich bin sogar eher noch rein von der Fertigung ausgegangen, da gibt es auch noch genug das man machen kann. Natuerlich gibt es dazu dann noch unterschiedliche Einheiten die man nutzen kann. Es ging eben darum, dass DLSS nicht das einzige ist und der einzige logische Schluss. Denn dann wuerde man ziemlich schnell wieder feststecken.

Lazy muss jetzt eigentlich nicht Rundungsfehler bedeuten, sicher, dass das so genannt wurde? Bei lazy evaluation geht es eher darum, dass erst berechnet wird wenn es wirklich gebraucht wird und die "Pipeline" schon fertig ist und man das Endergebnis erwartet. Rundungsfehler an sich sind je nach Anwendung eigentlich auch gar nicht so schlimm. Denke gerade beim Gaming kann man da viel machen. Ob ein Pixel jetzt 0.001% vom Farbwert abweicht merken dann doch wohl nur die wenigsten. Je nach Einsatzzweck nutzt man ja auch bei Deep Learning sehr geringe Praezisionen.

Teralios schrieb:
Da stimme ich dir zum großen Teil zu. DLSS hat aktuell das Problem, dass es für jedes Spiel nicht nur separat implementiert werden muss, nein, es muss auch für jedes Spiel trainiert werden und da kommt es halt auch darauf an, wie gut die "KI" trainiert wird.

Ein genereller Ansatz wäre zu begrüßen, aber da kommen wir halt wieder an die Grenzen von Deep Learning in seiner aktuellen Form. Sobald Abstraktion erwartet wird, kracht es.

Die Probleme sind mir durchaus bewusst. Das groesste Problem ist, dass man genug Informationen braucht. Auch das von @ZeroZerp gelobte DLSS 2.0 benoetigt Informationen direkt aus der Game Engine. Selbst wenn hier ein einziges Modell genutzt wird muss die Game Engine eben genau die benoetigten Informationen liefern. Und das alles ohne die Informationen zu machen und nur das nutzen was der Treiber zu sehen bekommt wird richtig schwer.

Teralios schrieb:
Wobei man da sagen muss, dass es wir hier "nur" von den 8192 FP32-CCs sprechen, die gleiche Menge an INT32-CCs kommen noch mal obendrauf. ;)

Wenn wir fies sind, könnte man jetzt schreiben, dass NVIDIA nun massiv viele Shader braucht um mit AMD mitzuhalten. Im Ganzen hätte nämlich eine 3080 TI ganze 16384 Shader unter der Haube.

Moment CUDA Cores sind nur FP32? Ich dachte die beinhalten genauso INT32 und dergleichen? Oder war das das was bei Maxwell rausflog um die hohe Effizienz zu erreichen?

Aber selbst wenn die 8192 Cores schon alles beinhalten. Der Platz fuer die 1024 Tensor Cores und 256 RT Cores ist schon gewaltig. Wenn die Zahlen in dem Reddit Thread oben stimmen, dann wird der Die eine Groesse erreichen, die einfach nicht tragbar ist wenn er monolithisch ist.

Teralios schrieb:
Inhaltlich ist das, was er zum großen Teil schreibt, nicht falsch. Ich hab oft nur das Gefühl, dass er sich mit manchen Themen zu oberflächlich befasst und daher dann gewisse Aspekte außer Acht lässt und es dann in der Regel halt sehr oberflächlich/einseitig ist, was er schreibt.

Er ist in der Regel, was die Möglichkeiten der NVIDIA-Hardware sowie Intel Hardware gut informiert, vergisst aber dann sich auch mal die Gegenseite anzusehen und daher wirkt es dann oft so, als würde er AMD schlecht reden wollen. Dazu kommt dann eine gewisse Schwäche als auch ein Hang für Marketing-Blabla bei ihm.

Das ändert aber nichts daran, dass er inhaltlich in der Regel - im Gegensatz zu einer anderen Person, die ich nicht namentlich erwähne - richtig liegt, auch wenn es manchmal einseitig ist. Und was ich @ZeroZerp hoch anrechne ist, dass er auch auf Kritik eingeht, auch wenn man manchmal zu oft den Holzhammer braucht. Aber er macht es wenigstens und was ich ihm noch viel höher anrechne: Er ist direkt und kann auch mit ebenso direktem Echo umgehen, ohne dass er dann "beleidigt" ist.

Ja und nein. Es klingt teilweise so als wuerde er das Marketingmaterial lesen, aber nicht die technischen Details. Das heisst, er ist informiert, aber einigem wird dann frei interpretiert. Oder es fehlt der technische Hintergrund, das kann auch sein. Aber ja, das was du ihm hoch anrechnest, rechne ich ihm auch an. Auch wenn es sich teilweise so anfuehlt als wuerde man mit einer Wand reden.

Teralios schrieb:
Hat es in dem Fall auch.

Der GP104 hat bei 2560 CU (Pro SM: 128 FP32-ALU) ca. 314mm². Der TU106 hat bei 2304 CU (Pro SM: 64 FP32-ALU + 64 INT32-ALU) 445 mm². Der TU104 benötigt für seine 3072-Shader 545mm², während der GP102 mit seinen 3840 auf "nur" 471mm² kommt.

Die SM bei NVIDIA ist, wenn man es genau nimmt, immer noch sehr unflexibel. Jetzt können die Blöcke zwar 64 INT-Werte und 64 FP-Werte zur gleichen Zeit berechnen, aber diese Aufteilung ist eben hart in Hardware drin.

AMDs CU sind da deutlich flexibler. Bei GCN können die 4 Vec16-Einheiten flexibel auf die Werte verteilt werden. So können alle 4 FP-Werte annehmen, oder nur 2 und 2 kümmern sich um INT oder eben 3 für INT und eine für FP. Bei RDNA ist es auch so, auch wenn es nun 2 Vec32-Einheiten sind. Eine kann bei Bedarf mit INT-Werten befüllt werden, die andere mit FP-Werten.

Um aber weiterhin eine recht "flexibel" Einteilung der Vec-Einheiten zu haben, werden 2 CU zu einer Working-Group zusammen gefasst, sodass nicht zu viel "leerlauf" vorkommt, wenn INT und FP-Werte gleichzeitig berechnet werden müssen.

Nimmt man es "genau" so entspreicht eine Working Group bei AMD aus 2 CUs aktuell einer SM von NVIDIA, was die "ALUs" angeht. Beide haben 128. ;)

Die reinen Shader der 2080ti brauchen 471mm²? Laut Reddit bleiben dann noch 213mm² fuer Speicherinterface und Rest bei 70mm² fuer TC und RT. Mal rein aus Spass, dann waere ein Shader bei 0.123mm². Wenn wir von einer 50% Reduktion in Flaeche ausgehen waere die Monster 3080ti bei 504mm² fuer die Shader, 640mm² fuer die Tensor Cores und 90mm² fuer die RT Cores. Falls das Speicherinterface gleich gross bleibt und genauso geshrinkt werden kann noch grob 106mm² fuer das. Dann waeren wir bei 1340mm². Ja, also nein, ich glaube nicht, dass das als monolithischer Die so kommen wird. Selbst wenn die Reduktion auf 75% steigt haetten wir immer noch einen Die fast so gross wie die derzeitige 2080ti. Und falls ich Wikichip richtig interpretiere sind es eher 40%. Ich zweifle ein wenig an der Authenzitaet des Leaks...
 
Zuletzt bearbeitet:
Kacha schrieb:
Lazy muss jetzt eigentlich nicht Rundungsfehler bedeuten, sicher, dass das so genannt wurde?
Ob jetzt Lazy wirklich als Begriff verwendet wurde, kann ich dir nicht sagen, da ich das Paper nicht mehr habe. Ich hab es nur katalogisiert und dabei halt durchgelesen.

Es ging darum - wie du es mit den 0,0001 % Farbwert andeutest - dass gewisse Ungenauigkeiten bei der Berechnung. Es geht - vereinfacht darum - dass viel Energie als dafür benötigt wird, dass eine Rechnung exakt ist, während ein weniger exakte Berechnung Energie spart und schneller ausgeführt wird.

Vereinfacht:
1,000 + 1,000 = 2,000 ⇒ benötigt mehr Energie und ist langsamer.
1,000 + 1,000 = 2,001 ⇒ benötigt weniger Energie und ist schneller.

Wie gerne hätte ich das Paper jetzt zur Hand.

Kacha schrieb:
Moment CUDA Cores sind nur FP32? Ich dachte die beinhalten genauso INT32 und dergleichen? Oder war das das was bei Maxwell rausflog um die hohe Effizienz zu erreichen?
Nein, in dem Fall hast du mich falsch verstanden.

Bei Maxwell sind die CUDA Cores für FP64 rausgeflogen, dazu wurde damals die Struktur noch verändert, da unter Kepler die 192 CUDA Cores nicht effizient gefüllt werden konnten. Aus 192 CUDA Cores wurden 128 und die dedizierten CUDA Cores für FP64 wurden herausgeschnitten.

In dem Fall geht es aber um etwas anderes. Bis Turing ist es so, dass in einer SM alle CUDA-Cores nur den gleichen Befehl mit dem gleichen Datentyp ausführen können bei einem Tick. Wenn jetzt zu einer SM zwei Befehle kommen, die voneinander aber "unabhängig" - zum Beispiel eben wegen dem Wertetyp - dann konnte bis einschließlich Pascal diese Befehle nur nacheinander ausführen. Seit Turing können nun beide Befehle "gleichzeitig" ausgeführt werden.

Als Beispiel nehmen wir nun 64 Werte an, davon 48 INT, 16 FP:
Pascal muss nun erst die 48 FP-Werte berechnen - obwohl sie 128 CCs hat, danach werden die 16 INT-Werte berechnet auf denselben 128 CCs.
Seit Turing gibt es nun 2 64er-Blöcke an CCs pro SM, nun können die 48 FP-Werte sowie die 16 INT-Werte zur gleichen Zeit berechnet werden, weil die Berechnungen voneinander nicht abhängig sind.

ABER - wichtig: Diese beiden 64er-Blöcke sind sehr unflexibel. Beispiel dafür: Wenn jetzt 96 FP-Werte kommen würden, dann kann Turing nicht beide "64"-Blöcke nutzen, sondern der 64-Block, der für die FP-Werte reserviert ist muss erst die ersten 64 FP-Werte berechnen und dann in einem zweiten Tick die restlichen 32 FP-Werte. Der zweite Block ist speziell für einen weiteren Datentyp (INT)reserviert. Deswegen spricht man auch bei Turing nicht von 128 CUs pro SM, sondern nur von 64 CUs pro SM und eben bei den GPUs wie der 2070 S von 2560 CUs und nicht von 5120 CUs.


Kacha schrieb:
Die reinen Shader der 2080ti brauchen 471mm²?
Nein, in dem Fall geht es um die ganze Chipfläche, einzelne Werte habe ich nicht heraus gesucht, aber man kann daraus gute Rückschlüsse ziehen, gerade wenn man den GP102 gegen den TU104 vergleicht:

GP102TU104
Größe471 mm²545 mm²
L2-Cache3 MiB4 MiB
Speicherinterface384 Bit256 Bit
Shader (CC)38403072 (FP32) + 3072 (INT)
ROP9664
TMU240192
Tensor Cores-384
RT-Cores-48

Und ebenso den GV100 gegen den TU102.
TU102GV100
Größe754 mm²815 mm²
L2-Cache6 MiB6 MiB
Speicherinterface384 Bit4096 Bit (HBM2)

Shader
4608 + 46085120(SP) + 2160 (DP)
ROP96128
TMU288320
Tensor Cores576640
RT-Cores72-

Richtig klar wird es aber, wenn man sich GP107 und TU117 ansieht:
GP107TU117
Größe132mm²200mm²
L2-Cache1 MiB1 MiB
Speicherinterface128 Bit192 Bit
Shader768896 + 896
ROP3232
TMU4856
 
Zuletzt bearbeitet von einem Moderator:
Kacha schrieb:
Laut diesem Reddit Eintrag, 1.25mm² fuer einen Tensor Core und 0.7mm² fuer einen RT Core. Bei der 2080ti also grobe 10% fuer eine relativ kleine Anzahl an Cores.
Ja- Reine Spekulation wie eine Organisation/ Größenverhältnisse bei der 3080TI ausfallen werden.

Mir ist durchaus klar, dass ein erhoehter Grad an Parallelisierung in der Regel mehr Overhead erfordert, aber deine plakative Behauptung, und warum keine 5k Shader, solltest du mit etwas mehr Informationen untermauern.
1. https://de.wikipedia.org/wiki/Amdahlsches_Gesetz
2.Kannst Du Dir mal in der Evolution der NVIDIA- Karten (bei den hochkernigen) ansehen, wie hoch die relative Ausbeute zur gesteigerten Corezahl ist. Die nimmt naturgemäß stetig und ab einem gewissen schwellwert immer stärker ab.

Ich gebe mal ein ungenuegend in Sachen Textverstaendnis, da ich klar sage, dass DLSS wie es jetzt ist unbrauchtbar ist und es erst brauchbar wird wenn es durch ein generelles Modell und nicht ein Modell fuer jedes Spiel und jede Aufloesung erreicht wird. Mal abgesehen davon, dass DLSS genauso diminishing returns hat und nicht magisch einfach weiter skaliert.
Mein Textverständnis ist ganz hervorragend, nur hast Du offenbar meinen Wink mit dem Zaunpfahl nicht verstanden, dass Du mit dem von Dir verfassten Text sowohl herausgestellt hast, dass Du von einem Thema schreibst, welches Du nicht verfolgst was auch den Schluss zuliesse, dass es Dich nicht sonderlich interessiert.

Dennoch stellst Du falsche Tatsachenbehauptungen auf. Ich habe nicht umsonst geschrieben, dass ich Dir dazu rate, Dich noch einmal ins Thema einzulesen, bevor Du weiter schreibst.

Spoonfeed deluxe:
https://www.nvidia.com/de-de/geforce/news/nvidia-dlss-2-0-a-big-leap-in-ai-rendering/

Somit- Damit Du meine Ausführung verstehst.
Wir sind durch DLSS 2.0 bereits vor einem Viertel Jahr da angekommen, wo Du die Definition als "brauchbar" einstufst.
-Es muss nicht mehr einzeln trainiert werden
-Es ist nicht mehr auflösungsabhängig
-Bei jedem Spiel mit temporalen Antialias ist es ohne großen Aufwand integrierbar

-Die großen Engines (wie z.B. Unreal arbeiten diese Funktion per Default in ihre Branches ein).
Somit werden innerhalb kürzester Zeit sowohl DLSS als auch hoffentlich deren Direct ML Derivate auf Seiten AMD aus dem Boden sprießen.

Wer lässt schon einfach 60-150% und mehr Leistung einfach so auf der Straße liegen?


Wie oben dargelegt kostet das eben doch ganz gut Platz und es skaliert eben auch nicht ewig. Von dem her, klar werden sie es erstmal erhoehen, .... da DLSS so wie es jetzt ist eben doch mit ziemlich viel Aufwand verbunden ist. RT duerfte einfacher sein und sich am ehesten durch die Konsolen durchsetzen.
Aufgrund des Veralteten Informationsstandes, den Du hast, musst Du natürlich so argumentieren.


DLSS 2.0 ueberfliegen verneint deine Aussage ziemlich schnell. Es benoetigt immer noch eine Anpassung pro Spiel, bzw. die richtigen Informationen der Game Engine. Ja, sie sind einen kleinen Schritt weiter, aber noch lange nicht dort wo sie sein muessten.
Das ist eine sehr gewagte Aussage, wenn man bedenkt, dass das DLSS hochgerechnete Bild dem der Ursprungsauflösung auch in manchen Bereichen überlegen ist.

Wo sollte das denn sonst noch hingehen, wenn sie ob dieser Tatsache Deines Erachtens (noch lange nicht dort sind, wo sie sein müssten)?
Es beschleunigt erheblich bei gleichbleibender Qualität und vermindert das Antialias ohne den Nebeneffekt der Unschärfe.

So lange das Modell nicht komplett im Treiber ist und auch keine Informationen mehr direkt von der Engine/dem Spiel benoetigt, so lange ist es nett, aber nicht toll.
Aha- Nachdem Du nun gemerkt hast, dass Deine Anforderungen durch das neue DLSS erfüllt sind, wird schnell eine neue Bedingung erfunden (um noch ein Haar in der Suppe finden zu können).

Und hier nochmal- Sobald ein Temporales Antialias in Spielen integriert ist, kannst Du stattdessen auch die NVIDIA Blackbox laufen lassen.

Dass viele Verfahren im Post- Processing nicht greifen, sollte Dir klar sein.

Es ist toll, dass du das derzeitige Stadium schon so gut findest, aber wir sind noch ein gutes Stueck von "wir schmeissen Tensor Cores drauf und haben magisch mehr Leistung" entfernt.
Nein- Genau so funktioniert das im Augenblick, wobei ich feststellen kann, dass Du Tensor Cores und das ganze Verfahren als Magie bezeichnest.

Da steckt deutlich weniger Magie und KI drin, als Du offensichtlich vermutest.

Ah, ok, ja, klar... Der "irgendwas wird es magisch richten" Ansatz.
-Würdest Du meine Begründung lesen, wüsstest Du, dass das nichts mit Magie sondern mit für jeden in der Praxis zu beobachtenden Gegebenheiten zu tun hat.

Rytracing ist im Gegensatz zur Rasterisierung fast undendlich paralellisierbar (Praxisbeispiel Cinebench), da Du fast bis auf das Pixel runter in Arbeitspakete aufteilen kannst, die unabhängig voneinander abgearbeitet werden können.

Stell Dir eine GPU vor, die ein Steuer Chiplet hat und viele kleine Worker- Chiplets. Gefertigt in einer für die Ausbeute der Fertigungsfabriken optimalen Struktur und Größe (höchte Yield- Raten).
Du kannst nun billigst diese Mini- Chiplets in Masse auf eine Karte integrieren und jedes einzelne davon beschleunigt den Raytracing- Vorgang.

Brauchst Du mehr Leistung- Kein Problem. Zweite Karte dazustecken und schon ists fast doppelt so schnell.
Nochmal- Im Gegensatz zum Rastern skaliert RT unendlich viel besser.

DLSS ist in der Tat nicht hardwarebasiert, aber ich denke das sollte dir klar sein. Man kann neuronale Netze direkt in Hardware implementieren, allerdings hat man dann ein Netz und fertig. Von her, DLSS ist Software. Natuerlich laeuft Software auf irgendeiner Hardware, aber das macht es nicht hardwarebasiert.
Was ist denn das für ein schräger absatz? Du kannst JEDE beliebige Berechnung natürlich auf einem CISC Prozessor immer auch per Software durchführen.

Du kannst allerdings auch Schaltungen und Spezialeinheiten dafür in Hardware gießen und die Funktion beschleunigen. So what?
Stellst Du jetzt hier ernsthaft den Vorteil von fixed function Hardwareschaltungen zur Diskussion?

Du hast ja selber schon MCM angesprochen. Ausserdem gibt es genauso Forschung dazu verschiedene Strukturgroessen im selben Chip zu nutzen fuer unterschiedliche Komponenten. Oder um es mit deinen Worten zu sagen, einfach mal recherchieren.
Siehe oben- Das meine ich nicht. Zudem werden sowieso in allen Chips unterschiedlichste Strukturgrößen belichtet.

Eine Generation ist ok, aber jetzt nichts herausragendes, es sind 2 Jahre. Da muss man jetzt nicht in Jubel ausbrechen, zumal DLSS eben nicht einfach unendlich weiter skaliert.
Muss es auch nicht - Bei 8 K wird in jedem haushaltsüblichen Raum (auch den größeren) auflösungstechnisch erst mal schluss sein.

Gerne. Aber nur um das noch einmal in Kontext zu bringen, da der anscheinend immer schnell verloren geht. Wenn Nvidia die 3080ti mit 8192 Shadern, 1024 Tensor Cores, 256 RT Cores in 7nm bringt und damit ganz schnell bei einem 800mmmm² Chip ist wie die derzeitige 2080ti, dann ja, dann wird das richtig kosten.
Sie werden für die 3080TI keine 2000€+ nehmen. Und genau das hast Du geschrieben.

Nein, nicht wirklich. Zumindest nicht so wie du vermeinst es herzuleiten. Jedes Unternehmen versucht seinen Profit zu maximieren und lotet aus was fuer Preise es verlangen kann.
Genau das macht AMD ganz offensichtlich im CPU Sektor nicht so.

Wieso also gehst Du davon aus, dass sie es im GPU Sektor plötzlich anders handhaben sollten?

Die optimieren ihren Profit und natuerlich macht AMD da froehlich mit und steigert ihre Marge ebenfalls. Denn die Spieler machen ja froehlich mit. Da wuerden einen die Aktionaere ja kreuzigen, wenn man das nicht macht.

Nochmal: Wieso also gehst Du davon aus, dass sie es im GPU Sektor plötzlich anders handhaben sollten, als auf dem CPU Sektor.

Die Ausgangslage und die Konkurrenzsiuation ist doch genau die gleiche.
Und daher ist eben Deine Herleitung falsch. Du versuchst zwei Unterschiedliche Konstrukte und Herangehensweisen auf die Produktbereiche der Firma zu stülpen, die sich aber markttechnisch jeweils in der gleichen Ausgangslage befinden.

Das ergibt keinen Sinn. Demnach würdest Du ja unterstellen, dass Lisa Su die Leute damit anschwärzt, im GPU Sektor alles dafür zu tun um Konkurrenzfähig zu sein.

Allein an Features wie DLSS, welche ja performancetechnisch "nur" 2 Jahre vorausgreift, lassen eine moderne Radeon bei Nutzung wie Altmetall dastehen.

Und nein- Es braucht keine Fantasie um zu erkennen, dass sich die Entwicklung mehr Leistung für weniger Geld immer weiter fortsetzt. Du kriegst ne 2060 für 300,-€. Die kommt knapp an die Leistung der 1080 GTX ran, die man Jahrelang für 400-500,-€ eingekauft hat.
Dazu Raytracing on Top, DLSS und VRS. Somit ist die 2060 in manchen Szenarien doppelt so schnell (DLSS) und mit RT bis zu 7x so schnell als eine 1080 GTX.

Und Du redest davon, dass alles teurer wird und man nicht mehr Leistung bekommt?
Das geht doch arg weit an der Realität vorbei.

Da sind einige Personen so fixiert auf den Preis einer 2080TI, die gegenüber der 1080TI um 2 Klassen aufgewertet wurde, dass sie nicht mehr sehen, dass die Karten außerhalb des Enthusiastensegments genau den gleichen Weg gehen wie immer. Mehr Leistung- Weniger Geld.

Diesbezüglich hat NVIDIA einen groben Marketingschnitzer begangen. Sie hätten die 2080TI zu einer 2100TI machen müssen und die darunter liegenden Karten inkl. dem Super- Portfolio niedriger nach unten staffeln müssen, dann wären die Leuts wieder zufrieden gewesen und sie hätten gezeigt, dass sie eine neue Klasse geschaffen hätten, die zwar unterhalb einer TITAN liegt aber überhalb einer normalen xx80TI.

Dann wäre auch die Preisdiskussion nicht so ausgeartet.

Schliesslich hätten sie ihre vermeintliche 2080 TI dann für 699,-$ haben können.

Aber das sind nur meine 2 cents

LG
Zero
 
Zuletzt bearbeitet:
ZeroZerp schrieb:
Nochmal- Im Gegensatz zum Rastern skaliert RT unendlich viel besser.
Du weißt es wahrscheinlich, aber nur der Vollständigkeit muss ich hier darauf hinweisen, dass zwar die meisten Berechnungen (Strahlenflug, BVH-Durchgang) super parallelisierbar ist, aber RT Schwierigkeiten beim RAM-Zugriff hat. Auch sind Berechnungen wie die BVH-Aktualisierung schlechter auf einzelne Chips verteilbar. Dein Szenario funktioniert nur dann gut, wenn jeder Chiplet genug Cache hat, die BVH selbst zu speichern um dann schnell darauf zugreifen zu können. Das wiederum limitiert dann die Komplexität einer Szene auf die Cache-Größe, womit wieder ein Vorteil von Raytracing wegfällt.
ZeroZerp schrieb:
Du kriegst ne 2060 für 300,-€. Die kommt knapp an die Leistung der 1080 GTX ran, die man Jahrelang für 400-500,-€ eingekauft hat.
Soweit ich weiß entspricht die 2060 ohne Super eine ehemaligen 1070. Hast du einen Test mit mehr als einem Spiel, der das untermauert? Für die RTX ohne Super galt bislang, dass sich an der Preis-Leistung bei vielen Modellen wenig getan hat.
ZeroZerp schrieb:
Schliesslich hätten sie ihre vermeintliche 2080 TI dann für 699,-$ haben können.
Das wäre aber die 2080, die nur in den aktuellsten Spielen an der 1080Ti vorbeizieht. Zum Launch hätte das nicht gut ausgesehen.


Übrigens, @ZeroZerp und @Kacha, versucht doch bitte etwas besonnener mit der Diskussion umzugehen. Ihr dreht beide auf, sobald der andere etwas unklar formuliert und werft direkt völlige Ahnungslosigkeit vor. Das muss man doch nicht machen, selbst wenn der andere eine andere Meinung von der Technik hat als man selbst ;)
Ergänzung ()

Kacha schrieb:
Eher die Erweiterung von Shadern. Ja, das kostet auch Chipflaeche, aber wenn man es richtig umsetzt kann man sie auch fuer andere Aufgaben einsetzen.
Das kann man ja jetzt auch. Fern der Shader sind sie nicht, nur eben wie vorher geschrieben eine Hierarchie mehr als (mutmaßlich) bei AMD.
 
Colindo schrieb:
Du weißt es wahrscheinlich, aber nur der Vollständigkeit muss ich hier darauf hinweisen, dass zwar die meisten Berechnungen (Strahlenflug, B... r Chiplet genug Cache hat, die BVH selbst zu speichern um dann schnell darauf zugreifen zu können. Das wiederum limitiert dann die Komplexität einer Szene auf die Cache-Größe, womit wieder ein Vorteil von Raytracing wegfällt.
Du musst den Ansatz weiter spinnen und dich von dem "alles auf einem Chip"- Gedanken lösen. Du kannst jedem Worker Chiplet einen komplett eigenen Cache mitgeben und auch einen unified- Zugriff auf den RAM.

Du kannst auf die Karte auch einfach 8 GPUs stecken und es skaliert. Du kannst auch einfach 2 Karten ins System stecken und es skaliert. Alles Dinge, die beim Rasterisieren so nicht funktionieren.

Wie unabhängig das Rendern von gemeinsamen Kommunikations- und Speicherstrukturen ist, siehst Du schön an größeren Renderfarmen oder Renderclustern. Wie gesagt- Das ist ein Idealszenario in Sachen unabhägiger Berechnung und parallelisierbarkeit.

Soweit ich weiß entspricht die 2060 ohne Super eine ehemaligen 1070. Hast du einen Test mit mehr als einem Spiel, der das untermauert? Für die RTX ohne Super galt bislang, dass sich an der Preis-Leistung bei vielen Modellen wenig getan hat.

Hab einfach mal die ersten drei genommen:
z.B. hier


sobald der andere etwas unklar formuliert und werft direkt völlige Ahnungslosigkeit vor. Das muss man doch nicht machen, selbst wenn der andere eine andere Meinung von der Technik hat als man selbst ;)
Das habe ich nicht getan. Nur war ich nicht seht erfreut darüber, dass man jemanden quasi vorsichtig stupst und quasi mitteilt:Vorsicht- Da hat sich was geändert und dann nur ein "ich hätte mangelndes Textverständnis" zurückkommt.

Wenn mir jemand nett eine Option zum "Rückzug" bietet, dann schaue ich zumindest nochmal nach, ob das was ich da so selbstsicher verzapfe auch tatsächlich noch den tatsachen entspricht.
Da hat aber das Gegenteil stattgefunden und die "Angriffe" wurden dahingehend wiederholt und verstärkt.

Dann muss man halt auch klar werden, zumal ich meine Aussagen ja auch untermauert habe. Es war dennoch nicht meine Absicht da irgendwie böse rüberzukommen. Ich habe nirgends fallen lassen, dass er ahnungslos wäre, sondern eher informationell hinterher bzw. nicht interessiert.

Ahnungslos ist er nicht, hat er doch den DLSS Stand von Anfan bis vor einem halben Jahr relativ richtig wiedergegeben.

In diesem Sinne @Kacha - Bitte nicht persönlich nehmen oder irgendwas "böses" reininterpretieren. Ich will hier keinem an den Karren fahren. Ist nur ein Tech- Talk...

LG
Zero
 
ZeroZerp schrieb:
Wie unabhängig das Rendern von gemeinsamen Kommunikations- und Speicherstrukturen ist, siehst Du schön an größeren Renderfarmen oder Renderclustern. Wie gesagt- Das ist ein Idealszenario in Sachen unabhägiger Berechnung und parallelisierbarkeit.
Hmm, jetzt bin ich in der Situation, meine Aussage einfach nochmal wiederholen zu wollen. Ich versuch's mal mit Umformulierung.

Soweit ich weiß, werden Renderfarmen nicht bei Spielen, sondern bei statischen Raytracing-Situation eingesetzt: Spielfilm-CGI und computeranimierte Filme. Korrigiere mich, wenn ich falsch liege, aber mein Wissensstand ist, dass die BVH-Aktualisierung da nicht gut skaliert, sondern als Zwischenschritt für jeden Frame vorgenommen wird.
Und ob der Algorithmus, der jetzt bei monolithischen Graifkkarten funktionier, bei Chiplets noch schnell genug ist (abhängig von Anbindung, Aufgabenteilung etc.), können wir jetzt noch nicht wissen.
Bei der Speicheranbindung das gleiche, wenn alle Chiplets gleichzeitig den neuen BVH-auslesen, kann das auch Bandbreitenprobleme bringen. Ich kann mir vorstellen, dass das passiert, bevor wir bei Grafikkarten sind, die pro Pixel einen RT-Core besitzen.

Ich wollte also einfach von der Aussage "perfekte Skalierbarkeit für das gesamte RT" relativieren zu "perfekte Skalierbarkeit für die meisten Rechenschritte von RT". Wo der Flaschenhals genau liegt, wird die Zukunft zeigen.
ZeroZerp schrieb:
Das habe ich nicht getan. Nur war ich nicht seht erfreut darüber, dass man jemanden quasi vorsichtig stupst und quasi mitteilt:Vorsicht- Da hat sich was geändert und dann nur ein "ich hätte mangelndes Textverständnis" zurückkommt.
Ich habe ja hier mitgelesen und mit "vorsichtig gestupst" würde ich das nicht bezeichnen. Nimm es mir nicht böse, ich denke du schießt mit deinen Aussagen öfter über das Ziel hinaus, besonders wenn mehrere Leute vorher hintereinander was ungenau aussagen. Dass die dann auf Korrekturen gar nicht eingehen, ist natürlich deren Fehler. Aber es sind ja immer zwei beteiligt...
Ergänzung ()

Hab mir die Benchmarks 2060 vs 1080 angeschaut, aber den Videos fehlt eine vernünftige Ergebnisübersicht in mindestens 1440p. Aber du hast schon nicht unrecht. Im CB-Launchtest lag die 2060 5% hinter der 1080, im neueren Test der 2080 Super war sie 6% hinter der 1080. Beide Male deutlich (ca. 15%) vor der 1070. In der Klasse gab es also einen Fortschritt gegenüber 2016 :)
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Teralios
ZeroZerp schrieb:
Und hier nochmal- Sobald ein Temporales Antialias in Spielen integriert ist, kannst Du stattdessen auch die NVIDIA Blackbox laufen lassen.
Wie sieht es denn bei Ubisoft Spielen aus? GR Wildlands und Breakpoint , The Division 1 und 2 nutzen Temporales AA. Macht Ubi da mit, oder weiß man es nicht. Kann man das dann eventuell im Nvidia Treiber auswählen ohne im Spiel was zu machen, oder muß man in jedem Spiel noch Anpassungen vornehmen?
 
Zurück
Oben