News Ada, Hopper und Blackwell: Neue Details zu Nvidias Next-Gen-Architekturen

Wasserhuhn schrieb:
Das stimmt leider nicht so.
Zunächst einmal werden Spitzen nicht in Watt, sondern VA angegeben.
Des Weiteren sind Staubsauger in mehrerlei Hinsicht ineffizient gewesen und bieten designmäßig Optimierungsmöglichkeiten an.

-Universalmotoren sind ineffizient
-Beutellösungen haben nach Beutelfüllung immer weniger Saugleistung
-Der ganze Luft-/Leckstrom.
  • Die EU Verordnung hat nichts mit Schein- und Wirkleistung zu tun, es gibt nur eine Wattbegrenzung.
  • Universalmotoren sind nicht verboten worden.
  • Beutellösungen sind nicht verboten worden.
 
selber schuld wer mit mehr wie 1080p gaming anfängt. wo soll das aufhören? bei monitoren die alle 4 wände abdecken :D klar braucht man dafür rechenleistung.
 
  • Gefällt mir
Reaktionen: Slayher666
downforze schrieb:
In Anbetracht explodierender Preise für Strom, Gas und Öl werden die Karten ohne Zweifel noch teurer. Dann will ich auf der anderen Seite nicht mit der GPU schon 500 W durchblasen. Einzig eine ausreichende Anzahl an Raytracing-Einheiten könnte mich vom Kauf überzeugen - ein Feature, was zwischen 40% und 80% Performance kostet, kann man sich sonst direkt sparen.
Warum eigentlich nicht? Brauchst keine Heizung mehr, nutzt die Abwärme gleich zum Heizen ^^

Leon_FR schrieb:
ich frage mich wirklich (ist kein troll) ob mein 1000 watt be quit ausreicht. neu gekauft 2 monate alt weil ich das sehn kommen hab. aktuell 12900k mit 250 watt begrenzung mit 2070s oc. schaff das ding ne 4080ti ?

Sicher nicht, dein Netzteil hat nämlich kein 450/600W PCIe 5.0 16 Pin Stecker ;)
Ich warte auf die neuen Netzteile mit 12HVPWR Stecker^^
 
Artikel-Update: GeForce RTX 4000 mit bis zu 96 MB L2-Cache?
Einmal mehr finden Informationen zu den kommenden GeForce RTX 4000 ihren Weg an die Öffentlichkeit. Diese gehen auf @Kopite7kimi und @ftiwvoe zurück und bringen einen bis zu 96 MB L2-Cache für die Grafikprozessoren auf Basis der Ada-Architektur ins Spiel.

Verglichen mit den maximal 6 MB L2-Cache, die der Ampere-Architektur zur Verfügung stand, wird in der Gerüchte über eine dem Infinity Cache von AMD ähnliche Lösung spekuliert.

[Embed: Zum Betrachten bitte den Artikel aufrufen.]

Im Vergleich zur GeForce-RTX-3000-Serie („Ampere“) soll Nvidia den L2-Cache bei Ada wirklich signifikant ausbauen, so die aktuellen Gerüchte.

[Tabelle: Zum Betrachten bitte den Artikel aufrufen.]

Auch @harukaze5719 veröffentlichte einmal mehr ein auf den aktuellen Gerüchten basierendes Blockdiagramm des AD102-Grafikprozessors, der voraussichtlich auf der GeForce RTX 4080, 4080 Ti und 4090 zum Einsatz kommen soll.

[Embed: Zum Betrachten bitte den Artikel aufrufen.]
 
  • Gefällt mir
Reaktionen: schneeland, PietVanOwl, Shoryuken94 und 2 andere
Der große L2 Cache klingt interessant. Ich bin gespannt, was die RTX 4000 an IPC Zuwächsen liefern kann. Mit dem Monolithischen Chip dürfte der Zuwachs beim L2 Cache alleine schon einiges bringen.

Wird ein interessantes GPU Jahr.
 
  • Gefällt mir
Reaktionen: Colindo
16x so viel L2 Cache.... da bin ich gespannt, solange die (BITTE OH HERR) keine 800 Watt ziehen.
 
Ist der größere L2 Cache vergleichbar mit der Lösung von AMD (Infinity Cache)?

EDIT: nvm... habe den Artikel nicht genau gelesen ;D
 
  • Gefällt mir
Reaktionen: Tagesmenu, hahaqp, ThirdLife und 2 andere
Werden sicher tolle Karten, ob sie dann auch zu kaufen sein werden, ohne dafür 3000+ zu zahlen wird sich zeigen. Ansonsten uninteressant.
So wie es derzeit in der Welt zu geht, und wenn man bedenkt das dann Intel GPUs, AMD und Nvidia alles bei TSMC fertigen lassen bin ich eher der Meinung es wird noch teurer und schwerer so eine 4080 oder 4090 zu bekommen.
 
Im Vergleich zur GeForce-RTX-3000-Serie („Ampere“) soll Nvidia den L2-Cache bei Ada wirklich signifikant ausbauen, so die aktuellen Gerüchte.

Hust ...
Nicht nur der Cache wird ausgebaut ... auch der Preis ...

4090 3000.-
4080 2400.-
4070 1500.-
4060 1000.-
4050 500.-

Die Watt Angaben beziehen sich alleine auf die geforderten Netzteile ...
Man kann sich auf einiges gefasst machen ... nicht nur in Sachen Performance ... LOL
 
Zuletzt bearbeitet von einem Moderator:
Wofür braucht ne dgpu mehr cache?

Als erstes der verdacht das damit ähnlich zu amd Lösung die bandbreite zu erhöhen stimmt so nicht
Das wird nvidia kaum von amd lizensieren wollen dafür wäre yuan zu stolz.

Nein es könnte heißen das die sm struktur geändert wurde den mehr cache bedeutet das die sm mehr fp32 Operationen pro shader kann.
Ich habe diesen schritt erst beim Nachfolger gedacht.
Sieht man sich die waferpreise und die vermutliche Größen der chips hat nvidia keine Wahl als die arch auf mehr fp32 Durchsatz zu prügeln mehr takt wäre auch drin aber die arch hat ihre grenzen.
Amd rdna ist deutlich weniger dicht was hohe Taktraten begünstigt nvidia ampere könnte bis zu 2,5ghz geprügelt werden auf 7nm
Wenn aber nvidia die dichte um 50% vergrößert werden die chips billiger aber der Takt stagniert auf derzeitigen niveau. Sprich 5nm mit maxed 2,0ghz
Dann bekommt aber nvidia nen problem beim cpu limit was schon jetzt so ist.

Das liegt an der Natur von directx was immer einen Hauptthread benötigt der syncronisiert werden will
Sprich aus maximal 12 gpc (gleicht einer mehrkern cpu) kann nvidia nicht noch mehr an gpc verbinden und mehr shader in nen gpc hat denselben effekt
Lösung ist mehr takt oder mehr datendurchfluss anhand spezieller funktion einheiten
Das ist nicht neu, die erste directx 10 gpu von nvidia /tesla hatte in einen sm 8 fp32 und 2 sfu die aber pro takt 4 operationen ausführen
Folglich hatte zu der zeit 2006 rum einen g80 8800gtx 128sm in 16gpc in 2 shaderengines
Das brachte die gpui auf 8*2*16+4*2*8*1,35ghz=432gflops andere formel nur für diese gen 128*3*1,35ghz=432gflops
8 shader/stream prozessoren wie damals nvidia nannte*2 fp32 operationen pro takt* 16grafic group processor cluster+2 special function units (fp64* 4 operationen pro takt)*1,35 ghz shaderclock
Dies bedingt das der shader clock getrennt von coreclock lief
Also gpu core 675mhz shader 1350mhz
Dies behielt nvidia bis zu kepler generation bei und änderte dies erst mit maxwell wobei kepler den coreclock anglich zu shaderclock.

Ab fermi (gtx4xx serie 2010) konnten die dedizierten sfu keine fp32 Operationen mehr
Ab maxwell (gtx900 serie 2014) strich die sfu aus dem design. Seither gilt shader*2*takt.
Dann kam pascal (gtx1000 2016) im grunde strich man die sm auf 64shader pro sm und puschte den takt nahe der 2ghz Was mit 16nm möglich wurde man hing davor auf 28nm seit 2012
Turing 2018 8rtx20xx) wurde ein kompletter umbau der sm struktur gemacht
darin sind 64int32 und 64 fp32 mit tensor und rt cores
Die int32 konnten bis zu 50% fp32 operationen berechnen über software das musste aber in den spielen auf directx12 explizit programmiert werden.
Ampere 2020 (rtx30xx) änderte sich nochmal die sm struktur zu 64fp32+32fp64+64 int32+ tensor und rt core
leider hat das marketing die angaben der shader leistung vermurkst
Formel dafür ist shader 64*2+32*2*gpc*takt= bsp wäre ga102 mit 5248 shader*2+*2*2626*1,9= 29913 gflops
Daruas wird vermutlich ad102 (rtx40xx) 12 gpc*64fp32 +48 fp64 *12*2*takt von 2,2ghz =70963 gflops
Da aber der ad102 136sm aktiv hat sind es nur 67020 gflops
das wäre eine lösung für mehr durchsatz oder es kommen wieder sfu 2 sfu pro sm dazu
sprich 12*2*2=48 fp32 pro sm=576gflops bei 1ghz
Formel dann 9216+4608+576*2*2,2=63 360gflops
Die sfu könnten dann sehr schmal ausfallen quasi zur hlfte von den fp64 vor den rt cores platziert werden
Dies würde kaum diefläche benötigen ich gehe von max 5% aus
anstatt mein verdacht auf 48fp64 was etwa 15% diefläche macht
Wir wissen das der ad102 600mm² groß ist pi maldaumen
nehme ich an das 5nm etwa 7nm 13% denser als 8nm mit 144sm *0,7 (30% kleiner)*1,05=
bsp 826mm² ga102 *0,87*0,7*1,05=528mm² oder *1,15=578mm²
Dazu mehr cache von 5%=1,2=603mm²
5nm kann bis zu 45% keiner werden als 7nm
Aufgrund von Wärmnedichte würde ich das nicht ausreizen und stattdessen größer bleiben womit der Takt syncroin steigt sprich aus 45% nehme ich 30% und habe 15% mehr takt. +15% um die tdp zu maximieren.
128sm brauchen etwa 250w mit vollen chip 144 dann 281w auf tsmc 7nm*0,7 *1,15 takt(1,9hghz)=226w+ oc ab werk 300mhz
226*1,1*1,1*1,15*1,15*1,2*1,2=520w bei 2,2ghz (600mm²)
Sprich der chip läuft in 1,9ghz im sweetspot mit nur 61 tf und oc dann 67tf
amd rdna3 mit 3 operationen pro takt käme mnit n32 auf 64tf bei nur 2,1ghz
Das aber kann man getrost als geraten angeben denn auch amd wird ein problem bekommen.
Nehme ich an das amd den n31 doch auf dem desktop komt sind die chips riesig.
7680shader pro chip mal 2 520*0,7*1,5=546mm²
Das wird teuer da man 2 chips plus einen I/O chip oben drauf hat der die Größe fasst abdeckt von 800mm²
vermutlich 12nm glofo oder tsmc kosten pro wafer etwa 6000$
Wird die sku dann etwa 2299€ kosten und wäre gerade mal so schnell wie nvidia mit maxed 1499€
Daher muss amd schon die fp32 pro wgp (die shader gruppe von amd entspricht dem was sm von nvidia nennt) verbessern mein verdacht ist das 3 fp32 in 256shader ausgeführt werden können
Das reduziert die kosten für den mcm
Der kleinere chip (n32 4096 shader) also 520*0,7=364mm² käme auf 1699€ mit 10240shader und dann etwa 70tf Annahme von 2,4ghz.
nvidia hofft einfach das amd mcm nicht wirklich die doppelte leistung schafft
Ähnlich zu sli mit maxed 1,75 Auslastung dann wäre man schneller und billiger sprich es werden real nur 64tf erreicht
Aber nach dem ich soviel weiß mit dem Brückenchip agiert das mcm design wie eine gpu sprich es sind wirklich doppelte Leistung möglich einzig der Takt ist unbekannt wird amd auf 2,4ghz gehen oder nicht
Das hängt primär von der Effizienz ab.
Mögliche 30% Einsparung bei gleichen Takt ergeben 192,5w mal 2 +I/O ~50w=435w bei 2,3ghz
Mit 2,4ghz dann 479w

Anders kann amd nicht handeln um konkurrenzfähig zu sein oder amd verkauft die sku zum geringsten preis sprich n32 wird 2 sku haben und dann eine mit 1499€ und die andere mit 1299€
qusi wird damit die auteileung beim wafer preis zusammengerechnet wodurch dr durchschnittpreis eines chips reduziert wird.
mögliche Ordnung wäre
rx7900xt70tfn321499€ 435w
rx7800xt56tfn321299€ 375w

vs nvidia mit 12gpc und realen 15232 fp32 67tf 1499€ mit 520w
RTX408067tfad1021499€ 520w
Ob es nochn kleineren sku gibt unklar

Das wäre realistisch
Wie beschrieben die größere chips als mcm können unter 2299€ nicht hegestellt werden ohne das die marge gesenkt werden muss.
Und wie ich Tante SU kenne wird die niemals den profit der mühsam erarbeitet wurde seit rdna senken
Zu gcn Zeiten (2012-2018) war diese bei maxed 30% heute sind es 70% auch dank des Erfolges von ryzen.
Konnte rdna konkurrenzfähig sein und man hat ab dann 70% marge wie nvidia festgesetzt.

Im übrigen sind die angaben aus den quartalsbeichten

Cpu Kalkulation ist etwas anders hier gehe ich auch von etwa 1000% marge aus inklusive Forschung für die nächste arch macht pro chip+io DIE 160€
Wenn amd mal in Rückstand käme wäre das das mimimum für einen 8 core chip
Derzeit kostet ein 8core etwa 350€
man sieht ipc Vorsprung zahlt sich aus. intel müsste mit meteo lake (2024) schon min um 50% schneller werden damit amd gezwungen wird auf diesen min Preis zu senken.
Entsprechend je mehr chiplets teurer sprich min wären fürn 16core dann 325€ fällig (jetzt etwa 699€)
ich weiß das amd zen4 schon 25% diese Jahr aufschließt und in Führung gehen wird
Ob intels ci 13th gen das einholen kann ist offen es wird eng intel spracht von 15% vs 12th gen
ich erwarte etwa 10%
Amd liegt derzeit etwa 5% hinten wird also mit zen3d überholen und mit zen4 die Führung haben von min 20%
Danach weis ich es nicht, da zen5 noch nix bekannt ist aber ich ahne großes um die 50% ipc plus vs zen3=270cb15 zen5=405 cb15
Intel wird da nur auf 379 kommen wenn intel mit meteo lake nur 25% zulegt ich hoffe aber auf min 40%=423
das würde amd preise zurechtstutzen.

Ab 2028 wird es eine Takt explosion geben weil man den transistor grundlegend effizienter macht sprich mehr Takt.
ich sehe es kommen das wir 2029 pünktlich zu apophis, cpu mit 8ghz sehen werden und gpu bei 5ghz
Das wäre drin wenn das patent umgesetzt wird.
Das aber ist sehr spekulativ....

Kurz
Für diese Jahr ist der Sieger unklar amd kann es sein mit n33 bis Jahresende ab Herbst wird aber nvidia mit dem ad103 in Führung gehen 84sm aktiv von 96 etwa 41tf als rtx4080 vs 30,7tf als rx7700xt
Erst q1 2023 wird amd mit n32 2 sku haben und dann rx7800xt mit 56tf und rx7900xt mit 70tf zu den besagten preisen.

Daher gehe ich davon aus das amd im Sommer die rx7800 vorstellen wird. für etwa 589€ +25% vs rx6900xt
vs ad103 als rtx4080 mit 40tf und 1199€ +37% vs rtx3090


Spannender ist der ad104 mt 60sm als rtx4070 mit 559€ auch etwa 30tf
nur ist unklar ob nvidia zuerst den high end bringt oder die mittelklasse.
Das hängt davon ab ob amd zuerst mcm bringt oder nicht bis 2023 jedenfalls sehe ich keine mcm gpu kommen.

Der Kampf wird eher der 600€ Bereich sein
amd n33 vs ad104

Und im low end wirds richtig spannend
amd refresh n22 (14,3tf) vs intel arc 512 (19tf) vs ad106 (16,5tf) in 300€ Bereich wenn intel Treiber kann.
Der Kampf findet aber erst 2023 statt ohne intel wird man mal die uvp erreichen der aktuellen gen. Und der Kampf findet in 400€ Bereich statt
Aber ich hab Hoffnung die letzten test zu xe igp sind die intel arc chips etwa 15% hinten vs amd und nvidia bei gleicher shaderleistung.
Das ist aber reine Treibersache und intel wird die gpu am markt durchdrücken mit Kampfpreise und kleiner marge von maxed 20%
Die größte sku erwarte ich bis 299€ mit 19tf und der tiefste preis bei 249€
zum vergleich die rtx3070ti gleiches niveau kostet derzeit 900€ (uvp 599€)
Also lass uns beten das intel Treiber kann.
Zum abschluß was übersichtlicher

RX 7800 16gbn33589€+47% vs rx6800mid class
rtx4070 16gbad104559€+61% vs rtx3070timid class
rx7700xt 8gbn22299€+15% vs rx6700xtlow class
rtx4060 8gbad106299€+71% vs rtx3060low class
rx7600 8gbn23199€+15% vs rx6600low end
rtx4050 8gbad107189€+79% vs rtx3050low end

tut schon weh wen das kommen wird wenn man die preise zu jetzt sieht.
Bedingung ist das intel mitmischt.
wann............ nun das ist offen.
Der entry level also ad10b wird um die 119€ sein mit 10tf das entspricht dann der rtx3060 als rt4030
Die erwarte ich aber erst 2024 gut möglich das die dann rt5030 heißen wird.
 
  • Gefällt mir
Reaktionen: derSafran, chilchiubito, el_zoido und 4 andere
Aus der 4000er Serie wird eine davon meine nächste Grafikkarte.
Die Stromkosten sind mir mit einem passenden Netzteil wumpe und die Themen Lautstärke und Abwärme sind nur ein Thema, wenn man am Tower spart.

Der PC ist so etwas wie ein Haupthobby von mir, weshalb ich da gerne regelmäßig Geld investiere, zumal man sowohl privat als auch im Homeoffice diverse Aktivitäten kombinieren kann, welches an einer Konsole eben nicht möglich ist.

Meine letzte RTX 2080 Titanium kostete rund 1400 EUR - das macht in rund 40-50 Monaten seit dem Kauf ca. 30-35 EUR Kosten pro Monat. Vieles an monatlichem Bedarf in Summe ist damit teurer.
 
@SV3N Falls ihr einen guten Draht zu NVIDIA habt, könntet ihr mal fragen ob man bei Ada realistische Chancen auf eine Karte hat? Das würde hauptsächlich bedeuten NBB als Partner zu ersetzen, die es in meinen Augen absolut nicht hinbekommen einen halbwegs fairen Prozess aufzusetzen.
 
  • Gefällt mir
Reaktionen: bikerider
Maxxx800 schrieb:
wenn man bedenkt das dann Intel GPUs, AMD und Nvidia alles bei TSMC fertigen lassen
Wenn man den aktuellen Grüchten glaubt werden die 4000er Chips ja wieder riesig. Das wird nichts den Markt mit solchen in TSMCs N5 zu sättigen.

Entweder lässt Nvidia weiterhin die 3000er parallel bei Samsung vom Band laufen oder die Verfügbarkeit bleibt auch 2023 wie bisher.
 
Bin gespannt, wie der 92 MB-L2 Cache sich auswirken wird. Bleibt das si eigentlich gleich (384 bit)? Weil dann macht es vermutlich schon Sinn, etwas Bandbreite zu kompensieren.
NV wird ja weiterhin GDDRX verwenden. AMD setzt bei seinen Lösungen auf einem größeren L3 Cache in Verbindung mit GDDR6 um. Was im Umkehrschluss bedeutet, dass AMD Ansatz immer noch die bessere/effizientere Lösung ist. (GDDRX verbraucht mehr und L2 Cach braucht mehr Fläche, wobei ja natürlich abhängig, wie groß dann der L3 Cache bei AMD ist, wobei das ja immerhin ein eigener Chip ist)
 
schnacken schrieb:
Könnte meinen das die Technik aktuell an einem Punkt angelangt ist, wo mehr Leistung nur noch durch mehr Watt erreichbar ist. Intel bekommt es ja auch nur noch mit der Brechstange hin, einzig AMD scheint da noch etwas Spielraum zu haben

Der Spielraum heisst Inovation. Die steht theoretisch jedem frei. Aber nur AMD scheint klein genug zu sein, das man auf Innovationsträger hört - oder Sie zumindest mal machen lässt und schaut was bei raus kommt. Und das obwohl in der Vergangenheit hier und da auch mal ne Niete ran durfte...

@syfsyn Woher bitte kommen deine Preise? Wunschdenken? Wieso sollte ne 7900 bei dir nur mit ner 4080 mithalten? Was weißt du über AMD`s MCM Verfahren was der Rest der Welt noch nicht weiß?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Colindo
FGA schrieb:
selber schuld wer mit mehr wie 1080p gaming anfängt. wo soll das aufhören?
Ein Monitor mit 2560 x 1440 mit 100FPS zu befeuern ist auch kein allzu großes Problem mehr.

Hier wird es interessant
2880 x 1600 bei der Valve Index ist noch deutlich zu gering
4320 x 2160 bei der HP Reverb G2 ist schon deutlich besser
4896 x 2448 bei der HTC Vive Pro 2 ist endlich Pixelfrei
Ich hoffe noch auf eine gute Meta Quest Pro / Cambria
90FPS müssen die Mindestframes sein, damit einem nicht schlecht wird. Mehr ist wünschenswert.
 
kleine Änderung der Tabelle
rx7900xt (mögliche 512bit SI67tf1499€+190% rx6900xt sofern kein bandbritenlimit vorliegt
rx7800xt (mögliche 512bit SI56tf1299€+190% rx6800xtsofern kein bandbreiten limit vorliegt
rtx4090 HBM2e möglich67tf1499€+130% rtx3090 sofern kei n banbreitenlimit vorliegt
rtx4080 hbm2e möglich58tf999€+150% vs rtx3080 sofern kein bandbreitenlimt anliegt

Der zusätzliche cache 96mb wird vermutlich nicht als puffer für das Si genutzt sondern dient den sfu Einheiten für zusätzliche operationen oder simple das mehr cache für die 112shader pro sm
wenn doch als cache für den 384bit si mit gdr7 32gbits das aber nicht sicher da gddr7 noch nicht final sind.
sample derzeit erst 2023
 
Thanok schrieb:
Den Takt wird NV sicherlich anheben, ich weiß jetzt nicht wie gut 5nm takten, aber tendenziell taktet TSMC besser als Samsung und die 6nm von TSMC sind nochmal ein Stück besser.
Den Takt werden sie auf jeden Fall anheben, aber man muss an der Stelle bedenken, dass Designs, die sehr viel Takt haben sollen, auf Grund von Leckströmen und Co nicht so dicht gepackt werden können, wie Designs mit niedrigerem Takt.
cypeak schrieb:
ich finde da ist ein großer unterschied ob man sich bewusst macht dass technologie immer besser und effizieter werden sollte oder ob einen "nebeneffekte" wie stromverbrauch als folge der entwicklung egal sind oder quasi als unveränderliche tatsache hingestellt werde
Man muss da auch bedenken, dass diese Verbräuche als Wärme auch immer schwerer abzuführen sind und diese Geräte im Sommer dann auch kaum mehr sinnvoll nutzbar sind, außer man steigt wirklich auf Wasser um.
Shoryuken94 schrieb:
Der große L2 Cache klingt interessant. Ich bin gespannt, was die RTX 4000 an IPC Zuwächsen liefern kann.
Da die meisten Grafikkarten immer noch nach dem In-Order-Prinzip arbeiten und vergleichsweise einfach aufgebaut sind - es geht um viele Rechenwerke - steigt die IPC durch größere Caches nur bedingt an.
Shoryuken94 schrieb:
Mit dem Monolithischen Chip dürfte der Zuwachs beim L2 Cache alleine schon einiges bringen.
Wie angemerkt: In-Order-Designs sind in der Form nicht so stark abhängig von Caches wie Out-of-Order-Designs. Zugriffe und Co auf den Arbeitsspeicher und Co lassen sich deutlich einfacher planen.

Die eigentlichen Shader und Tensore-Kerne werden vom größeren L2-Cache im weiten nicht so stark vom L2-Cache profitieren, da hier ganz andere Faktoren die IPC weit aus stärker bestimmen. Die RT-Kerne wiederum könnten von dem größeren L2-Cache massiv profitieren.

Im Endeffekt geht es aber bei größeren Caches bei GPUs aber darum, dass man das Speicherinterface entlastet.

Sollte die RTX 40x0er Serie wirklich auf 18432 Shader kommen, dann braucht NVIDIA dafür eine massive Bandbreite und damit entweder HBM - sehr teuer - oder schnelleren DDR6X verbunden im Zweifel mit breiterem Interface, statt 384 Bit also 512 Bit.

Die Wahrscheinlichkeit, dass ein AD100 am Speicherinterface verhungert, ist wahrscheinlich. Wenn man nun in den Caches aber genug Datne vorhalten kann, wird das SI entlastet.

Insofern stimmt es also schon, dass die IPC dann "steigt", aber nicht aus dem Grund, wie die IPC bei CPUs steigt, sondern weil die Bandbreite fehlt.
PLUSPUNKT schrieb:
Ist der größere L2 Cache vergleichbar mit der Lösung von AMD (Infinity Cache)?
Ja, der größer L2-Cache wird vergleichbar mit de Infinty Cache sein, nur dass NVIDIA erst mal bei zwei Cache-Ebenen bleibt, während AMD bei RDNA eine dritte Ebene eingeführt hat in Vorbereitung auf ihr MCM-Modell.
syfsyn schrieb:
Als erstes der verdacht das damit ähnlich zu amd Lösung die bandbreite zu erhöhen stimmt so nicht
Doch, genau darum wird es auch bei NVIDIA gehen. GPUs sind anders aufgebaut als CPUs und arbeiten nach dem In-Order-Prinzip und diese Designs haben einen massive Datenhunter.

Die Zugriffe auf Daten sind bei In-Order-Designs gut planbar, da der Treiber entsprechend die Daten für die GPU aufbereitet und man im Treiber entsprechend die Anweisungen zum Laden der Daten in die Caches und Register sehr gut vorbereiten kann.
syfsyn schrieb:
Das wird nvidia kaum von amd lizensieren wollen dafür wäre yuan zu stolz.
Er muss es nicht lizenzieren. Die Arbeitsweisen von Caches sind seit JAHRZEHNTEN bekannt: Sie sollen den Zugriff auf den Arbeitsspeicher und auf Festplatten minimieren und damit unnötige Wartezeit reduzieren.
syfsyn schrieb:
Nein es könnte heißen das die sm struktur geändert wurde den mehr cache bedeutet das die sm mehr fp32 Operationen pro shader kann.
Unwahrscheinlich, um mehr FP32-Operationen pro Shader zu können, muss man entweder den Datenpfad verbreitern oder komplexer Operationen hinzufügen.

Die Rohleistung von Shadern und fast allen Rechenwerken in diesem Bereich wird bis heute mit dem MAD/MAC angegeben (a*b+c), dass zwei Operationen in einem Befehl darstellt und in einem Takt ausgeführt wird.

Wenn ein Shader mehr "Operationen" ausführen soll, muss er von 32 Bit-Breite auf 64 Bit angehoben werden oder es muss eine zusätzliche Operation pro Takt hinzu kommen. Beides ist in dem Fall unwahrscheinlich. Ein komplexerer Befehl, der noch mehr Operationen verbindet ist wenig sinnvoll und die Verbreiterung des einzelnen Shadrs ist erst recht nicht gegeben, da NVIDIA bereits mit Vec4-SIMD auf kleinster Ebene arbeite, die dann in zwei Datenpfaden a 16 dieser SIMD-Alus organisiert werden.

Jede SM bei NVIDIA hat 128 Shader in zwei 64er-Datenfpaden zu 16 Vec4-SIMD. (Im übrigen sind diese 2 * 64 nun der Grund, warum Ampere als erste Generation wirklich richtig gut von Asynchroner Ausführung in DX12 profitiert. ;))
 
  • Gefällt mir
Reaktionen: Bigeagle, BatCatDog und SavageSkull
Finde ich gut, denn
ordentlich Cache ist durch nichts zu ersetzen - außer durch noch mehr Cache. Ähnlich wie Hubraum beim Auto.
 
  • Gefällt mir
Reaktionen: nco2k
Zurück
Oben