Wofür braucht ne dgpu mehr cache?
Als erstes der verdacht das damit ähnlich zu amd Lösung die bandbreite zu erhöhen stimmt so nicht
Das wird nvidia kaum von amd lizensieren wollen dafür wäre yuan zu stolz.
Nein es könnte heißen das die sm struktur geändert wurde den mehr cache bedeutet das die sm mehr fp32 Operationen pro shader kann.
Ich habe diesen schritt erst beim Nachfolger gedacht.
Sieht man sich die waferpreise und die vermutliche Größen der chips hat nvidia keine Wahl als die arch auf mehr fp32 Durchsatz zu prügeln mehr takt wäre auch drin aber die arch hat ihre grenzen.
Amd rdna ist deutlich weniger dicht was hohe Taktraten begünstigt nvidia ampere könnte bis zu 2,5ghz geprügelt werden auf 7nm
Wenn aber nvidia die dichte um 50% vergrößert werden die chips billiger aber der Takt stagniert auf derzeitigen niveau. Sprich 5nm mit maxed 2,0ghz
Dann bekommt aber nvidia nen problem beim cpu limit was schon jetzt so ist.
Das liegt an der Natur von directx was immer einen Hauptthread benötigt der syncronisiert werden will
Sprich aus maximal 12 gpc (gleicht einer mehrkern cpu) kann nvidia nicht noch mehr an gpc verbinden und mehr shader in nen gpc hat denselben effekt
Lösung ist mehr takt oder mehr datendurchfluss anhand spezieller funktion einheiten
Das ist nicht neu, die erste directx 10 gpu von nvidia /tesla hatte in einen sm 8 fp32 und 2 sfu die aber pro takt 4 operationen ausführen
Folglich hatte zu der zeit 2006 rum einen g80 8800gtx 128sm in 16gpc in 2 shaderengines
Das brachte die gpui auf 8*2*16+4*2*8*1,35ghz=432gflops andere formel nur für diese gen 128*3*1,35ghz=432gflops
8 shader/stream prozessoren wie damals nvidia nannte*2 fp32 operationen pro takt* 16grafic group processor cluster+2 special function units (fp64* 4 operationen pro takt)*1,35 ghz shaderclock
Dies bedingt das der shader clock getrennt von coreclock lief
Also gpu core 675mhz shader 1350mhz
Dies behielt nvidia bis zu kepler generation bei und änderte dies erst mit maxwell wobei kepler den coreclock anglich zu shaderclock.
Ab fermi (gtx4xx serie 2010) konnten die dedizierten sfu keine fp32 Operationen mehr
Ab maxwell (gtx900 serie 2014) strich die sfu aus dem design. Seither gilt shader*2*takt.
Dann kam pascal (gtx1000 2016) im grunde strich man die sm auf 64shader pro sm und puschte den takt nahe der 2ghz Was mit 16nm möglich wurde man hing davor auf 28nm seit 2012
Turing 2018 8rtx20xx) wurde ein kompletter umbau der sm struktur gemacht
darin sind 64int32 und 64 fp32 mit tensor und rt cores
Die int32 konnten bis zu 50% fp32 operationen berechnen über software das musste aber in den spielen auf directx12 explizit programmiert werden.
Ampere 2020 (rtx30xx) änderte sich nochmal die sm struktur zu 64fp32+32fp64+64 int32+ tensor und rt core
leider hat das marketing die angaben der shader leistung vermurkst
Formel dafür ist shader 64*2+32*2*gpc*takt= bsp wäre ga102 mit 5248 shader*2+*2*2626*1,9= 29913 gflops
Daruas wird vermutlich ad102 (rtx40xx) 12 gpc*64fp32 +48 fp64 *12*2*takt von 2,2ghz =70963 gflops
Da aber der ad102 136sm aktiv hat sind es nur 67020 gflops
das wäre eine lösung für mehr durchsatz oder es kommen wieder sfu 2 sfu pro sm dazu
sprich 12*2*2=48 fp32 pro sm=576gflops bei 1ghz
Formel dann 9216+4608+576*2*2,2=63 360gflops
Die sfu könnten dann sehr schmal ausfallen quasi zur hlfte von den fp64 vor den rt cores platziert werden
Dies würde kaum diefläche benötigen ich gehe von max 5% aus
anstatt mein verdacht auf 48fp64 was etwa 15% diefläche macht
Wir wissen das der ad102 600mm² groß ist pi maldaumen
nehme ich an das 5nm etwa 7nm 13% denser als 8nm mit 144sm *0,7 (30% kleiner)*1,05=
bsp 826mm² ga102 *0,87*0,7*1,05=528mm² oder *1,15=578mm²
Dazu mehr cache von 5%=1,2=603mm²
5nm kann bis zu 45% keiner werden als 7nm
Aufgrund von Wärmnedichte würde ich das nicht ausreizen und stattdessen größer bleiben womit der Takt syncroin steigt sprich aus 45% nehme ich 30% und habe 15% mehr takt. +15% um die tdp zu maximieren.
128sm brauchen etwa 250w mit vollen chip 144 dann 281w auf tsmc 7nm*0,7 *1,15 takt(1,9hghz)=226w+ oc ab werk 300mhz
226*1,1*1,1*1,15*1,15*1,2*1,2=520w bei 2,2ghz (600mm²)
Sprich der chip läuft in 1,9ghz im sweetspot mit nur 61 tf und oc dann 67tf
amd rdna3 mit 3 operationen pro takt käme mnit n32 auf 64tf bei nur 2,1ghz
Das aber kann man getrost als geraten angeben denn auch amd wird ein problem bekommen.
Nehme ich an das amd den n31 doch auf dem desktop komt sind die chips riesig.
7680shader pro chip mal 2 520*0,7*1,5=546mm²
Das wird teuer da man 2 chips plus einen I/O chip oben drauf hat der die Größe fasst abdeckt von 800mm²
vermutlich 12nm glofo oder tsmc kosten pro wafer etwa 6000$
Wird die sku dann etwa 2299€ kosten und wäre gerade mal so schnell wie nvidia mit maxed 1499€
Daher muss amd schon die fp32 pro wgp (die shader gruppe von amd entspricht dem was sm von nvidia nennt) verbessern mein verdacht ist das 3 fp32 in 256shader ausgeführt werden können
Das reduziert die kosten für den mcm
Der kleinere chip (n32 4096 shader) also 520*0,7=364mm² käme auf 1699€ mit 10240shader und dann etwa 70tf Annahme von 2,4ghz.
nvidia hofft einfach das amd mcm nicht wirklich die doppelte leistung schafft
Ähnlich zu sli mit maxed 1,75 Auslastung dann wäre man schneller und billiger sprich es werden real nur 64tf erreicht
Aber nach dem ich soviel weiß mit dem Brückenchip agiert das mcm design wie eine gpu sprich es sind wirklich doppelte Leistung möglich einzig der Takt ist unbekannt wird amd auf 2,4ghz gehen oder nicht
Das hängt primär von der Effizienz ab.
Mögliche 30% Einsparung bei gleichen Takt ergeben 192,5w mal 2 +I/O ~50w=435w bei 2,3ghz
Mit 2,4ghz dann 479w
Anders kann amd nicht handeln um konkurrenzfähig zu sein oder amd verkauft die sku zum geringsten preis sprich n32 wird 2 sku haben und dann eine mit 1499€ und die andere mit 1299€
qusi wird damit die auteileung beim wafer preis zusammengerechnet wodurch dr durchschnittpreis eines chips reduziert wird.
mögliche Ordnung wäre
rx7900xt | 70tf | n32 | 1499€ 435w |
rx7800xt | 56tf | n32 | 1299€ 375w |
vs nvidia mit 12gpc und realen 15232 fp32 67tf 1499€ mit 520w
RTX4080 | 67tf | ad102 | 1499€ 520w |
Ob es nochn kleineren sku gibt unklar
Das wäre realistisch
Wie beschrieben die größere chips als mcm können unter 2299€ nicht hegestellt werden ohne das die marge gesenkt werden muss.
Und wie ich Tante SU kenne wird die niemals den profit der mühsam erarbeitet wurde seit rdna senken
Zu gcn Zeiten (2012-2018) war diese bei maxed 30% heute sind es 70% auch dank des Erfolges von ryzen.
Konnte rdna konkurrenzfähig sein und man hat ab dann 70% marge wie nvidia festgesetzt.
Im übrigen sind die angaben aus den quartalsbeichten
Cpu Kalkulation ist etwas anders hier gehe ich auch von etwa 1000% marge aus inklusive Forschung für die nächste arch macht pro chip+io DIE 160€
Wenn amd mal in Rückstand käme wäre das das mimimum für einen 8 core chip
Derzeit kostet ein 8core etwa 350€
man sieht ipc Vorsprung zahlt sich aus. intel müsste mit meteo lake (2024) schon min um 50% schneller werden damit amd gezwungen wird auf diesen min Preis zu senken.
Entsprechend je mehr chiplets teurer sprich min wären fürn 16core dann 325€ fällig (jetzt etwa 699€)
ich weiß das amd zen4 schon 25% diese Jahr aufschließt und in Führung gehen wird
Ob intels ci 13th gen das einholen kann ist offen es wird eng intel spracht von 15% vs 12th gen
ich erwarte etwa 10%
Amd liegt derzeit etwa 5% hinten wird also mit zen3d überholen und mit zen4 die Führung haben von min 20%
Danach weis ich es nicht, da zen5 noch nix bekannt ist aber ich ahne großes um die 50% ipc plus vs zen3=270cb15 zen5=405 cb15
Intel wird da nur auf 379 kommen wenn intel mit meteo lake nur 25% zulegt ich hoffe aber auf min 40%=423
das würde amd preise zurechtstutzen.
Ab 2028 wird es eine Takt explosion geben weil man den transistor grundlegend effizienter macht sprich mehr Takt.
ich sehe es kommen das wir 2029 pünktlich zu apophis, cpu mit 8ghz sehen werden und gpu bei 5ghz
Das wäre drin wenn das patent umgesetzt wird.
Das aber ist sehr spekulativ....
Kurz
Für diese Jahr ist der Sieger unklar amd kann es sein mit n33 bis Jahresende ab Herbst wird aber nvidia mit dem ad103 in Führung gehen 84sm aktiv von 96 etwa 41tf als rtx4080 vs 30,7tf als rx7700xt
Erst q1 2023 wird amd mit n32 2 sku haben und dann rx7800xt mit 56tf und rx7900xt mit 70tf zu den besagten preisen.
Daher gehe ich davon aus das amd im Sommer die rx7800 vorstellen wird. für etwa 589€ +25% vs rx6900xt
vs ad103 als rtx4080 mit 40tf und 1199€ +37% vs rtx3090
Spannender ist der ad104 mt 60sm als rtx4070 mit 559€ auch etwa 30tf
nur ist unklar ob nvidia zuerst den high end bringt oder die mittelklasse.
Das hängt davon ab ob amd zuerst mcm bringt oder nicht bis 2023 jedenfalls sehe ich keine mcm gpu kommen.
Der Kampf wird eher der 600€ Bereich sein
amd n33 vs ad104
Und im low end wirds richtig spannend
amd refresh n22 (14,3tf) vs intel arc 512 (19tf) vs ad106 (16,5tf) in 300€ Bereich wenn intel Treiber kann.
Der Kampf findet aber erst 2023 statt ohne intel wird man mal die uvp erreichen der aktuellen gen. Und der Kampf findet in 400€ Bereich statt
Aber ich hab Hoffnung die letzten test zu xe igp sind die intel arc chips etwa 15% hinten vs amd und nvidia bei gleicher shaderleistung.
Das ist aber reine Treibersache und intel wird die gpu am markt durchdrücken mit Kampfpreise und kleiner marge von maxed 20%
Die größte sku erwarte ich bis 299€ mit 19tf und der tiefste preis bei 249€
zum vergleich die rtx3070ti gleiches niveau kostet derzeit 900€ (uvp 599€)
Also lass uns beten das intel Treiber kann.
Zum abschluß was übersichtlicher
RX 7800 16gb | n33 | 589€ | +47% vs rx6800 | mid class |
rtx4070 16gb | ad104 | 559€ | +61% vs rtx3070ti | mid class |
rx7700xt 8gb | n22 | 299€ | +15% vs rx6700xt | low class |
rtx4060 8gb | ad106 | 299€ | +71% vs rtx3060 | low class |
rx7600 8gb | n23 | 199€ | +15% vs rx6600 | low end |
rtx4050 8gb | ad107 | 189€ | +79% vs rtx3050 | low end |
tut schon weh wen das kommen wird wenn man die preise zu jetzt sieht.
Bedingung ist das intel mitmischt.
wann............ nun das ist offen.
Der entry level also ad10b wird um die 119€ sein mit 10tf das entspricht dann der rtx3060 als rt4030
Die erwarte ich aber erst 2024 gut möglich das die dann rt5030 heißen wird.