Die performance Vorstellungen basieren darauf davon den chips sku angenommen werden
Wie viele sm pro sku am ende wirklich aktiv sind ist noch völlig offen.
Echte leaks waren die sm Struktur diese kann stimmen weil diese dem hopper sm struktur ähnlich ist
Und der nvidia hack von märz wo die pläne standen also welche chipgrößen geplant sind.
Darum hat man so viel Spekulationen wild umher dabei ist perfomance einschätzung wirklich nur noch am Takt auszugehen
Viele gehen von über 2,2-2,5ghz aus was aber von der dichte seitens hopper ausgeschlossen werden kann.
Zumal diverse maximale chipgröße im umlauf waren
Der ad102 soll maximal 606mm² groß sein
Im Gegensatz zu gh1000 der 814mnm² misst in 4nm
Beide haben maximal 144sm dabei ist der hopper sogar Efizienter bei 2,0ghz nur 450w auf 4nm
also muss angesichts der wärmedichte ada geringer Takten
Einzige lösung das ada etwa bei 2,0ghz landen wird wäre wen große teile des chips deaktiviert werden
Und genau das passiert frühestens Mitte Juli beim finalen Sortieren.
Dann werden sm und skus bestimmt. je chip
Den Anfang machen ad102 und ad103
ad104 wird erst august soweit sein
Ad106 erst im sept.
Ab dann dauert es etwa 2 Monate bis zum release. und 3 Monate bis auslieferung zumal hier der Welthandel und Transportverzögerung nicht beachtet wird.
Die Massen gpu also die 070er und 060er werden wahrschienlich erst dez bis januar februar überhaupt verfügbar sein.
High end wird einen extra premium preis haben
ein ad102 als sku mit 110sm kleinste Annahme wird min 2000€ kosten und als rtx 4090 kommen ich gehen von etwa 2,0ghz Takt aus
Darunter kommt der ad103 als rtx4080 mit etwa 2,2ghz und maximal 76sm von 110sm
Bisher hatte tpu die sichersten quellen einzig den ad102 mit 136sm /144smbezweifle ich.
ad104 hat physisch 72sm
Warum nun das liegt an der architektur man kann immer noch nicht chips in mehreckig schneiden
Von den 72sm bleiben 60sm übrig
Dabei muss gesagt werden das nvidia 2 reihen zu je 3 sm hat 6*12*128
Selbst ampere hat große teile der chips deaktiviert das sieht man deutlich bei ga104 und ga106
Wäre es so das eine rehe sm struktuiert wären dann könnte ich sagen das ga104 48sm hat und ga106 36sm
Dem ist aber nicht so.
Zurück zu ada wo der Hinweis zu hopper Architektur deutlich zu sehen ist.
Bei ada sind es 128 + unklare fp64 Einheiten da 64 int64 vorhanden sind können es wie bisher 24 sei oder weniger also 12
macht maximal 140fp32 und mimimal 128fp32 pro sm
bsp ampere hat 64fp32+ 24fp64=88fp32 pro sm
Der Grund liegt daran das die fp64 Einheiten für fp32 angesteuert werden können.
Was bei turing nur bedingt geht weil man es per Maschinen code in dx12 zuschreiben muss.
Wurde in ampere in hardware auf treiberebene realisiert womit ampere dadurch schneller wurde als es die sm Stuktur ahnen lässt
Das nvidia dies dann als 128 fp32 Leistung pro sm deklariert ist Täuschung den die int32 tun da nichts.
Das sieht bei ada anders aus hier sind reale 128fp32 + 64 int32 drin + unbekannte fp64 Einheiten
das geht aus dem leak mit der sm struktur nicht hervor. Denkbar wäre das 12 fp64 shader sind pro sm
Das nvidia die fp64 gänzlich aus der architektur bei ada rausgeworfen hat ist zwar möglich behindert aber die quadro reihe diese braucht die doppelte Genauigkeit
Und über software dies über die fp32 laufen zu lassen würde zu wärme stau führen.
Oder die komplette quadro reihe wird mit dem hopper chip ausgelegt
Das ist zwar möglich aber teuer. zumal keine rt cores in der architektur sind
ich halt diese bilder für echt
https://g-pc.info/wp-content/upload...aphics-Cards-low_res-scale-4_00x-scaled-1.jpg
und
https://elchapuzasinformatico.com/wp-content/uploads/2022/05/NVIDIA-Ada-Lovelace-SM-AD102.jpg
zwar sidn beide quellen auch nur spekualtion webseiten in taiwan und einmal in spanisch
Die quelle beider bilder sind industrie quelle bzw twitter
Einige infos stammen aus dem nvidia hack.
darum geistern die abstrusen pefrmance voraussagen jede Woche neu
Das liegt schlicht daran das keiner weiß wie gut ada die wärme abführt den das wird den Takt der erreicht wird und somit die performance bestimmen
Der kleinste nenner wären 1,8ghz da nvidia sehr wahrscheinlich komplett auf die fertigungsdichte gegangen ist Was bei 4nm etwa 50% ist.
606mm² beinhalten faktisch doppelt so viele transistoren als ampere mit 628mm²
das geht aus dem hopper whitepaper hervor dessen sm struktur ist offiziell bei nvidia zu sehen
https://developer-blogs.nvidia.com/...22/03/Full-H100-GPU-with-144-SMs-1024x457.png
https://developer-blogs.nvidia.com/.../H100-Streaming-Multiprocessor-SM-625x869.png
Der unterschied liegt daran das hopper kein RT core hat
aber man sieht das 128fp32 und 64fp64 und 32 int32 vorhanden sind.
Daraus leite ich ab das die int32 und fp64 einheiten bei ada entweder zusammengelegt wurden oder das 64 fp32 + 64 fp64 einheiten sind
Nvidia wirbt ja gerne mit software basierende flexible geauigkeit zuordnung bei den chips sprich es können alle 128fp einheiten alles von doppelte bis halbe genauigkeit.
Und es hängt quasi nur vom treiber ab was den aktiv ist.
So ein ansatz ist machbar würde aber den usecase auf single taks limitieren und an könnte doppelte und eifnache genauigkeit nicht parralele laufen lassen.
Was bei prodessioneller nutzung zum nachteil wird.
Für gamer ist das alles egal hier zählt einfache genauigkeit nur dann frage ich mich wie dann tile base render funktionieren soll
Wo ganze und halbe Genauigkeit das Bild schneller rendern soll wenn das zutrifft müsste das per afr gehen je tpc
Da aber die fp32 kaum bei halber genauigkeit doppelt so viele rendern kann sowie nicht halb so viel in fp64 wird das nix
Einzig die Möglichkeit ganz in fp16 und ganz in fp32 zu rendern bliebe da, das wäre ein Alptraum wenn das in games per dx12 umgesetzt werden müsste
Und würde genau den Vorteil von dx12-2 zunichte machen wo man mit tbr die renderlast halbieren kann. indem das Bild in teilen nur in geringer Genauigkeit rendert.
Den im Treiber kann man dies nicht implementieren das muss entweder ganz oder gar nicht gehen
Mit dedizierten fp64 Einheiten die auch fp16 sowie fp32 können wäre das anders da hier das in der treiber ebene dies erfolgt
Das könnte zusätzliche Leistung bringen wieviel hängt vom grad des tbr ab.
Das aber ist reine Spekulation die reine fp32 Leistung können wir als gesetzt sehen.
Nur eben Takt und sm menge ist unklar
Hätte ich ne gtx1080 könnte ich den Nachweis der fp32 Leistung von pascal vs ampere nachweisen das die fp32 Rechnungen von mir stimmen.
Die konnte ich mit der fermi architektur tesla architektur und kepler architektur nach berücksichtigung der sm struktur beweisen.
Bisher waren alle Ergebnisse bis auf +-5% wegen vram generation genau.
Womit wir beim vergleich wären rtx3060 vs gtx1080 wieso letztere 16% hinten liegt? wogegen die kleinere sku gtx1060 der halb so groß ist nur 84% langsamer ist erklärt sich mir nicht
Außer man zielt genau auf dem vram ab und nutzt msaa was durchaus unterschiede machen kann.
Oder man setzt auf 2 unterschiedliche cpu als unterbau. insgesamt machen gtx1080 mit 8,7tf vs rtx3060 9,15tf nur sinn wenn die 8,7tf irgendwo limitiert werden.
Den der gp106 mit 4,95tf ist genau die 84% langsamer wie von mir gemessen
also wie kommt tpu zu der Annahme die rtx3060 wäre 22% schneller als ne gtx1080?
Dies kann man nur anhand test in festgelegten standards prüfen.
Und genau da liegt das problem echte vergleichbarkeit ist schwer da ständig standards bei spiel und spielsettings je generation geändert werden.
Wohl wissend das es gar nicht auf das spiel was populär ist geht, sondern um die engine womit das spiel designet wurde.
man kann bspw alle ue4 spiele in eine titel vereinen idealerweise dem letzten das gleiche gilt für ue5
Und andere engine generationen
Da es nur 8 engines gibt wovon 5 exklusiv sind und ein paar Abzweigungen bräuchte es nur maximal 16 spiele um alles am markt abzudecken. In vier apis
unity (open source)
unreal engine(epic games nahezu alle publisher lizensierte Ableger)
idtech engine/void /iwtech und viel andere die von idtech3 abstammen (idtech und lizenzsierte Ableger)
RE engine (capcom exklusiv)
cryengine/ dunia ist ein Ableger/ frostbyte engine auch (crytek lizenzierte ablegerea ubisoft uvm)
anvil engine/snowdrop ist ein Ableger(ubisoft )
Sage engine mittlerweile veraltet dx8 based (ea)
gamebroy letzte spiel war fallout 3 ist veraltet
creation engine derzeit bethesda
Wenn man vom dem Standpunkt ausgeht und alle 4 apis berücksichtigt bekommt man ne überblick wo genau die jeweilige gpu gen landet.
Und so werde ich die nächste gen sofern Sinnvolle tbp konfig und preis vergleichen
Bedingung ist aber Fokus auf dxr da raster schon jetzt bei der mittelklasse jenseits der 200fps angekommen sind. 1080p (04er gpu klasse)
Die alternative wäre 4k als standard das aber wird nicht reichen bei gpu im peisbereich von 300€
ich sehe aber die 30tf marke ab 2025 fallen bei dem preis.
ja es sind noch 3 Jahre bis dahin
Die diesjährige high end klasse wird zwischen 55-70tf sein
Der sprung ist diesmal größer und kann bewusst wie bei pascal release (2016 gtx10) gesehen werden.
Es gibt nur ein Manko
Die höhere tbp pro sku. Und dies wäre mein Kritikpunkt bei ner rtx4060ti 225w für etwa 46sm bei 450€
Die Leistung überzeugt nur der strombedarf nicht
Und der ad106 kommt erst q2 2023 mit 180w schafft aber nur 18tf
Und ich gehe von einer ps5 pro (2024) Performance mit etwa 30tf aus darum ist das keine Lösung für mich.
Warum dieser Pessimismus es liegt an der ue5 anhand der demos die es derzeit gibt reicht gerade mal die rtx3090 aus für annehmbare fps in 1080p
Und der ga102 hat etwa 29tf dies kann sich bei der 3rd gen von rt core ändern beim ad104 bei etwa 20tf was dann diese Leistung hat.
real geht es hier um bezahlbare dxr Leistung bei etwa 400€ die frage die sich stellt ist wird ad104 noch fürn rtx4060ti genutzt
Das nvidia hier sku nutzen wird ist sicher aber je chip nur eine sku ist unwahrscheinlich dafür wäre der Prozess zu unausgereift.
Die high end chips sind gut für Zukunftsprognosen in der nächsten generation ab 2026 für den Einstiegsbereich zwischen 200-400€
Also das was die Masse kauft und wo die Konsolen ihre maximal Leistung haben auf im spiel festgelegten designs. Was aktuell 1080p ist
Das wird sich ändern und bald auf tbr basieren wo die Auflösung szenebedingt angepasst wird.
Es gibt quasi kein natives 1440p oder sogar 2160p mehr es wird zwischen 720p bis 2160p gehen
das wird es aber nur in dx12_2 geben und das muss von den gpu in hardware unterstützt sein.
Ein vergleich mit gpu die diese feature nicht haben wäre also ungerecht.
Darum braucht es zwingend bei der nächsten gen festgelegte spiele aus den Jahren 2005-2022 zu je 4 Titel in 4 genres idealerweise unterschiedliche engines
first 3rd person top down und open world topdown
alles mit optionalen capframex bilder vom fps und gpu load unterlegt
Ob es dann populäre titel sind ist Nebensache
Dies könnte man in spieltest nachlegen den nur so lässt sich wirklich eine Vergleichstabelle zwischen den gpu gen herstellen.
So wie es jetzt läuft ist es mehr einschätzen wo es sein könnte anstatt es faktisch zu belegen.
Was Gerüchte angeht ist diesmal deutlich mehr bekannt geworden als es 2018 war wo bis ende des sommer nicht klar war was kommt turing kam für mich überraschend und war sehr enttäuschend.
ampere dagegen hatte mehr Supstanz war aber auch unklar da nix zu den sm struktur bekannt war.
Das ist diesmal aufgrund vom nvidia hack anders.
Was am ende zählt ist preis und Leistung