Bericht Nvidia Ampere: Die GA100-GPU im Vollausbau analysiert

Wolfgang

Redakteur
Teammitglied
Registriert
Nov. 2002
Beiträge
8.927
tl;dr: Nvidias A100 als erstes Produkt mit Ampere-Architektur ist für KI-Berechnungen im Datenzentrum gedacht. Die Basis ist die mit 826 mm² gigantisch große GA100-GPU. Was deren Vollausbau zu bieten hat, wie er im Vergleich zu Volta dasteht und was sich aus Ampere für GeForce ableiten lässt, klärt der Artikel – soweit es geht.

Zum Bericht: Nvidia Ampere: Die GA100-GPU im Vollausbau analysiert
 
  • Gefällt mir
Reaktionen: USB-Kabeljau, DJMadMax, Chismon und 7 andere
Ich denke, es kann aber davon ausgegangen werden, dass RTX 3000 PCIe4.0 unterstützen wird.
 
  • Gefällt mir
Reaktionen: gartenriese
Es bleibt spannend.
 
  • Gefällt mir
Reaktionen: aid0nex
Es wurden ja vor einiger Zeit Nvidia Ergebnisse in Benchmarkdatenbanken gefunden.

Ein Chip mit 108 SM Blöcken und ein Chip mit 118 SM Blöcken. Da sich nun die 108 als echt herausgestellt haben, scheinen die 118 nicht unrealistisch. Damit kommt man auf ein recht ähnliches Verhältnis wie bei Volta.

https://www.computerbase.de/2020-03/nvidia-ampere-benchmarks-geekbench/
 
Das Argument mit den deaktivierten Einheiten für besseren Yield klingt logisch. Falls aber doch der ganze Chip i.O. ist oder später die Ausbeute besser wird, denke ich schon, es wird eine Art Vollausbau-Profiversion "hand selected" geben.
 
Schön zusammengefasst, @Wolfgang. Danke dafür!

Was mich beeindruckt, ist wie continuierlich Nvidia jetzt die HPC-Grafikkarten in 800 mm² fertigt, während AMD das "vermutlich mit Arcturus plant". Anscheinend hat AMD da deutlich später bemerkt, dass sich im HPC-Markt (fast) alles rentiert.

Das lässt mich auch bei den Spielergrafikkarten innehalten, wenn AMD demnächst mit 505 mm² kommt, und Nvidia eventuell was Größeres liefert. Wobei ich mir auch vorstellen könnte, dass Nvidia zurzeit, wo man neu in N7 ist, noch schlechtere Ausbeuten hat als AMD, und sich einen größeren Spieler-Die nicht leisten kann.
 
  • Gefällt mir
Reaktionen: Strahltriebwerk und StiFler91
Ich finde es immer sehr toll von euch, dass ihr nicht wie andere Seiten auf dieses angebliche & nervige "geleake" mitaufsteigt und somit am Ende keine fake news verbreitet.
Vielen Dank für diesen guten Bericht und eure klare Linie, die ihr stets durchzieht, Jungs!
 
  • Gefällt mir
Reaktionen: Cervisias, AppZ, Argoth und 18 andere
Colindo schrieb:
dass sich im HPC-Markt (fast) alles rentiert.

AMD fällt es halt deutlich einfacher, 3 250mm² Chips für 300 Dollar zu verkaufen, als 1 750mm² Chip für 2000 Dollar. :D

Der HPC Markt ist halt sehr speziell und für uns bleibt nur die Anzahl der Transistoren pro Fläche übrig.

Wenn der Gamer Chip 500mm² groß wird, ist der immer noch schnell, wenn er gleich groß wie der aktuelle 80Ti wird, ist er sehr schnell.

mfg
 
  • Gefällt mir
Reaktionen: Onkel Föhn
olligo schrieb:
Vielen Dank für diesen guten Bericht und eure klare Linie, die ihr stets durchzieht, Jungs!

Bitte! Und nicht vergessen: Nicht brüllen, nicht jeden Mist schreiben und nicht jeden Euro annehmen muss man sich leisten wollen, am Ende aber auch leisten können. :-)
 
  • Gefällt mir
Reaktionen: Charminbaer, NoSyMe, Pry_T800 und 16 andere
Vielleicht ist die Produktion der riesigen GPU in 7 nm aktuell noch etwas problematisch, Nvidia geht aber davon aus, in Zukunft deutlich besser zu werden. Bis dahin könnte man viele A100 verkaufen und hätte bei besserer Ausbeute dann später noch den Markt für einen „A200
Könnte mir auch gut vorstellen, dass das nur eine Übergangslösung ist und später dann in N7P gefertigt wird mit weniger deaktivierten Einheiten oder wäre das so problemlos garnicht möglich von N7 auf N7P zu schwenken für die gleichen Chips?

Zumindest hieß es ja immer, dass die Gaming-GPUs mit EUV gefertigt werden
 
Ich freue mich schon auf die hohlen Phrasen von Jen-Hsun Huang, wieso die nächste Resteverwertung wieder keinen Vollausbau und ein lächerliches Speicherinterface enthält, man dafür aber sehr gerne wieder über 1000 Euro bezahlen darf.

Wird Zeit das AMD aufholt, denn nVidia wird keine Demut mehr lernen, dafür ist man im Profi-Segment zu gut aufgestellt. Was waren das für Zeiten, alsn nVidia noch erschwingliche Karten für Gamer gebaut hat, wodurch sie überhaupt erst so groß geworden sind.

Ob da wohl irgendein Zusammenhang besteht?
 
  • Gefällt mir
Reaktionen: Smartbomb, alkaAdeluxx, Strahltriebwerk und 2 andere
Colindo schrieb:
Anscheinend hat AMD da deutlich später bemerkt, dass sich im HPC-Markt (fast) alles rentiert.

Nein, AMD hat aus Kostengründen einfach nur Kompromisse gemacht. Ein riesiger Chip ist immer auch ein gewisses Risiko, gleichzeitig muss der Chip aber auch für den Consumermarkt rentabel sein. Viele Chips kosten halt viel Geld. Also hat AMD einen Kompromiss gemacht und beispielsweise Vega so designt, dass man ihn als HPC Karte verwenden kann, aber auch als Spielergrafikkarte.

Nvidia hat da deutlich mehr Ressourcen. Für sie rentieren sich viele chips eher und so kann man dann auch riesige HPC Chips fertigen.

Mit steigenden Umsatzzahlen wird AMD auch mehr Chips bringen. RDNA2 soll laut Gerüchten ja aus 3 Chips bestehen plus einen neuen reinen HPC Chip (CDNA Architektur, Codename Arcturus). Alles eine Frage des Geldes.
[wege]mini schrieb:
AMD fällt es halt deutlich einfacher, 3 250mm² Chips für 300 Dollar zu verkaufen, als 1 750mm² Chip für 2000 Dollar. :D

Kommt halt auf den Einsatzzweck an. Du bekommst nicht beliebig viele Karten in ein Rack rein. Da kann es sich aus Kundensicht durchaus lohnen, wenn man sich für weniger große Chips entscheidet.

Für AMD ist es halt immer ein gewisser Kompromiss und am Ende entscheidet nicht zuletzt der Kunde, was er braucht.

Mit CDNA wird sich da bei AMD aber sicher einiges ändern. AMD wird hier Plattformen schaffen müssen, wie es Nvidia heute schon macht. Mit der Aufteilung in HPC GPUs und Gaming GPUs muss AMD aber keinen mittelmäßigen Kompromiss mehr liefern.
 
  • Gefällt mir
Reaktionen: Inras, NMA, Colindo und eine weitere Person
Wolfgang schrieb:
Volta (und Turing) hat 8 Tensor-Cores pro SM, die jeweils 64 FP16/FP32 Mixed-Precision Fused Multiply-Add (FMA) durchführen können. Bei Ampere sind es nur noch 4 Tensor-Kerne pro SM, die dafür aber gleich 256 FP16/FP32 FMA-Operationen pro Takt durchführen können.

Hier hat sich ein Fehler eingeschlichen. Bei Turing ist es nur die Hälfte (also 32 statt 64).

Weiterer Fehler bei der Tabelle. Ihr schreibt "Tesla V100 (Produkt)" in der Überschrift, gebt aber den Vollausbau der GV100-GPU in den Tabellenspalten an.

Mir sind diese "TF32" jedenfalls nicht geheuer. Man nehme FP32, berechne sie intern als FP16 und gebe sie als FP32 wieder aus? Kein Wunder, dass sich die Performance dann so gut steigern lässt.

NVIDIA plans to work with the industry to study the application of TF32 to more use cases that rely on FP32 today.
Quelle

Bald werden in Spielen wieder Optionen eingebaut, mit denen man die Grafik zwischen 16bit und 32bit umschalten kann :o bzw. bei Nvidia dann strenggenommen 19bit :D
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Smartbomb, Bigeagle und Onkel Föhn
Mysterion schrieb:
Was waren das für Zeiten, alsn nVidia noch erschwingliche Karten für Gamer gebaut hat

sind doch immer noch erschwinglich, man muss nicht das Ultra Top Modell kaufen und ich kauf auch ne Karte mit 64bit SI wenn sie entsprechend Leistung liefert.
AMD hat zwar Speicherbandbreite over 9000 aber kann diese nicht 1in1 in Leistung umwandeln.

nvidia bietet für wirklich jede Preis Klasse Karten an
 
  • Gefällt mir
Reaktionen: Monarch2 und borizb
Shoryuken94 schrieb:
Da kann es sich aus Kundensicht durchaus lohnen, wenn man sich für weniger große Chips entscheidet.

Du hast mich nicht verstanden....

Niemand will 3 kleine Chips für zusammen 900 Dollar verkaufen wenn er 1 großen von gleicher Fläche für 2000 Dollar verkaufen kann.

AMD kann es halt nicht. 3 kleine zu verkaufen ist deutlich einfacher und AMD hat noch einen weiten Weg zu gehen, um große Chips verkaufen zu können.

Nur sie bauen zu können, bringt noch keinen Gewinn.

mfg
 
  • Gefällt mir
Reaktionen: Smartbomb und borizb
Im vorigen Artikel hieß es doch, dass man die GPU auch quasi in mehrere GPUs aus Sicht der Software aufteilen kann und zwar in genau 7 Stück.

Ich denke, der Vollausbau würde dazu führen, dass man quasi 8 GPUs softwareseitig hätte. Man hat also eine GPU deaktiviert. Hätte Nvidia jetzt nicht diese 15 Prozent, sondern nur 5 Prozent, wie beim Vorgänger deaktivert, dann hätte man bei der aufspaltung 7 gleichwertige GPUs und eine die nur zum Teil aktiviert ist. Also 7 GPus und eine Halbe/oder gar 1/4 GPU. Genau das wollte Nvidia aber wohl vermeiden, daher wurde die komplette "achte GPU" deaktiviert.
 
  • Gefällt mir
Reaktionen: andi_sco, Rock Lee, gartenriese und eine weitere Person
Dass da noch was tolleres kommt ist auf der einen Seite Unsinn, denn es ist offensichtlich, dass der Yield in N7 so beschissen ist, dass man alles einen Teil deaktivieren muss und das überalle Bereiche. Bei dem Deaktivierungsgrad würd ich mal darauf tippen, dass man selbst jetzt so 60-70% Dies jetzt bekommt, sonst wär das anders gelaufen. Hinzu kommt noch, dass der Stromverbrauch weit höher ausfällt als gedacht, was auch ein Grund für Salvage darstellt.
Auf der andere Seite kommt da sicherlich ein Refresh, wenn man den in N6 bringen kann, der dann wieder die üblichen 4 SMs deaktiviert. N6 ist teilweise EUV aber dennoch Designkompatibel zu N7. Damit wird man deutlich bessere Yields hinbekommen.

Hintergrund war ja das Problem, dass NV sich viel zu spät um eine passende Fertigung bemüht hat. Man hat schlicht keine Kontingente für N7P oder N7+ bekommen, sodass der Chip in N7 gefertigt werden muss. Anders ist das auch einfach nicht zu erklären, warum man das so macht.
Die Consumerchips sind davon ja nicht berührt, da die offenbar in 7LPP und 8LPP von Samsung gefertigt werden.
 
  • Gefällt mir
Reaktionen: Simon
Ich gehe auch davon aus, dass es sich hier schlicht um die Maximierung der Ausbeute handelt, die bei > 800 mm² in 7 nm vermutlich sonst ziemlich grottig aussehen dürfte. Ein verlorener Chip auf dem Wafer kostet hier richtig Geld.

Man hat ohnehin das meilenweit überlegene Produkt in diesem Umfeld, also besteht zum aktuellen Zeitpunkt keinerlei Notwendigkeit bei der Anzahl der Shader "All-In" zu gehen. Möglicherweise sammelt man sogar aktuell schon voll funktionsfähige Chips, um sie in einem Jahr als GA110/GA200 als Refresh auf den Markt zu werfen.

Von den Top 30 Supercomputern setzen allein 13 Systeme auf V100/P100 Beschleuniger.
 
Also wenn Nvidia wieder den großen Chip rausbringt wie letztes mal, also ohne "non Ti" dann wird das ja ein Chip mit ca. 45 Milliarden Transistoren....
Wenn Amd mit (denke mal) 24 Milliarden kommt, dann kostet die 2080Ti wohl bald 500 Euro... und die 3080Ti 1500:freaky:
Ansonsten ist das mehr wie eine Verdopplung, das gab es in der Vergangenheit so gut wie garnicht.
Nvidia ist echt gut unterwegs.....
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Scy82
Zurück
Oben