Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsGeForce RTX 3080: Tensor-Kerne im Vergleich zu Turing und A100
Sind die Tensor-Kerne in FP32 jetzt nur doppelt so schnell, bei gleichzeitig halbierter Anzahl, oder gilt die am Ende genannte Beschleunigung von x2,7 für die Gesamtleistung?
Für DeepFakes eine echte "Ansage". Auch der VRAM.
Ohoh, ich sehe deutl. mehr Konkurrenz für mich in näherer Zukunft
Wenn man überlegt, das ein Model ungefähr (das kann man ja nie so genau sagen) seine 250-400K Iterationen braucht und man mit ner 2070S bei ner (BatchSize von sagen wir 6 bei ner Auflösung von 320[LIAE]) Berechnungszeit von ca. 720ms pro Iteration liegt, kann man sich selber ausrechnen, wie lange sowas dauert/dauern kann.
Wenn man dann ne 3080 mit 10GB hat, kann man also in der THEORIE die Iterationszeiten halbieren und evtl. noch die Batchsize vergrößern. Wobei von 8GB auf 10GB ist evtl. ne Size von 8 drin und das wars.
Nun stelle sich man mal diese Karte als 16GB Version vor. Der Traum aller KI-Trainingsnutzer
Ich sehe das so, dass Nvidia da etwas zurück rudert. Raytracing ist nach wie vor eher eine Todgeburt. Es stehen die ersten UHD Monitoren mit 120+Hz auf der Matte, da wird kein RTX 3080 Eigentümer Raytracing aktivieren.
Was ich ein bisschen Schade finde ist, das CB gerade Raytracing bei der neuen Karte näher beleuchtet hat.
Mal so ein kleiner ML/DL Benchmark wäre nett gewesen. Ich hätte ja gerne eine geliefert, wenn ich gestern eine 3080 bekommen hätte.
Immerhin guter Hinweis mit CUDA 11 als auch cuDNN 8. Beim Installieren eines DL/ML Servers habe ich mir vor ca. 2 Jahren zu Hause noch die Zähne ausgebissen. In AWS habe ich einfach ein gut vorbereitetes Images wählen können. Nun mit Unbuntu 20.04.1, CUDA 11 und cuDNN 8 habe ich es immerhin nach einigen Stunden mit Pytorch, Python 3 und Co. zum Laufen bekommen. Da kommt aber trotzdem selbst ein alter DevOps-Ler und Unixer beim Einrichten etwas ins Schwitzen, weil die ganzen Anleitungen im Netz, um so eine Instanz aufzubauen, teilweise für für die Tonne sind, sie funktionieren so nicht oder es fehlen viele entscheidende Details. Docker ist ja ebenso eine schöne Lösung für sowas, wenn das mal on-the-scratch so funktionieren würde.
So verzichte ich mal mit den Tests auf den Zwischenschritt mit einer 3080, und warte auf die 3090 nächste Woche.
Danke für den Hinweis! Ich habe die Stelle im Text angepasst. War mir ehrlich gesagt auch nicht sicher, was die korrekte Übersetzung wäre (im Normalfall würde ich einfach sparse schreiben, aber für ein deutsches Publikum sollte es dann doch deutscher sein). @PHuV Ich habe keinen Zugriff auf eine RTX 3080, sonst hätte ich versucht, einen Benchmark laufen zu lassen. Es gibt aber auch nicht wahnsinnig viele (vergleichbare) ML-Benchmarks. Wir hatten über mlperf nachgedacht, hast du andere Vorschläge?
Dann macht mal einen benchmark für gängige ki frameworks.
Zudem hat der a100 einen hardware Decoder für jpeg Dateien. Das beschleunigt nochmal extra das lernen
Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.
@Colindo Sorry, bin bei den ganzen Zahlen durcheinander gekommen. Ging um die 2080 Super. Die hat 384 Tensor-Kerne, die 3080 hat 272. Die Kerne der 3080 sind doppelt so schnell -> insgesamt grob 1,4 mal so schnell bzw. 2,8 mal mit Sparsity. In dem Whitepaper ist eine Tabelle mit den genauen Daten.
Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.
Ich hoffe, dass ist jetzt nicht dein Ernst? Dir ist schon bewusst, dass Grafikkarten auch für was anderes als Gaming eingesetzt werden kann? V.a. wenn die Karte dafür anscheinend gut geeignet ist bzw. eine preiswerte Alternative ist. Und wir sind hier ja auch nicht auf GamingBase, oder?
Das hoert sich echt gut an, bis zum letzten Absatz. Gerade Tensorflow kann da etwas lahm sein. Hat bei Python 3.8 auch ewig gedauert.
@Robert Weisst du wie viele Tensor Cores die 3090 haben wird? Die 3080 hat fuer meinen Anspruch etwas wenig Speicher, ausser man nimmt zwei... Das Sparsity Feature ist zwar ganz nett, aber wenn es nur bei Inference funktioniert bringt es eher wenig. Bzw, koennen die 3000er Karten sowohl Tensor Cores als auch normale FP32 Einheiten nutzen? Das waere genial.