Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsGeForce RTX 3080: Tensor-Kerne im Vergleich zu Turing und A100
Mit der Ampere-Architektur hat Nvidia auch die mit Volta eingeführten Tensor-Kerne der GPU überarbeitet. Nachdem zunächst unklar war, inwiefern sich die Tensor-Kerne der GeForce RTX 3080 (Test) von denen der professionellen A100-GPU unterscheiden, gibt ein Nvidia-Whitepaper nun Aufschluss.
Danke für die Information. Dann wird wohl in den nächsten Generationen bezüglich der Datentypen nicht mehr viel zu beschleunigen sein. Es wurde ja diesmal anscheinend da sehr viel optimiert.
Wofür werden die Tensor Cores denn in der Praxis schon genutzt?
DLSS klar, aber ansonsten?
In der kreativ Branche gibt es ja schon Software die mit Ai/Ki beschrieben wird (z.B. Ai Upscaling von Topaz Labs oder DeepFaceLab) nutzen diese Programme die Tensor Cores oder läuft das über die normalen Cuda Cores?
@Robert Sind die Tensor-Kerne in FP32 jetzt nur doppelt so schnell, bei gleichzeitig halbierter Anzahl, oder gilt die am Ende genannte Beschleunigung von x2,7 für die Gesamtleistung? Bei DLSS war ja der Geschwindigkeitsgewinn prozentual der Gleiche wie bei Turing.
Ergänzung ()
@Xes Das Denoising in Blender geht mittlerweile auch über die Tensor-Cores. Und Ai-Funktionen sollten normalerweise auch direkt die Tensor-Cores nutzen, die sind da einfach deutlich schneller als Cuda-Cores.
Edit: Topaz Studio scheint auf den ersten Blick über die CPU zu laufen.
Im vergleich zur 2080 TI hat sich der Durchsatz also nicht geändert, abgesehen von sparsity, was die ti nicht kann und ein bis zu 2x ist und nicht allgemein 2x bedeutet.
Und ob man mit weniger, aber dafür breiteren Einheiten wirklich flexibler ist, muss sich denke ich auch zeigen.
@Colindo Die Anzahl der Rechenoperationen pro Tensor-Kern ist doppelt so hoch, die Anzahl der Rechenoperationen pro SM gleich (halb so viele Tensor-Kerne, die doppelt so schnell arbeiten) und die Rechenleistung aller Tensor-Kerne (aka der Grafikkarte) 2,7 mal so hoch.
@Xes Sie können a.) von Entwicklern genutzt werden und b.) von Anwendern in fertiger Software (zum Beispiel DLSS, die Nvidia AI-Rauschentfernung, aber auch Drittanbietersoftware).
Wenn jetzt noch Tensorflow cudNN 8 unterstützen würde, wäre das ja schon mal eine coole Sache.
Mehr Speed beim trainieren kann nie Schaden, auch wenn es dann später sowieso bei Sagemaker landet
Vor einem halben Jahr habe ich alles auf Google Collab Notebooks umgestellt, da mein Gaming-Rechner die 4h marke pro 200er Epoch Training run gebraucht hat und somit kein startendes Flugzeug mehr unter meinem Schreibtisch stand.
Anschaffungspreis + Stromkosten Lokal -vs- Cloud GPU mietkosten war vorher einfach deutlich zugunsten Cloud.
Wenn ich allerdings jetzt sehe, das die A100er Ampere über $1000 pro Monat kosten und die Anschaffung einer 3080 billiger ist, bin ich echt wieder am überlegen. 312 TFLOPs im Vergleich zu 125 TFLOPs einer V100 sind halt schon ne Ansage.
Musste kurz drüber nachdenken, ob das jetzt an dem Artikel liegt oder an mir.
Als Audio Format könnte ich damit gerade mehr anfangen, da ich mich nicht voll drauf konzentrieren kann - gilt sonst natürlich eher für längere Artikel. Das ist ja auch ein Grund warum Podcasts und/oder YouTube Channels so erfolgreich sind. Zumal viele Leute auditive/visuelle Lerntypen sind und dementsprechend gerne über diese Medien konsumieren, ob nun informativ oder "nur" zur Unterhaltung.