News GeForce RTX 3080: Tensor-Kerne im Vergleich zu Turing und A100

MeisterOek schrieb:
Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.

Du kannst deine RTX auch definitiv anders nutzen...

Real-Time Simulation

Another way NVIDIA Quadro RTX cards are contributing to Industry 4.0 is with their bread and butter, CUDA Cores. These are one of the main processing elements in NVIDIA Quadro cards, and RTX cards pack more CUDA Cores than ever before. It’s enough graphical computation power to enable a novel capability: real-time simulation.

For product designers, real-time simulation means no more waiting on analysts to send back their simulation results. Designers can conduct structural analyses, thermal analyses, fluid analyses and more in real-time, watching as changes to the model instantly propagate to the analysis.

( https://www.engineering.com/Hardwar...TX-Powers-Product-Design-for-Industry-40.aspx )

Das geht auch mit den Cuda-Cores der Gaming-Karten.
 
Zuletzt bearbeitet:
MeisterOek schrieb:
Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.
Die 3090 wird eben auch als KI-Lösung vermarktet:
https://www.nvidia.com/de-de/geforce/graphics-cards/30-series/rtx-3090/
Die GeForce RTX™ 3090 ist in jeder Hinsicht unglaublich leistungsstark und stellt dir eine ganz neue Leistungsebene bereit. Mit Ampere, der 2. Generation der RTX-Architektur von NVIDIA, wird die Raytracing-und KI-Leistung durch verbesserte Raytracing (RT)-Recheneinheiten, Tensor-Recheneinheiten und neue Streaming-Multiprozessoren verdoppelt.
Wenn Du mal die vorhergehenden Links anschaust, siehst Du, daß die 2080TI gerade für ML/DL sehr gefragt ist und dort oft angewendet wird, weil das P/L-Verhältnis gegenüber einer RTX5,6,8000 viel besser ist. Mehr siehe hier:
https://www.computerbase.de/forum/t...tung-ab-499-eur.1966431/page-91#post-24564789
0-8-15 User schrieb:
Prima, danke. Wieso können die das an der NDA vorbei schon veröffentlichen? :o

Update: RTX Titan mit Faktor 1,1 zu 2080TI und 3090 mit Faktor 1,5 zu 2080TI finde ich sehr.... ernüchternd. :(Von der versprochenen mehrfachen Leistung der Tensor Cores sieht man hier nicht viel.

Update 2: Die Werte sind nur geschätzt und "extrapoliert" worden. Daher taugt der dortige Benchmark erst mal nichts, hier müssen wir die ersten realen Werte abwarten. Ich hoffe, die Bestellung der Asus ROG-STRIX-RTX3090-O24G-GAMING hat bei Amazon geklappt, so daß ich dann nächste Woche mal echte Werte liefern kann.
blubberbirne schrieb:
Könnt ihr die KI Leistung mit z.B. DeepFaceLab messen?
Oder z.B. mit der Dain app?

Das sind zwei apps die RTX Karten zu 100% ausreizen.
Leider nicht tauglich, weil es anscheinend keine festgelegten Benchmarks dafür gibt.
 
Zuletzt bearbeitet:
PHuV schrieb:
Daher taugt der dortige Benchmark erst mal nichts, hier müssen wir die ersten realen Werte abwarten.
Der "Educated Guess" von Tim Dettmers deckt sich aber fast 1:1 mit den Messwerten von Pudgetsystems.
PHuV schrieb:
RTX Titan mit Faktor 1,1 zu 2080TI und 3090 mit Faktor 1,5 zu 2080TI finde ich sehr.... ernüchternd.
Wie groß der Faktor ausfällt, hängt ganz stark davon ab, was man mit der Karte am Ende treibt.
 
MeisterOek schrieb:
Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.
Mal abgesehen davon, dass es ja zig KI-Lösungen von NVIDIA für Streaming, Voice-DeNoising, ... bis hin zu DLSS gibt, wodurch diese Technologie also sehr wohl auch für Gamer interessant ist: hast du dir mal Schätzungen dazu angeschaut, wie viele 2080 Ti für KI-Anwendungen angeschafft wurden? Diese Karte rechnet häufiger für professionelle Anwendungen, als für Games. Das wird bei der RTX 3090 nicht anders sein.
 
  • Gefällt mir
Reaktionen: PHuV
Hier mal die ersten DL Benchmarks mit einer 3090, die wenigstens laufen:

Code:
phuv@unbuntu-cuda:~/benchmarks-master/scripts/tf_cnn_benchmarks$
nvidia-smi
Thu Sep 24 23:19:46 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.23.04    Driver Version: 455.23.04    CUDA Version: 11.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  GeForce RTX 3090    On   | 00000000:01:00.0 Off |                  N/A |
| 53%   36C    P8    39W / 350W |    150MiB / 24265MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      1322      G   /usr/lib/xorg/Xorg                137MiB |
|    0   N/A  N/A      1469      G   /usr/bin/gnome-shell               11MiB |
+-----------------------------------------------------------------------------+

https://blog.exxactcorp.com/titan-rtx-performance-benchmarks-for-tensorflow-2019/
TITAN RTX Deep Learning Benchmarks: FP32 (XLA off)
Code:
TITAN RTX Deep Learning Benchmarks: FP32 (XLA off)
              RTX TITAN    RTX 3090      RTX 8000
ResNet152     139.13        208.62       137.12
InceptionV4   108.25        165.38       105.2
VGG16         191.85        331.43       197.69
InceptionV3   221.72        334.61       216.27
ResNet50      337.05        521.19       322.66
NASNET will bei mir nicht.
50-70% mehr als eine RTX TITAN ist schon prima.

Update: Wenn ich die Zahlen mit einer RTX 8000 vergleiche, knallt die 3090 sie einfach nur weg:
https://blog.exxactcorp.com/whats-t...2080-ti-vs-titan-rtx-vs-rtx-8000-vs-rtx-6000/
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: KlaraElfer
1600985651864.png

unbuntu > ubuntu? Ist immerhin um ein "n" besser :D

Anyways, sehr cool! @PHuV

Welche Version von TensorFlow hast du genommen?

Spannend wäre ja auch ein "Praxistest", also mit XLA & Co. und vielleicht auch mal (etwas) kleinere Netze. Also zumindest ist es bei mir/uns üblicher, relativ effiziente Netze zu trainieren und seltener solche Monster wie ResNet oder VGG.

EfficientNetB0 z.B. wäre sehr interessant. Oder auch einfach ein FPN (kann man ja einen simplen Autoencoder basteln).

Ich hatte in der Vergangenheit häufig die Erfahrung gemacht, dass selbst bei großen batch sizes das volle Potential bei der RTX 2000 Serie nur bei wirklich großen Netzen abrufbar war. Z.B. bei einem Conv-AutoEncoder der 512x512 auf 512x512 map'ed mit nur 1,X Mio. Parametern war z.B. die Titan RTX (Turing) nur noch 30% vor einer Titan Xp.
(Wobei ich zugegebenermaßen den Test auch nur gemacht habe, als die RTX Titans bei uns neu waren; mag sein, dass in der Zwischenzeit CUDA/cuDNN Updates da was gedreht haben)
 
  • Gefällt mir
Reaktionen: 0-8-15 User
ascer schrieb:
Welche Version von TensorFlow hast du genommen?
2.4.0-dev20200904
ascer schrieb:
unbuntu > ubuntu? Ist immerhin um ein "n" besser :D
Arg, danke, gleich mal korrigiert.
ascer schrieb:
Spannend wäre ja auch ein "Praxistest", also mit XLA & Co. und vielleicht auch mal (etwas) kleinere Netze. Also zumindest ist es bei mir/uns üblicher, relativ effiziente Netze zu trainieren und seltener solche Monster wie ResNet oder VGG.

EfficientNetB0 z.B. wäre sehr interessant. Oder auch einfach ein FPN (kann man ja einen simplen Autoencoder basteln).
Wenn Du mir sagst, wie? Ich bin an sich der ML/DL Noob, ich setze immer nur die Server für die Data Scientisten auf.
Ergänzung ()

0-8-15 User schrieb:
Aber nur bei reinem FP32. Bei FP16 sieht die Sache deutlich anders aus.
Nur für Dich, und nein:
Code:
TITAN RTX Deep Learning Benchmarks: FP16 (XLA off)
            RTX TITAN    RTX 3090    RTX 8000

ResNet152    284.87      459.93      291.94
InceptionV4  207.98      378.88      203.67
VGG16        287.1       409.71      276.16
InceptionV3  397.09      715.44      391.08
ResNet50     646.13      1032.01     604.76
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: PHuV
PHuV schrieb:
Wenn Du mir sagst, wie?
Gern.

Wird ein bisschen dauern, bin derzeit recht eingespannt, aber ich kann dafür mal was zusammenstellen.
 
  • Gefällt mir
Reaktionen: PHuV
@0-8-15 User

Danke für den guten Hinweis. Das blöde an der Geschichte ist, daß es nicht nachvollziehbar ist, wie die das aufbauen. Und wie ich sehen kann, zieht das alles wieder ein Rattenschwanz an Installationen und Konfigurationen nach sich, so daß man erst mal eine Weile braucht, bis das eingerichtet ist. Das ist eben nicht so trivial, da fummelt man eine Weile rum.

Update, sorry, was der gute Kinghorn da fabriziert hat, bekomme ich nicht so einfach mal nachgestellt, daß ist echt wieder ein Gekekse.
https://ngc.nvidia.com/catalog/resources/nvidia:resnet_50_v1_5_for_tensorflow/quickStartGuide

Gibts nicht eine einfachere Möglichkeit, das zu benchen?
 
Zuletzt bearbeitet:
Wenn ich eine eine hätte. Da muß ich glatt mal @HisN anfragen.

Update. Mist, wird nix, er hat eine Wakü an der Titan, und ich kann das bei mir nicht verbauen.
 
Zuletzt bearbeitet:
PHuV schrieb:
3090 mit Faktor 1,5 zu 2080TI finde ich sehr.... ernüchternd.
Tim Dettmers kommt mittlerweile unter Einbeziehung der neuesten Benchmark Ergebnisse auf einen Faktor von ca. 1,42 bei Mixed-Precision FP16 Training.

EvolutionAI, auf die sich Tim Dettmers in seinem Artikel bezieht, vergleicht die RTX 3090 mit der Titan RTX und schreibt Folgendes:
 
  • Gefällt mir
Reaktionen: PHuV
Das die Werte leicht abweichen, kann ich nachvollziehen, aber bei 2 Werten gibts arge Ausreißer und Unterschiede zu meinen Werten:

Tim Dettmers
https://www.evolution.ai/post/bench...ith-tensorflow-on-the-nvidia-geforce-rtx-3090
Training performance in images processed per second​
FP16
FP32
Titan RTX
RTX 3090
Titan RTX
RTX 3090
AlexNet
6634.318255.434448.466493.16
Inception3
656.13616.25222.95337.31
Inception4
298.11132.7399.74143.65
ResNet152
423.92484.02134.47203.58
ResNet150
966.771259.95335.96525.88
VGG16
339.73442.49212.06325.60
PHuV

Training performance in images processed per second​
FP16
FP32
Titan RTX
RTX 3090
Titan RTX
RTX 3090
AlexNet
6634.31-4448.46-
Inception3
656.13715.44222.95334.61
Inception4
298.11378.8899.74165.38
ResNet152
423.92459.93134.47208.62
ResNet150
966.771032.01335.96521.19
VGG16
339.73409.71212.06331.43

Aber man kann sagen, die RTX 3090 ist klar schneller als die RTX Titan.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: abcddcba und 0-8-15 User
Zuletzt bearbeitet:
@PHuV wobei man aber auch dazu sagen muss, dass der von NVIDIA so großspurig angekündigte Performancesprung hauptsächlich durch TF32 (TensorFloat) und die anderen neuen, Ampere-spezifischen Datentypen kommt, die ausschließlich die neuen TensorCores bereitstellen.

Das wiederum nutzt TensorFlow 1.15 gar nicht. Das erste Release, was nativ die neuen APIs von CUDA11 und neuen Datentypen wie TensorFloat32 unterstützt wird TensorFlow 2.4, wovon gerade erst der erste Release Candidate raus ist.
Bei PyTorch ist es ähnlich.
 
  • Gefällt mir
Reaktionen: PHuV
ascer schrieb:
EfficientNetB0 z.B. wäre sehr interessant.
TensorFlow 2.3.1, Cuda 11.1.1, Nvidia 455.38:
images/secondGTX 1060 (100W)RTX 3070 (100W)RTX 3070 (220W)Titan X Pascal (250W)Titan RTX (280W)
EfficientNetB0
(bs=32, fp32)
177288328312352
EfficientNetB0
(bs=32, fp16)
-500633-731
ascer schrieb:
Ich hatte in der Vergangenheit häufig die Erfahrung gemacht, dass selbst bei großen batch sizes das volle Potential bei der RTX 2000 Serie nur bei wirklich großen Netzen abrufbar war.
In obigem Test wurden die RTX Karten beim 'mixed precision' Training nur zu 40 - 60% ausgelastet.
 
  • Gefällt mir
Reaktionen: emilov und PHuV
Zurück
Oben