Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
News GeForce RTX 3080: Tensor-Kerne im Vergleich zu Turing und A100
- Ersteller Robert
- Erstellt am
- Zur News: GeForce RTX 3080: Tensor-Kerne im Vergleich zu Turing und A100
MeisterOek schrieb:Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.
Du kannst deine RTX auch definitiv anders nutzen...
Real-Time Simulation
Another way NVIDIA Quadro RTX cards are contributing to Industry 4.0 is with their bread and butter, CUDA Cores. These are one of the main processing elements in NVIDIA Quadro cards, and RTX cards pack more CUDA Cores than ever before. It’s enough graphical computation power to enable a novel capability: real-time simulation.
For product designers, real-time simulation means no more waiting on analysts to send back their simulation results. Designers can conduct structural analyses, thermal analyses, fluid analyses and more in real-time, watching as changes to the model instantly propagate to the analysis.
( https://www.engineering.com/Hardwar...TX-Powers-Product-Design-for-Industry-40.aspx )
Das geht auch mit den Cuda-Cores der Gaming-Karten.
Zuletzt bearbeitet:
PHuV
Banned
- Registriert
- März 2005
- Beiträge
- 14.219
Die 3090 wird eben auch als KI-Lösung vermarktet:MeisterOek schrieb:Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.
Wenn Du mal die vorhergehenden Links anschaust, siehst Du, daß die 2080TI gerade für ML/DL sehr gefragt ist und dort oft angewendet wird, weil das P/L-Verhältnis gegenüber einer RTX5,6,8000 viel besser ist. Mehr siehe hier:https://www.nvidia.com/de-de/geforce/graphics-cards/30-series/rtx-3090/
Die GeForce RTX™ 3090 ist in jeder Hinsicht unglaublich leistungsstark und stellt dir eine ganz neue Leistungsebene bereit. Mit Ampere, der 2. Generation der RTX-Architektur von NVIDIA, wird die Raytracing-und KI-Leistung durch verbesserte Raytracing (RT)-Recheneinheiten, Tensor-Recheneinheiten und neue Streaming-Multiprozessoren verdoppelt.
https://www.computerbase.de/forum/t...tung-ab-499-eur.1966431/page-91#post-24564789
Prima, danke. Wieso können die das an der NDA vorbei schon veröffentlichen?0-8-15 User schrieb:
Update: RTX Titan mit Faktor 1,1 zu 2080TI und 3090 mit Faktor 1,5 zu 2080TI finde ich sehr.... ernüchternd. Von der versprochenen mehrfachen Leistung der Tensor Cores sieht man hier nicht viel.
Update 2: Die Werte sind nur geschätzt und "extrapoliert" worden. Daher taugt der dortige Benchmark erst mal nichts, hier müssen wir die ersten realen Werte abwarten. Ich hoffe, die Bestellung der Asus ROG-STRIX-RTX3090-O24G-GAMING hat bei Amazon geklappt, so daß ich dann nächste Woche mal echte Werte liefern kann.
Leider nicht tauglich, weil es anscheinend keine festgelegten Benchmarks dafür gibt.blubberbirne schrieb:Könnt ihr die KI Leistung mit z.B. DeepFaceLab messen?
Oder z.B. mit der Dain app?
Das sind zwei apps die RTX Karten zu 100% ausreizen.
Zuletzt bearbeitet:
0-8-15 User
Vice Admiral
- Registriert
- Jan. 2008
- Beiträge
- 7.155
Der "Educated Guess" von Tim Dettmers deckt sich aber fast 1:1 mit den Messwerten von Pudgetsystems.PHuV schrieb:Daher taugt der dortige Benchmark erst mal nichts, hier müssen wir die ersten realen Werte abwarten.
Wie groß der Faktor ausfällt, hängt ganz stark davon ab, was man mit der Karte am Ende treibt.PHuV schrieb:RTX Titan mit Faktor 1,1 zu 2080TI und 3090 mit Faktor 1,5 zu 2080TI finde ich sehr.... ernüchternd.
Mal abgesehen davon, dass es ja zig KI-Lösungen von NVIDIA für Streaming, Voice-DeNoising, ... bis hin zu DLSS gibt, wodurch diese Technologie also sehr wohl auch für Gamer interessant ist: hast du dir mal Schätzungen dazu angeschaut, wie viele 2080 Ti für KI-Anwendungen angeschafft wurden? Diese Karte rechnet häufiger für professionelle Anwendungen, als für Games. Das wird bei der RTX 3090 nicht anders sein.MeisterOek schrieb:Ziemlich viel blabla im Artikel und ich versteh nicht, wozu ich als Gamer das brauche. ich weiß jetzt nur, dass es toller funktiniert als noch bei 20xx. Und Tensorcores habe ich im Zusammenhang mit DLSS auch schon gehört, aber da hörts auf. Wir reden hier über Gaming-Grafikkarten.
PHuV
Banned
- Registriert
- März 2005
- Beiträge
- 14.219
Hier mal die ersten DL Benchmarks mit einer 3090, die wenigstens laufen:
https://blog.exxactcorp.com/titan-rtx-performance-benchmarks-for-tensorflow-2019/
TITAN RTX Deep Learning Benchmarks: FP32 (XLA off)
NASNET will bei mir nicht.
50-70% mehr als eine RTX TITAN ist schon prima.
Update: Wenn ich die Zahlen mit einer RTX 8000 vergleiche, knallt die 3090 sie einfach nur weg:
https://blog.exxactcorp.com/whats-t...2080-ti-vs-titan-rtx-vs-rtx-8000-vs-rtx-6000/
Code:
phuv@unbuntu-cuda:~/benchmarks-master/scripts/tf_cnn_benchmarks$
nvidia-smi
Thu Sep 24 23:19:46 2020
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 455.23.04 Driver Version: 455.23.04 CUDA Version: 11.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 GeForce RTX 3090 On | 00000000:01:00.0 Off | N/A |
| 53% 36C P8 39W / 350W | 150MiB / 24265MiB | 0% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 1322 G /usr/lib/xorg/Xorg 137MiB |
| 0 N/A N/A 1469 G /usr/bin/gnome-shell 11MiB |
+-----------------------------------------------------------------------------+
https://blog.exxactcorp.com/titan-rtx-performance-benchmarks-for-tensorflow-2019/
TITAN RTX Deep Learning Benchmarks: FP32 (XLA off)
Code:
TITAN RTX Deep Learning Benchmarks: FP32 (XLA off)
RTX TITAN RTX 3090 RTX 8000
ResNet152 139.13 208.62 137.12
InceptionV4 108.25 165.38 105.2
VGG16 191.85 331.43 197.69
InceptionV3 221.72 334.61 216.27
ResNet50 337.05 521.19 322.66
50-70% mehr als eine RTX TITAN ist schon prima.
Update: Wenn ich die Zahlen mit einer RTX 8000 vergleiche, knallt die 3090 sie einfach nur weg:
https://blog.exxactcorp.com/whats-t...2080-ti-vs-titan-rtx-vs-rtx-8000-vs-rtx-6000/
Zuletzt bearbeitet:
unbuntu > ubuntu? Ist immerhin um ein "n" besser
Anyways, sehr cool! @PHuV
Welche Version von TensorFlow hast du genommen?
Spannend wäre ja auch ein "Praxistest", also mit XLA & Co. und vielleicht auch mal (etwas) kleinere Netze. Also zumindest ist es bei mir/uns üblicher, relativ effiziente Netze zu trainieren und seltener solche Monster wie ResNet oder VGG.
EfficientNetB0 z.B. wäre sehr interessant. Oder auch einfach ein FPN (kann man ja einen simplen Autoencoder basteln).
Ich hatte in der Vergangenheit häufig die Erfahrung gemacht, dass selbst bei großen batch sizes das volle Potential bei der RTX 2000 Serie nur bei wirklich großen Netzen abrufbar war. Z.B. bei einem Conv-AutoEncoder der 512x512 auf 512x512 map'ed mit nur 1,X Mio. Parametern war z.B. die Titan RTX (Turing) nur noch 30% vor einer Titan Xp.
(Wobei ich zugegebenermaßen den Test auch nur gemacht habe, als die RTX Titans bei uns neu waren; mag sein, dass in der Zwischenzeit CUDA/cuDNN Updates da was gedreht haben)
0-8-15 User
Vice Admiral
- Registriert
- Jan. 2008
- Beiträge
- 7.155
Aber nur bei reinem FP32. Bei FP16 sieht die Sache deutlich anders aus.PHuV schrieb:50-70% mehr als eine RTX TITAN ist schon prima.
PHuV
Banned
- Registriert
- März 2005
- Beiträge
- 14.219
2.4.0-dev20200904ascer schrieb:Welche Version von TensorFlow hast du genommen?
Arg, danke, gleich mal korrigiert.ascer schrieb:unbuntu > ubuntu? Ist immerhin um ein "n" besser
Wenn Du mir sagst, wie? Ich bin an sich der ML/DL Noob, ich setze immer nur die Server für die Data Scientisten auf.ascer schrieb:Spannend wäre ja auch ein "Praxistest", also mit XLA & Co. und vielleicht auch mal (etwas) kleinere Netze. Also zumindest ist es bei mir/uns üblicher, relativ effiziente Netze zu trainieren und seltener solche Monster wie ResNet oder VGG.
EfficientNetB0 z.B. wäre sehr interessant. Oder auch einfach ein FPN (kann man ja einen simplen Autoencoder basteln).
Ergänzung ()
Nur für Dich, und nein:0-8-15 User schrieb:Aber nur bei reinem FP32. Bei FP16 sieht die Sache deutlich anders aus.
Code:
TITAN RTX Deep Learning Benchmarks: FP16 (XLA off)
RTX TITAN RTX 3090 RTX 8000
ResNet152 284.87 459.93 291.94
InceptionV4 207.98 378.88 203.67
VGG16 287.1 409.71 276.16
InceptionV3 397.09 715.44 391.08
ResNet50 646.13 1032.01 604.76
Zuletzt bearbeitet:
0-8-15 User
Vice Admiral
- Registriert
- Jan. 2008
- Beiträge
- 7.155
Die ResNet-50 646.13 img/sec aus deiner Tabelle sind laut Exxact Corporation mit TensorFlow 1.14 entstanden.
Pugetsystems kam mit Version 1.13 auf 653 img/sec und mit Version 1.15 auf 1082 img/sec:
Pugetsystems kam mit Version 1.13 auf 653 img/sec und mit Version 1.15 auf 1082 img/sec:
Das selbe gilt übrigens, wenn auch deutlich weniger stark ausgeprägt, für FP32.
Gern.PHuV schrieb:Wenn Du mir sagst, wie?
Wird ein bisschen dauern, bin derzeit recht eingespannt, aber ich kann dafür mal was zusammenstellen.
PHuV
Banned
- Registriert
- März 2005
- Beiträge
- 14.219
@0-8-15 User
Danke für den guten Hinweis. Das blöde an der Geschichte ist, daß es nicht nachvollziehbar ist, wie die das aufbauen. Und wie ich sehen kann, zieht das alles wieder ein Rattenschwanz an Installationen und Konfigurationen nach sich, so daß man erst mal eine Weile braucht, bis das eingerichtet ist. Das ist eben nicht so trivial, da fummelt man eine Weile rum.
Update, sorry, was der gute Kinghorn da fabriziert hat, bekomme ich nicht so einfach mal nachgestellt, daß ist echt wieder ein Gekekse.
https://ngc.nvidia.com/catalog/resources/nvidia:resnet_50_v1_5_for_tensorflow/quickStartGuide
Gibts nicht eine einfachere Möglichkeit, das zu benchen?
Danke für den guten Hinweis. Das blöde an der Geschichte ist, daß es nicht nachvollziehbar ist, wie die das aufbauen. Und wie ich sehen kann, zieht das alles wieder ein Rattenschwanz an Installationen und Konfigurationen nach sich, so daß man erst mal eine Weile braucht, bis das eingerichtet ist. Das ist eben nicht so trivial, da fummelt man eine Weile rum.
Update, sorry, was der gute Kinghorn da fabriziert hat, bekomme ich nicht so einfach mal nachgestellt, daß ist echt wieder ein Gekekse.
https://ngc.nvidia.com/catalog/resources/nvidia:resnet_50_v1_5_for_tensorflow/quickStartGuide
Gibts nicht eine einfachere Möglichkeit, das zu benchen?
Zuletzt bearbeitet:
0-8-15 User
Vice Admiral
- Registriert
- Jan. 2008
- Beiträge
- 7.155
Der einfachste Weg wäre wohl, deine obigen Benchmarks auf einer RTX Titan zu wiederholen.PHuV schrieb:Gibts nicht eine einfachere Möglichkeit, das zu benchen?
0-8-15 User
Vice Admiral
- Registriert
- Jan. 2008
- Beiträge
- 7.155
Tim Dettmers kommt mittlerweile unter Einbeziehung der neuesten Benchmark Ergebnisse auf einen Faktor von ca. 1,42 bei Mixed-Precision FP16 Training.PHuV schrieb:3090 mit Faktor 1,5 zu 2080TI finde ich sehr.... ernüchternd.
EvolutionAI, auf die sich Tim Dettmers in seinem Artikel bezieht, vergleicht die RTX 3090 mit der Titan RTX und schreibt Folgendes:
PHuV
Banned
- Registriert
- März 2005
- Beiträge
- 14.219
Das die Werte leicht abweichen, kann ich nachvollziehen, aber bei 2 Werten gibts arge Ausreißer und Unterschiede zu meinen Werten:
Tim Dettmers
https://www.evolution.ai/post/bench...ith-tensorflow-on-the-nvidia-geforce-rtx-3090
PHuV
Aber man kann sagen, die RTX 3090 ist klar schneller als die RTX Titan.
Tim Dettmers
https://www.evolution.ai/post/bench...ith-tensorflow-on-the-nvidia-geforce-rtx-3090
Training performance in images processed per second | ||||
FP16 | | FP32 | ||
Titan RTX | RTX 3090 | Titan RTX | RTX 3090 | |
AlexNet | 6634.31 | 8255.43 | 4448.46 | 6493.16 |
Inception3 | 656.13 | 616.25 | 222.95 | 337.31 |
Inception4 | 298.11 | 132.73 | 99.74 | 143.65 |
ResNet152 | 423.92 | 484.02 | 134.47 | 203.58 |
ResNet150 | 966.77 | 1259.95 | 335.96 | 525.88 |
VGG16 | 339.73 | 442.49 | 212.06 | 325.60 |
Training performance in images processed per second | ||||
FP16 | | FP32 | ||
Titan RTX | RTX 3090 | Titan RTX | RTX 3090 | |
AlexNet | 6634.31 | - | 4448.46 | - |
Inception3 | 656.13 | 715.44 | 222.95 | 334.61 |
Inception4 | 298.11 | 378.88 | 99.74 | 165.38 |
ResNet152 | 423.92 | 459.93 | 134.47 | 208.62 |
ResNet150 | 966.77 | 1032.01 | 335.96 | 521.19 |
VGG16 | 339.73 | 409.71 | 212.06 | 331.43 |
Aber man kann sagen, die RTX 3090 ist klar schneller als die RTX Titan.
Zuletzt bearbeitet:
PHuV
Banned
- Registriert
- März 2005
- Beiträge
- 14.219
Hier mal ein Benchmark mit einer 3070
RTX3070 (and RTX3090 refresh) TensorFlow and NAMD Performance on Linux (Preliminary)
Man kann schön sehen, daß hier eine 2080TI noch lange nicht zum alten Eisen gehört, und für ML/DL prima funktioniert. Bei TensorFlow 1.15, ResNet50 FP16 schaff sie fast Faktor 3.5 zu einer 3070.
RTX3070 (and RTX3090 refresh) TensorFlow and NAMD Performance on Linux (Preliminary)
Man kann schön sehen, daß hier eine 2080TI noch lange nicht zum alten Eisen gehört, und für ML/DL prima funktioniert. Bei TensorFlow 1.15, ResNet50 FP16 schaff sie fast Faktor 3.5 zu einer 3070.
Zuletzt bearbeitet:
@PHuV wobei man aber auch dazu sagen muss, dass der von NVIDIA so großspurig angekündigte Performancesprung hauptsächlich durch TF32 (TensorFloat) und die anderen neuen, Ampere-spezifischen Datentypen kommt, die ausschließlich die neuen TensorCores bereitstellen.
Das wiederum nutzt TensorFlow 1.15 gar nicht. Das erste Release, was nativ die neuen APIs von CUDA11 und neuen Datentypen wie TensorFloat32 unterstützt wird TensorFlow 2.4, wovon gerade erst der erste Release Candidate raus ist.
Bei PyTorch ist es ähnlich.
Das wiederum nutzt TensorFlow 1.15 gar nicht. Das erste Release, was nativ die neuen APIs von CUDA11 und neuen Datentypen wie TensorFloat32 unterstützt wird TensorFlow 2.4, wovon gerade erst der erste Release Candidate raus ist.
Bei PyTorch ist es ähnlich.
0-8-15 User
Vice Admiral
- Registriert
- Jan. 2008
- Beiträge
- 7.155
TensorFlow 2.3.1, Cuda 11.1.1, Nvidia 455.38:ascer schrieb:EfficientNetB0 z.B. wäre sehr interessant.
images/second | GTX 1060 (100W) | RTX 3070 (100W) | RTX 3070 (220W) | Titan X Pascal (250W) | Titan RTX (280W) |
EfficientNetB0 (bs=32, fp32) | 177 | 288 | 328 | 312 | 352 |
EfficientNetB0 (bs=32, fp16) | - | 500 | 633 | - | 731 |
In obigem Test wurden die RTX Karten beim 'mixed precision' Training nur zu 40 - 60% ausgelastet.ascer schrieb:Ich hatte in der Vergangenheit häufig die Erfahrung gemacht, dass selbst bei großen batch sizes das volle Potential bei der RTX 2000 Serie nur bei wirklich großen Netzen abrufbar war.
Ähnliche Themen
- Antworten
- 4
- Aufrufe
- 1.855