News Nvidia Volta: Tesla V100 bringt 15 TFLOPs bei 5.120 ALUs auf 815 mm²

pipip schrieb:
Woher weißt du das ?
Vega hat mit 12,5 TFLOPS 32Bit kaum weniger als Volta und ist mit knapp unter 500 mm^2, einem 2024 Bit SI sicherlich um einiges billiger zu produzieren.

naja zum einen ist der reine Flop Wert so ziemlich das letzte was interessiert, zum anderen meine ich auch gelesen zu haben dass es sich bei den 15 um doppelte Genauigkeit handelt?

Edit: okay sollen wohl 32 Bit 15TF sein was rechnerisch auch hinkommt. Ich glaub aber nicht wirklich dass man das einfach darüber vergleichen kann.

Edit2: Nvidia spezialisiert sich hier offensichtlich weit mehr auf AI. Auch wenn der Knilch in Lederjacke ein Schwätzer ist so war es es dennoch ganz interessant. Zb diese zwei sich gegenseitig duellierenden künstlichen Intelligenzen die sich damit selbst optimieren.

Edit3. Wie schauts eig bei AMD im Computing Bereich aus? Ich hör auch an allen Ecken von Tesla und GPGPU, sei es um Cuda oder um Dinge wie Virtual Appliances mit virtuellen GPUs.

In erster Linie scheint wirklich das Framework den Unterschied zu machen. Und das pushed auch Nvidia da sie wissen dass die Software + die Community den Unterschied macht.
 
Zuletzt bearbeitet:
syfsyn schrieb:
ich habe mal schlechte Nachrichten wenn die 12,5tflops stimmen bei amd
Amd benötigt etwa 40% mehr tflops
Ich habe schlecht Nachrichten für dich. TFlops haben nichts gemeinsam mit FPS. Die Gleitkommaberechnung ist quasi die einzige Möglichkeit adäquat ChipArchitekturen(Transistoren) anhand ihrer möglichen Leistung zu vergleichen.

Das ist ungefähr das gleiche, als ob ich sagen würde, V8 Motoren sind besser als V6 Motoren, weil die haben 2 Zylinder mehr. Für die Endleistung hat das aber nichts zu bedeuten(Gleitkommaberechnung ~= FPS in BF1)

Fuji hatte ein "beschissenes" Backend und Frontend. Die Karte ist quasi mittendrin verhungert. Ein passendes Backend/Frontend braucht man für die Gleitkommaberechnung eben nicht.
Vega soll eben an den Schwachstellen ansetzen wie einst Maxwell 2.0.

Zur Karte:
Ich bin auch ein bisschen verwundert. Bei Vega kamen ja schon Gerüchte auf, dass 6000 Shader platzfinden sollen, aber auch von Nvidia sowas vorzufinden, erstaunt mich.
Schade das ich kein Rechenzentrum bin oder Forscher für Kerbsbekämpfung, dann wäre sowas interessant.
Für mich als Hauptsächlicher Gamer interessieren mich leider nur die Consumerkarten.
 
Zuletzt bearbeitet:
Mal sehen wohin es geht. Ich als 1080p Zocker freu mich das ich mittlerweile mit recht günstigen Karten bis an ans Maximum des einstellbaren komme.
 
DirtyOne schrieb:
Könnten Sich die Fertiger bitte Einigen und aus einem 16nm Prozess nicht auf dem Papier einen 12nm Prozess machen?!?

Ich finde das verwirrend und eigentlich ist es auch eine Lüge.:rolleyes:
Ne Lüge ist es eigentlich nicht. Dann wäre sämtlichen ProzessStrukturangaben Lügen. Es geht um den kleinst möglichen Abstand im Transistor und der liegt eben bei 12nm. Wenn nur ein Transistor von 5Millionen in 12nm ist, Voila 12nm Strukturbreite.der Rest kann ruhig größer sein.
 
Raucherdackel! schrieb:
Das ist wieder so eine Hyper- Mega Karte, die auf dem Papier toll aussieht, sich aber wieder nur lächerlich gering verkauft weil die Konkurrenz in diesem Sektor nicht nur Grafikkarten umfasst. Da wildert Xeon Phi mit ihren Königslanden und Königsecken und Nvidia wird wieder nix reissen.
!

Dann schau mal die Quartalszahlen an. Wieviel/Welche Modelle sie in der Datencenter Sparte verkauft haben, weiss man nicht, aber der Umsatz hat sich verdreifacht in einem Jahr. Ein gewisser Bedarf ist also sicher da und in neuen Supercomputer findet man so manche P100. Im Gegensatz zu den Consumer Modellen verkaufen sie wirklich wenig, aber dafür hohe Margen und das sieht man an den Quartalszahlen.
Ob Xeon Phi sich besser verkauft, weiss man auch nicht, es wird die Zukunft zeigen, wer sich da besser schäft.
Jedenfalls macht es Nvidia für Entwickler und Anwender von AI/Deep Learning Sachen ziehmlich einfach, neu mit Docker Images für alle Frameworks und optmiert auf verschiedene GPUs. Und da sehe ich aktuell den Vorteil.
 
Interessant finde ich, dass man wohl so langsam an eine Grenze stößt was die Optimierung der
Chips anbelangt. AMD wie auch NVDIA flüchten sich trotz immer kleiner werdenden Herstellungsverfahren,
in immer größere Chipflächen. 800 mm² und 300 W , geht fast als Campingkocher durch :D.

Künstliche neuronale Netzwerke entwickeln sich so langsam zum Motor der Chipindustrie.
Der Markt erscheint mir zumindest sehr lukrativ, wenn immer mehr Chips auf diese Art
von Anwendung optimiert werden.
 
D708 schrieb:
Ich habe schlecht Nachrichten für dich. TFlops haben nichts gemeinsam mit FPS. Die Gleitkommaberechnung ist quasi die einzige Möglichkeit adäquat ChipArchitekturen(Transistoren) anhand ihrer möglichen Leistung zu vergleichen.

das schon richtig. Aber um das zu beurteilen müsste man doch einen konkreten Anwendungsfall X auf Karte A und B zum Laufen bringen und testen. Und das auch hinreichend optimiert.

Den Unterschied macht wohl eher die Auslegung auf CUDA, auch da fließen sicher spezielle Architekturänderungen ein und die API wird drauf ausgelegt. Wenn ich das ganze auf AMD auch zum laufen bekomme kann das schneller oder auch schnell 10x langsamer sein.

Nvidia weiß dass sie über die Community den Anteil an sich reißen müssen, so wie Windows im X86 Markt. Wenn der Markt mal so unausgeglichen ist dass 70% der Developer im Computing Segment auf CUDA setzen, dann haben sie quasi schon gewonnen - denn man steigt da nicht mal eben um und es entsteht ein Lawinen Effekt der die anderen mitzieht.
Studiengänge schulen dann Cuda, jeder Neuankömmling wird in eine Richtung gedrängt und der Prozess beschleunigt sich weiter.

Bezüglich Genialität der Chip Architektur geben sich beide Karten sicher wenig. Nvidia baut ihr Ding, AMD ihrs - mit dem Unterschied das kaum jemand die AMD Karten brauchen wird wenn die Welt nur noch aus CUDA besteht. An dem Punkt sind wir gefühlt schon angekommen.
 
Ne Lüge ist es eigentlich nicht. Dann wäre sämtlichen ProzessStrukturangaben Lügen. Es geht um den kleinst möglichen Abstand im Transistor und der liegt eben bei 12nm. Wenn nur ein Transistor von 5Millionen in 12nm ist, Voila 12nm Strukturbreite.der Rest kann ruhig größer sein.

Aha interessant ! Ist die Fertigungsgröße so definiert?! Danke für die Antwort !^^
 
@D708: naja aber die Hersteller TSMC und GloFo mogeln halt schon im Marketing, um besser als Intel aus zu sehen und es scheint ja auch z.B. hier im Forum Früchte zu tragen. Die 16/14nm Fertigung von den beiden ist eigentlich nur die 20nm Fertigung mit FinFet und eben da auch wie der passende Intel Prozess ein zu ordnen. Da kannst du gerne mal bei den vergleichen nachlesen - Intel hat dazu ziemlich gute Folien (wenn jetzt mal grundsätzlich davon ausgeht, dass Intel nicht extra Fotos von einem Tunnelmikroskop fälschen würde)

OT: ziemlich geiler Chip! Allerdings auch unglaublich viele Buzzwords in der Präsentation wie mir scheint. AI-Big Bang...wenn wir noch nicht verstehen wie das Gehirn funktioniert, wie wollen wir ernsthaft künstliche Intelligenz erzeugen. Alles was wir doch jetzt zur Zeit machen ist Machine Learning. Und so richtig scheint ja laut den Quartalszahlen Automotive auch noch nicht abgehoben zu sein, aber das liegt vielleicht auch an den vergleichsweise langen Entwicklungszeiten.
 
Galatian schrieb:
@D708: naja aber die Hersteller TSMC und GloFo mogeln halt schon im Marketing, um besser als Intel aus zu sehen und es scheint ja auch z.B. hier im Forum Früchte zu tragen. Die 16/14nm Fertigung von den beiden ist eigentlich nur die 20nm Fertigung
Hm, also erstmal, als Ob Intel zugeben würde, jo die Anderen sind genauso gut wie wir. Die werden sich, wie jeder andere auch, besser machen als die Konkurrenz. Die zeigen natürlich auch nur ihre Sahnestücke. Es hängt natürlich auch immer von der Endprodukt ab, wie "toll" das "Bild" aussieht.

Aber stimmt, Intel bekommt ihre Transistoren dichter und zuverlässiger gepackt. Dennoch stimmen die möglichen Strukturbreiten der anderen Hersteller. Deswegen mein übertriebenes Beispiel oder noch ein anderes. Im Transistor ist die Kürzeste Entfernung bei Intel 12/14nm und bei GoFo auch. Dennoch ist der Transistor von Intel insgesamt kleiner also von GoFo. Haben beide gelogen oder die Wahrheit gesagt.

Genauso interessant wäre es, wenn GoFo mal probieren würde, KabylakeKerne zu produzieren.
 
Zuletzt bearbeitet:
Ich versteh auch total was du sagst, aber TSMC und GloFo haben knallhart eben 20nm "übersprungen". Da ist schon die Mogelpackung zu sehen, weil so die Größen eigentlich nicht mehr passen im Vergleich innerhalb des selben Fertigers. Anders ausgedrückt (fiktive Zahlen): von 28nm auf 20nm haben wir den Faktor 2 dichter und von 20nm auf 14nm auch. Nun hat man aber 20nm + FinFet einfach 16nm genannt und kommt halt vielleicht nur bei einem Faktor 2,5 raus, dann aber von 28nm auf 16nm wie der Name suggeriert.

Sicherlich lügen sich alle ein bisschen ins Fäustchen, aber TSMC und GloFo haben überhaupt kein Vergleichsmaßstab mehr.
 
D708 schrieb:
Ne Lüge ist es eigentlich nicht. Dann wäre sämtlichen ProzessStrukturangaben Lügen. Es geht um den kleinst möglichen Abstand im Transistor und der liegt eben bei 12nm. Wenn nur ein Transistor von 5Millionen in 12nm ist, Voila 12nm Strukturbreite.der Rest kann ruhig größer sein.

Sorry aber das ist kompletter Unsinn!

Da kommt nichts auch nur annähernd an 12nm. Die nennen das nur aus Marketingzwecken so, damit es nach etwas neuem klingt. Zwischen 16 und 12 nm hat sich von der Transistorgröße her überhaupt nichts verändert. Die werden alle ca. 45nm groß sein. Das ist der übliche Wert in der aktuellen Generation.



Da seht ihr es. Die kleinste größe beim 16nm Prozess beträgt 48nm.

Hier noch der ganze Artikel wo es erklärt wird: https://www.golem.de/news/fertigungstechnik-der-14-nanometer-schwindel-1502-112524.html
 
Zuletzt bearbeitet:
Die einzige wirklich Vergleichswert wäre, wie viele Transistoren bekommt jeder Hersteller auf eine Fläche x. Das ProzessStrukturgewäsch ist sowieso ne finte, weil die meisten abstände deutlich größer sind als 1x nm.
Die Kochen alle mit den gleichen Zutaten.
Ergänzung ()

Thukydides schrieb:
Sorry aber das ist kompletter Unsinn!

Da kommt nichts auch nur annähernd an 12nm. Das kleinste da ist ca. 38nm groß. Die nennen das nur aus Marketingzwecken so, damit es nach etwas neuem klingt. Zwischen 16 und 12 nm hat sich von der Transistorgröße her überhaupt nichts verändert. Die werden alle ca. 45nm groß sein. Das ist der übliche Wert in der aktuellen Generation.
Nicht der Transistor ist 16/12/22nm lang sondern die kleinste Entfernung innerhalb des Transistors. Deswegen habe ich "IM Transistor" geschrieben. Ich meine die geben immer den Abstand zwischen Kollektor und Emitter an( kann aber auch die Breite der Base sein) so genau weiß ich es auch nicht mehr

Edit zu dem Post über mir:
Ich habe immer gesagt, die Packdichte von Intel ist höher. Die Können mehr Transistoren auf gleicher Fläche unterbringen wie GoFo. Ich habe nie bestritten, dass Intel nicht den besseren Prozess hat. Aber Intels Auflistungen haben nichts mit der kleinsten Strukturbreite innerhalb des Transistors zu tun sondern im allgemeinen nur mit der Packdichte.
 
Zuletzt bearbeitet:
Nein glaub mir das ist kein realer Wert von irgendwas. Das sind nur ausgedachte Werte. Aus welchem Grund sollte denn ein gleicher Prozess wie 16nm von TSMC plötzlich kleiner werden, nur weil er etwas optimiert wurde? Da werden ganz sicher keine Transistorgrößen angepasst.
 
Fake News, Leute. Fake News.

Betrachtet man die Transistoren pro mm² sieht man, dass bei Tesla V etwas nicht stimmen kann. Scheiß Mathematik. Scheint kein Freund der nVidia Fanatiker zu sein.

Millionen Transistoren pro mm² - GPU Generation - angebliche Strukturgröße
12,88 - Tesla K40 - 28nm
13,31 - Tesla M40 - 28nm
25,08 - Tesla P100 - 16nm
25,88 - Tesla V100 - 12nm

Würden die Strukturbreiten stimmen, könnte man vom K40 zum V100 die 5,44 fache Anzahl der Transistoren pro mm² erwarten. Also ca. 70 Millionen Transistoren pro mm². Davon ist nVidia WEIT entfernt.

Vom K40 zum V100 ist die Transistorendichte nur um den Faktor 2 gestiegen, die effektive Strukturbreite damit nur um den Faktor 1,417. Also liegt die Strukturbreite aktuell eher bei 19 - 20nm und nicht bei 12nm.

Da wundert es dann nicht, das nVidia, um neue Rekorde auf zu stellen, in die Fläche gehen muss. Egal. Die einzige Frage die interessiert:

Wann liefert nVidia eine GPU aus, deren Chip-Fläche man in m² an gibt?
 
das geht nicht Nvidia so sondern allen ^^
Ergänzung ()

Etwas mehr Info hier

http://www.anandtech.com/show/11367...v100-gpu-and-tesla-v100-accelerator-announced

Da kommt auch schnell draus hervor wie wenig man mit der reinen Shader Zahl anfangen kann. Die Shader selbst bestehen ja aus FP16, FP32 Units und neu Tensor Cores.

Ergo braucht der einzelne auch wieder mehr Platz.

Bei den Consumer Chips wie GP102 spart man sich ja den Großteil der FP64 Units und damit auch Platz.

volta_sm.png

Beim GP102 verringert sich die Größe von 601mm² auf 470mm². Also eine Ersparnis von knapp 30%. Bei Volta dürfte etwas mehr sein. Geht man von einer GV102 im Desktop Segment aus so spart Nvidia mindestens dasselbe, eher mehr wegen den sicher auch wegfallenden Tensor Cores.

Gehen wir von ~40% aus liegt eine Desktop Volta bei etwa 600mm² also ähnlich wie GM200.

Vermutlich bringt Nvidia das ganze auch teil-aktiviert in einer GTX TITAN. Ich denke Anfang 2018 oder Herbst dieses Jahr. Vielleicht auch erst als deutlichen Cut mit 384 Bit GDDR5X, später (6 Monate) dann wie auch bei der TITAN Pascal vollaktiv mit 384 Bit GDDR6.

Möglich wäre zB 4480 Shader = 1 Block komplett deaktiviert.
voltablockdiagram_575px.png

Je nach Leistungziel auch 5120 Shader wie bei dem Tesla Pendant jetzt. Sonst würde man sich von der TITAN Xp wohl zuwenig absetzen.

Bei ähnlichem Takt wäre eine neue TITAN dann etwa 30% schneller als die TITAN Xp. Das kommt gut hin.
 
Zuletzt bearbeitet:
Linmoum schrieb:
Wenn er 'ne gute Karte erwischt hat und 2.1GHz schafft, dann ist er bei knapp über 15 TFLOPS. Möglich ist es also schon. ;)

Genauso ist es :-)

Wert ausgelesen mit AIDA64
 
Zuletzt bearbeitet von einem Moderator:
Candy_Cloud schrieb:
Angesichts dieser großen, verfügbaren Rechenleistung ist es einfach nicht zu verstehen, warum die Menschheit ihre Probleme nicht in den Griff bekommt.

Rechenleistung hat halt nichts mit Intelligenz zu tun.
 
Krautmaster schrieb:
Ich glaub, du verwechselt da etwas. nVidia spart bei den Consumer-Chips nicht die FP32-Einheiten ein, sondern die FP64. ;)

Ansonsten gibt es aber auch weitere Änderungen zwischen GP100 zu GP102: 128 Shader pro Block, statt 64.
 
Danke, wollte gerade KM Fragen was GP100 und GP102 so gemeinsam haben...
 
Zurück
Oben