News Nvidia Tesla P100: GP100 als großer Pascal soll „All In“ für HPC-Markt gehen

hydrox schrieb:
My body is ready! *-*

Am liebsten hätte ich ja ein DGX-1 ... Aber 129,000$ sind halt eine Ansage...
Für wissenschaftliche Berechnungen aber ein echter Traum!

...und damit hättest du was genau vor?
 
@ix.tank
Asynchronous Shader ist ein Marketing-Begriff von AMD. Daher wird es bei Nvidia auch nie erwähnt werden. Bei NV sind die Shaderprozessoren in Warps gegliedert und die haben ihren eigenen Sheduler und können unabhängige Threads ausführen und demnach auch verschiedenen Ausführungspfaden folgen und das ist seit der 8800 GTX so. Daher sollte es einen auch nicht wundern, das Nvidia nicht wirklich auf die AMD "Neuerung" reagiert.

Asynchronous Shader ist aber nicht ein Feature des Warp-Schedulings sondern des Thread-Block-Scheduling bzw. des Schedulings der Raster-Pipeline. Warp-Scheduling existiert in analoger Weise auch auf AMD-GCN-Karten und heißt dort Wavefront-Scheduling. Das Thread-Block-Scheduling bzw. das Scheduling der Rasterpipeline ist dafür verantwortlich die Aufgaben auf die einzelnen Multiprozessoren (NVIDIA) bzw. Compute-Units (AMD) zu verteilen. Das Warp-Scheduling bzw. das Wavefront-Scheduling findet eine Ebene tiefer statt. Denn die Multiprozessoren bzw. CUs einer GPU besitzen ein SMT, das ähnlich ist wie bei aktuellen Intel CPUs. Jedoch ist es viel breiter - eine Maxwell-GPU kann zum Beispiel bis zu 64 "Hardware-Threads" (aka Warps bei NVIDIA oder Wavefronts bei AMD) pro Multiprozessor gleichzeitig bearbeiten. Diese vielen Threads müssen nun noch innerhalb eines Multiprozessors auf die Rechenkerne geschedult werden. Eben dafür ist das Warp-Scheduling verantwortlich.


Ich konnte 2009 mit meiner Diplomarbeit den Unterschied selbst erleben und er war gewaltig, die AMD-Karten hatten beim Raycasting keine Chance weil die Sheduler die Last nicht sinnvoll verteilt haben die Karten haben wohl immer die komplette Suchtiefe für jeden Strahl benötigt, vorzeitiges Abbrechen brachte keinen Performancegewinn wenn einige Strahlen übrigblieben, bei denen das nicht ging. Bei NV hat jedes neue Abbruchkriterium immer Wirkung gezeigt.

Wenn das einmal auf AMD-Karten so war (damals habe ich noch nicht programmiert), dann ist das heute nicht mehr so. AMD-Karten brechen genauso wie NVIDIA-Karten bei einer Schleife ab, wenn alle SIMD-Komponenten des Warps bzw der Wavefront mit der Schleife fertig sind. Bei AMD-Karten besteht eine Wavefront jedoch aus 64 Komponenten, während ein Warp bei NVIDIA immer aus 32 Komponenten besteht. Dadurch performen heutzutage AMD Karten dennoch schlechter, falls die Zahl der Schleifendurchläufe innerhalb eines Wavefront bzw. eines Warps variiert.
 
Zuletzt bearbeitet:
Gut, dann sind die ACEs vorgelagert also ehr das Gegenstück zur Giga-Thread-Engine die liegt bei Nvidia vor den SMs irgendwie muss ja auch dort die Last verteilt werden. Aber mal abgesehen davon, dass ich die Namen also auch die Position der Scheduler damit vorhin vermurkst hatte, was können die ACEs denn nun eigentlich was auf einer Maxwell/Fermi-Karte nicht geht? Doch eigentlich nichts oder habe ich etwas übersehen?

Die entsprechenden Anandtech-Artikel hatte ich gerade mal an den entsprechenden Stellen überflogen, aber da steht nichts anderes zu den ACEs drin als das was auch bei Nvidia steht "GigaThread Engine: The GigaThread engine schedules thread blocks to various SMs".

http://www.anandtech.com/show/4455/amds-graphics-core-next-preview-amd-architects-for-compute/5
 
D708 schrieb:
Mich überrascht, dass Die direkt den Servermarkt mit einem 600mm2 Chip bedienen. Die müssen ja mächtig Muffe haben, dass AMD was raushaut. Auch sieht man, dass interessanter Weise NVIDIA aufschließen musste zu AMD...

Dass man immer überall gleich AMD mit rein bringen muss, wo es absolut nicht angebracht ist...
Das ist eine Karte für den HPC-Markt. Steht da dran.
Nvidias stand/steht unter Zugzwang, aber das hat in diesem Markt null mit AMD zu tun. AMD existiert da praktisch nicht. Da gerät man eher unter Druck von Intels Knights Landing, bzw. hausgemacht, weil man mit Maxwell einfach kein neues Produkt für den Markt hatte. Da musste für HPC noch Kepler bemüht werden. Selbst Fermi ist noch recht verbreitet.


Mal eine allgemeine Frage zur Architektur:
Warum sind DP und SP Einheiten getrennt? Im Artikel steht, dass die SP-Einheiten die HP-Berechnungen übernehmen. Mit einer breiten Einheit 2 "halbe" Befehle auszuführen ist ja nun so gar nicht neu. Vom Verhältnis her (1:2:4) passt das diesmal auch. Unter dem angekündigten "Mixed Precision" hatte ich mir aber vorgestellt, dass die DP-Einheiten alles machen. Weiß jmd was dazu?
 
Hmm, eine Spielekarte mit dem großen Chip sollte dann bei GTA5 endlich das Ultra-Gras packen, ohne dass man den Rest runterdrehen muss.

Das wird dann wieder böse. 980Ti verkaufen und mit 200€ Aufpreis die "1080" kaufen oder bis zur "1080TI" warten, aber viel mehr draufzahlen.
 
Hopsekäse schrieb:
Mal eine allgemeine Frage zur Architektur:
Warum sind DP und SP Einheiten getrennt? Im Artikel steht, dass die SP-Einheiten die HP-Berechnungen übernehmen. Mit einer breiten Einheit 2 "halbe" Befehle auszuführen ist ja nun so gar nicht neu. Vom Verhältnis her (1:2:4) passt das diesmal auch. Unter dem angekündigten "Mixed Precision" hatte ich mir aber vorgestellt, dass die DP-Einheiten alles machen. Weiß jmd was dazu?

Das finde ich in der Tat auch komisch. Ich hätte mir unter dem im Vorfeld beworbenen mixed precision units auch vorgestellt, dass z.B. nur noch DP-Units präsent sind, die dann alles übernehmen: DP, SP und HP.

Da die SP-Units ja anscheinend ziemlich effizient HP Kalkulationen übernehmen können: warum dann nicht gleich nur DP-Units, die alles machen?

Gibt es irgendeinen technischen Grund, warum DP-Units deutlich ineffizienter bei SP oder HP Berechnungen wären?
 
Pascal war für mich bis anhin immer eine Programmiersprache (aus dem letzten Jahrtausend) :D
 
Meine Güte 610 mm² und 300W bei 16 nm FF? Also eine gute Ausbeute wird der Chip nicht haben, und wenn es 2017 tatsächlich GP100 für Endkunden gibt, dann wahrscheinlich immer noch teildeaktiviert, so wie bei der ersten Titan.
Das kann ich mir sehr gut vorstellen bei NV, mit etwas Pech darf man eine teildeaktivierte Pascal Titan kaufen. Bin ich froh das ich bis 2019 GPU Technisch ausgesorgt hab. Das könnte wieder ein Choas werden...

Bin mal gespannt mit wie viel Speicher die 980 und Ti Nachfolger an den Start gehen werden.
Pascal Titan 16GB HBM 2.0
1080 TI 8GB HBM 2.0
1080 6GB GDDR 5
1070 5GB(wieder Feature Vram wenn man Pech hat)
 
Zuletzt bearbeitet:
Die größte Überraschung ist doch das nVidia bereits jetzt mit HBM² in der Massenfertigung arbeitet.

Alles andere ist für Endverbraucher doch reichlich Schundig uninteressant. Dieses mal keinen Holzklotz bei der Hand gehabt... hmm, die lassen nach.
 
ix.tank schrieb:
was können die ACEs denn nun eigentlich was auf einer Maxwell/Fermi-Karte nicht geht? Doch eigentlich nichts oder habe ich etwas übersehen?

der unterschied ist eigentlich nur, das amds lösung flexibler und wesentlich schneller umschalten kann.
 
Hopsekäse schrieb:
Mal eine allgemeine Frage zur Architektur:
Warum sind DP und SP Einheiten getrennt? ... Vom Verhältnis her (1:2:4) passt das diesmal auch... "Mixed Precision"

Die Mixed Precision ist ja vorhanden, betrifft aber die SP zu HP. Das heißt du kannst eine 32Bit Operation oder mit der selben Einheit 2 x 16 Bit Berechnung machen. NV möchte wohl in Zukunft weiterhin die anderen Karten ohne große DP-Performance auf den Markt bringen. Dort werden die Zusatzu-Einheiten für DP wahrscheinilich einfach nicht vorhanden sein. Weitehrin wird man aber HP berechnen lassen können (außer es wird per Software oder was auch immer beschnitten).

acc
Bei AMD schaltet sich da nichts schneller um. Bei NV wird Graphic, dann Compute, dann Graphic ect berechnet. Mit ACE Units können Compute und Graphic Tasks parallel berechnet werden.
http://www.pcgameshardware.de/AMD-R...ronous-Compute-Quick-Response-Queues-1190890/
Mit dem neueren Treiber, kann GameCode nun auch ACE-Unit zugeordnet werden.
Mit der Radeon Software Crimson 16.3.2 hat AMD mit seine Asynchronous-Compute-Fähigkeiten ausgebaut. Statt Grafik- und Compute-Aufgaben nur parallel laufen zu lassen, können Entwickler die beiden Teile dank Quick Response Queues nun priorisieren. Hilfreich sei es unter anderem für die Asynchronous Time Warps der Oculus Rift.
Aber ich finde das Thema hier im Thread völlig offtopic.
 
Zuletzt bearbeitet:
Viel höherer Takt bei kleinerer Fertigung. Das ist mal ne Ansage! (spricht für die Qualität der Fertigung) Auch der Unified Speicher mittels NVLink ist ne positive Überraschung. Da kann einiges an zeitfressenden Kopiervorgängen eingespart werden.

TheMetalViking schrieb:
kommt so jedenfalls auf keine Geforce Grafikkarte, die DP einheiten nehmen viel zu viel SP Performance raus.
Zu "spielen" wirds dann praktisch das teil als reines SP monster geben, quasi einfach eine größere Titan X/Y/Z mit ~6000 FP32 CUDA Cores, aber sicher nicht mehr 2016.
Könnte mir eher vorstellen, dass die meisten DPs einfach wegfallen wegen des Stromverbrauch und weniger, um sie mit SP Einheiten zu ersetzen. Allerdings sind für solche Spekulationen zu wenig Informationen vorhanden. ;-)

pipip schrieb:
NV möchte wohl in Zukunft weiterhin die anderen Karten ohne große DP-Performance auf den Markt bringen. Dort werden die Zusatzu-Einheiten für DP wahrscheinilich einfach nicht vorhanden sein.
Ja das denk ich auch.
 
Zuletzt bearbeitet:
acc schrieb:
ob das daran liegt, das man das feature im hpc bereich schlichtweg nicht braucht?

Wenn man mal davon ausgeht, dass die normalen Kunden den selben Chip (wahrscheinlich mit teildeaktivierte Einheiten) bekommen, dann ist das schon wichtig...
 
Ich geh mal davon aus, dass wir den Chip nicht als Titan sehen werden, wahrscheinlicher ist da eine abgespeckte Version. Man nehme GP100 streicht die DP Einheiten und andere HPC relevante Sachen raus und schon hat man ein Chip mit 3840 Shader der nur knapp 400mm² groß ist. Diesen könnte man auch erst mal als teildeaktivierten 3584 Shader Chip rausbringen. Dazu nen Takt von 1,5 GHz und schon hätte man einen relativ kleinen Titan X Nachfolger der ~60% schneller ist. Und durch den Wegfall von DP-Einheiten usw. hätte man auch gut 60% mehr Chips pro Wafer, was dann den Gewinn deutlich steigert.
 
Da die SP-Units ja anscheinend ziemlich effizient HP Kalkulationen übernehmen können: warum dann nicht gleich nur DP-Units, die alles machen?

Vielleicht noch ein etwas anderer Gedankengang dazu: NVIDIAs Lösung wie bei Kepler und Pascal mit speziellen Einheiten kann FP-DP und SP gleichzeitig berechnen. Mixed-Precission Lösungen wie bei AMDs GCN können entweder SP oder DP berechnen. Da in einem Programm in der Regel nie alle Befehle FP-DP sind, kann erstere Lösung unter Umständen vorteilhafter sein.
 
Kurze Frage, aber könnte man dann nicht durch die ACE wieder den CU-Units gewisse Codes zuordnen, die dann mit 64 oder 32 Bit Berechnet werden können ?
Ich habe schon verstanden, dass man das eigentlich über die Waves befüllt, aber das Async Compute ist ja quasi eine tiefere Ebene oder ?

Ich glaube für NV ist das einfach historisch gewachsen und hat ja besonders bei Gaming-Karten einen Vorteil gezeigt.
AMD ist von VLIW, welche für Games zwar "optimal" war, aber bei Compute Anwendungen an seine Grenzen kam. Somit hat AMD GCN mit 64 Bit realisiert, weil man wie bei CPUs die Abwärtskompatiblität am liebsten mit einer Einheit umsetzt.
Siehe CPUs. Da gibt es ja irgendwelche spezielle ALU Berechnungen, die bei Intel je nach Aufgabe per Schaltung umgesetzt ist und bei AMD eine Schaltung realisiert. Muss gestehen, weiß nicht mehr, um welche Anwendung es da gehandelt hat.
Ich vermute, wenn es um Compute HPC Karte geht, wird auch AMD mit VEGA wieder was Rohleistung und Effizienz angeht nachlegen.
Bei PC-Games kommt es drauf an, wie AMD das ganze umsetzt, aber wenn AMD nicht überpackdichte geht, könnte der Chip bei gleicher Fertigung bei gleicher Shader-Anzahl größer ausfallen, als es bei NV der Fall ist.

Interessant finde ich aber, Pascall kann eine 32Bit-Operation oder 2 x 16 Bit Operation ausführen. Wieso sollte es eigentlich mit GCN nicht auch mit Anpassungen möglich sein ? Eine 64Bit oder 2 x 32 oder 4 x 16 Bit Operationen ?

Speziell was ich interessant finde, ob HP in Gaming an Relevanz gewinnen könnte und falls ja, wieso man das nicht schon früher eingeführt hat ? Wäre cool, wenn man so mehr Performance aus Karten holen könnte !
 
Zurück
Oben