News AMD bringt FirePro S10000 mit zwei Tahiti-GPUs

Hallo,

Nun ja, hier geht es aber um HPC (Super Computer usw.), so wie es im Artikel steht... und da zählt nun mal nur Double-Precision TFLOPs. :rolleyes: Und hier siegt die AMD Karte ganz klar und eindeutig.
...
Aber wie gesagt, ich habe mit Absicht nur auf die FLOPs (vor allem Double Precision) gezeigt. Die FirePro S10000 hat einfach eine höhere Rohleistung als der K20. Das kann man drehen und wenden wie man will, das ist einfach so. :p

Auf dem Papier ist das so. Unbestreitbar. Und es mag auch einen speziellen Matrix-Benchmark von AMD geben, der das nachweist.

Aber leider hat das für den HPC- oder GPGPU-Anwender keine Bedeutung. Dieser Thread von Leuten, die auf diesem Gebiet arbeiten, mag vielleicht nicht der Weisheit letzter Schluss sein - zeigt aber, was tatsächlich zur Zeit möglich ist und was nicht.
 
Zuletzt bearbeitet: (typo)
Hab' mal ein bisschen nachgeforscht und dabei ist mir nVidia gleich mal unsympathischer geworden. Auch wenn folgende Aktion nachvollziehbar ist, so hinterlässt sie doch einen faden Beigeschmack: nVidia drosselt die comsumer GPUs absichtlich in den Bereichen, die für den professional Markt von Bedeutung sind, damit sie die viel teureren professional GPUs schützen.

"Moreover, Nvidia limits 64-bit double-precision math to 1/24 of single-precision, protecting its more compute-oriented cards from being displaced by purpose-built gamer boards. The result is that GeForce GTX 680 underperforms GeForce GTX 590, 580 and to a much direr degree, the three competing boards from AMD."

http://www.tomshardware.com/reviews/geforce-gtx-680-review-benchmark,3161-14.html

Unabhängig davon wie erforderlich das aus wirtschaftlicher Sicht ist und wie relevant das für den Consumer ist, aber ein Produkt absichtlich schlechter zu machen als es eigentlich ist, ist schon so eine Sache für die ich mich nicht unbedingt begeistern kann.
 
Zuletzt bearbeitet:
Als ob airflow in den servern wo diese karten eingesetzt werden ein problem sind .... aber die dominanz gegenüber den teslas ist nett , es geht endlich auch im server segment bergauf mit amd.
 
JoePesci schrieb:
nVidia drosselt die comsumer GPUs absichtlich in den Bereichen, die für den professional Markt von Bedeutung sind, damit sie die viel teureren professional GPUs schützen.

"Moreover, Nvidia limits 64-bit double-precision math to 1/24 of single-precision, protecting its more compute-oriented cards from being displaced by purpose-built gamer boards. The result is that GeForce GTX 680 underperforms GeForce GTX 590, 580 and to a much direr degree, the three competing boards from AMD."

Das hast Du vielleicht etwas falsch verstanden. nVidia "drosselt" hier nichts, sie haben einfach weniger doppelt-genaue Gleitkommaeinheiten in den GK-104 (GTX-680 etc) eingebaut, weil Spieler diese nicht benötigen.

Ich habe hier nebeneinander (beruflich) eine GTX-580/3GB und eine GTX-680/4GB vergleichsweise am identischen Problem (single precision) rechnen. Mit dem neuen Treiber (304.6x) ist die GTX-680 (Cuda5) plötzlich ca. 10% schneller als die GTX-580 (Cuda4), während vorher die GTX-580 etwa 5% schneller war. Hmmm. Kopfkratz? Für double precision eignet sich jedoch auch Fermi (580) nicht und Kepler-1 (680) natürlich überhaupt nicht. Aber das weiss man vorher!

Addendum: Warum ich diese Anekdote erwähne? Ich wollte zeigen, dass mich nVidia eben nicht "drosselt", dass mir nVidia kostenlose Treiber für Linux zur Verfügung stellt, die ausgezeichnet mit den von mir verwendeten Open-Source-Programmen funktionieren und meine tägliche Arbeit enorm unterstützen. Dannn kaufe ich eben auch nVidia-Hardware. Ich recherchiere grundsätzlich seit Jahren vor Neuanschaffungen, ob die ATI-Entwicklungswerkzeuge und Treiber einen Stand erreicht haben, der sie für meine Zwecke geeignet machen würde (da die schiere Rechenleistung der ATI-Karten höher ist). Leider war das bisher nicht der Fall. Beim letzten Versuch war es nicht einmal möglich, eine ATI-Karte 'headless' (ohne verbundenes Display) in einem Server für Berechnungen zu betreiben. Vermutlich braucht man dafür "teure Profikarten"?
 
Zuletzt bearbeitet: (addendum 2)
blöderidiot schrieb:
Das hast Du vielleicht etwas falsch verstanden. nVidia "drosselt" hier nichts, sie haben einfach weniger doppelt-genaue Gleitkommaeinheiten in den GK-104 (GTX-680 etc) eingebaut, weil Spieler diese nicht benötigen.

Der Wortlaut der englischsprachigen Quelle liest sich aber ganz anders...

z.B. auch dieses Zitat:

"The more complete story is that it doesn’t want to go there…yet. Sandra 2012 just showed us that the GeForce GTX 680 trails AMD’s Radeon HD 7900 cards in 32-bit math. And it gets absolutely decimated in 64-bit floating-point operations, as Nvidia purposely protects its profitable professional graphics business by artificially capping performance."

Zusammengefasst verstehe ich das so, dass nVidia in ihre consumer GPUs künstliche Barrieren einbaut, um die beiden Geschäftsbereiche so gut wie möglich voneinander zu trennen. Wie gesagt, auch wenn es nachvollziehbar und womöglich wenig relevant ist, schmecken tut es dennoch nicht.

Diese Praxis ist ja ganz allgemein in der Wirtschaft weit verbreitet. Es kommt oft vor, dass bestimmte Produkte künstlich verschlechtert werden damit sie ihren vorgesehen Platz in der Produkthierarchie einnehmen. Man will nicht, dass ein preiswertes Produkt einem teureren und womöglich profitableren Produkt leistungsmäßig auf die Pelle rückt und damit dessen Existenzberechtigung in Frage stellt. Schlecht für den Consumer, besser für das Unternehmen.
 
Zuletzt bearbeitet:
JoePesci schrieb:
Der Wortlaut der englischsprachigen Quelle liest sich aber ganz anders...

GK104 SMX Functional Units
  • 32 CUDA cores (#1)
  • 32 CUDA cores (#2)
  • 32 CUDA cores (#3)
  • 32 CUDA cores (#4)
  • 32 CUDA cores (#5)
  • 32 CUDA cores (#6)
  • 16 Load/Store Units (#1)
  • 16 Load/Store Units (#2)
  • 16 Interpolation SFUs (#1)
  • 16 Interpolation SFUs (#2)
  • 16 Special Function SFUs (#1)
  • 16 Special Function SFUs (#2)
  • 8 Texture Units (#1)
  • 8 Texture Units (#2)
  • 8 CUDA FP64 cores

In turn that block (in Fermi) of CUDA cores could execute FP64 instructions at a rate of ¼ FP32 performance, which gave the SM a total FP64 throughput rate of 1/12th FP32. In GK104 none of the regular CUDA core blocks are FP64 capable; in its place we have what we’re calling the CUDA FP64 block.

Das war eben eine Entscheidung zur Architektur, die man getroffen hat. Und sicherlich müssen Leute, die double precision haben wollen, eine Profi-Karte kaufen. Und ja, das war bei Fermi noch (etwas) anders. Insofern wäre das der Kern dessen, was der Artikel meinen könnte. nVidia ist von einer vereinheitlichten Architektur zu getrennten Architekturen übergegangen.
 
@JoePesci, blöderidiot
Naja deswegen ist ja auch die GTX680 was Performance/Watt angeht so viel besser. Die wussten, welche Fehler mit Fermi gemacht wurden und haben es mit Kepler somit behoben.
Man hat die Karten einfach stärker ans Gaming zugeschnitten.

Nur dann das ganze immer genau mit AMD Karten zu vergleichen. Da hakt es dann.
Denn ich würde so weit gehen und sagen, dass man die jetzigen Consumerkarten gar nicht mal vergleichen kann. Die sind aufgrund der Ausstattung im Chip einfach total unterschiedlich.
Aber das ist nur meine Meinung..

@JoePesci
Mit der Einstellung bist du ja total spät dran... Ich geh bei dir mal davon aus, dass du technisch versiert bist. Dann müsstest du aber die Sache mit der "Beschneidung" eigentlich schon längst wissen. Ganz ehrlich..
 
Sontin schrieb:
Im HPC Markt zählt Perf/Watt und nicht reine Leistung. AMD's Karte ist für die Standard-Racks von Unternehmen wie HP, Dell und Co. vollkommen ungeeignet. Aktive Kühlung bedeutet, dass man nur maximal zwei Karten in ein 8 Slot-Dings (Name entfallen) bekommt, bei nVidia sind es vier.
Wie kommst du denn darauf, dass es keine S10000 ohne aktive Kühlung geben wird (also für Server mit aktiver Kühlung) bzw. dass die Teslas nicht gekühlt werden müssen?

Sontin schrieb:
Und dann verliert man eindeutig, denn:
K20: 5,2 GFLOPs/Watt
K20X: 5,82 GFLOPs/Watt
S10000: 3,95 GFLOPs/Watt

Die AMD Karte ist vielleicht schneller, aber das schlechtere Perf/Watt Verhältnis macht sie vollkommen uninteressant.
GK110 (K20) wird mit Sicherheit mehr als 225W verbrauchen @ 700Mhz.

Außerdem finde ich es lustig, dass du tatsächlich davon ausgehst, dass beide GPUs nur 225W verbrauchen, obwohl K20X mehr SMX Einheiten hat. :rolleyes:

Raptor2063 schrieb:
nur interessieren die Spiele in dem Bereich niemanden!
Und wieder mal einer, der den Sinn des Posts nicht verstanden hat. ;)

JoePesci schrieb:
Zusammengefasst verstehe ich das so, dass nVidia in ihre consumer GPUs künstliche Barrieren einbaut, um die beiden Geschäftsbereiche so gut wie möglich voneinander zu trennen. Wie gesagt, auch wenn es nachvollziehbar und womöglich wenig relevant ist, schmecken tut es dennoch nicht.
Ich bin davon überzeugt, dass der GK104/die GTX680 tatsächlich kaum DP-Einheiten hat. Der Chip ist auf Gaming optimiert, ähnlich wie bei der HD7870. Die HD7970 und GTX580 z.B. sind keine reinen Gaming-Chips, sie sind eher auf Double-Precision und GPGPU optimiert.
 
Zuletzt bearbeitet:
K20 und K20X könnten durchaus dieselbe TDP haben. K20 schöpft sie halt weniger aus als K20X. Wo ist deine Quelle, wenn du von "mit Sicherheit" schreibst?
 
Naja, mein Wissen langt hier kaum, um eine eigene, feste Meinung zu haben.

Wenn die GPU Hersteller ihre sehr ähnlichen Produkte für die Bedürfnisse der jeweiligen Märkte über Soft- und Hardware Anpassungen optimieren, so spricht nichts dagegen und die Sache ist auch aus Consumer Sicht begrüssenswert.

Weniger gut finde ich allerdings Maßnahmen, falls es solche gibt, die ausschliesslich deswegen existieren, um die Märkte voneinander zu trennen und den Consumer Produkten die Möglichkeit zu nehmen, auch in professionellen Anwendungen leistungsfähig zu sein (obwohl sie das bis zu einem gewissen Grad sein könnten).

Wie gesagt, ich weiss nicht ob das der Fall ist, aber der Artikel auf tomshardware hat bei mir diesen Eindruck erweckt.
 
TDP bedeutet eine Obergrenze. Darauf konstruieren die OEMs ihre Blades und Racks.
225 Watt als TDP heißt daher nur, dass Karten eben entsprechen in solche Systeme verbaut werden können ohne dass das Kühl- und Stromsystem modifiziert werden muss.

Ergo können natürlich beide K20 Produkte im selben TDP Bereich liegen, aber unterschiedliche Verbräuche aufweisen.

/edit: Gerade die andere News gelesen: 225 Watt für K20 und 235 Watt für K20X. So, ja, ganze 10 Watt unterschied.
 
dlux schrieb:
Nun ja, hier geht es aber um HPC (Super Computer usw.), so wie es im Artikel steht... und da zählt nun mal nur Double-Precision TFLOPs. :rolleyes: Und hier siegt die AMD Karte ganz klar und eindeutig.

Die Leistung bringt nur nicht wenn die Entwickler von AMD nicht beachtet werden bzw. es gibt kaum was mit dem man Arbeiten kann.

Ich wollte von AMD mal ein SDK haben um die VCE ( Den Video Encoder ) der HD7k Generation zu nutzen. Nach Wochen wollte man wissen ob ich bereits an einem Produkt arbeite, und wenn ja, wie viele Verkäufe ich erwarte. Als ich sagte, dass noch nichts geplant ist wurde ich meines Erachtens recht unhöflich abgewunken und ich habe nicht mehr gehört seitdem von AMD.

Aber gut. Versuch mal bei AMD ein SDK zu bekommen für OpenGL und Co. Gleich vorweg das RadeonSDK ist es nicht.
Ergänzung ()

blöderidiot schrieb:
Ich wollte zeigen, dass mich nVidia eben nicht "drosselt", dass mir nVidia kostenlose Treiber für Linux zur Verfügung stellt,

Naja, wenn der Treiber für ihre Hardware Geld kosten würde wäre das mehr als traurig.

009393884 schrieb:
Als ob airflow in den servern wo diese karten eingesetzt werden ein problem sind .... aber die dominanz gegenüber den teslas ist nett , es geht endlich auch im server segment bergauf mit amd.

Für den Server haben die Karten die falsche Bauform (Kühlung) und verbrauchen zu viel.
 
Zuletzt bearbeitet:
dlux schrieb:
AMD FirePro S10000 (2x Tahiti): 5,91 TFLOPs Single-Precision und 1,48 TFLOPs Dual Precision
Nvidia Tesla K20 (GK110): 3,52 TFLOPs Single-Precision und 1,17 TFLOPs Double Precision
Nvidia Tesla K10 (2x GK104): 4,58 TFLOPs Single-Precision und 0,19 TFLOPs Double Precision


And the winner is.... :D
Wenn man sich diese Frage mit heutigen Zeitpunkt sieht, dann Nvidia, weil sie heute die höhere Performance-pro-Watt hat, sowie bessere Software-Unterstützung.
Aber die Performance von AMD ist trotzdem gut zu bewerten, da man doch nicht erwarten kann, dass der erste echte HPC-GPGPU mit ECC und C++ doch Nvidia nicht gleich beim ersten mal in Performance und Software schlagen kann.
Und die Frage ist auch nicht unwichtig. Wäre S9000 genauso 2 Quartale vor der Desktop-Game-Variante draußen, so wäre diesen in jenen Zeitraum eingeführt wurde, wo M2090 (=GF110 non-Teildeaktiviert) eingeführt wurde und somit über 1 Jahr eine klar bessere Rohperformance bringen hätte können. Aber was wäre hätte können.
Deshalb wird der 20nm-GPU-Einführung im Bezug auf HPC-GPUs sehr interessant.

Entscheidend ist heute die Entwicklung und da bewegt sich AMD in die Positive Richtung. In Zeiten von Blue-Gene und Xeon-Phi konnte AMD schon im HPC-Markt (siehe Top500 @ Nov 2012) zulegen.

S10000 würde ich jetzt nicht als K20-Konter sehen, sondern als neuer "Markt", da sich 225W bisher etablierte und man muss eigentlich abwarten, ob 350W überhaupt aktzeptiert wird bzw. ob mit 350W-GPUs gute Server-Konfigurationen möglich sind.

Grundstätzlich sehe ich S10000 postiv, da AMD das macht was Rory Read aussagte. Und zwar versuchen sie (nach FirePro-APU) ihre Technologien immer mehr Märkte bzw. in den Märkten immer breiter/vielfältiger zu bringen. Klar werden sie die Märkte bei Einführung den Markt beherschen, aber OpenCL, Radeon X2, Enduro & Co wurde ja auch mal belächelt als AMD versuchte, diese Technologien zu puschen.
 
Wirkliche Benchmarks wird man dazu kaum finden da es kaum einheitliche Apps gibt die auf beiden Architekturen volle Leistung entfalten können.

Die Flop Werte sind meiner Ansicht nach schön und gut, wenn die API aber schlicht nicht genutzt werden kann oder die Software selbst schlecht mit Flop skaliert bringt das wenig.

Siehe die HD58XX / HD69XX. Dank 4D/5D sehr hohe Flop Werte / W / Fläche... aber extrem schwankende Ergebnisse im Computing Umfeld. BitCoin rennt auf den 5D Architekturen wie sau, vermutlich so schnell wie bei der HD7970. Andere Anwendungen hingegen kacken sowas von ab.

Mal sehn wohin der Weg geht, bin eher auf den Desktopableger gespannt.
 

Ähnliche Themen

Antworten
56
Aufrufe
12.524
Kink Monk
K
Zurück
Oben