Nvidia stellt Tesla K20 (Kepler) mit GK110-GPU vor

12.11.2012 15:00 Uhr

Gerüchte über Nvidias GK110-GPU, die zu Beginn auf den professionellen Tesla-K20-Karten eingesetzt werden, gibt es schon lange. Am heutigen Tag stellt Nvidia die Hardware nun offiziell auf der Supercomputing-12-Konferenz vor und verrät entsprechend einige technische Details.

Den GK110 wird es auf zwei verschiedenen Produkten geben: Dem „Tesla K20“ und dem Flaggschiff „Tesla K20X“. Der Chip wird im 28-nm-Verfahren gefertigt und setzt sich aus 7,1 Milliarden Transistoren zusammen. Nvidia gibt explizit zu den Modellen leider keine technischen Spezifikationen an, dafür jedoch zum ersten Mal Leistungswerte.

Demnach kommt der Tesla K20X auf eine Single-Precision-Leistung (FP32) von 3,95 TFLOPS, während die Double-Precision-Performance (FP64) bei 1,31 TFLOPS liegt. Der Tesla K20 kommt auf geringere 3,52 TFLOPS beziehungsweise 1,17 TFLOPS. Die Speicherbandbreite liegt beim größeren Modell bei 250 GB/s, der Speicherausbau beträgt sechs Gigabyte. Davon bleiben beim Tesla K20 noch 208 GB/s und fünf Gigabyte (bei deaktiviertem ECC) übrig. Damit haben sich die Gerüchte, die sich auf den Kepler K20 bezogen haben, bestätigt.

Nvidia Tesla K20

Auch zu der Leistungsaufnahme haben sich die Kalifornier geäußert: Der Peak-Wert, der in der Praxis nur selten erreicht werden soll, beträgt auf dem Flaggschiff 235 Watt und auf der kleineren Version 225 Watt. Weitere Details gibt es leider nicht, jedoch lassen sich diese durchaus erahnen.

So deuten die Leistungswerte beim Tesla K20 darauf hin, dass die dort verbaute GPU auf 2.496 aktivierte ALUs setzt, was auf 13 SMX-Blöcke hindeutet. Der GK110 verfügt physikalisch über deren 15, sprich 2.880 ALUs. Die Karte müsste mit 705 MHz takten, um die Leistungswerte erfüllen zu können. Das Speicherinterface sollte eine Breite von 320 Bit und einem Speichertakt von 2.500 MHz aufweisen.

Beim Tesla K20X gehen wir davon aus, dass 14 SMX-Blöcke, sprich 2.688 ALUs aktiv sind, die mit 735 MHz takten. Genauso wären natürlich auch Varianten mit 13 oder gar den vollen 15 SMX-Blöcken möglich, jedoch halten wir das für unwahrscheinlich. Beim Speicherinterface vermuten wir eine 384-Bit-Variante und eine Frequenz von 2.600 MHz.

Wieder ganz offizielle Angaben gibt es dagegen zur Recheneffizienz. Demnach kommt der Tesla K20X im DGEMM-Benchmark auf 1,22 TFLOPS, was einer Effizienz von 93 Prozent entspricht. Der Tesla-M2090-Vorgänger mit der Fermi-GPU erreicht bei von den theoretisch möglichen 0,665 TFLOPS dagegen nur 0,43 TFLOPS: Also knapp 65 Prozent. Ähnlich sieht es im Linpack-Test aus: Dort will Nvidia bei zwei Tesla-K20X-Karten mit zwei Sandy-Bridge-CPUs eine Effizienz von 76 Prozent erreichen, zwei Tesla-2090M-Beschleuniger mit denselben Prozessoren dagegen nur 61 Prozent.

Zudem hat Nvidia bekannt gegeben, dass sämtliche Vorbestellungen der Tesla-K20-Produkte in ein bis zwei Wochen ausgeliefert werden sollen. Zu einem Preis wollte man sich nicht äußern, jedoch soll dieser auf dem Niveau des Fermi-Vorgängers liegen. Für Tesla K20 stehen 2.950 Euro im Raum, Tesla K20X wird entsprechend teurer werden.

Eine zukünftige Tesla-Karte mit einem größeren Speicher wollte man dagegen, wenig verwunderlich, nicht bestätigen. Jedoch soll eine Zwölf-Gigabyte-Karte nicht im Bereich des Unmöglichen liegen. Zudem hat man angedeutet, dass es wie bei den Desktop-Kepler-Karten eine Turbo-Funktion gibt, die den GPU-Takt erhöht. Diese ist aber nicht direkt von Nvidia gegeben, stattdessen soll der OEM-Partner sich entscheiden können, ob der Turbo benutzt werden soll oder nicht.

Zu guter Letzt hat Nvidia auch einige Zahlen zum Titan-Supercomputer bekannt gegeben, wobei es sich aber nicht um offizielle Zahlen handelt – denn diese werden erst in Kürze veröffentlicht. Demnach wird Titan, der mit 18.688 Tesla-K20(X?)-GPUs ausgestattet ist, über eine Leistung von 27,1 PetaFLOPS verfügen. Das bisherige Top-500-System kommt auf 20,1 PetaFLOPS. Bezüglich der Energieeffizienz soll Titan auf 2.251,70 MFLOPS pro Watt erreichen – der bisherige Spitzenreiter (Bluegeen/Q-System) in dem Gebiet erreicht 2.100,88 MFLOPS pro Watt.

HPC-Karten

	Nvidia Tesla M2090	Nvidia Tesla K20	Nvidia Tesla K20X	AMD FirePro S10000	AMD FirePro S9000
GPU	GF110	GK110	GK110	2 x Tahiti	Tahiti
Rechenkerne	512	2.496*	2.688*	3.584	1.792
Takt	650/1.300 MHz	705 MHz*	735 MHz*	825 MHz	900 MHz
Leistung SP/DP	1,331/0,665 TFLOPS	3,52/1,17 TFLOPS	3,95/1,31 TFLOPS	5,91/1,48 TFLOPS	3,2/0,806 TFLOPS
Speicherinterface	384 Bit	320 Bit*	384 Bit*	384 Bit	384 Bit
Speichertakt	1.850 MHz	2.500 MHz*	2.600 MHz*	2.500 MHz	2.750 MHz
Speicherbandbreite	177 GB/s	208 GB/s	250 GB/s	480 GB/s	264 GB/s
Speichergröße	6.144 MB	5.120 MB	6.144 MB	6.144 MB	6.144 MB
TDP (max)	225 Watt	225 Watt	235 Watt	375 Watt	225 Watt
*Schätzung unsererseits