Nvidia will Exaflop-Supercomputer bis 2017
Roadrunner, der derzeit weltweit schnellste Supercomputer, besitzt eine Rechengeschwindigkeit von 1,1 Petaflop und wird von 129.600 Prozessoren angetrieben. Die Performance aller Supercomputer in der Top 500-Liste beträgt 22,6 Petaflop/s. Das ist schnell, doch bis 2017 möchte Nvidia ein System bauen, das 100 Mal * so schnell ist.
Auch wenn Grafikchip-, Chipsatz- und (Embedded-)SoC-Hersteller Nvidia mit seinem unter dem Codenamen Fermi entwickelten Next-Generation-Produkt noch Fertigungs-, Stabilitäts- und Zuverlässigkeitsprobleme hat und sich anscheinend aus einem Wettstreit um die schnellsten Highend-Grafikkarten aufgrund nicht konkurrenzfähiger Fertigungskosten zurückziehen musste, hat das Unternehmen äußerst ehrgeizige Ziele für die Zukunft. So will man zukünftig nicht nur fünfzig Prozent des Jahresumsatzes mit den Tegra-SoC erwirtschaften, der unter anderem im Microsoft Zune HD zum Einsatz kommt, sondern auf Basis weiter entwickelter, frei programmierbarer Grafikchips bis 2017 einen Supercomputer erschaffen, der eine Performance von 2.000 Petaflop/s bzw. 2 Exaflop/s erreicht – Fermi wäre damit nur der Anfang in eine frei programmierbare Zukunft.
Bill Dally, Nvidias Chef-Entwickler, hat im Rahmen einer Ende Oktober abgehaltenen Roadshow die Firmenpläne bzw. Ideen grob umrissen, mit denen man die ExaScale-Marke knacken möchte. Grundbaustein ist dabei ein Prozessor mit 16 klassischen CPUs und weiteren 2400 auf Durchsatz getrimmten Throughput Cores, die gemeinsam einem Verbrauch von 300 Watt TDP besitzen - ein Wert der von heutigen Grafikkarten vertraut ist. Dally bestätigt damit, dass Nvidia also nachweislich neben Tegra an leistungsfähigen „Big-Cores“ arbeitet, die hohe IPC (Instructions per Cycle) für vermehrt seriellen Programmcode bieten. Für die eigentliche Rechenleistung wird das Array aus kleinen Cores dank massiv paralleler Befehlsverarbeitung sorgen, ähnlich wie bei heutigen Grafikkarten, doch mit mehr Freiheiten in der Programmierung – so soll ein jeder von ihnen drei Single-Precision und eine Double-Precision Floating-Point Einheit besitzen.
Der ganze 300-Watt-Chip soll 40 Teraflop/s Single Precision und 13 Teraflop/s bei doppelter Genauigkeit erreichen. Für die gewünschte Gesamtleistung werden insgesamt 49152 Prozessorknoten mit je einem Chip kombiniert. Jeder Knoten besitzt 128 GB Arbeitsspeicher mit einer Bandbreite von 2 TB/s. Unterstützt wird das Gebilde von 512 GB Phase-Change-Memory, Flash Speicher oder einem anderen lokalen Highspeed-Speicher. Ein 1 TB/s schnelles, optisches „Dragon“-Network sorgt für die Kommunikation mit benachbarten Knoten. Insgesamt 384 Prozessorknoten bilden eine Zelle, die insgesamt 100 kW verbraucht, eine Rechengeschwindigkeit von 15,7 Petaflop/s (SP) erreicht und 50 TB Arbeitsspeicher bietet – sie alleine wäre schneller als der heute schnellste Supercomputer. Man nehme nun 128 Zellen, versorge sie mit 10 MW und schon erhält man einen 2 Exaflop/s schnellen Supercomputer mit 6,4 Petabyte Arbeitsspeicher auf Basis von Nvidia-Technologie.
Die präsentierten Zahlen sind beeindruckend. Wenn Nvidia das nächste Jahr in Anbetracht von Fertigungsproblemen, Lizenzstreitigkeiten und hohem Konkurrenzdruck unbeschadet übersteht und Fermi der erhoffte Erfolg wird, dann könnte Platz 1 der Top-500-Supercomputerliste 2017 tatsächlich an Nvidia gehen. Doch wie immer gilt: Auch die Konkurrenz schläft nicht und wer weiß schon, was AMD, IBM und Intel hinter verschlossenen Türen aushecken?
* Die Geschwindigkeit ist natürlich nicht 100 Mal so schnell, da Nvidia eine Performance von 2 Exaflop/s in Single Precision Floating Point (32 Bit) angibt. Der Linpack-Benchmark, der zur Einstufung der Supercomputer herangezogen wird, arbeitet jedoch mit Double Precision Floating Point (64 Bit). Hier schafft Nvidias Machine rechnerisch „nur“ 650 Petaflop/s und wäre damit nur rund 30 Mal schneller als alle Top-500-Systeme zusammen.