Google Trillium: 6. Generation TPU ist fünf Mal schneller und viel effizienter
Bei Googles TPU-Chips geht es Schlag auf Schlag. Nun wurde bereits die sechste Generation vorgestellt, die einen neuen Namen erhält. Trillium wird eine neue Generation starten und natürlich vor allem das AI-Zeitalter begleiten. Dafür wird bei der TPU an wichtigen Stellschrauben gedreht.
Bei Trillium arbeitet Google an den typischen Problemstellen respektive Flaschenhälsen, die sich bei den Beschleuniger-Lösungen in der Vergangenheit – über viele Hersteller mit GPUs/TPUs in dem Bereich hinweg – immer gezeigt haben. Das betrifft vor allem die Speicherbandbreite und die Menge des zur Verfügung stehenden Speichers, beides hat Google mit Trillium verdoppelt. Aber auch die Kommunikation zwischen den Chips ist entscheidend, also hat Google auch den Interconnect aufgewertet und hier die Bandbreite verdoppelt. Denn es bringt nichts, wenn die Daten zwar schnell bearbeitet werden können, dann aber nicht weggeschafft werden.
Unterm Strich will Google mit Trillium so die 4,7-fache Maximalleistung liefern. Die Basis für diese Angaben dürfte die bisher TPU v5e für Inferenz-Anwendungen sein, die vor einem Jahr vorgestellt wurde, nicht der Performance-Refresh mit Fokus auf Training, der erst im Dezember als TPU v5p folgte. So ein Vorgehen ist aber auch bei Trillium zu erwarten. Anhand der öffentlich verfügbaren Spezifikationen zum v5e lassen sich aber gewissen Hochrechnungen anstellen, denn mit Daten zum neuen Chip geizt Google heute wie nahezu üblich zu einer Vorstellung im Unternehmen noch. Zur aktuell stattfinden ISC 2024 ist am Stand von Google noch überall der Vorgänger zu sehen.
Sofern sich Google weiterhin auf die klassischen Datenformate Bfloat16 und Int8 bezieht, dürften die Leistung anhand von Hochrechnungen gegenüber dem Vorgänger v5e/v5p wie in der folgenden Tabelle beschrieben aussehen. Sollte die 4,7-fache Leistung allerdings bei so etwas wie Int4/FP4 erzielt werden, stimmt die Prognose nicht mehr. Nvidia ist bei Blackwells Vorstellung einen ähnlichen Weg gegangen, die größte Leistungssteigerung gibt es im neuen, kleinsten Datenformat.
v5e | v5p | Trillium (v6e) | |
---|---|---|---|
Bfloat16 | 197 TFLOPS | 459 TFLOPS | 926? TFLOPS |
Int8 | nicht verfügbar | 393 TOPS | 1.852? TOPS |
High Bandwidth Memory (HBM) | 16 GByte | 95 GByte | 32 GByte |
Speicherbandbreite | 820 GByte/s | 2.765 GByte/s | 1.640 GByte/s |
Chip-zu-Chip-Verbindung | 1.600 GBit/s | 4.800 GBit/s | 3.200 GBit/s |
Chips pro Pod | 256 | 8.960 | 256 |
Verfügbar sollen die ersten Systeme später in diesem Jahr werden. Behält Google die hohe Schlagzahl bei, wird Ende des Jahres ein weiterer Ableger folgen.