News Google Ironwood (TPU v7p): Neuer KI-Chip für FP8 mit 192 GByte HBM3 und ~1.000 Watt

Volker · Donnerstag um 11:08

Google hat mit Ironwood alias v7p die siebte Generation einer eigenen TPU vorgestellt. Sie ist aber eher der Nachfolger der TPU v5p statt von Trillium alias v6e, wenngleich das Unternehmen diese für einige fragwürdige Vergleiche heranzieht. Die Einsatzgebiete der e- und p-Lösungen sind jedoch mitunter extrem unterschiedlich.

Zur News: Google Ironwood (TPU v7p): Neuer KI-Chip für FP8 mit 192 GByte HBM3 und ~1.000 Watt

NameHere · Donnerstag um 11:24

@Volker ein kleiner Vergleich zu den aktuellen nVidia AI Chips wäre gut. Wo ordnet sich dieser neue Google Chip ein?

ali7566 · Donnerstag um 11:59

Ich muss sagen das Google beim Thema KI wirklich aufgeholt haben. Sie hatten es ja erst verpennt und sind hinter her gewesen. Aber Gemini Flash 2.5 zeigt echt wie gut Gemini mittlerweile geworden ist. Oft finde ich die Ergebnisse von Gemini besser als die von ChatGPT (4.5).

Bin wirklich gespannt wie das ganze in 2 Jahren aussieht.

DoS007 · Donnerstag um 13:49

Warum FP8 fokussieren statt int8?? Bei OpenSource KIs, genauer LLMs und Bilderstellung, erzielt INT8 doch bessere Ausführungsergebnisse (meine inferencing) als FP8 ?? Also die näher an höherwertigen Formaten dran sind?

Edit:
Bildgenerierung:

(die "Q"s sind int, also Q8 ist int8)
Ist von hier: https://www.reddit.com/r/StableDiffusion/comments/1eso216/comparison_all_quants_we_have_so_far/

Für LLM siehe hier: https://www.reddit.com/r/LocalLLaMA/comments/18ctfs6/fp8_quantized_results_are_bad_compared_to_int8/

Und für Paper dazu allgemein siehe hier: https://arxiv.org/abs/2303.17951

usernamehere · Donnerstag um 18:58

Google hat schon vor Jahren ewig viel Geld in die Entwicklung von TPUs gesteckt und sich dadurch deutlich unabhängiger von anderen Firmen gemacht. Diese Weitsicht, macht sich jetzt einfach bezahlt und das völlig zurecht.

ali7566 schrieb:
Aber Gemini Flash 2.5 zeigt echt wie gut Gemini mittlerweile geworden ist. Oft finde ich die Ergebnisse von Gemini besser als die von ChatGPT (4.5).

Es gibt kein Flash 2.5 (noch nicht). Und 2.5 Pro und GPT 4.5 sind momentan keine Konkurrenzmodelle, 2.0 Pro (02-05 und 12-06) war genau das. Es wird noch eine Version mit dynamischem Reasoning kommen, vmtl. kann man es aber dann einfach auch abschalten, dann hätte man vmtl. einen 4.5 Konkurrenten.

GR Supra · Freitag um 00:25

Wir haben HPCs auch mit verschiedenen DGXen. Die nächsten DGXe, die kommen, haben 8 GPUs und kosten als Paar deutlich über eine Million.

Zur Finanzierung muss berechnet werden wie sehr der HPC, auch auf dem DGXen ausgelastet ist. Fazit: Viel zu wenig.

Daher würde ich gerne mal wissen, wie Google das plant, skaliert und tatsächlich auslastet und die die Workloads platziert werden, wenn man theoretisch beliebig viele Mandanten hat, die je nach Aufgaben, Zeitzonen usw nicht so wie wir vergattert werden können.

Steigern wir nicht deutlich die Auslastung sinnvoll, gibt es wohl zukünftig weniger oder kein Geld, weil SaaS deutlich günstiger ist.

Uns fehlen die Programmierer.

Suche

News Google Ironwood (TPU v7p): Neuer KI-Chip für FP8 mit 192 GByte HBM3 und ~1.000 Watt

Volker

Ost 1

NameHere

Admiral

ali7566

Lieutenant

DoS007

Lieutenant

usernamehere

Lt. Commander Pro

GR Supra

Lieutenant

Passend zum Thema

945 Terawattstunden Rechenzentren benötigen 2030 durch KI doppelt so viel Energie

Größter DRAM-Hersteller SK Hynix stößt Samsung nach 33 Jahren erstmals vom Thron

Neuer Prototyp Update Kioxias optische Breitband-SSD erhält PCIe 5.0