News Google Ironwood (TPU v7p): Neuer KI-Chip für FP8 mit 192 GByte HBM3 und ~1.000 Watt

Volker

Ost 1
Teammitglied
Registriert
Juni 2001
Beiträge
19.039
Google hat mit Ironwood alias v7p die siebte Generation einer eigenen TPU vorgestellt. Sie ist aber eher der Nachfolger der TPU v5p statt von Trillium alias v6e, wenngleich das Unternehmen diese für einige fragwürdige Vergleiche heranzieht. Die Einsatzgebiete der e- und p-Lösungen sind jedoch mitunter extrem unterschiedlich.

Zur News: Google Ironwood (TPU v7p): Neuer KI-Chip für FP8 mit 192 GByte HBM3 und ~1.000 Watt
 
  • Gefällt mir
Reaktionen: PietVanOwl, Termy, the_IT_Guy und 2 andere
@Volker ein kleiner Vergleich zu den aktuellen nVidia AI Chips wäre gut. Wo ordnet sich dieser neue Google Chip ein?
 
  • Gefällt mir
Reaktionen: innerart, the_IT_Guy, Lendi und eine weitere Person
Ich muss sagen das Google beim Thema KI wirklich aufgeholt haben. Sie hatten es ja erst verpennt und sind hinter her gewesen. Aber Gemini Flash 2.5 zeigt echt wie gut Gemini mittlerweile geworden ist. Oft finde ich die Ergebnisse von Gemini besser als die von ChatGPT (4.5).

Bin wirklich gespannt wie das ganze in 2 Jahren aussieht.
 
  • Gefällt mir
Reaktionen: GR Supra, sturmpirat und Brrr
Warum FP8 fokussieren statt int8?? Bei OpenSource KIs, genauer LLMs und Bilderstellung, erzielt INT8 doch bessere Ausführungsergebnisse (meine inferencing) als FP8 ?? Also die näher an höherwertigen Formaten dran sind?

Edit:
Bildgenerierung:
1744286465974.jpeg

(die "Q"s sind int, also Q8 ist int8)
Ist von hier: https://www.reddit.com/r/StableDiffusion/comments/1eso216/comparison_all_quants_we_have_so_far/

Für LLM siehe hier: https://www.reddit.com/r/LocalLLaMA/comments/18ctfs6/fp8_quantized_results_are_bad_compared_to_int8/

Und für Paper dazu allgemein siehe hier: https://arxiv.org/abs/2303.17951
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Kitsune-Senpai
Google hat schon vor Jahren ewig viel Geld in die Entwicklung von TPUs gesteckt und sich dadurch deutlich unabhängiger von anderen Firmen gemacht. Diese Weitsicht, macht sich jetzt einfach bezahlt und das völlig zurecht.

ali7566 schrieb:
Aber Gemini Flash 2.5 zeigt echt wie gut Gemini mittlerweile geworden ist. Oft finde ich die Ergebnisse von Gemini besser als die von ChatGPT (4.5).

Es gibt kein Flash 2.5 (noch nicht). Und 2.5 Pro und GPT 4.5 sind momentan keine Konkurrenzmodelle, 2.0 Pro (02-05 und 12-06) war genau das. Es wird noch eine Version mit dynamischem Reasoning kommen, vmtl. kann man es aber dann einfach auch abschalten, dann hätte man vmtl. einen 4.5 Konkurrenten.
 
Wir haben HPCs auch mit verschiedenen DGXen. Die nächsten DGXe, die kommen, haben 8 GPUs und kosten als Paar deutlich über eine Million.

Zur Finanzierung muss berechnet werden wie sehr der HPC, auch auf dem DGXen ausgelastet ist. Fazit: Viel zu wenig.

Daher würde ich gerne mal wissen, wie Google das plant, skaliert und tatsächlich auslastet und die die Workloads platziert werden, wenn man theoretisch beliebig viele Mandanten hat, die je nach Aufgaben, Zeitzonen usw nicht so wie wir vergattert werden können.

Steigern wir nicht deutlich die Auslastung sinnvoll, gibt es wohl zukünftig weniger oder kein Geld, weil SaaS deutlich günstiger ist.

Uns fehlen die Programmierer.
 
Zurück
Oben