Transformer Models: Sohu-ASIC von Etched soll 20x schneller als Nvidia H100 sein

Nicolas La Rocco
24 Kommentare
Transformer Models: Sohu-ASIC von Etched soll 20x schneller als Nvidia H100 sein
Bild: Etched

Das AI-Start-up Etched entwickelt derzeit einen auf Transformer Models spezialisierten ASIC namens Sohu, der aufgrund seiner anwendungsspezifischen Auslegung beim Inferencing bis zu 20 Mal schneller als Nvidias H100 agieren soll. Andere KI-Modelle lassen sich hingegen nicht ausführen, zudem braucht es Nvidia fürs Training.

Als anwendungsspezifische integrierte Schaltung (application-specific integrated circuit, ASIC) ist Sohu auf ein einziges Anwendungsgebiet spezialisiert, daraus wiederum ergibt sich der von Etched propagierte Leistungszuwachs um den Faktor 20 gegenüber Nvidias H100. Denn die Architektur von Sohu ist einzig und allein für die Beschleunigung von Transformer Models ausgelegt, andere KI-Modelle wie CNNs, RNNs oder LSTMs werden gar nicht erst unterstützt. Transformer sind ein integraler Bestandteil quasi aller modernen Large Language Models. Dabei handelt es sich um eine Encoder-Decoder-Architektur, die 2017 in dem Papier „Attention is all you need“ vorgestellt wurde. Weitere Hintergründe zu Transformern und Large Language Models liefert der verlinkte Artikel.

GPUs werden laut Etched nicht besser
GPUs werden laut Etched nicht besser (Bild: Etched)

Transformer Models stecken hinter geläufigen KI-Anwendungen wie ChatGPT, wobei das „T“ namensgebend für die Transformer ist. Ältere Modelle wie AlphaFold 2 oder Stable Diffusion 2 können nicht mit Sohu beschleunigt werden, der Fokus liegt auf aktuellen Transformer Models wie ChatGPT, Sora, Gemini, Stable Diffusion 3 und weiteren.

Der schnellste KI-Chip aller Zeiten*

Aufgrund dieser speziellen Auslegung sei Sohu der schnellste KI-Chip aller Zeiten und GPUs von Nvidia weit überlegen. Das Chip-Start-up ist sich aber auch der Tatsache bewusst, dass das eigene Konzept nur dann aufgeht, wenn auch in Zukunft auf Transformer Models gesetzt wird. Sollten sich andere Architekturen durchsetzen, seien die eigenen Chips nutzlos.

If transformers are replaced by SSMs, RWKV, or any new architecture, our chips will be useless. But if we’re right, Sohu will change the world.

Etched

Ein Sohu-Server so schnell wie 160 H100

Laut Etched könne ein einzelner Sohu-Server mit acht ASICs beim Inferencing des KI-Modells Llama 70B über 500.000 Tokens pro Sekunde liefern. Das seien 20 Mal mehr als mit Nvidias H100 (23.000 Tokens) und 10 Mal mehr als mit einem B200-Server (45.000 Tokens). Wird die gleiche Leistung angesetzt, könne ein Sohu-Server mit acht ASICs ein Rechenzentrum mit 160 H100 ersetzen. Die Vergleiche basieren auf FP8 ohne Sparsity-Beschleunigung und einem Input von 2.048 Tokens und einer Ausgabe von 128 Tokens.

Sohu im Vergleich zu Nvidia
Sohu im Vergleich zu Nvidia (Bild: Etched)

TSMC-Kapazität und HBM gesichert

Das Start-up vermeldet frühe Kunden, die Hardware im zweistelligen Millionenwert von Etched erworben haben sollen. Als Fertigungspartner kommt wie bei Nvidia TSMC zum Zug, die den Sohu-ASIC in einem nicht näher erläuterten 4-nm-Prozess fertigen werden. Für das erste Jahr der Produktion habe man sich zudem genügend HBM gesichert, von dem 144 GB des aktuellen Standards HBM3E bei Sohu zum Einsatz kommen.

Nvidia bleibt wichtig

Da Sohu für das Inferencing von bereits trainierten KI-Modellen ausgelegt ist, also vor allem bei der Nutzung dieser LLMs zum Einsatz kommt, bleibt das Training der KI-Modelle (auch ohne Transformer-Architektur) weiterhin die Domäne von Nvidia. Deren GPUs reservieren zwar deutlich weniger Chipfläche für die Transformer-Beschleunigung, was Etched als ineffizient bezeichnet, doch sind sie im Gegenzug deutlich flexibler und können auch für andere Architekturen genutzt werden. Zudem hat Nvidia über viele Jahre ein KI-Ökosystem aus GPU, Netzwerk, Data Center und Software aufgebaut, das nicht von heute auf morgen durch Vorstellung eines neuen ASIC obsolet wird.