Mehr als 5,5 Millionen USD: Was die Entwicklung von DeepSeek tatsächlich gekostet hat

Andreas Frischholz
86 Kommentare
Mehr als 5,5 Millionen USD: Was die Entwicklung von DeepSeek tatsächlich gekostet hat
Bild: Nvidia

Dass das chinesische AI-Modell DeepSeek mit Spitzenmodellen wie GPT-4o, o1 und Claude 3.5 Sonnet mithalten kann, das Training aber nur rund 5,5 Millionen US-Dollar gekostet haben soll, führte zu einem massiven Hype. Tatsächlich benötigte das Team für die Entwicklung aber deutlich mehr Ressourcen.

Die Trainingskosten von 5,5 Millionen US-Dollar stammen zunächst aus dem offiziellen Paper, das DeepSeek für das Modell V3 im Dezember 2024 veröffentlicht hat. Trainiert wurde es demnach auf einem Cluster mit 2.048 Nvidia H800-GPUs. DeepSeek beziffert die Kosten pro Betriebsstunde bei einer H800 auf 2 US-Dollar. Bei den 2,788 Millionen GPU-Stunden (also knapp zwei Monate Trainingszeit bei 2.048 H800-GPUs) kommt man so auf Gesamtkosten von 5,576 Millionen US-Dollar.

Diese Zahl war es, die – gemeinsam mit den Benchmark-Ergebnissen – den Hype befeuerte. Dass es möglich sein soll, mit viel weniger Ressourcen neue Spitzenmodelle zu entwickeln, befeuerte die ohnehin bestehenden Zweifel an den Rekordausgaben, die Big-Tech-Konzerne derzeit für die AI-Infrastruktur veranschlagen. Aktienkurse gaben nach, betroffen waren vor allem die Chip-Firmen. Bei Nvidia waren es zeitweise 17 Prozent, was einem Börsenwert von 589 Milliarden US-Dollar entspricht – ein Rekordminus.

Inwieweit diese Marktreaktion gerechtfertigt ist, ist aber ebenfalls zweifelhaft.

Kosten für DeepSeek-Training lassen sich nicht genau beziffern

Denn die Entwicklung für DeepSeek V3 war deutlich teurer. Der entscheidende Satz steht bereits in dem V3-Paper.

Note that the aforementioned costs include only the official training of DeepSeek-V3, excluding the costs associated with prior research und ablation experiments on architectures, algorithms, or data.

Nur das offizielle Training kostet so viel. Das Entwickeln der Architektur, der Algorithmen sowie Experimente und parallele Trainingsdurchläufe – all das ist nicht enthalten. Ebenso fehlen Personalkosten und die Entwicklungskosten für ältere DeepSeek-Modelle werden ebenfalls nicht berücksichtigt.

Wie viel die Entwicklung von DeepSeek V3 insgesamt gekostet hat, lässt sich anhand der 5,5 Millionen US-Dollar für den finalen Trainingsdurchlauf also nicht bewerten. Ebenso wenig sind Aussagen über den GPU-Bestand möglich. Über diesen wird ohnehin spekuliert. Klar ist: Es sind deutlich mehr als 2.048 H800-GPUs.

Im Gespräch sind mehr als 50.000 Hopper-GPUs. Laut Stratechery stammt die Zahl von Semianalysis-Autor Dylan Patel, er verbreitete sie im November 2024 via X, allerdings ohne Quellen zu nennen. Scale-AI-CEO Alexander Wang verkündete, es handele sich dabei um H100-GPUs, was DeepSeek aufgrund der amerikanischen Export-Restritikionen nicht offiziell mitteilen könne. Laut Stratechery sei aber auch denkbar, dass es sich um die H800-Varianten für China handelt, die in der Interconncect-Bandbreite beschränkt sind.

Im Bestand hat DeepSeek aber ohnehin H100-GPUs. Das Unternehmen selbst gründete Liang Wenfeng erst 2023, zuvor war er aber bereits mit einem Hedgefonds erfolgreich. Die KI-Entwicklung war für ihn am Anfang nur ein Nebenprojekt, beschreibt Decoder in einem Porträt des Unternehmens.

So begann Liang bereits 2021 mit dem Einkauf von GPUs, er baute damals laut Financial Times ein Cluster mit 10.000 Chips auf. Welche GPUs verbaut worden sind, schreibt die Financial Times jedoch nicht, bei Wired ist aber von 10.000 H100-Chips die Rede, die DeepSeek bereits zum Start nutzen konnte.

Generell handelt es sich bei DeepSeek um ein hervorragend ausgestattetes Labor. Dem Decoder-Bericht zufolge sind an der Modellentwicklung zwischen 100 und 140 Personen beteiligt, insgesamt sind 200 bis 300 Mitarbeitende bei dem Unternehmen beschäftigt. Und die Gehälter liegen auf einem Niveau, das in der chinesischen KI-Branche nur vergleichbar sein soll mit dem, was die TikTok-Mutter ByteDance zahlt.

Das Unternehmen profitiert demnach stark von den Ressourcen, die der Gründer Liang einbringt, der mit seinem Hedgefond bereits Milliarden verdient hat. Und er ist es auch, der den Open-Source-Kurs vorgibt, weil er – zumindest seinen öffentlichen Aussagen zufolge – eher an Grundlagenforschung als an kommerziellen Durchbrüchen interessiert ist. Einnahmen generiert sein KI-Start-up derzeit noch keine.

Export-Restriktionen führten zur effizienten Entwicklung

Was man also festhalten sollte: Die 5,5 Millionen Dollar als Traingskosten verschleiern, wie DeepSeek tatsächlich aufgestellt ist. Es handelt sich weder um ein kleines Open-Source-Projekt, noch eine Garagen-Start-up mit geringen Mitteln. „Unser Problem war nie die Finanzierung, sondern die Exportkontrolle für moderne Chips“, sagte Liang in einem Interview im Jahr 2024.

Effizienz war also vor allem ein Weg, um mit den Chip-Restriktionen umzugehen. Innovativ war man dann in Bereichen wie dem Mixture-of-Experts-Ansatz, heißt es in dem Bericht von Wired. Mixture of Experts (MoE) ist nicht neu, Google und OpenAI nutzen es ebenfalls. Bei diesem Ansatz entwickelt man im Prinzip nicht ein großes Modell, sondern setzt es aus mehreren spezialisierten Modellen zusammen.

Dieses Verfahren hat DeepSeek weiter optimiert, was auch an der Angabe erkennbar ist, dass DeepSeek V3 insgesamt 671 Milliarden Parameter hat, davon aber nur 37 Milliarden aktiv sind. Vereinfacht heißt es dann in der Praxis: Bei einer Anfrage werden Tokens nur in dem Teil des Modells berechnet, der für das Generieren der Antwort tatsächlich relevant ist. Weitere Fortschritte verzeichnete DeepSeek bei Technologien wie der Multi-head Latent Attention (MLA), durch die ein LLM in der Lage ist, Eingaben effizienter zu erfassen.

Generell sind es eine Vielzahl von Optimierungen und Tricks, die die Entwickler nutzen, um die Effizienz zu steigern. „Viele dieser Ansätze sind keine neuen Ideen, aber sie erfolgreich zu einem innovativen Modell zu kombinieren, ist eine bemerkenswerte Leistung“, sagt der Analyst Wendy Chang zu Wired.

Selbst wenn die 5,5 Millionen an Trainingskosten also bei Weitem nicht die komplette Entwicklungssumme abbilden, ist das Erreichte immer noch bemerkenswert. Zum Vergleich: Metas Modell Llama 3.1 405B wurde für 100 Tage auf einem Cluster mit 16.000 H100-GPUs trainiert, die Kosten sollen dafür bei rund 60 Millionen US-Dollar gelegen haben. Bei GPT-4 sind die Kosten nicht bekannt, werden aber auf rund 100 Millionen US-Dollar geschätzt.

Reaktionen in der Branche: Anerkennend und einordnend

Anerkennend sind daher durch die Bank auch die Reaktionen aus der Branche. OpenAIs Chef-Wissenschaftler Mark Chen erklärte etwa via X, DeekSeeks Paper zeige, dass die Entwickler eigenständig einige der zentralen Konzepte entdeckt hätten, die auch OpenAI für die Entwicklung von o1 genutzt hat. Was Chen an dieser Stelle nicht sagt: OpenAI hat diese Ideen selbst nie veröffentlicht.

Den Hype rund um DeepSeek bewertet man generell skeptisch, was vor allem an der Diskussion rund um die Kosten und die Effizienz liegt. Während die Trainingskosten schon nur ein Teil der Entwicklungskosten, wurde ein noch größere Block überhaupt nicht erwähnt: die Betriebskosten der Modelle und KI-Dienste. Inferenz-Berechnungen sind aufwändig und benötigen eine leistungsfähige Infrastruktur. Viele Investitionen der Tech-Konzerne fließen daher genau in diesen Bereich, erklärt Metas KI-Chef Yann LeCun. Welche Ressourcen DeepSeek für den Betrieb der Modelle einsetzt, ist nicht bekannt.

Naheliegend ist mit diesem Kontext daher auch, dass Metas KI-Chef die Marktreaktionen als völlig ungerechtfertigt bezeichnet.