Chinesisches AI-Modell: DeepSeek ist schneller und günstiger als OpenAIs o1-Modell
Das chinesische AI-Modell DeepSeek sorgt in den Kreisen der AI-Entwickler für Aufsehen. Leistungsmäßig halten die Versionen mit Spitzenmodellen wie Anthropic Claude 3 und OpenAIs Modellen GPT-4o und o1 mit. Der Clou: Es ist Open Source und wurde nur für den Bruchteil der Kosten entwickelt.
Wie CNBC berichtet, entwickelte DeepSeek das im Dezember veröffentlichte Modell innerhalb von zwei Monaten, die Kosten lagen bei unter 6 Millionen US-Dollar. Das Training erfolgte auf in der Leistung begrenzten Nvidia-H100-GPUs: Nvidia H800.
Welche Modelle DeepSeek veröffentlicht hat
Insgesamt sind es zwei Modellreihen, die DeepSeek veröffentlicht hat. DeepSeek V3 erschien Ende Dezember. Wie die von dem Entwickler-Team veröffentlichten Benchmarks zeigen, bewegt es sich auf einem ähnlichen Niveau wie Claude 3.5 Sonnet und GPT-4o. Allein das beeindruckte, weil es sich um die Spitzenmodelle der US-Firmen handelt, die als führend im Markt gelten. Übertroffen wurde der Wirbel aber durch die Vorstellung von DeepSeek R1. Es handelt sich um eines der Reasoning-Modelle, die Teile der Berechnung auf die Inferenzphase verlagern. Solche Modelle nutzen die Rechenpower nach der Prompt-Eingabe der Nutzer, um nach korrekten Lösungen zu suchen. Dabei können auch mehrere Wege überprüft werden, OpenAI bezeichnet diese Phase in ChatGPT als „Nachdenken“.
Nun schafft es DeepSeek R1, mit o1 mitzuhalten und übertrifft es in manchen Benchmarks sogar. Vor allem mit Blick auf den Ressourcen-Einsatz ist das beeindruckend. Denn rein von der Leistung her hat OpenAI bereits mit o3 nachgelegt, das sich nochmals deutlich von o1 absetzen kann. Dafür benötigt es aber entsprechende Computing-Leistung.
Das Besondere an DeepSeek ist zudem, dass die Modelle unter einer Open-Source-Lizenz stehen. Man kann sie also selbst herunterladen sowie beliebig nutzen und anpassen. Dadurch sind auch Details bekannt. So verfügt DeepSeek R1 über 671 Milliarden Parameter, die Anzahl der aktiven Parameter liegt bei 37 Milliarden. Die Kontextlänge liegt bei 128.000 Token. Weitere Details finden sich im Paper.
Was DeepSeek über das Kräfteverhältnis im AI-Markt aussagt
Von dem DeepSeek-Entwicklerteam ist wenig bekannt. Laut Medienberichten steckt hinter dem Unternehmen ein chinesischer Hedgefonds. Selbst ohne Detailkenntnisse verdeutlichen die Ergebnisse aber, dass die US-Anbieter nicht so weit vor dem Rest der Welt liegen, wie es zuletzt den Anschein hatte. „Die Kluft zwischen den USA und China ist nicht so groß wie alle denken“, sagt Liu Qingfeng, Gründer des chinesischen KI-Entwicklers iFlytek laut einem Bericht der Financial Times.
So wirkt sich die DeepSeek-Veröffentlichung direkt auf den ohnehin volatilen AI-Markt aus. Vor allem, dass viel geringere Ressourcen nötig sind, um Modelle mit vergleichbarer Qualität zu entwickeln, gilt als einschneidend. Konkret heißt es: Die Aktienkurse der Tech-Konzerne fallen. Betroffen ist insbesondere die Chip-Industrie, die derzeit gutes Geld mit der Hardware für die AI-Entwicklung verdient. So büßte Nvidia heute bereits knapp 10 Prozent ein, berichtet Reuters. Ebenso gaben Kurse von Firmen wie ASML, Microsoft und weiteren europäischen Anbietern nach.
Medial wird bereits hitzig diskutiert, ob DeepSeek die Vorherrschaft der US-Anbieter infrage stellt, heißt es etwa bei CNBC. Bei diesem Punkt geht es auch um die geopolitische Komponente und den Konflikt zwischen den USA und China.
Open Source setzt sich durch
Es gibt aber auch eine andere Lesart. Metas KI-Chef Yann LeCun erklärt auf Threads, es gehe bei DeepSeek nicht um China gegen USA, sondern um Open Source gegen proprietäre Modelle. Eine offene Entwicklungskultur zahle sich aus. DeepSeek „kam mit neuen Ideen und baute damit auf die Arbeit anderer Leute auf“. Weil die Entwickler ihre Erkenntnisse selbst unter Open-Source-Lizenzen veröffentlichten, könnten nun andere davon profitieren. „Das ist die Macht von offener Forschung und Open Source“, so LeCun.