News Mehr als 5,5 Millionen USD: Was die Entwicklung von DeepSeek tatsächlich gekostet hat

Andy · 29. Januar 2025

Dass das chinesische AI-Modell DeepSeek mit Spitzenmodellen wie GPT-4o, o1 und Claude 3.5 Sonnet mithalten kann, das Training aber nur rund 5,5 Millionen US-Dollar gekostet haben soll, führte zu einem massiven Hype. Tatsächlich benötigte das Team für die Entwicklung aber deutlich mehr Ressourcen.

Zur News: Mehr als 5,5 Millionen USD: Was die Entwicklung von DeepSeek tatsächlich gekostet hat

Neko/Arc · 29. Januar 2025

Die Markreaktion war natürlich lächerlich. Aber immerhin konnte und kann man immer noch fleißig „günstig“ Aktien kaufen.

SaschaHa · 29. Januar 2025

Danke für diese ausführliche und sachliche Auseinandersetzung mit diesem komplexen Thema!

FR3DI · 29. Januar 2025

Effizienz war also vor allem ein Weg, um mit den Chip-Restriktionen umzugehen.

Prima.
Wäre doch jeder so dermaßen von sich selbst überzeugt.

erklärt Metas KI-Chef Yann LeCun.

Auf den seine Sache pfeife ich, wie ihr auch auf meine pfeifen dürft.

Gruß Fred.

0x8100 · 29. Januar 2025

Nur das offizielle Training kostet so viel. Das Entwickeln der Architektur, der Algorithmen sowie Experimente und parallele Trainingsdurchläufe – all das ist nicht enthalten. Ebenso fehlen Personalkosten und die Entwicklungskosten für ältere DeepSeek-Modelle werden ebenfalls nicht berücksichtigt.

und bitte beachten, dass sie "einfach" auf gwen, llama (und anscheinend chatgpt) aufbauen und somit einen grossteil der kosten somit ausgelagert haben.

MalWiederIch · 29. Januar 2025

Naja - die Resourcen sind aber ja nicht auf einmal wertlos, diese kann man weiternutzen. Insofern natürlich nicht direkte Kosten für das Modell …

Warum wird eigentlich im Artikel so getan, als ob die „geringen Kosten“ und nicht die Leistung mit offenem Quellcode das wären, was alle erstaunt

MoonTower · 29. Januar 2025

Und wieder haben viele der klugen unabhängigen weitsichtigen und stets sich und andere hinterfragenden Journalisten mal wieder jämmerlich versagt ... wie zu Corona-Zeiten

Scobi · 29. Januar 2025

Wenn ich Milliarden, mit Nvidia Aktien in minus liegen wurde, wurdet ihr genau das gleiche schreiben, nicht nur ihr, auch TV wurde darüber berichten!! 😅😅

Chesterfield · 29. Januar 2025

Eigentlich wird aufgezeigt, wie „aufgebauscht“ das Thema KI in Sachen Kosten Investitionen und Nutzen ist. Eine Komplexität erschaffenen die es so real nicht gibt. Auch wenn’s nur halb so gut wie renommierte KI Modelle wie OpenAi und Copilot , die suggerierten Kosten und Investments gehen bei denen in die Milliarden. Trainingskosten ca 6 zu ~ 100Mio (OpenAi) spricht doch Bände! Und schließlich kochen alle mit Wasser am Ende ( oder mit NVIDIA „noch“)

pioneer3001 · 29. Januar 2025

Zu den 5,5 Millionen kommt noch wie viel das China-Politbüro an Subventionen fließen lassen hat. Dort soll es laut einigen IT-Websites wohl irgend ein KI-Förderprogramm geben.

Che-Tah · 29. Januar 2025

Export-Restriktionen führten zur effizienten Entwicklung

Tja... Exportrestriktionen waren immer schon sehr kurzssichtig.

China wird seine eigene Chipproduktion so nur beschleunigen.
Gleichzeitig arbeiten ja viele daran, Taiwans einzige Lebensversicherung Namens TSMC aus Taiwan absiedeln zu wollen.

Ob es nun 5 oder 500 Mio $ waren spielt keine Rolle, gegenüber den Millardeninvestitionen der anderen waren es auf alle Fälle Peanuts.

Goltz · 29. Januar 2025

Nach diesem Hype der letzten Tage ist DeepSeek heute nicht zu erreichen.
Insofern muss da noch einiges passieren.
Ist aber die erste KI, die ich mehr als einmal benutzt habe.

dualcore_nooby · 29. Januar 2025

Der hat das nur Open Source released um NVIDIA mit seinem Hedge Fonds shorten zu können:-)

Ayo34 · 29. Januar 2025

Sehr guter Artikel zur Einordnung!

0x8100 schrieb:
und bitte beachten, dass sie "einfach" auf gwen, llama (und anscheinend chatgpt) aufbauen und somit einen grossteil der kosten somit ausgelagert haben.

Wobei man das eigentlich nicht kritisieren darf und auch nicht negativ bewerten darf aus Sicht der anderen Hersteller.

OpenAI und Co. haben ihre Sprachmodelle auf Texte, Bilder und Videos von Menschen, Webseiten, Verlagen usw. aufgebaut und zwar ohne dafür zu bezahlen. Einfach mit dem Hinweis, dass man die Dinge nur verwendet hat um damit zu trainieren.

Nun hat ein Hersteller quasi genau das Gleiche mit diesem Unternehmen gemacht. Sie haben z.B. mit Ausgaben von ChatGPT trainiert. Was ist aber der Unterschied ob man mit einem Newsartikel von einer Webseite oder mit einem Newsartikel von ChatGPT trainiert? Geht ja nur um "Training". Also quasi das, was ein Mensch auch macht, wenn er einen Artikel liest. Er behält das Wissen im Hinterkopf.

Im Grunde ist das der logische Schritt und nichts Anderes!

Ergänzung (29. Januar 2025)

Goltz schrieb:
Nach diesem Hype der letzten Tage ist DeepSeek heute nicht zu erreichen.
Insofern muss da noch einiges passieren.
Ist aber die erste KI, die ich mehr als einmal benutzt habe.

Lokal benutzen. Bei Deepseek auf der Website wird jeder Tastenanschlag und noch viel mehr mitprotokolliert und gespeichert auf chinesischen Servern und garantiert auch weiter benutzt.

0x8100 · 29. Januar 2025

Ayo34 schrieb:
Im Grunde ist das der logische Schritt und nichts Anderes!

gut, dann nehme ich jetzt das frei verfügbare modell von deepseek, benenne das in seekdeep um und mache eine riesen welle, weil ich ein ki-modell anbieten kann, das die gleiche leistung wie deepseek erreicht aber mit 0€ trainingskosten - genial.

Calid · 29. Januar 2025

"Im Bestand hat DeepSeek aber ohnehin H100-GPUs. Das Unternehmen selbst gründete Liang Wenfeng erst 2023, zuvor war er aber bereits mit einem Hedgefonds erfolgreich. Die KI-Entwicklung war für ihn am Anfang nur ein Nebenprojekt, beschreibt Decoder in einem Porträt des Unternehmens."

und da hat er sich gedacht, machen wir doch mal ein nettes "hit piece" auf amerikanische Tech giganten, indem wir die echten entwicklungskosten verschweigen, damit NV und co massiv fallen - natürlich vorher brav put optionen kaufen. dazu kommt, dass solche meldungen die US medien liebend gerne aufgreifen, weil die alle gegen trump sind und ihn nur lieben gerne mit projekt stargate scheitern sehen würden. das ist der garant, dass sich diese idiotische meldung schnell verbreitet und panik im markt verursacht.

bravo. gut gespielt.

Zanza · 29. Januar 2025

Ayo34 schrieb:
Bei Deepseek auf der Website wird jeder Tastenanschlag und noch viel mehr mitprotokolliert und gespeichert auf chinesischen Servern und garantiert auch weiter benutzt.

Und die USA spionieren seit 70er Jahren über ihre speziellen Anlangen die weltweit aufgestellt sind, jedes Telefongespräch ab.

floq0r · 29. Januar 2025

@Ayo34 Das Urheberrecht verwendet zur Abgrenzung zu schützenswürdigen Werken den Begriff der "Schöpfungshöhe". Damit wird beispielsweise unterstellt, dass durch kreative und/oder technische Bearbeitung von Rohdaten ein neues Werk entsteht.
Wie das im Einzelfall behandelt wird muss erst ausjudiziert werden. Das ist selbst in Belangen abseits von AI rechtlich nicht so klar wie man denkt.

Ayo34 · 29. Januar 2025

floq0r schrieb:
@Ayo34 Das Urheberrecht verwendet zur Abgrenzung zu schützenswürdigen Werken den Begriff der "Schöpfungshöhe". Damit wird beispielsweise unterstellt, dass durch kreative und/oder technische Bearbeitung von Rohdaten ein neues Werk entsteht.
Wie das im Einzelfall behandelt wird muss erst ausjudiziert werden. Das ist selbst in Belangen abseits von AI rechtlich nicht so klar wie man denkt.

Ist mir bewusst, dass das noch alles offen ist. Ich finde es nur komisch zu sagen, dass der Vorgang von OpenAI und Co. okay sein soll und der von Deepseek dann nicht. Entweder muss man beides kritisieren oder beides nicht. Am Ende wird mit fremden, nicht bezahlten Texten trainiert.

0x8100 schrieb:
gut, dann nehme ich jetzt das frei verfügbare modell von deepseek, benenne das in seekdeep um und mache eine riesen welle, weil ich ein ki-modell anbieten kann, das die gleiche leistung wie deepseek erreicht aber mit 0€ trainingskosten - genial.

Genau das ist ja der Unterschied. Wenn du Microsoft Windows kopierst und anbietest, ist es offensichtlich eine Urheberverletzung und nicht richtig. Wenn du aber ChatGPT nutzt um Inhalte zu generieren und mit diesen Inhalten dann dein eigenes Modell trainierst, dann trainierst du eben mit Texten, genauso wie es OpenAI gemacht hat und macht.

Deepseek hat sich ja nicht in OpenAI gehackt und dort alles im Background geklaut. Es geht um Trainingsdaten. OpenAI hat News von Webseiten ohne Nachfrage benutzt. DeepSeek hat sich mit OpenAI Texte geschrieben und benutzt eben diese Texte zum Training. Wo ist da der Unterschied?

Punk Sods · 29. Januar 2025

Auch wenn ich von der Regierung in dem Land und deren Methoden absolut nichts halte, finde ich das Projekt an sich schon als eine beachtliche Leistung. Trotz der Vermutungen aus dem "wilden" Westen woher die wohl ihre Trainingsdaten haben etc. Es ist eben nicht alles käuflich und nur mit viel Geld investieren ist eben nicht alles möglich. Dabei ist halt mehr gefragt. Nur meine persönliche Meinung dazu. Kurzfassung

News Mehr als 5,5 Millionen USD: Was die Entwicklung von DeepSeek tatsächlich gekostet hat

Tagträumer

Ensign

Rear Admiral

Banned

Fleet Admiral

Commander

Lt. Junior Grade

Scobi

Gast

Fleet Admiral

Ensign

Commander

Export-Restriktionen führten zur effizienten Entwicklung​

Lt. Junior Grade

Lieutenant Pro

Admiral

Fleet Admiral

Lieutenant

Commander

Captain

Admiral

Cadet 4th Year

Ähnliche Themen

Export-Restriktionen führten zur effizienten Entwicklung