News Mehr als 5,5 Millionen USD: Was die Entwicklung von DeepSeek tatsächlich gekostet hat

  • Gefällt mir
Reaktionen: shaadar
Kaufmannsladen schrieb:
@Alesis Hast du den Artikel gelesen?
Ergänzung ()


Genau! Mit der Technik aus den UFOs und der Hohlerden
Nö, mit Programmen wie PRISM, Boundless Informant, Tempora, XKeyscore, Mail Isolation Control and Tracking, FAIRVIEW, Stellarwind (PSP), Genie, Bullrun, Edgehill und CO-TRAVELER Analytics.


Siehe hier
 
China wird gefeiert, Russland wird gefeiert, USA wird gefeiert, natürlich je nach Ideologie.
1738207478170.png

Die Menschheit hat den Klimawandel verdient und ist letztlich eine Möglichkeit für einen Neubeginn. Allerdings erst nach den Katastrophen, also nach der Massiven Reduzierung auf nur noch wenige Menschen.
 
  • Gefällt mir
Reaktionen: Project 2501
Inwieweit diese Marktreaktion gerechtfertigt ist, ist aber ebenfalls zweifelhaft.
Hauptsache mal den Markt erschüttert.
Tut den "Großen" auch mal gut zu sehen, dass sie nicht alleine sind :daumen:

Aber die ganze Abhängigkeit von Befindlichkeiten vieler Anleger ist mir immer noch sehr dubious. Es geht nicht zum tatsächliche Leistung und Co sondern nur darum was die Anleger denken.

Und gerade denken ist bei vielen Glücksache 😅
 
  • Gefällt mir
Reaktionen: JaniZz
Das Einzige, was das mMn mal wieder gezeigt hat, ist die Tatsache, dass die KI-Bubble dermaßen volatil ist, dass jede kleine Erschütterung sie zum Platzen bringen könnte.
 
  • Gefällt mir
Reaktionen: Sebbi
4nanai schrieb:
vielleicht magst das ja nochmal erläutern
... wie schnell doch ein Erschüttern der Marktkapitalisierung (Hier der Kurz von NVIDIA) zustande kommt, nur weil "jemand" eine Zahl (in diesem Fall in Form des finanziellen Aufwandes) in Verbindung mit einem Ergebnis in die Welt schmeißt.
Einfach so.
... und dann muss das auch noch medial aufgearbeitet werden, um Teilhaber wieder zu "beruhigen" ... Oida, what?!?

Das (!) ist gruselig!

Sorry ... war gestern vermutlich zu spät um meinem geistigen Erguss etwas Tiefe zu verleihen.
Den technischen Aspekt lasse ich hier außen vor, da dieser hinreichend korrekt zusammengetragen wurde.
 
Inwieweit diese Marktreaktion gerechtfertigt ist, ist aber ebenfalls zweifelhaft.
deutlich mehr gerechtfertigt als all diese Delirium valuations. Das basiert doch alles auf absolut nichts mehr
 
NameHere schrieb:
@Andy Was hat es nun gekostet? Wäre gut, wenn du auch eine tatsächliche Summe nennst in deinem Artikel, was du nicht tust.
Ach was? War es mal wieder Clickbait. Wer hätte das gedacht? :D

Ich habe den Artikel nicht gelesen. Denn ich informiere mich auf einer Seite für Grafikkartentests nicht zu Wirtschaftsthemen. Da gibt es echte Fachmagazine für - und die ComputerBase gehört da für mich nicht dazu - sorry. Dass der große KI hier auch angebetet wird, zeigt mir, dass wir uns in einer echten Dienstmädchenhaussee befinden.
 
  • Gefällt mir
Reaktionen: xammu
MalWiederIch schrieb:
Warum wird eigentlich im Artikel so getan, als ob die „geringen Kosten“ und nicht die Leistung mit offenem Quellcode das wären, was alle erstaunt :confused_alt:

Meiner Meinung muss es daran liegen, dass bei allen - also auch 0815 Leuten nicht Computernerds wie wir - mit dem Begriff "OpenSource" nichts anzufangen ist. Es gibt mit solchen Dingen keine Berührungspunkte im Alltag. Und wenn doch hat es eher den Zusammenhang von wegen OpenSource = kostenlos.
"Geringe Kosten" kennt jedoch jeder und wird von jedem direkt verstanden wenn etwas günstigeres mehr leistet als etwas teueres.
 
Ich nutze immer häufiger Chat-GPT als Ersatz für ein schlechter werdendes Google. (Bing sowieso enttäuschend). Wann wird Google ihr Modell sinnvoll in die Suche integrieren? Chat-GPT und in für meine Recherchen Perplexity können einen guten Überblick verständlich generieren. Man muss aber wie immer bei der Informationsbeschaffung kritisch bleiben...
 
Ich finds gut, dass Computerbase sich das etwas genauer angesehen hat - die "nur 5 Millionen" Headline wurde definitiv viel zu viel einfach rumkopiert, in verschiedenen Medien.

Ich frag mich allerdings auch, ob es ueberhaupt irgendeinen Beweis dafuer gibt, dass das Deepseek-Training selber nur 5 Millionen gekostet hat, wie behauptet?

Aber ja, es ist durchaus denkbar, dass Deepseek wirklich ein paar interessante neue Trainingstricks gefunden hat, so dass das hinkommt. Ausserdem muss man auch beachten, dass 671G Parameter relativ viel ist, wahrscheinlich haben die OpenAI/Claude-Modelle deutlich weniger... was wiederum bedeuten wuerde, dass Deepseek eigentlich nicht sonderlich effizient ist, was wiederum unter anderem an dem relativ geringem Training liegen koennte.
Ergänzung ()

tomgit schrieb:
Das ist leider falsch. Inferenz ist genau das, was bei dem gesamten Prozess am günstigsten ist. Vortraining und Training sind die mit Abstand teuersten Teile beim erstellen eines Modells. Das sieht man aber auch alleine schon daran, was für eine Hardware jeweils benötigt wird. Selbst Fine-Tuning ist deutlich teurer als die Inferenz.
Ich kann auf meinem MacBook ein Phi-3 oder ein Gemma-2 bis 27b Parameter performant laufen lassen. An Finetuning, was deutlich weniger kostet als Training, kann ich hier einfach vergessen.

Das kann man so nicht verallgemeinern.

Es ist durchaus denkbar, dass in absehbarer Zeit sehr sehr viele Inferenzen fuer alle moeglichen Probleme ueber laengere Zeit laufen gelassen werden. Z.B. koennte man so ein Reflexionsmodell wie o1 oder Deepseek einige Stunden ueber eine komplexere Codebase laufen lassen, um dann am Ende zu relativ wenigen, aber besonders guten, Refactoring-Anweisungen zu kommen.

Und tatsaechlich ist es ja schon jetzt so, dass o1 die Modi "low", "medium", und "high" anbietet, wo das Modell einfach nur verschieden lange ueber ein gegebenes Problem reflektiert...

Also der Punkt ist, man kann eigentlich beliebig viele Ressourcen in Inferenz stecken, und kriegt dafuer zumindest irgendwelche diminishing returns.
 
Zuletzt bearbeitet:
- Seit dem KI Hype wurde dutzendfach klar gestellt (Google, Microsoft, Meta, OpenAI: Daten zum KI Training zu verwenden sei kein Verletzung der Urheberrechte. KI verbreitet diese nicht.
Mit derselben Logik kann jeder sämtliche Daten, Mensch oder Maschine gemacht, verwenden um seine KI zu trainieren. Also Gleichstand da.

- Kosten Training : 5 Mill sind ein Bruchteil von 60 Mill oder mehr. Zu Recht sind die bisherigen Player aufgeschreckt

- Kosten Betrieb: DeepSeek ist effizienter bei Inference um Faktor 5-10. Trotzdem kann aufgrund des Hypes es teilweise schwer erreichbar oder langsam sein. Nun, das kenne ich von ChatGPT auch schon. Aber wesentlich ist natürlich, dass ihr Datencenter kaum auf einen extremen Anstieg der Abfragen vorbereitet sein konnte, wie jetzt erfolgt. Sie werden das Datencenter erweitern so wie alle, aber es wird deutlich günstiger fuer Sie werden. Jeder Abfrage braucht nur 5 Mal so wenig Rechenleistung oder noch weniger.

- das wichtigste zum Schluss: es ist OpenSource, kostenlos und zugänglich für jedermann. Das ist die größte Bedrohung aus Sicht der grossen US Techs. Deren Philosophie ist es, Kunden in maximale Abhängigkeit zu bringen. Und dann die Preisschraube anziehen und anziehen und anziehen.
 
  • Gefällt mir
Reaktionen: qqALEXpp
Ich glaube noch nicht so recht an den Hype. Selbst wenn man unterstellen würde, dass die großen Tech-Konzerne absichtlich Ressourcen-intensive Verfahren pushen um mehr Investitionen rauszuleiern, wäre es doch trotzdem so, dass wenn man verhältnismäßig einfach den Bedarf so massiv reduzieren könnte, das auch im Interesse der Konzerne gewesen wäre das umzusetzen. Dann lässt man auf der bestehenden Hardware eben 10x so viel laufen und holt sich so den Vorsprung durch Zeit, bessere Modelle etc.

Das kann ich mir nicht vorstellen dass das von niemandem gesehen wurde und macht nur Sinn, wenn sich die KI Welt massiv selbst überschätzt hätte oder doch irgendwas fishy an Deep seek ist.
 
Ayo34 schrieb:
Wieviel VRAM hast du und welche Modellvariante hast du verwendet? Hast du die Vollversion von dem Modell verwendet oder eine optimierte? Da liegen dann Welten zwischen den Ergebnissen.

Auf einem AMD Ryzen AI Max mit 64GB kannst du sogar das große optimierte 70B Modell laufen lassen -> Top Ergebnisse!

Das 32B und 14B Modell sollten auch sehr ordentliche Ergebnisse abliefern und geht mit 16 - 32GB VRAM. Darunter wird es dann schwierig, wenn man nur 4-8GB VRAM hat.
Das 8B Modell (destilliert llama) läuft auf ner 3060 TI 8GB RAM + 8700 (nicht K) mit ner Auslastung von 50 % CPU, 100 % GPU, 2 GB RAM und 6,5 GB VRAM und liefert Ergebnisse, die ansehnlich sind in einem flotten Tempo. Die Sprachfähigkeiten ins Deutsche haben aber gelitten, sodass es deutlicher holpriger als die Online Variante ist.
 
  • Gefällt mir
Reaktionen: Ayo34
Sehr guter Artikel, der die Tricks der chinesischen Wirtschaft aufzeigt. Der empfindliche Aktienmarkt hat leider zu schnell reagiert. Aber Spread The Word - die Chinesen stellen sich in KI-Dingen einfach zu gut dar.
 
Zuletzt bearbeitet:
Rollkragen schrieb:
Jetzt passiert, was sich einige schon gedacht haben: Es reicht günstigere Hardware.
Wie kommst Du auf die Annahme? Im Artikel steht das Gegenteil...

Klar ist: Es sind deutlich mehr als 2.048 H800-GPUs.

Im Gespräch sind mehr als 50.000 Hopper-GPUs. ... Scale-AI-CEO Alexander Wang verkündete, es handele sich dabei um H100-GPUs, was DeepSeek aufgrund der amerikanischen Export-Restritikionen nicht offiziell mitteilen könne. Laut Stratechery sei aber auch denkbar, dass es sich um die H800-Varianten für China handelt, die in der Interconncect-Bandbreite beschränkt sind.

Im Bestand hat DeepSeek aber ohnehin H100-GPUs.

So begann Liang bereits 2021 mit dem Einkauf von GPUs, er baute damals laut Financial Times ein Cluster mit 10.000 Chips auf. Welche GPUs verbaut worden sind, schreibt die Financial Times jedoch nicht, bei Wired ist aber von 10.000 H100-Chips die Rede, die DeepSeek bereits zum Start nutzen konnte.

Metas Modell Llama 3.1 405B wurde für 100 Tage auf einem Cluster mit 16.000 H100-GPUs trainiert, die Kosten sollen dafür bei rund 60 Millionen US-Dollar gelegen haben.
Ich sehe das auch so, wie im Artikel angedeutet. Wegen der Exportbeschränkungen kann das Unternehmen gar nicht offiziell zugeben, über zehntausende H100 GPU's zu verfügen, auch wenn es so ist. Wenn das Training von Meta auf 16.000 H100 60 Millionen gekostet hat, wie hoch waren dann die Kosten bei der oben veranschlagten Anzahl an GPU's? Von den Anschaffungskosten mal zu schweigen. Wenn die Firma diese "über Umwegen" erworben hat, werden das auch keine Schnäppchenpreise gewesen sein.
 
thehintsch schrieb:
Selbst wenn man unterstellen würde, dass die großen Tech-Konzerne absichtlich Ressourcen-intensive Verfahren pushen um mehr Investitionen rauszuleiern, wäre es doch trotzdem so, dass wenn man verhältnismäßig einfach den Bedarf so massiv reduzieren könnte, das auch im Interesse der Konzerne gewesen wäre das umzusetzen.
Konzerne die im Wettbewerb stehen, sind gezwungen sich alle Vorteile zu sichern die in Reichweite sind. Oder sie haben sich abgesprochen.
Vor diesem Hintergrund ist es nicht plausibel, sie hätten ineffiziente KI gepusht obwohl sie viel effizientere hatten.

Vernunft und Logik kommen zu dem Schluss, dass US KIs schlicht nicht soweit sind in Effizienz.
 
Viel interessanter wäre es zu wissen, was in Summe an Geld "versenkt" wurde.
Wofür braucht es viele verschiedene KIs. Wir haben nur einen Planeten. Jeder macht aber seine eigene Suppe.

Anerkennend...​

Das ist für einen Ingenieur bzw. Wissenschaftler oftmals das größere Lob.

Alesis schrieb:
...also nach der Massiven Reduzierung auf nur noch wenige Menschen.
...und dann schnippte Tanos.
 
Gelöschter_User schrieb:
Viel interessanter wäre es zu wissen, was in Summe an Geld "versenkt" wurde.
Wofür braucht es viele verschiedene KIs. Wir haben nur einen Planeten. Jeder macht aber seine eigene Suppe.

Ganz einfach, ohne Wettbewerb hätten wir ein viel schlechteres LLM zu einem viel höheren Preis.

Am Ende ist es ja auch ein Weg. Es ist normal Sachen zu verbessern. Von 0 auf perfekt geht es selten. Ein Diktator, eine Auto Firma... wäre ja auch nicht besser.
 
  • Gefällt mir
Reaktionen: Kuristina
Ob jetzt 6 oder 60 Mio spielt für mich keine Rolle. Der eigentliche Clou ist, dass es OpenSource ist. Zudem: Ich spiele recht viel mit lokal laufenden LLMs rum - verglichen mit anderen, die auf meiner Hardware laufen können, fühlt sich DeepSeek deutlich erwachsener an. Wobei im eigentlichen Denkprozess oft sogar noch die besseren Informationen drin stehen, als in dem dann finalen Resultat, das sich auch ab und an eher generisch liest. Man muss zumindest in den von mir getesteten Varianten aber eher bei Englisch bleiben. Deutsch ist da leider ziemlich holprig.
 
Zurück
Oben