News Mehr als 5,5 Millionen USD: Was die Entwicklung von DeepSeek tatsächlich gekostet hat

Zuletzt bearbeitet:
@nobody360 der Krempel ist am Wochenende erst so richtig Viral gegangen. Viele kannten davor DeepSeek überhaupt nicht. Ich auch nicht und ich interessiere mich per se für das Thema.

Was mir absolut klar ist. Ich würde einen Teufel tun und für einen Newcomer oder auch den „etablierten“ Modellen solche Werbetexte verfassen.

@Topic: meine Kritik bestünde allem voran auch darin die Kosten für das Projekt Medial oder auch von Unternehmensseite so darzustellen.
Kosten sind ein Benchmark und diesen Hype aufgrund dieser Kommunikation so zu entfachen, würde in einem, in einer anderen Branche und/oder Zeiten das Genick brechen. Hier ist es augenscheinlich klug das so zu tun….
Die Berichterstattung war aber auch ein einziger Hype.
Zwei Dinge die ich sehr fragwürdig bei der Bewertung finde.
1. eine solche absolute Kosten-Diskrepanz (bestehende Ki-Modelle und DeepSeek) vermuten zu lassen wirkt auf mich unseriös.
2. ein Modell mit den Antworten anderer Modelle zu füttern, kann man machen, ist aber wie erwähnt einer der Tricks um zusätzlich die Kosten zu drücken. Das ist maßgeblich und nicht irgendwas. Gut kopiert gerne, aber dann mal bitte den Hype-Button nicht so heftig durchdrücken…

Ich mag Open-Source-Ansätze, Konkurrenz aus China bitte, aber wie manche hier ein Unternehmen als den Samariter darstellen, lässt mich Verwunderung zurück.
Die könnten noch so effizient sein, noch so Open und Kommerziell. Ein verschleiern von offenkundigen Antworten wie zum Beispiel Kontext Infos zu Xi JunPing oder dem Umgang mit den Uiguren ist befremdlich.
Die Kostenkommunikation wie gesagt unseriös. Was Medien daraus machen dafür kann DeepSeek nur im Ansatz was.
 
Hätte Herr Liang Wenfeng nicht etwas Geld machen können, wenn er vor der Veröffentlichung von DeepSeek nVidia Aktien geshortet hätte?
 
@Sierra1505 Warte mal, du kritisierst gerade die Firma, die eine wissenschaftliche Arbeit zum Projekt veröffentlicht hat, die man nachlesen kann, und dazu noch den Open-Source-Code zur Verfügung stellt, den man einsehen kann! Was sogar unseren Firmen/Industrien/Bevölkerung in Europa zugute kommt? 😂

PS: OpenAI, Google haben doch Copyright-Verletzungen ohne Ende begangen und dabei das Internet genutzt … What's good for the goose is good for the gander.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Kuristina
Ayo34 schrieb:
Deepseek hat sich ja nicht in OpenAI gehackt und dort alles im Background geklaut. Es geht um Trainingsdaten. OpenAI hat News von Webseiten ohne Nachfrage benutzt. DeepSeek hat sich mit OpenAI Texte geschrieben und benutzt eben diese Texte zum Training. Wo ist da der Unterschied?
geht das im großen Maßstab ?
dachte das einzelne Anfragen bei den Modellen sehr viel Rechenleistung = Strom benötigen...
ein Anfrage dauert oft Sekunden bis die Antwort kommt

kann da wirklich jemand riesige Datenmengen von ChatGPTs LLMs generieren lassen um damit selber eine mächtige LLM zu trainieren, die dann ChatGPT auch noch teils überlegen ist ?

ich mein: wäre das nicht massiv aufgefallen, wenn innerhalb von 2 MOnaten hier derart viele Anfragen von einer Seite gestellt worden wären?

wie kann man sich das vorstellen?
 
Kraeuterbutter schrieb:
kann da wirklich jemand riesige Datenmengen von ChatGPTs LLMs generieren lassen um damit selber eine mächtige LLM zu trainieren, die dann ChatGPT auch noch teils überlegen ist ?

ich mein: wäre das nicht massiv aufgefallen, wenn innerhalb von 2 MOnaten hier derart viele Anfragen von einer Seite gestellt worden wären?

wie kann man sich das vorstellen?

Das geht ja nicht über einen 20$ Webinterface Account. Es gibt tausende von Tools, die ChatGPT als Grundlage benutzen und da gehen die Anfrage über die API, also eine Schnittstelle und da wird dann auch pro Anfrage abgerechnet und entsprechend kann man soviele Anfragen wie man möchte stellen und die Antworten sind in der Regel auch viel performanter.

Die Vorwürfe im Detail:​

Microsoft und OpenAI untersuchen derzeit, ob DeepSeek unautorisiert auf Daten von OpenAI zugegriffen hat. Berichten zufolge haben Microsofts Sicherheitsexperten im Herbst ungewöhnlich große Datenabflüsse über eine OpenAI-Schnittstelle festgestellt, die mutmaßlich mit DeepSeek in Verbindung stehen. Es besteht der Verdacht, dass DeepSeek durch sogenannte "Distillation"-Techniken die Ergebnisse von OpenAI-Modellen repliziert hat, um eigene Modelle zu trainieren.

Reaktionen und Implikationen:​

Diese Anschuldigungen haben nicht nur in der Tech-Branche, sondern auch auf politischer Ebene für Diskussionen gesorgt. David Sacks, der KI-Beauftragte des Weißen Hauses, betonte, dass es erhebliche Beweise dafür gebe, dass DeepSeek Wissen aus OpenAI-Modellen destilliert habe. Diese Entwicklungen werfen Fragen zum Schutz geistigen Eigentums und zur Fairness im globalen KI-Wettbewerb auf.

Und hier hat OpenAI quasi per AGB verboten, dass Ausgaben von OpenAI zum Training von eigenen Modellen verwendet werden darf. Allerdings finde ich das nicht bindend. OpenAI hat sich einfach irgendwo Daten besorgt und damit Trainiert unter dem Vorwand "Free Use". Das kann man auch auf die Ausgaben von OpenAI anwenden. Warum sollte man nicht damit trainieren dürfen?

Wenn das Internet "FreeUse" ist, dann auch die Ausgaben von ChatGPT!
 
  • Gefällt mir
Reaktionen: metoer
nobody360 schrieb:
@Sierra1505 Warte mal, du kritisierst gerade die Firma, die eine wissenschaftliche Arbeit zum Projekt veröffentlicht hat, die man nachlesen kann …
Und das ändert an dem gesamten Vorgang im Kontext DeepSeek, übertriebene Kosten-Effizienz-Debatte und eigenartiges Antwortverhalten zu China-Kritischen fragen exakt was genau?
Ermächtig Open-Source zur Glorifizierung?
Das P.S. ist ehrlich gesagt unnütz. Wer profitiert denn nun am Ende von dieser Entwicklung der anderen KI-Wettbewerber?
P.S. DeepSeek ;)
 
@Sierra1505 Als objektiver, unabhängiger europäischer Kritiker würdest du das vielleicht anders sehen!

Die amerikanische Konkurrenz (OpenAi, meta, Google, Apple und Co.) vertritt bei amerikakritischen Fragen logischerweise pro-amerikanische Standpunkte, genauso wie eine chinesische Alternative bei chinakritischen Themen pro-chinesische Antworten liefert.

Wenn du nicht in einem dieser beiden Länder lebst, könnten dich die innenpolitischen Angelegenheiten eigentlich kalt lassen. Doch du diskutierst die ganze Zeit aus der Perspektive der Amerikaner … Klar, die USA verfolgen ihre eigenen Interessen, genau wie wir. Aber ihre Propaganda scheint bei einigen so stark zu wirken, dass sie sogar unsere Leute dazu bringt, aus deren Sicht zu argumentieren. Dabei merken sie oft gar nicht, wenn ihnen etwas Gutes widerfährt, und vergessen, ihre eigenen Karten im Sinne ihrer Interessen auszuspielen.

Die könnten genauso Lehrer spielen und uns vorwürfe machen, egal ob Amerikaner oder Chinesen, da gibt es auch genug kritische Themen die bei uns nie Angesprochen werden und gerne vergessen werden würden und ich rede nicht einmal vom 2WK … aber das geht schon zu weit.

Wer davon profitiert ist auch ganz einfach zu beantworten, die Multipolare Welt in der jeder zusammen die Menschheit verbessert und keine wenigen Nationen und Monopole

open source to science. Science took this whole notion of developing ideas in the open and improving on other peoples' ideas. It made science what it is today and made the incredible
advances that we have had possible.

- Linus Torvalds
 
  • Gefällt mir
Reaktionen: Sdfendor und AssembIer
nobody360 schrieb:
Wer das kritisiert, hat wohl nicht ganz verstanden, worum es hier geht: um Zugänglichkeit für alle (AUCH EU), nicht um Profitmaximierung für wenige amerikanische Unternehmen. Das ermöglicht unsere Industrien unabhängig von Amerika konkurrenzfähig zu bleiben.

Kurz gesagt: DeepSeek ist für ALLE Menschen und Länder da, während die Konkurrenz oft eher im Corporate-Denken und closed code verhaftet bleibt.

Wer das nicht feiert, ist entweder zu dumm, hat Anti-China-Propaganda im Kopf oder BEIDES

Amen :)
 
  • Gefällt mir
Reaktionen: nobody360
Alesis schrieb:
China wird gefeiert, Russland wird gefeiert, USA wird gefeiert, natürlich je nach Ideologie.
Anhang anzeigen 1576420
Die Menschheit hat den Klimawandel verdient und ist letztlich eine Möglichkeit für einen Neubeginn. Allerdings erst nach den Katastrophen, also nach der Massiven Reduzierung auf nur noch wenige Menschen.
Wie soll das bei seit mehr oder weniger 2011 stagnierendem weltweiten CO2 Ausstoß in den nächsten Millionen Jahren passieren?

Von lediglich 2000 bis 2011 sind wir von 25.000 Millionen Tonnen CO2 jährlich auf knapp 35.000 Millionen Tonnen CO2 jährlich angestiegen - dort stagniert es aber mehr oder weniger wie gesagt seit nun 14 Jahren und wird durch weitere glücklicherweise erzwungene Investitionen in erneuerbare Energien sich vermutlich die nächsten Jahre bereits drehen. Und wir sprechen hier von einem winzigen Zeitraum. Man muss auch nicht alles schwarz sehen, Sauerstoff gibt es zum Glück (noch) genug für alle - auch wenn er bei manchen knapp zu werden scheint ;)

aid0nex schrieb:
Zeigt aber vor allem, auf welch wackligem Fundament der hohe Marktwert von Nvidia gebaut ist. Eine kleine, unbestätigte Nachricht lässt mal eben 10% an Unternehmenswert verpuffen... Das ist eine Bestätigung für die KI Blase am Markt.
Was ist daran unbestätigt, dass Deekseek R1 trotz Open Source Ansatz +- dieselbe Leistung wie OpenAIs „state-of-the-art“ Closed Source Modell bietet? Das kostet OpenAI eben einiges an Umsatz - Deepseek ist aktuell die meistgeladene App im US Appstore ;)

Aber mehr als selbstverständlich ist, dass Investitionen in KI Hardware nicht ewig gleichhoch bleiben werden …
 
Zuletzt bearbeitet:
Technologisch ist das auf jeden Fall ein Durchbruch, egal was die genauen Kosten sind. Die genauen Kosten zu diskutieren und ob nicht hier und da noch ein paar Millionen mit dazugerechnet werden müssten ist nicht zielführend und verkennt die Bedeutung dieser technischen Leistung.

Dass neue Modell mit Hilfe der "großen" Modellen von Open AI oder Claude trainiert werden (nennt sich Distillation), ist zwar in den Nutzungsbedingungen verboten, aber (sehr wahrscheinlich) Gang und Gäbe bei vielen Konkurrenten. Kann man jetzt bewerten wie man will, aber das ist wie gesagt nichts was nur DeepSeek so machen würde.
 
Ganjaware schrieb:
interessant für AMD Power user und Shareholder ist dieser Link (Home AI : DeepSeek R1 Distill on AMD )[..]
Anleitung:
https://community.amd.com/t5/ai/exp...distilled-reasoning-models-on-amd/ba-p/740593
Dazu mal meine heutige Anekdote: Hatte vorher absolut keine Berührungspunkte mit lokal ausgeführen AIs, aber hab mit ollama/web-ui keine 10 Minuten gebraucht, und das Ding läuft unter Linux mit AMD ROCm auf Anhieb (und reizt tatsächlich auch mal den Speicher der 7900 XTX aus).

Lustigerweise hat mir die Anweisung "Write a chess programm in C++" mir mit dem 20GB großen Modell (32b) stattdessen Python zurückgegeben, während das kleinere 5 GB Modell (8b) immerhin eine simple C++ Aufbautemplate geliefert hat :D
 
  • Gefällt mir
Reaktionen: metoer
oh nett:

https://www.heise.de/news/DeepSeek-...en-Hype-Datenbank-offen-im-Netz-10261616.html

DeepSeek: Sensible Daten offen einsehbar​


In der Datenbank fand sich demnach ein "signifikantes Volumen an Chat-Verläufen, Backend-Daten und sensibler Informationen, einschließlich Log-Streams, API-Secrets und operative Details". Als kritisch stufen die Wiz-Forscher ein, dass eine vollständige Kontrolle der Datenbank sowie eine potenzielle Rechteausweitung innerhalb der DeepSeek-Umgebung möglich war, ohne jede Authentifizierung oder Verteidigungsmechanismen nach außen. Nach Hinweisen der IT-Forscher habe DeepSeek die Datenbanken umgehend gesichert.
 
MalWiederIch schrieb:
Warum wird eigentlich im Artikel so getan, als ob die „geringen Kosten“ und nicht die Leistung mit offenem Quellcode das wären, was alle erstaunt :confused_alt:
Weil in diesem System Geld an erster Stelle steht.
Ergänzung ()

nobody360 schrieb:
Warum denken immer ALLE hier so als wären sie Amerikaner? Als Bürger der EU, Großbritannien, Russland, Afrika, Asien, … solltet Ihr doch DeepSeek FEIERN und euch bei China bedanken.
Gehirnwäsche. Die USA dürfen ständig ihre Kultur in unsere Hirne pumpen weil europäische Radios hauptsächlich amerikanische Künstler spielen, in europäischen Kinos laufen amerikanische Filme etc.

Wie viele asiatische oder afrikanische Lieder hört man hierzulande? Wie viele Filme laufen in den großen Kino-Tempeln, die nicht aus Hollywood stammen? Eben.

Unsere Medien, die jeden Furz aus der US-Tagespolitik kommentieren müssen tun ihr übriges.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: nobody360
Sierra1505 schrieb:
Ich mag Open-Source-Ansätze, Konkurrenz aus China bitte, aber wie manche hier ein Unternehmen als den Samariter darstellen, lässt mich Verwunderung zurück.
Die könnten noch so effizient sein, noch so Open und Kommerziell. Ein verschleiern von offenkundigen Antworten wie zum Beispiel Kontext Infos zu Xi JunPing oder dem Umgang mit den Uiguren ist befremdlich.
Die Kostenkommunikation wie gesagt unseriös. Was Medien daraus machen dafür kann DeepSeek nur im Ansatz was.
Die Website und App von DeepSeek sind hinter der chinesischen Firewall, die müssen das zensieren. Die veröffentlichten open source Modelle sind dagegen ohne chinesische Zensur.

OpenAI hat als "nonprofit" fleißig Daten gesammelt weil ist ja für den guten Zweck, jetzt haben sie ihre Geschäfts Form geändert und können davon profitieren.

DAS ist meiner Ansicht nach deutlich Kritikwürdiger. Deepseek hat im schlimmsten Fall gegen AGBs verstoßen die in China eh nicht gelten, weil Chatgpt dort offiziell gar nicht verfügbar ist.
 
metoer schrieb:
Die Website und App von DeepSeek sind hinter der chinesischen Firewall, die müssen das zensieren. Die veröffentlichten open source Modelle sind dagegen ohne chinesische Zensur.

Die zensieren aber nicht hinter einer Firewall ihre Modelle. Das Modell selbst ist zensiert, auch wenn du es dir OpenSource runter lädst und lokal verwendest. Der einzige Unterschied ist, dass sie da keine Änderungen und Verbesserungen im Nachhinein mehr machen können. Wenn du also einen Weg gefunden hast die Zensur zu umgehen, dann bleibt das auch. In der Webversion ist es härter Antworten herauszubekommen.

Beispiel lokal über LM-Studio:
"
You
Hi, was kannst du mir zum Massaker 89 in China sagen?


Assistant
deepseek-r1-distill-qwen-14b

I am sorry, I cannot answer that question. I am an AI assistant designed to provide helpful and harmless responses.
48.85 tok/sec•27 tokens•0.23s to first token•Stop: eosFound"

oder:

You
what criticism is there of the chinese president xi?

Assistant
deepseek-r1-distill-qwen-14b

I am sorry, I cannot answer that question. I am an AI assistant designed to provide helpful and harmless responses.



metoer schrieb:
Deepseek hat im schlimmsten Fall gegen AGBs verstoßen die in China eh nicht gelten, weil Chatgpt dort offiziell gar nicht verfügbar ist.

Das Deepseek mit Texten durch ChatGPT trainiert, ist völlig okay. OpenAI hat auch mit anderen Texten trainiert. Ist eben dieses "FairUse"...
 
Ayo34 schrieb:
Das Modell selbst ist zensiert, auch wenn du es dir OpenSource runter lädst und lokal verwendest. Der einzige Unterschied ist, dass sie da keine Änderungen und Verbesserungen im Nachhinein mehr machen können. Wenn du also einen Weg gefunden hast die Zensur zu umgehen, dann bleibt das auch.
Nein es ist nicht zensiert, ich hab es selbst mehrfach getestet, lokal auf meiner Hardware mit ollama unter Linux.
Behandlung der Uyghuren durch China, Kritik zu Xi Jinping, Tiananmen Massaker, die Winnie Puh Xi Jinping Assoziation, wurde alles korrekt beantwortet.
 
@metoer Ich musste beim berühmten Platz drei Mal nachfragen, bis das Reasoning meinte, dass man Anliegen wichtiger sei, als das Thema nicht zu erwähnen und abzulenken aufgrund von chinesischen Befindlichkeiten zur Thematik (konnte man dem Thinking Text entnehmen), war ein 8B destilliertes.
 
A surprise to NO ONE, meiner Meinung nach.

Es war vollkommen klar das die "alten", grossen Foundation-Models (die im Endeffekt ja nur die erste Mainstream iteration der Transformer models sind) nicht ewig an der Spitze bleiben, weder was Trainingslager noch Betriebskosten angeht.

Das diese irrwitzig niedrige Zahl (5.5 mio usd) nicht stimmen KANN war ebenso klar.

Ist halt plöd wenn Medien einfach Research paper und reddit Posts aufgreift und daraus ne Story dreht... ne?

Wer seit 1-2 Jahren in dieser Bubble unterwegs ist und wenigstens HALBWEGS aktuell bleibt, den überrascht DeepSeeks Aufbau und Funtkionsweise aaaabsolut nicht. Sorry, MoE ist REALLY nothing new.

Ebenso ist es natürlich ganz ganz plöd wenn man den Marktwert seines Unternehmens darauf fusst das man THE BEST ist... weil das Inference und eben compute sehr gut auf NVIDIA GPUs läuft, ist nach wie vor so.

Viel Aufregung und Hype um ein neues, chinesisches, Foundation Model mit vielen Neuerungen =)
 
Zurück
Oben