News Chinesisches AI-Modell: DeepSeek ist schneller und günstiger als OpenAIs o1-Modell

Duststorm · 28. Januar 2025

Und schwupp die wupp, 5% plus, ARM same same

Rock Lee · 28. Januar 2025

Leider mal wieder sehr viel Schwarz-Weiss denken hier in der Kommentarsektion.
Schade eigentlich.

Natürlich sind die Kosten, die da im Vergleich zu ChatGPT genannt werden zu hinterfragen. Nicht nur, weil ein chinesisches Unternehmen dahintersteckt, sondern viele Startups mit Investoren im Rücken, die möglichst schnell Rendite sehen wollen ihre Zahlen gerne frisieren. Siehe Startups im Bereich der Kernfusion.

Ich habe mich in der Vergangenheit schon häufiger kritisch gegenüber China geäussert. Aber, dass ein chinesisches Unternehmen, deren Server wahrscheinlich auch in China laufen sich den chinesischen Gesetzen unterwerfen muss ist für mich überhaupt nicht verwunderlich.
Wichtig ist, dass wenn man das Modell lokal laufen lässt solche Fragen dann nicht mehr zensiert werden.

Und wenn man jetzt noch versteht, wie das Modell grundsätzlich trainiert wird, weiss man auch warum es so günstig ist.

und wer es etwas technischer haben möchte.

durch das Reinforced Learning + Cold Start database braucht es keinen "Supervisor", der dem Modell sagt ob es etwas richtig oder falsch gemacht hat.
Somit ist der Datensatz an dem es trainiert wird deutlich kleiner und damit weniger rechenintensiv.(ganz vereinfacht gesagt).

Die US-Unternehmen werden davon allerdings nicht untergehen. Vielmehr seh ich das Modell als eine Art Denkanstoß festgefahrene Wege, wie sich LLMs weiterentwickeln können, zu verlassen.
Sie werden sich adaptieren. Letztendlich wurde das Modell auch auf Nvidia Hardware trainiert.
Man kann es auch einfach mal so denken: Wie gut könnte das Modell werden, wenn man einen deutlich größeren Datensatz nimmt und mit der deutlich potenteren Hardware von Google, OpenAI & Co trainiert?

Letztendlich sollte man aufgrund von Deepseek weder das chinesische Regime abfeiern, noch in einem Technologieforum wie Cbase KI als Ganzes den Untergang wünschen.

CyborgBeta · 28. Januar 2025

... Was die Börsen betrifft, so würde ich so wie der größte Anteilseigner von NVIDIA agieren: Warren Buffett. (Ist nur so eine Idee)

milliardo · 28. Januar 2025

@CyborgBeta Weder Buffet noch seine Firma Berkshire Hathaway sind der größte Anteilseigner von Nvidia. Und wie soll der angeblich agieren?

CyborgBeta · 28. Januar 2025

milliardo schrieb:
Weder Buffet noch seine Firma Berkshire Hathaway ist der größte Anteilseigner von Nvidia

Ja, stimmt. Auf den Plätzen 1-3 sind Vanguard Group Inc, Blackrock Inc und FMR, LLC. Buffet soll aber ca. 6 Millionen Anteile haben. Das ist immerhin fast 0,5 %.

Maviba · 28. Januar 2025

Rock Lee schrieb:
Aber, dass ein chinesisches Unternehmen, deren Server wahrscheinlich auch in China laufen sich den chinesischen Gesetzen unterwerfen muss ist für mich überhaupt nicht verwunderlich.
Wichtig ist, dass wenn man das Modell lokal laufen lässt solche Fragen dann nicht mehr zensiert werden.

Und wenn man jetzt noch versteht, wie das Modell grundsätzlich trainiert wird, weiss man auch warum es so günstig ist.

Das wird aber in Zukunft nicht nur China betreffen.
Wenn ich mir die "Vision" von Trump und sein momentanes Verhalten ansehe, bin ich mal gespannt, wie Open AI oder auch Grok sich in zukunft über den Trump, den Sturm aufs Kapitol, oder andere kontroverse Themen äußern werden.

SheepShaver · 28. Januar 2025

CyborgBeta schrieb:
Nö, sondern, dass unterschiedlich Antworten nicht (allein) auf das Modell zurückzuführen sind. Bin wieder raus aus diesem Thema, denn mir ein bisschen zu viel Meinung.

Das selbe LLM produziert je nach Training selbstverständlich komplett unterschiedlichen Output. Hinzu kommen Parameter wie Modelgröße, maximale Anzahl der Tokens, Nukleus-Sampling etc.
Vergleich doch einfach das Verhalten von unterschiedlich konfigurierten Llama-Modellen.
Das hat nichts mit Meinung, sondern mit technischen Zusammenhängen zu tun.

div4o · 28. Januar 2025

Wahrsinn wie sich in einem Tech-Forum alle über Ideologien und Halbwahrheiten unterhalten, eher sie selbst den Tech angeguckt zu haben:

Hier seine sehr gute Zusammenfassung von Morgan Brown auf X:

"Let me break down why DeepSeek's AI innovations are blowing people's minds (and possibly threatening Nvidia's $2T market cap) in simple terms...

1/ First, some context: Right now, training top AI models is INSANELY expensive. OpenAI, Anthropic, etc. spend $100M+ just on compute. They need massive data centers with thousands of $40K GPUs. It's like needing a whole power plant to run a factory.

2/ DeepSeek just showed up and said "LOL what if we did this for $5M instead?" And they didn't just talk - they actually DID it. Their models match or beat GPT-4 and Claude on many tasks. The AI world is (as my teenagers say) shook.

3/ How? They rethought everything from the ground up. Traditional AI is like writing every number with 32 decimal places. DeepSeek was like "what if we just used 8? It's still accurate enough!" Boom - 75% less memory needed.

4/ Then there's their "multi-token" system. Normal AI reads like a first-grader: "The... cat... sat..." DeepSeek reads in whole phrases at once. 2x faster, 90% as accurate. When you're processing billions of words, this MATTERS.

5/ But here's the really clever bit: They built an "expert system." Instead of one massive AI trying to know everything (like having one person be a doctor, lawyer, AND engineer), they have specialized experts that only wake up when needed.

6/ Traditional models? All 1.8 trillion parameters active ALL THE TIME. DeepSeek? 671B total but only 37B active at once. It's like having a huge team but only calling in the experts you actually need for each task.

7/ The results are mind-blowing:- Training cost: $100M → $5M- GPUs needed: 100,000 → 2,000- API costs: 95% cheaper- Can run on gaming GPUs instead of data center hardware

8/ "But wait," you might say, "there must be a catch!" That's the wild part - it's all open source. Anyone can check their work. The code is public. The technical papers explain everything. It's not magic, just incredibly clever engineering.

9/ Why does this matter? Because it breaks the model of "only huge tech companies can play in AI." You don't need a billion-dollar data center anymore. A few good GPUs might do it.

10/ For Nvidia, this is scary. Their entire business model is built on selling super expensive GPUs with 90% margins. If everyone can suddenly do AI with regular gaming GPUs... well, you see the problem.

11/ And here's the kicker: DeepSeek did this with a team of <200 people. Meanwhile, Meta has teams where the compensation alone exceeds DeepSeek's entire training budget... and their models aren't as good.

12/ This is a classic disruption story: Incumbents optimize existing processes, while disruptors rethink the fundamental approach. DeepSeek asked "what if we just did this smarter instead of throwing more hardware at it?"

13/ The implications are huge:- AI development becomes more accessible- Competition increases dramatically- The "moats" of big tech companies look more like puddles- Hardware requirements (and costs) plummet

14/ Of course, giants like OpenAI and Anthropic won't stand still. They're probably already implementing these innovations. But the efficiency genie is out of the bottle - there's no going back to the "just throw more GPUs at it" approach.

15/ Final thought: This feels like one of those moments we'll look back on as an inflection point. Like when PCs made mainframes less relevant, or when cloud computing changed everything.AI is about to become a lot more accessible, and a lot less expensive. The question isn't if this will disrupt the current players, but how fast. /end"

Quelle:
https://x.com/morganb/status/1883686162709295541

Erkekjetter · 28. Januar 2025

milliardo schrieb:
Lesen wir dasselbe?

Ja. China wird ein einziges Mal genannt. Ohne expliziten Bezug, was unter Smart Covernance zu verstehen ist odr worunter es denn fällt bei den zuvor genannten Punkten. Die Beispiele westlicher Art tauchen erheblich öfter auf und zu ganz konkreten Punkten als Beispiel. Zudem taucht China, wie ich aufgezeigt habe, bei den Auswegen überhaupt nicht mehr auf. Man gibt also mögliche Auswege für die aufgezeigten Probleme der westlichen Welt eine Lösung, nicht aber für China, obwohl die geannten Punkte dort viel mehr zutreffen. Eine klare und vermutlich nicht zufällige Asymmetrie.

Man kann auch Beeinflussung über die Gewichtung und die Häufigkeit einer Nennung innerhalb eines Themas.

milliardo schrieb:
wenn die Antworten nicht 100% auf deiner politischen Linie

Du kennst meine politische Linie doch gar nicht? Ich habe nirgends aufgezeigt, wie ich persönlich dazu stehe. Wer framt hier bitte außer dir, der mich ganz klar irgendwie hinschieben will, um nicht inhaltlich sich zu tief mit meinen Aussagen auseinandersetzen zu müssen?

CyborgBeta · 28. Januar 2025

Wieso geht es hier überhaupt um Politik, und nicht um Technik?

Ergänzung (28. Januar 2025)

Ich glaube, da können einige ihren China-Hass-Reflex nicht kontrollieren.

div4o · 28. Januar 2025

CyborgBeta schrieb:
Wieso geht es hier überhaupt um Politik, und nicht um Technik?

Frage ich mich auch, sehe einen Post weiter oben

Erkekjetter · 28. Januar 2025

CyborgBeta schrieb:
China-Hass-Reflex

Genau, wenn man auf konkrete Probleme hinweist, die sich daraus ergeben, dass das ganze aus China kommt, ist das CHina Hass. Ist ja nicht so, dass diese Warnungen auf dem baiseren, was China tatsächlich bereits getan hat. Der Hinweis, dass die PArtei Chinas ihre Finger im Spiel hat und das Projekt nicht unbeeinflusst von deren Willen ist, ist dann China-Hass, weil es ja noch niemals vorgekommen ist, dass die Partei dann einfahc mal ganz genau bestimmt hat, wie es mit einer Firma weiter geht, dieser gleich ganz zerschlagen hat oder sie einfach verstaatlicht hat. Und das China im Hintergrund massiv Projekte finanziert hat, das aber nicht offiziell gemacht hat, ist auch noch nie vorgekommen. Das ist alles reiner China-Hass, Kritik ist unerwünscht...

donativo · 28. Januar 2025

Termy schrieb:
Zum Wohle der Menschheit sind Open Source Modelle ohne den Hauch eines Zweifels uneingeschränkt vorzuziehen - von dem her: Danke China!

Na klar, schon mal deren AGB und Datenschutzklauseln gelesen? Die machen alles nur zum Wohle der Menschheit!

Ergänzung (28. Januar 2025)

Dreamcatcher3 schrieb:
Mist. Hätte doch vor kurzem ein paar NVIDIA Aktien verkaufen sollen.

Hättest gestern nachkaufen sollen ;-)

cookie_dent · 28. Januar 2025

nutrix schrieb:
Warte mal den Launch ab, dann wirst Du sehen, daß sie mitnichten in einer schwachen Position sind.

Das ist richtig, kann sich aber rasch ändern.
Intel hatte auch mal geglaubt, der Nabel der CPU Welt zu sein.
So wie ich das verstanden habe, benötigt DeepSeek jetzt nicht unbedingt die Hardwarepower als andere AI Modelle. Da könnte der ein oder andere Investor auf die Idee kommen, dass man dafür nicht unbedingt die sehr guten, aber hochpreisigen (überteuerten?), NVIDIA Chips benötigt.

Vulvarine · 28. Januar 2025

Gibt es auch als App btw.
Die wurden aber wohl gestern angegriffen: https://www.golem.de/news/chinesisc...raenkt-nach-angriffen-zugang-2501-192792.html

CyborgBeta · 28. Januar 2025

Vulvarine schrieb:
Die wurden aber wohl gestern angegriffen

Man konnte sich aber dennoch registrieren. Die genaue Meldung war:

Due to large-scale malicious attacks on DeepSeek's services, registration may be busy. Please wait and try again. Registered users can log in normally. Thank you for your understanding and support.

Termy · 28. Januar 2025

donativo schrieb:
Na klar, schon mal deren AGB und Datenschutzklauseln gelesen?

Schonmal meinen Post gelesen?

Die AGB und Datenschutzklauseln beziehen sich auf deren Webangebot, nicht auf das Open Source Modell...

Maviba · 28. Januar 2025

CyborgBeta schrieb:
Wieso geht es hier überhaupt um Politik, und nicht um Technik

Weil in dem Fall beides zusammenhängt.

Diejenigen, die uns diese Technik zur Verfügung stellen, unterliegen einem starken politischem Einfluß und bestimmen letztendlich darüber, was wir für Ergebnisse zu unseren Prompts bekommen - Egal ob bei xAI/Grok, Open AI, Meta oder eben Deepseek.

Deswegen kann man Politik und Technologie hier nicht trennen

CyborgBeta · 28. Januar 2025

Maviba schrieb:
Diejenigen die uns diese Technik zur verfügung stellen, unteliergen einem starken politischem Einfluß

Und gleich erzählt noch jemand, deshalb seien die Antworten von DeepSeek weniger politisch gefärbt als die der Konkurrenz.

Maviba · 28. Januar 2025

CyborgBeta schrieb:
Und gleich erzählt noch jemand, deshalb seien die Antworten von DeepSeek weniger politisch gefärbt als die der Konkurrenz.

Das hätte dann schon 50-cent-Party-Vibes.
Ich finde es ein wenig erschreckend, wie eine Generation, die unglaublich technik-affin ist, gleichzeitig so leichtgläubig und selektiv in ihrer Wahrnehmung sein kann.

Die Technik an sich ist ja wirklich atemberaubend, aber man muß sich auch mit denen befassen, die den Finger darauf haben, und letztendlich darüber entscheiden, wie sie genutzt wird.
Nur so kann man sich ein ganzes Bild machen.

Dafür scheint aber bei manchen wirklich der Horizont zu fehlen.

News Chinesisches AI-Modell: DeepSeek ist schneller und günstiger als OpenAIs o1-Modell

Lt. Commander

Commander

Banned

Lt. Commander

Banned

Lieutenant

Commodore

Ensign

Rear Admiral

Banned

Ensign

Rear Admiral

Lt. Commander

Commander Pro

Lieutenant

Banned

Commodore Pro

Lieutenant

Banned

Lieutenant