ollama deepseek-r1:70b - x509: certificate has expired or is not yet valid:

WildKätzchen schrieb:
Ja, also so schnell braucht es für mich nicht sein. So schnell kann ich gar nicht lesen.
Wenn dich die Geschwindigkeit nicht stört, könntest du auch das 32b Modell testen. Wie es ist, wenn mehr als die Hälfte vom Modell im RAM steckt, weiß ich natürlich nicht.
Um das mal mit Zahlen zu unterlegen. Ich habe seine Frage mal im 32b Modell eingegeben und die Antwort hat 36,44 Sekunden gedauert.
Bei ihm bricht er nach einer Minuten ab und das Modell ist noch beim "think".
Ich habe dann dieselbe Frage beim 70b Modell eingegeben und dort hat die Antwort (die ist auch etwas kürzer als beim 32b) 4 Minuten und 19 Sekunden gedauert. Wie man sieht, ist das ein deutlicher Unterschied.
 
  • Gefällt mir
Reaktionen: WildKätzchen
WildKätzchen schrieb:
Also wie ich es verstehe, kann ich mit der KI eine Unterhaltung haben. Kann ich die KI auch aufordern mein englisch zu korrigieren während ich damit rede? Ich habe gehört, dass man mit KI auch Bilder und Musik machen kann. Geht das damit auch?
Du brauchst verschiedene Modele. Ich kenne kein Model das alles zusammen kann.
Wenn es doch eine universelle Lösung gibt, bin ich auch dran interessiert.
 
  • Gefällt mir
Reaktionen: WildKätzchen
JetLaw schrieb:
Wenn dich die Geschwindigkeit nicht stört, könntest du auch das 32b Modell testen. Wie es ist, wenn mehr als die Hälfte vom Modell im RAM steckt, weiß ich natürlich nicht.
Um das mal mit Zahlen zu unterlegen. Ich habe seine Frage mal im 32b Modell eingegeben und die Antwort hat 36,44 Sekunden gedauert.
Bei ihm bricht er nach einer Minuten ab und das Modell ist noch beim "think".
Ich habe dann dieselbe Frage beim 70b Modell eingegeben und dort hat die Antwort (die ist auch etwas kürzer als beim 32b) 4 Minuten und 19 Sekunden gedauert. Wie man sieht, ist das ein deutlicher Unterschied.
Okay, das ist eine gute Information. Dann teste ich das 32b Modell.
Ergänzung ()

NameHere schrieb:
Du brauchst verschiedene Modele. Ich kenne kein Model das alles zusammen kann.
Wenn es doch eine universelle Lösung gibt, bin ich auch dran interessiert.
Ah achso. Das deepseek ist dann wohl auf Text spezialisiert. Ich wollte mit deepseek reden und wenn ich Sprachfehler in englisch mache, dass es mir dann sagt, was ich falsch gemacht habe.
 
WildKätzchen schrieb:
Ich habe gehört, dass man mit KI auch Bilder und Musik machen kann. Geht das damit auch?
Sowas wie Copilot von Microsoft kann mindestens schonmal die Bildausgabe antriggern, wobei es mWn dafür auch nur die API eines Bildgenerator antriggert.
Wenn du nach Musik fragst wird es dir einen Liedertext generieren, aber keine Audiospur.

Es gibt für alles eine Lösung, aber mWn hat das noch keiner vollständig integriert.

Lokal gibt es z.B. Stable Diffusion, aber du kannst nur entweder das oder Deepseek laufen lassen weil dir sonst der Speicher ausgeht.
 
  • Gefällt mir
Reaktionen: WildKätzchen
@Rickmer Ah okay. Die Bilder die Stable Diffsion generiert sehen ziemlich gut aus. Die KI-Musik die ich gehört habe ist dann wohl nicht lokal und gratis entstanden, dass wird dann online gemacht?
 
Ehrlich gesagt keine Ahnung - mit Musikgeneratoren habe ich mich nicht wirklich beschäftigt.

JumpingCat schrieb:
@Rickmer Also zumindest ollama kann den Speicher nach Benutzung wieder freigeben.
Joa, aber macht es nicht automatisch nachdem es eine Antwort abgeschlossen hat. Das würde ja auch kaum Sinn machen weil es das Modell dann direkt wieder laden darf wenn der Mensch antwortet.
 
  • Gefällt mir
Reaktionen: WildKätzchen
Gestern gab's da ein Problem: https://github.com/ollama/ollama/issues/8873

Ich hatte gestern auch das Problem und habe es auf GitHub gemeldet. Da gehört es hin.
Ergänzung ()

Ayo34 schrieb:
48GB VRAM und das 70B Model ist problemlos möglich.
Ich habe seit letzte Woche Llama3.3:70B mit RTX A6000 am Start zum Testen. Ja es geht, aber mit 12 Tokens/s.

Ich würde dann eher 32B Modell nehmen.
 
  • Gefällt mir
Reaktionen: WildKätzchen
Vielleicht machen die Chinesen bald eine gute kostenlose AI für Musik. 🥰
 
Also mal zur Geschwindigkeit:

AMD Ryzen 7 8845HS w/ Radeon 780M Graphics
[...]
docker exec -it ollama ollama run deepseek-r1:32b "i stand in hannover and looking to north. what can i see?" --verbose
[...]
total duration: 6m4.347640444s
load duration: 6.307322811s
prompt eval count: 18 token(s)
prompt eval duration: 1.179s
prompt eval rate: 15.27 tokens/s
eval count: 992 token(s)
eval duration: 5m56.859s
eval rate: 2.78 tokens/s

Knapp 6min für die Antwort ist gemütlich. Das lief jetzt auf der GPU. Die CPU ist knapp 10 bis 20% langsamer. NPU soll auch keinen extremen Geschwindkeitsvorteil.

Größere Modelle teste ich jetzt nicht aus.
 
JumpingCat schrieb:
Knapp 6min für die Antwort ist gemütlich. Das lief jetzt auf der GPU. Die CPU ist knapp 10 bis 20% langsamer. NPU soll auch keinen extremen Geschwindkeitsvorteil.
Hmm... aus Neugierde mal ein paar Modelle durchgetestet die ich aufm PC habe.

Hardware:
  • RTX 4090 24GB mit leichtem OC
  • Ryzen 9800 X3D mit 96GB DDR5-6000

Jedesmal mit neuem Dialog

Llama 3.2 3B: 241 T/s
1738966090548.png

Mistal small 24B: 57 T/s
1738966218070.png

Deepseek-R1 32B: 41 T/s,
1738966314693.png

Llama 3.3 70B: 2,4 T/s
1738966643991.png
Hier merkt man deutlich, dass 70B auch mit Q4_K_M Quantization (ollama default) nur zur Hälfte in den VRAM passt:
1738966435287.png


Deepseek-R1 70B: 2,3 T/s
1738967740638.png
Fast 15 Minuten weil der Denkprozess so geschwätzig ist :D

Aber das Deepseek-R1 70B war bisher auch das einzige, das mir auf folgende Frage eine plausibel funktionale Antwort geben konnte:
I need a powershell script for an exchange server migration. I'm migrating from a three server DAG to a new three server DAG. I need to create as many new mailbox databases as needed so that they're filled with 500GB of data at most and balance the amount of mailboxes in each database for approximately equal distribution.


Irgendwann werde ich auch mal testen, wie viel Unterschied PCIe 3.0 vs 4.0 macht bei den 70B LLMs, aber nicht mehr heute. Ich hätte spontan den Verdacht, dass PCIe den Flaschenhals macht beim Zugriff auf DRAM. Da wäre eine RTX 5090 mit PCIe 5.0 wohl im Vorteil... bei den Karten, bei denen das auch läuft.
 
Rickmer schrieb:
werde ich auch mal testen, wie viel Unterschied PCIe 3.0 vs 4.0 macht bei den 70B LLMs, aber nicht mehr heute. Ich hätte spontan den Verdacht, dass PCIe den Flaschenhals macht beim Zugriff auf DRAM. Da wäre eine RTX 5090 mit PCIe 5.0 wohl im Vorteil... bei den Karten, bei denen das auch läuft.

Ist alles nur ein Tropfen auf den heißen Stein. Am besten wäre ein ryzen ai Max mit 128gb, da läuft das 70b deutlich besser und wird komplett geladen. Sonst wird es teuer mit Nvidia...
 
Llama3.3:70B 12,52 T/s mit Nvidia RTX A6000 48GB VRAM und 128GB RAM.

1738970382919.png

1738970412956.png
 
Ich habe mir heute DeepSeek-R1-Distill-Llama-70B-IQ2_XXS mal angeschaut, weil es genau wie das von Ollama präferierte DeepSeek-R1-Distill-Qwen-32B-Q4_K_M ganz knapp in den VRAM einer 24GB GPU passt.

Beide laufen gleich schnell mit ca. 40 T/s.
Das nur marginal größere IQ2_XS passt leider nicht vollständig in den VRAM und läuft nur mit 13 T/s. Meh.

Das IQ2_XXS ist... nicht gut. Zumindest bei den komplexeren Fragen, die ich zum ganz groben testen gestellt habe. Ich verstehe, warum ein weniger großes LLM mit weniger aggressiven Quantization bevorzugt wird.

Wobei mit dieser Frage:
I need a powershell script for an exchange server migration. I'm migrating from a three server DAG to a new three server DAG. I need to create as many new mailbox databases as needed so that they're filled with 500GB of data at most and balance the amount of mailboxes in each database for approximately equal distribution.
ausschließlich Deepseek R1 70B (also das distilled Llama 3.3 70B) etwas halbwegs brauchbares produziert hat.

Ich habe auch mal ein paar der kostenlosen Chatbots gefragt. ChatGPT und Cortana waren überfragt, Gemini war halbwegs hilfreich aber noch weit von einer Komplettlösung entfernt. Deepseek R1 (im Webchat) war ungefähr auf dem Niveau von Gemini, vielleicht etwas schlechter.

Auf diese Anfrage hat bisher noch kein LLM auch nur ansatzweise fehlerfreien Code produziert, egal welches ich gefragt habe. Ich wäre schon neugierig, ob z.B. OpenAI O3 High das besser hinbekommen könnte, aber habe da signifikante Zweifel.
 
JumpingCat schrieb:
Kannst du bitte Coding-Modelle wie z.B. https://ollama.com/library/deepseek-coder-v2 oder https://ollama.com/library/qwen2.5-coder mit der Anforderung nochmal testen?
Danke für den Hinweise - ich hatte vergessen, dass spezifische 'coder' LLMs existieren.

Da qwen2.5-coder deutlich besser sein soll (und neuer ist) habe ich erstmal nur das probiert.

Es ist auf jeden Fall besser als eins der nicht spezialisierten 32B Parameter Modelle. Aber es hat auch Sachen vergessen und sich in den finalen Zeilen des Skript komplett verzettelt.

Das sind alles Sachen, die man als Sprungpunkt nutzen könnte wenn man wollte um seinen eigenen Code zu schreiben. Aber man muss halt auch vieles korrigieren.

Zeitersparnis? Vermutlich ja.
Wobei ich eine vollständige Migration so wie in der Frage gestellt eh niemals an einem Stück machen würde. Einfach 'feuer frei und gib ihm' ohne eine Test-Migration fürn Anfang wäre schon... mutig.


Ein Beispiel für Fehler: Bisher hat ausschließlich Gemini dran gedacht, für neue Exchange DBs das circular logging zu enabeln - und das hat es nach der Migration statt vor der Migration gemacht und auch vergessen, den Datenbankservice neu zu starten damit die Änderung tatsächlich effektiv ist. So würden an einem theoretischen Exchange-Server während der Migration die Platten überlaufen...
 
@Rickmer oder mal den Prompt ein wenig umschreiben?
As a professional PowerShell developer, please write a script to assist with migrating mailboxes from an old three-server DAG to a new three-server DAG in Exchange. The script should automatically create the required number of new mailbox databases, ensuring that no database exceeds 500GB in size. Additionally, it should evenly distribute mailboxes across the new databases for optimal load balancing. The script should handle all necessary steps, including the creation of the databases, mailbox moves, and ensuring an even distribution of mailbox data across the new DAG.
Ergänzung ()

JumpingCat schrieb:
Kannst du bitte Coding-Modelle wie z.B. https://ollama.com/library/deepseek-coder-v2 oder https://ollama.com/library/qwen2.5-coder mit der Anforderung nochmal testen?
Ich würde dann qwen2.5-coder:[xx]b-instruct versuchen.

1739032258655.png
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: JumpingCat
@oicfar Ändert das Ergebnis im Schnitt nicht.
 
Rickmer schrieb:
Auf diese Anfrage hat bisher noch kein LLM auch nur ansatzweise fehlerfreien Code produziert, egal welches ich gefragt habe. [...] Ein Beispiel für Fehler: Bisher hat ausschließlich Gemini dran gedacht, für neue Exchange DBs das circular logging zu enabeln - und das hat es nach der Migration statt vor der Migration gemacht und auch vergessen, den Datenbankservice neu zu starten damit die Änderung tatsächlich effektiv ist. So würden an einem theoretischen Exchange-Server während der Migration die Platten überlaufen...

Das bekommst du auch mit spezialisierten Modellen wie z.B. jetbrains nicht hin. Die Modelle unterstützen dich beim Coden nehmen es dir aber nicht komplett ab. Man muss halt mehrere Runden drehen bis man einen halbwegs vernünftigen Code bekommt. Es sind auch viele "Anfängerfehler" drin. Wenn man Fortgeschritten ist oder ein Experte, dann kann man das Ergebnis bewerten und die Fehler selbst erkennen und ausmerzen lassen. Und damit sind wir bei deepseek, deren aktuell Modell macht genau das - Nämlich erstmal selbst überlegen ob die Anfrage gut gestellt ist, was die Rahmenbedingungen sind und dann nochmal die Antwort prüft. Bisher musste man dafür selbst bei den LLM mehrere Runden drehen.

Ein konkreter Tip: Frag doch mal das LLM wieso es bestimmte Sachen vergessen hat und/oder der Hitnergrund der Ausgabe aus der LLM Sicht ist so wie du es bekommen hast. Dann nochmal fragen ob deine Anfrage an das LLM so gut war und was man verbessern kann.
 
  • Gefällt mir
Reaktionen: oicfar
Rickmer schrieb:
@oicfar Ändert das Ergebnis im Schnitt nicht.
Aber kann man versuchen. Ob das Ergebnis so oder so gut ist, kann ich nicht beurteilen. Aber Prompt macht schon was aus, wenn man es anders definiert.
Ergänzung ()

JumpingCat schrieb:
Die Modelle unterstützen dich beim Coden nehmen es dir aber nicht komplett ab. Man muss halt mehrere Runden drehen bis man einen halbwegs vernünftigen Code bekommt.
Genauso ist es auch.

Einfache Sachen gehen schon. Wird es spezieller, dann fängt der Spaß erstmal an.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: JumpingCat
Zurück
Oben