Welche Tools für Musik-, Videogenerierung u.a. lokal nutzen?

anakadai

Cadet 3rd Year
Registriert
Okt. 2024
Beiträge
35
Hallo zusammen,

entschuldigt bitte, dass ich hier und da Threads gerade aufmache, die noch etwas "lost" wirken. Ich befinde mich gerade in der Findungsphase und wollte eigentlich nur Hardware kaufen, damit ich die nächsten Monate / zwei Jahren mich mehr mit LLM, ML, Datenanalyse und auch Themen wie Bild-, Video- und Musikgenerierung beschäftigen kann und dies später auch beruflich zu nutzen.

Dienste wollte ich erst einmal nicht buchen. Wenn dann später irgendwann mal für größere Sachen, aber ich würde mein Anliegen jetzt eher im Hobbybereich ansehen. Wie dem auch sei.

Ich habe aktuell einen M1Pro (8/14; 16GB RAM) und möchte diesen jetzt ersetzen (entweder RTX oder M4Pro).

Damit ich möglicherweise einschätzen kann, welche Software/Hardware nötig wäre und entsprechend auch Antworten in dem anderen Thread geben kann, würde ich mich sehr freuen, wenn man mir sagen könnte. welche LLM, Software ich auf meinem M1Pro testen sollte.

Stable Diffusion für Bilderstellung. Werde ich lokal installieren.
Für LLM habe ich LLAMA 3.5 im Blick (welche Version?, überfordert!). Gibt es noch andere lokale LLMs, die ich testen sollte (z.B. fürs Coden fände ich interessant)?

Videogenerierung?
Musikgenerierung?
Oder aufnahmen niederschreiben und dann zusammen?

Welche Software könnte ich lokal testen/ausprobieren und dann schauen, wie lange das dauert?


Was vllt interessant wäre, wenn man einen bestimmten Promotion dann auch noch posten würde und wir so vergleichen könnten, wie das selbe Bild (z.B.) unter unterschiedlichen Systemen entsteht? Aber da verlange ich möglicherweise zu viel.

Vielen Dank.
 
Klick dich auf Huggingface durch die entsprechenden kategorien und spiel mit den dort gehosteten Modellen. Viele haben in Spaces gleich eine Live Demo zum herum spielen. Da reicht dann auch ein 20 Jahre Altes Notebook vom Recycling hof

anakadai schrieb:
Für LLM habe ich LLAMA 3.5 im Blick
Wo hast du das gefunden?

Wie schon im anderen thread gesagt: Qwen2.5 ist eine super Grundlage für vieles.
und wie @tomgit im anderen thread sagte: Schau auf die Model Cards
Fuer Videos gibt es gerade afaik nur ein lokal laufenden Modell.

Bei Bilder sind das meiste SD Derivate
 
Ich glaube, da habe ich die Zahl etwas durcheinander gebracht. 3.x auf jeden Fall :)
Qwen teste ich. Merci.

Welches Modell wäre fürs Video?

Huggingface und Model Cards - merci für die Stichpunkte.
 
Hm. Also ganz ehrlich, ich finde deine Herangehensweise etwas schwierig. Ich glaube nicht dass es so einfach ist, mal eben so hobbymäßig und beruflich in "alles mit KI" einzusteigen. Dazu entwickelt sich das ganze viel zu schnell und es gibt schon viel zuviel Fachwissen in allen Bereichen zu lernen.
Du wirst doch wenigstens schon eine grobe Ahnung haben, ob du sowas wie Datenanalyse/Coden oder eben was kreatives wie Musik/Kunst/Video machen kannst und willst? (Ich glaube nicht, dass du ohne künstlerische Basics und Nachbearbeitung so einfach kommerziell verwertbare Sachen von der KI erhalten wirst...außer vielleicht für billigste Clickbait YT Videos oder Werbespam.)
Wenn nicht, dann rate ich auch klar dazu, eben Demos auszuprobieren oder lieber auch Kapazitäten anzumieten...dürfte deutlich billiger sein, als jetzt schon massiv in Hardware zu investieren und dann schnell zu merken dass gerade Videogenerierung (ich glaube auch Musik..., Bilder gehn am ehesten) z.B. viel zu lange dauert. Denn wenn du mal soweit bist dich entschieden zu haben und gut genug/schnell genug das kommerziell anzubieten, bis dahin ist deine Hardware vermutlich schon wieder Schnee von gestern und du könntest deutlich mehr für dein Geld bekommen...falls sich das lokale jemals lohnt.

Edit: Gerade im anderen Thread gelesen, dass du mit der Zockeroption angefixt bist auf eigene Hardware, gut dann halt kaufen...

Mochi: "The model requires at least 4 H100 GPUs to run. We welcome contributions from the community to reduce this requirement."
Viel Spaß, das auf eigener Hardware zu betreiben. :D

PS: Die KI spuckt dir auch beim selben prompt nie dasselbe Bild aus, wenn es um einen Bildgenerator geht.
 
  • Gefällt mir
Reaktionen: madmax2010
Thorakon schrieb:
Viel Spaß, das auf eigener Hardware zu betreiben. :D
Im anderen Thread war dazu der Hinweis, nichts dezidiert für diese Vorhaben zu kaufen, sondern Stundenweise Hardware zu mieten.Eine H100 bekommt man inzwischen unter 2 Euro/Stunde. Da lohnen sich die 120.000 Euro Anschaffungskosten für 4 davon nicht :D
 
Am besten schaut man sich auch die Communities an, welche sich um Bild- und Videogenerierung gebildet haben. Stable Diffusion Server auf Discord, entsprechende Subreddits bei... naja, Reddit, und solche Seiten wie Civitai.

Erste Recherche nach Modellen geht über die Suchmaschine des Vertrauens, die Communities oder eben Huggingface.

anakadai schrieb:
Videogenerierung?
Direkte Text-to-Video-Modelle gibt es, wie gesagt, schau mal bei Huggingface nach. Was aber auch gerne gemacht wird, ist über Diffuser zu gehen und erst Bilder generieren zu lassen und dann aus Image-to-Video-Modellen Videos generieren zu lassen.
Was auch gerne gemacht wird sind Style Transfers.

anakadai schrieb:
Oder aufnahmen niederschreiben und dann zusammen?
Whisper + LLM. Das sind aber recht typische Workflows.

anakadai schrieb:
Welche Software könnte ich lokal testen/ausprobieren und dann schauen, wie lange das dauert?
Die Infos hast du schon aus dem letzten Thread eigentlich

anakadai schrieb:
wie das selbe Bild (z.B.) unter unterschiedlichen Systemen entsteht? Aber da verlange ich möglicherweise zu viel.
Das ist ein Standard-Verfahren bei der Vorstellung von neuen Modellen oder Modelliterationen. Oftmals wird eben das selbe Prompt miteinander verglichen und daran die Vor- und Nachteile verschiedener Modelle dargelegt. Ist auch ein ganz typisches Vorgehen bei wiss. Papern. Outputs replizieren geht am einfachsten über die Seed, aber frag mich nicht, wie zuverlässig das ist. Über Modelle hinweg erhältst du aber sicherlich unterschiedliche Ergebnisse. Am zuverlässigsten ist hier vielleicht noch mit ControlNET zu arbeiten.

Wie gesagt, einlesen.

Thorakon schrieb:
Also ganz ehrlich, ich finde deine Herangehensweise etwas schwierig. Ich glaube nicht dass es so einfach ist, mal eben so hobbymäßig und beruflich in "alles mit KI" einzusteigen. Dazu entwickelt sich das ganze viel zu schnell und es gibt schon viel zuviel Fachwissen in allen Bereichen zu lernen.
Naja, hier würde ich schon ein wenig widersprechen. An irgendeinem Punkt muss man eben einsteigen und mit dem M1Pro würde ich auch keine 512x512 Bilder erstellen wollen. Insbesondere wenn man mehrere Steps haben möchte, dauert es einfach ewig, bis da ein Output produziert wird.
Außerdem bedingen sich viele Sachen auch einfach. Man kann zwar viel im Bereich LowCode/NoCode machen, aber alles würde ich darin auch nicht machbar sehen. Insbesondere für Modelle, die eben kein Frontend haben, sollten grundlegende Programmierkenntnisse schon vorhanden sein. Umgekehrt benötigt man auch nicht die tiefgründigsten Programmierkenntnisse, um brauchbare Ergebnisse bei "traditionellen" ML-Verfahren zu produzieren.
Irgendwo muss man den Einstieg ja finden. Ob man dann die Priorität darauf liegt, mit dem Computer zu spielen oder mit dem Computer auch spielen zu können, ist ja dann unerheblich.

Was ich unterschreiben würde, ist hingegen, dass man schon einen gewissen Fokus oder zumindest ungefähre Richtung mitbringen sollte. Also eher LLMs, wo Macs besser wären, oder eher der Rest, wo Computer mit Nvidia-Karten besser wären.
 
  • Gefällt mir
Reaktionen: anakadai, NJay und madmax2010
wenn man mit Mochi 1 rumspielen moechte, dann bleibt eh nur mieten, scheint sogar mit Workaround auf einer einzelnen GPU zu funktionieren (mit Abstrichen halt): https://blog.runpod.io/mochi-1-text-to-video-represents-new-sota-in-open-source-video-gen/
Empfehlung ist daher, mit einer H100 ausprobieren, dann spaeter auf H200 warten oder das ComfyUI doch mal Multi-GPU unterstuetzt oder mal das hier ausprobieren: https://github.com/neuratech-ai/ComfyUI-MultiGPU

Der Rest wurde ja schon gesagt, auch bzgl. der "normalen" LLMs - klein anfangen, hochskalieren kann man imemr noch - sowohl bzgl. Hardware als auch Modellegroessen resp. Modellen selbst. Falls moeglich, einfach APIs/Schnittstellen nutzen, die generalisieren. Ollama, LlamaCpp, Langchain, LlamaIndex, etc

Viel Erfolg, und kannst ja dann mal deine Erfahrungen und Eindruecke teilen, sobald du dabei bist
 
  • Gefällt mir
Reaktionen: anakadai und madmax2010
Thorakon schrieb:
[...]
Du wirst doch wenigstens schon eine grobe Ahnung haben, ob du sowas wie Datenanalyse/Coden oder eben was kreatives wie Musik/Kunst/Video machen kannst und willst? (Ich glaube nicht, dass du ohne künstlerische Basics und Nachbearbeitung so einfach kommerziell verwertbare Sachen von der KI erhalten wirst...außer vielleicht für billigste Clickbait YT Videos oder Werbespam.) [...]

Das stimmt. Ich habe hier etwas vergessen zu erwähnen, was in den anderen Threads erwähnt wurde.
Also Bild-, Video-, Musikgenerierung war her just4fun gedacht. Bilder können noch eher professionell genutzt werden, aber das geht auch auf dem M1Pro. Hier fiel mir noch ein, dass man über den Microsoft Edge Bilder generieren kann.

Als App teste ich aber noch Diffusion Bei, Draw Things. Da muss ich mich noch aber mit den Modellen beschäftigen. Bis so ein Bild erstellt wird, dauert es etwas.
Ggf. probiere ich noch später direkt Stable Diffusion über Automatic111.

Es wird wohl Zeit, das NAS upzugraden und mehr Speicherplatz zur Verfügung stellen :D

Beruflich wollte bzw. will ich LLM/ML/Python/Datenanalyse nutzen. Hier habe ich sowas wie Jan (LLAMA 3.2 3B Instruct Q8) und LM Studio (LLAMA 3.2 3B Instruct 4bit (Q4?)) ausprobiert und die Geschwindigkeit ist okay. FreedomGPT (Liberty2 Edge). Aber letzteres ist einschränkend, da ich nur das Model nehmen kann oder andere gegen Credits nutzen kann.

Ollama hab ich llama 3.2 installiert. Modell: 3.2b; Q4_K_M. Aber noch bekommen ch das gerade nciht gestartet. Eine GUI muss her...

Über LLM Studio werde ich Qwen 2.5 Coder 7B Instruct testen.

Thorakon schrieb:
[...]

Mochi: "The model requires at least 4 H100 GPUs to run. We welcome contributions from the community to reduce this requirement."
Viel Spaß, das auf eigener Hardware zu betreiben. :D

PS: Die KI spuckt dir auch beim selben prompt nie dasselbe Bild aus, wenn es um einen Bildgenerator geht. [...]
Ja, hier musste ich auch lachen :D
Video wird nur noch irgendwann mal online getestet.


abcddcba schrieb:
[...]

Viel Erfolg, und kannst ja dann mal deine Erfahrungen und Eindruecke teilen, sobald du dabei bist

Das kann ich gerne machen. Hilft vllt auch anderen.
Ergänzung ()

Nachtrag: Mit welchen Modell sollte ich den bei Stable Diffusion anfangen um etwas brauchbares zu haben, bevor ich dann tiefer in der Materie versinke? Mit der Auswahl kann ich nichts anfangen :D
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Thorakon
anakadai schrieb:
Ollama hab ich llama 3.2 installiert. Modell: 3.2b; Q4_K_M. Aber noch bekommen ch das gerade nciht gestartet. Eine GUI muss her...
Du musst auch nicht zig Apps ausprobieren, die quasi das selbe machen. Ob du die Modelle nun via Ollama oder LM Studio lädst, ist eigentlich egal. Ansonsten kannst du alles, was auf Ollama zugreifen kann, als GUI dafür bezeichnen. Z.B. Ragapp.

anakadai schrieb:
Nachtrag: Mit welchen Modell sollte ich den bei Stable Diffusion anfangen um etwas brauchbares zu haben, bevor ich dann tiefer in der Materie versinke? Mit der Auswahl kann ich nichts anfangen :D
Kommt drauf an, was du erstellen magst. Schau einfach mal bei Civitai nach, was für ein Modell dir am besten zusagt. Stable Diffusion selbst ist auch nicht mehr State of the Art - außer 3.5 vielleicht.
 
  • Gefällt mir
Reaktionen: Maviapril2
Bei den Apps stimme ich zu. Ich schaue mir auch die GUI an, was mir dann am Ende mehr zusagt.

Stable Diffusion. Yep. Ich lernte, das Flux da besser ist.
 
Aber Flux benötigt wieder relativ viel VRAM, zumindest bei den unbearbeiteten Modellen.

Aber, wie gesagt, es hängt allgemein davon ab, was du mit den Modellen produzieren magst. Realismus ist Flux bzw. SD 3.5 besser, es gibt aber auch Modelle, die eher in Richtung Cartoon-Stile gehen, und dann nochmal andere für 3D-Modelle. Civitai ist da aber eine der besseren Anlaufstellen, um sich Infos zu holen.
 
  • Gefällt mir
Reaktionen: anakadai und Maviapril2
Bin paar Schritte zurück gegangen. Hatte etwas wenig Zeit in der letzten Woche, aber ich teste jetzt erst einmal einige LLMs. Vor allem interessiert mich da Coding. Python lerne ich zwar gerade, aber PHP,HTML,CSS und Xcode wären interessant. ChatGPT haut aber auch vernünftige Resultate - für mich wohlgemerkt, einem Anfänger, der willst ass die Scripte laufen. Ich habe aber auch keinen Anspruch, dass diese perfekt sind.

Anregungen sind jederzeit willkommen @coding-LLM ;)
 
Zurück
Oben