Mach dir mal als erstes Gedanken um die Infrastruktur bei euch. Da bekomm ich gerade voll auf die Fresse. Anders lässt es sich nicht beschreiben. Wenn du Netzwerk-Verantwortliche hast, die meinen, 10G Netzwerk sei schnell, Hast du schon ein massives Problem. Du hast einen Server und schon ist der zweite schneller da, wie man sich versieht. Netzwerk sollte mindestens 100G sein. Dann mach dir Gedanken über das Deployment. Nutze ich Container? Dann die ganzen Aufgaben durchgehen, was so Container für Aufgaben bringen. Man möchte ja jederzeit in der Lage sein, so ein Deployment auch ohne Internet durchzuführen. Container Registry intern, CVE Scanner. Lifecycle der Container. Selbiges gilt für Python Pakete.
Das Herunterladen der Modelle kann je nach Leitung Tage dauern. Beispiel DeepseekR1:685 Parameter bist du bei über 400GB. Das dauert einfach. Außer du hast eine 10GB Leitung, was die wenigsten haben werden.
Bei der Hardware wirst du sehr schnell auf größere Modelle umsteigen wollen oder selbst fein tunen. Bei der Hardware mache dich gefasst auf 100K und mehr. Kauf keine Consumer Karten. Die passen oft nicht in 19 Zoll Rack-Gehäuse, da sie viel länger sind, 3,5 breit sind, heißt, du bekommst gar nicht so viele nebeneinander. Entweder Karten mit Blower-Kühler oder passive Karten. Such dir ein Hardware-Unternehmen, das schon öfters solche GPU Computing Geschichten umgesetzt hat. Bei Interesse gerne PN an mich. Karten unter 48 GB RAM machen wenig Sinn. Dann überlege dir, was ein LLM ausliefern wird. Viele fangen mit Ollama an, da es einfach und schnell umzusetzen ist. vLLM ist da gefühlt schneller, jedoch auch mit mehr Aufwand verbunden. Dazu kann ich dir empfehlen, dich hier einzulesen.
https://docs.flowiseai.com/using-flowise/agentflows
Die Idee dahinter ist, mit einem RAG gefüttert, zwei Agents laufen zu haben, die sich gegenseitig kontrollieren und verbessern. Beispiel: Im RAG hast du ein paar Beispiele gespeichert, die richtig sind. LLM Modelle lassen sich ja über die Temperatur einstellen, wie "erfinderisch" sie sein sollen. Heißt bei 0,2 wird da wenig Unsinn raus kommen. Das dürfte dein Problem mit der Genauigkeit etwas entschärfen.
Wie man so einen Agent bauen könnte. Da gibt es viele tausende Wege.
https://docs.flowiseai.com/using-flowise/agentflows/sequential-agents
https://docs.flowiseai.com/using-flowise/agentflows/sequential-agents/video-tutorials
Bei GPUSTACK
https://github.com/gpustack/gpustack hast eine Verwaltungsmöglichkeit von deinem GPU Server und kannst dir auch einen Cluster damit bauen. Also zu deinem bestehen einen Worker dazufügen. Bedenke das Netzwerk mit 10G wird das extrem zäh sein.
Sollte es keine x86 Hardware werden sollen
https://github.com/exo-explore/exo
Ein Mac Mini mit Exo im Cluster wäre auch eine Lösung. Exo schnappt sich jegliche Hardware die Kompatibel ist und baut daraus einen Cluster. Exo läuft auch auf deinem Iphone oder Ipad :-)
Bedenke das Netzwerk. Exo hat Videos wo sie 4 Mac über Thunderbolt zu einem Cluster zusammen bauen.