Welche KI für betriebliche Nutzung?

Rickmer schrieb:
Ich mein - für den Anfang kann man von vergangenen Jahren die Messwerte ausgraben und schauen, ob die KI auf dasselbe Ergebnis kommt wie der offizielle Bericht.

Und auch 10x mit denselben Messdaten einen Bericht erstellen lassen und schauen, wie hoch die Varianz ist.
Ganz genau so werden Validierungen durchgeführt. Sowas ist völlig normal und muss natürlich gemacht werden.

Ich brauche Ansätze, welche Systeme man wie betreiben kann.
 
Naja, doch doch! ;)
Man kann da auch etwas machen. SixSigma hat da Regeln dazu, welche in Excel gehen. Man brauch nur etwas Arbeit und kann auch dadurch Dinge filtern.
Pivot macht es auch, dann etwas machen, wo man aus Tendezen Text macht.

Aber sonst alte Daten nehmen und machen! GPT Plus 20€ und man kann auch Temporäre Chats machen und sich alles auswerten lassen.
 
Rickmer schrieb:
Das war fast wort-wörtlich so in der Werbung für Copilot^^
Microsoft Cloud ist böse ;-)
Ergänzung ()

duAffentier schrieb:
Aber als Medical Firma muss man Anforderungen stellen und sich erkunden! Und da muss die IT dabei sein.
Ich bin die IT, darum beschäftige ich mich ja damit. Eben um die Anforderungen und Möglichkeiten zur evaluieren.
Ergänzung ()

Vielleicht mal als kleiner Hinweis.
Wir arbeiten mit Auftragslaboren zusammen, welche bereits mit ChatGPT (Bezahlversion) eben genau sowas machen. Auswertungen von Labor Messwerten und dann die erstelkungen von Laborprüfprotokollen.
Und ja, natürlich werde ich mich mal mit deren IT connecten und austauschen.
 
Zuletzt bearbeitet:
DJKno schrieb:
Ich brauche Ansätze, welche Systeme man wie betreiben kann.
Ein paar haste ja schon.

Das Budget reicht halt hinten und vorne nicht für lokale GPU-Beschleunigung von einem state-of-the-art Modell wie Deepseek R1.
Nur eine Nvidia H100 mit lediglich 80GB VRAM würde dein Budget komplett fressen.

Daher wie auf der vorherigen Seite:
  • schauen, was du in RAM ausführen kannst mit entsprechend schlechter Performance (ein Server mit möglichst vielen Speicherchannel für hohe Bandbreite) oder
  • mit 2-3 GPUs wie einer 3090/4090/5090 anfangen und Modelle im Bereich von 70B Parameter prüfen oder
  • es erstmal mit einem Apple M2 Ultra 192GB oder M4 Max 128GB versuchen
 
S K Y N E T schrieb:
Schon viel gesagt

Nur weil "in der Zeitung" mal was von Deepseek stand, muss man das nicht gleich nehmen

Die schlimmste Chinaware, noch dazu lokal komplett unbrauchbar, für "sensiblen medizinischen Bereich"

Neinneinneinnein

Speziell das "Halluzinieren" von LLM macht sie untauglich für viele Bereiche.

Der Name Skynet ist Programm? Ich meine du verbreitest größere Unwahrheiten als jedes KI-Sprachmodell. Also muss man nicht nur bei KI, sondern auch bei Menschen kontrollieren.

Die schlimmste Chinaware betrifft die Onlineversion, die alle Daten nach Hause sendet, angefangen bei jedem Tastendruck.

Lokal hingegen ist es aktuell das beste Modell oder welches würdest du besser einschätzen? Llama? Und lokal kann ein DeepSeek-Model gar nichts nach Hause senden. Ein Model hat dazu keine Fähigkeiten. Und wie kommst du auf komplett unbrauchbar für den Bereich? Für sensible Bereiche ist eine lokale KI das bestmögliche was man machen kann und komplett sicher. Im Gegensatz zu Cloudlösungen oder Online-Varianten.

Und nebenbei, Halluzinationen ist kein exklusives Deepseek Problem. Und trotzdem werden überall KI-Modelle genutzt. Man muss damit eben umgehen können.
 
  • Gefällt mir
Reaktionen: chithanh, konkretor und andy_0
DJKno schrieb:
Ich bin die IT, darum beschäftige ich mich ja damit. Eben um die Anforderungen und Möglichkeiten zur evaluieren.

Wir arbeiten mit Auftragslaboren zusammen, welche bereits mit ChatGPT (Bezahlversion) eben genau sowas machen. Auswertungen von Labor Messwerten und dann die erstelkungen von Laborprüfprotokollen.
Und ja, natürlich werde ich mich mal mit deren IT connecten und austauschen.
Dann solltest Du auch das Thema EU AI Act mit ihnen anschauen. Wurde letztes Jahr verabschiedet und wird in den naechsten Jahren verbindlich fuer Firmen die AI in der EU einsetzen.
Wenn Ihr die Anforderungen von Anfang an beruecksichtigt wird es deutlich einfacher sein alle Vorgaben innerhalb des vorgegebenen Zeitrahmen zu erfuellen.
 
Mach dir mal als erstes Gedanken um die Infrastruktur bei euch. Da bekomm ich gerade voll auf die Fresse. Anders lässt es sich nicht beschreiben. Wenn du Netzwerk-Verantwortliche hast, die meinen, 10G Netzwerk sei schnell, Hast du schon ein massives Problem. Du hast einen Server und schon ist der zweite schneller da, wie man sich versieht. Netzwerk sollte mindestens 100G sein. Dann mach dir Gedanken über das Deployment. Nutze ich Container? Dann die ganzen Aufgaben durchgehen, was so Container für Aufgaben bringen. Man möchte ja jederzeit in der Lage sein, so ein Deployment auch ohne Internet durchzuführen. Container Registry intern, CVE Scanner. Lifecycle der Container. Selbiges gilt für Python Pakete.
Das Herunterladen der Modelle kann je nach Leitung Tage dauern. Beispiel DeepseekR1:685 Parameter bist du bei über 400GB. Das dauert einfach. Außer du hast eine 10GB Leitung, was die wenigsten haben werden.

Bei der Hardware wirst du sehr schnell auf größere Modelle umsteigen wollen oder selbst fein tunen. Bei der Hardware mache dich gefasst auf 100K und mehr. Kauf keine Consumer Karten. Die passen oft nicht in 19 Zoll Rack-Gehäuse, da sie viel länger sind, 3,5 breit sind, heißt, du bekommst gar nicht so viele nebeneinander. Entweder Karten mit Blower-Kühler oder passive Karten. Such dir ein Hardware-Unternehmen, das schon öfters solche GPU Computing Geschichten umgesetzt hat. Bei Interesse gerne PN an mich. Karten unter 48 GB RAM machen wenig Sinn. Dann überlege dir, was ein LLM ausliefern wird. Viele fangen mit Ollama an, da es einfach und schnell umzusetzen ist. vLLM ist da gefühlt schneller, jedoch auch mit mehr Aufwand verbunden. Dazu kann ich dir empfehlen, dich hier einzulesen.

https://docs.flowiseai.com/using-flowise/agentflows

Die Idee dahinter ist, mit einem RAG gefüttert, zwei Agents laufen zu haben, die sich gegenseitig kontrollieren und verbessern. Beispiel: Im RAG hast du ein paar Beispiele gespeichert, die richtig sind. LLM Modelle lassen sich ja über die Temperatur einstellen, wie "erfinderisch" sie sein sollen. Heißt bei 0,2 wird da wenig Unsinn raus kommen. Das dürfte dein Problem mit der Genauigkeit etwas entschärfen.

Wie man so einen Agent bauen könnte. Da gibt es viele tausende Wege.
https://docs.flowiseai.com/using-flowise/agentflows/sequential-agents
https://docs.flowiseai.com/using-flowise/agentflows/sequential-agents/video-tutorials


Bei GPUSTACK https://github.com/gpustack/gpustack hast eine Verwaltungsmöglichkeit von deinem GPU Server und kannst dir auch einen Cluster damit bauen. Also zu deinem bestehen einen Worker dazufügen. Bedenke das Netzwerk mit 10G wird das extrem zäh sein.

Sollte es keine x86 Hardware werden sollen

https://github.com/exo-explore/exo

Ein Mac Mini mit Exo im Cluster wäre auch eine Lösung. Exo schnappt sich jegliche Hardware die Kompatibel ist und baut daraus einen Cluster. Exo läuft auch auf deinem Iphone oder Ipad :-)
Bedenke das Netzwerk. Exo hat Videos wo sie 4 Mac über Thunderbolt zu einem Cluster zusammen bauen.

1739768009029.png
 
Bzgl Hardware habe ich das hier gesehen.

Es geht also auch mit CPU Power und viel RAM.
 
Da Video kann man sich sparen. Der wichtigste Teil ist Ollama anzuweisen einfach die CPU zu nutzen. Stabil wars auch nicht ganz. Ollama ist für PoC ganz gut. Da kommt Ollama einfach an die Grenzen
 
DJKno schrieb:
Kann man hier auf eigener Hardware im Kostenbereich 10-20k irgendwas sinnvolles besehen?
Wie viel Geld die Firma ausgeben muss hängt ganz massiv davon ab, wie viel Expertise im Hard- und Softwarebereich bereits vorhanden ist.

Für die genannten 10-20 k€ (und wenn eure Systembetreuer in der Frage kompetent sind) kann man sich einen Server zusammenbauen aus 19" Barebone, 2x Epyc 9355, 24x 48 GB DDR5-6000. Wenn man das einen SB machen lässt kommen schnell nochmal 50-100% Aufschlag dazu, und wenn man es sich vom OEM bestellt eher 100-200%.
DJKno schrieb:
Kernaufgabe wäre im ersten Step die Erstellung von Berichten (z.b. Validierungsberichten) auf Basis von Stammdaten und erzeugten Rohdaten.
Der Umfang, die Frequenz und die Deadlines der Berichte bestimmen, ob eine Lösung überhaupt in Frage kommt.
Die Geschwindigkeit von Sprachmodellen wird in Tokens pro Sekunde angeben (tok/s). Ein Token ist grob gesagt ein Wort welches das LLM ausgibt. Auf der oben genannten Hardware und dem vollen DeepSeek R1 wirst du etwa 6-8 tok/s erhalten.

Es gibt dann noch Optimierungsmöglichkeiten, die aber mehr oder weniger die Qualität des Outputs reduzieren. Ich wäre sehr vorsichtig mit destillierten Modellen (die sind verkleinert, so dass sie in einen Mac Mini o.ä. passen), da leidet der Output schon merklich.

Eine bessere Optimierung spezifisch bei DeepSeek V3 und R1 ist MoE offloading, da kann man eine Grafikkarte in den Server einbauen die dann die Operationen um den Faktor 3 oder mehr beschleunigt, ohne dass man auf ein verkleinertes Modell zurückgreifen muss. Aber wie bei der Hardware gilt auch hier: Wenn eure Programmierer und Systembetreuer in dem Bereich kompetent sind und das aufsetzen können, kostet es "nur" deren Arbeitszeit. Wenn ihr externe Dienstleister beauftragen müsst, wird es schnell das gesetzte Budget übersteigen.
 
  • Gefällt mir
Reaktionen: JumpingCat
DJKno schrieb:
Bzgl Hardware habe ich das hier gesehen.
Also genau das, was ich schon geschrieben hatte...

konkretor schrieb:
Du hast einen Server und schon ist der zweite schneller da, wie man sich versieht. Netzwerk sollte mindestens 100G sein. Dann mach dir Gedanken über das Deployment. Nutze ich Container? Dann die ganzen Aufgaben durchgehen, was so Container für Aufgaben bringen. Man möchte ja jederzeit in der Lage sein, so ein Deployment auch ohne Internet durchzuführen. Container Registry intern, CVE Scanner. Lifecycle der Container. Selbiges gilt für Python Pakete.
Naja, für ein PoC muss man noch nicht das ganze Netzwerk umbauen. Da wäre ja schon das Budget weg bevor man überhaupt eine Teststellung hat.

Falls der PoC erfolgreich ist und das Stichwort 'Umsetzung' im Raum steht, ist mMn der richtige Moment, um es richtig zu machen.
 
OK,
Vielen Dank für die vielen hilfreichen Tipps.
Programmierer mit Know How habe ich in House keine zur Verfügung, muss also von extern kommen.
Zum Thema Zeitaufwand.
Die Mitarbeiter in der betroffenen Abteilung benötigen teilweise eine ganze Woche für eine Bericht inkl. Auswertung.
Wenn das also nach ein paar Stunden fertig wäre und man noch einen halben Tag Korrektur lesen müsste, wäre das ein Zeitgewinn um den Faktor 5 und der Mitarbeiter könnte zudem währen der Wartezeit andere Aufgaben erledigen, womit wir dann beim Faktor 10 wären.
Daher kann ich mir gut vorstellen, dass ich ein Budget von 50-100k. bei unserem Management loseisen kann, wenn denn die Ergebnisse passen.

Darum nochmal eine grundsätzliche Verständnisfrage.
Ich möchte am liebsten Dateien mit Rohdaten und eine Berichtsvorlage hochladen und die KI macht dann mit den Rohdaten eine eigene Auswertung nach Vorlage des alten Berichts und schreibt einen neuen Bericht.
Das ist sicherlich sehr einfach gedacht, aber kann man das im groben so umsetzen?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: JumpingCat
Bin mir nicht sicher, wie gut das mit der Vorlage passiert. Aber Daten auswerten und zusammenfassen können die Systeme.

Ich fand deinen Ansatz mit 10000 Euro für ein erstes System nützlich, da ihr damit ohne massiven "Kostendruck" Erfahrung über die Fähigkeiten, Qualität und Geschwindigkeit der Systeme sammeln könnt. Dazu gehört auch ein Vergleich zwischen CPU und GPU Berechnung.

Erfahrung sammelt ihr auch in dem Bereich, wie gut euer Einsatzbereich abgedeckt werden kann u.a. wie git das Template gefüllt wird. Die besseren Modelle (DeepSeek R1 671b) sind zwar in der Auswertung noch mal besser, die grundlegenden Fähigkeiten haben auch die kleineren Modelle.
 
  • Gefällt mir
Reaktionen: DJKno
Erstmal testen, was die KI kann! Versch. Modelle testen.
Einfach alte Daten und sich probuieren, an Beispielen zeigen was man mag!
Das mal durchspielen, greifbare Themen auffassen!

Dann merkt man schnell, wie genau etwas beschrieben werden muss, Vorrausetzungen klären, Prozess dazu und und und!

Wenn du es wem vorstellst, teste es mit dem CoPilot, ChatGPT etc., gleiche Aufgaben und mach mal eine ppt als VErgleich. Das hilft den Manager, es greifbarer zu machen bzw. Anschaulicher.
 
  • Gefällt mir
Reaktionen: DJKno
1739812046141.jpeg

Ergänzung ()

Evtl hilft dir bei Medical auf Software Validierung GMP, GAMP etc. weiter. Also es hilft nicht, sondern sind die ganzen Hürden die man nehmen muss.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: konkretor und DJKno
Zurück
Oben