mit KI-Software Videos durchsuchen lassen ?

Ekki-LM1 · 19. Mai 2024

Hallo zusammen,

ist es möglich, per KI-Software viele Videos nach best. Sequenzen durchsuchen zu lassen ?

Als Beispiel: ich habe sehr viele Videos mit Tischtennis-Spielen auf Festplatte, gesamt über 1000 Std..
Eine KI-Software soll in den Videos solche kurzen Szenen finden, in denen der Spieler ein "Backhand Flick" macht.
Die Funde sollten in der Timeline markiert werden oder per Zeitstempel (o.ä.).
Sicher müsste die Software dazu erst "angelernt" werden, indem man sie vorab mit diesen 1-2sec Szenen "füttert".

Gibt es solche Art von Software, evtl. auch als Freeware ?

Vielen Dank schonmal für Tips...

Tornhoof · 19. Mai 2024

Die meisten Video Analytics Tools sind entweder auf Objekterkennung aus oder Analyse von Szenen um zu erkennen was passiert, zb um Werbung einzufügen.

Es gibt da diverse Systeme, zb https://cloud.google.com/video-intelligence oder https://azure.microsoft.com/de-de/products/ai-video-indexer

Im allgemeinen ist der erste Schritt den du gehen müsstest, sowas:
https://github.com/maudzung/TTNet-Real-time-Analysis-System-for-Table-Tennis-Pytorch dann hast du eine Erkennung der Bewegung der Spieler und vom Ball. Danach klassifizieren, also alle markieren, die der Bewegung genügen, die du willst.

Kommerziell gibt's da wohl Ansätze: https://osai.ai/#table-tennis
https://betterplay.ai/

Kostenlos wirst du da abseits einer Selbstbau Lösung wenig finden, das anlernen vom Modellen kostet halt Rechenzeit.

Ayo34 · 19. Mai 2024

Videos durchsuchen kann man auch mit "Nvidia Chat with RTX". Kostenlos und lokal auf dem eigenen PC... Bin aber gerade nicht auf aktuellem Stand, was da so geht und was man alles anpassen kann. Vielleicht kann man sogar die Szene einfach beschreiben wonach gesucht werden soll und als Ausgabe lässt du dann einen Timestamp mit gefunden Szenen schreiben?

Viele Firmen setzen auch auf Cloud und dann wird es schnell kostenpflichtig, gerade wenn man 1000 Stunden Material hat. Das wird niemand umsonst anbieten.

Ekki-LM1 · 19. Mai 2024

@Tornhoof
DANKE für deine schnelle, sehr gute Antwort mit den Links !

Wie ich's verstehe, sind "Google Video AI" + "Azure KI Video" cloudbasierte Lösungen, d.h. die Videoanalysen laufen auf einem "fremden" Server, auf den ich mein Material erst hochladen müsste.
Besser wäre eine Software auf dem Heim-Rechner, weil auch eigene Turnieraufnahmen dabei sind, die im Privatbereich bleiben sollten.
Auch guter Tip mit github.com, hat erstmal meinen "Denkfehler" beseitigt:
Klar, es reicht ja nicht, die KI mit ausgewählten Szenen zu füttern, weil sie dann immer noch nicht weiß, auf welchen Bildausschnitt u. welche Aktion sie sich zum Training focussieren soll.
Daher der Bewegungsrahmen um den Spieler herum.

Nun war Tischtennis nur ein Beispiel, würde gerne auch bei anderen Sportarten bestimmte Szenen autom. mit KI-Erkennung finden lassen, etwa besondere Trickstöße beim Billard, Skateboard-Moves usw..

Das hieße, ich müsste die relevanten Videoszenen zunächst in die Software importieren, dann mit Rahmen exakt die Bewegungsaktionen markieren, die die KI künftig bei anderen Videos finden soll u. nach dem "Lernprozess" das Tool dann auf das ganze Filmmaterial loslassen...
So vom Prinzip in etwa richtig so ?

@Ayo34
Vielen Dank für deinen Tip mit "Nvidia Chat with RTX", schau ich mir gleich mal an...

Noch kurz zum Verständnis:
Wenn ich der KI-Software nur eine markierte Bewegungsaktion zum Lernen vorgebe, ist sie dann so "schlau", diesen Bewegungsablauf bei anderen Videos auch aus versch. Kameraperspektiven zu erkennen ?

Touch-Knie · 19. Mai 2024

Es gibt sogar einige Open-Source-Projekte, die du ausprobieren kannst, wie beispielsweise TensorFlow oder OpenCV.

Tornhoof · 19. Mai 2024

Ekki-LM1 schrieb:
Klar, es reicht ja nicht, die KI mit ausgewählten Szenen zu füttern, weil sie dann immer noch nicht weiß, auf welchen Bildausschnitt u. welche Aktion sie sich zum Training focussieren soll.
Daher der Bewegungsrahmen um den Spieler herum.

Jein, die Algorithmen machen den Bewegungsrahmen für dich. Das ist 'einfach', Bildsegmentierung und -identifikation ist relativ unabhängig von der Eingabe, es ist also relativ einfach Gegenstände in Bildern zu finden. Das ist dann Feature extraction. Das geht auch noch relativ unabhängig der Videos, ein Ball ist ein Ball, ein Schläger ist ein Schläger, das kann man auch ohne Videos trainieren.

Dann weiß das System immernoch nichts davon was da passiert, zb Aufschlag. Bei komplexen Bewegungen muss man ggf noch ein Skelett abbilden, dh das System muss wissen was Arm und Schläger ist und wie die in welchem Zusammenhang zueinander stehen.

Nehmen wir an, du hast jetzt Hand, Schläger und Ball identifiziert und das System erkennt erfolgreich und zuverlässig diese Komponenten. Der klassische weg ist jetzt die Bewegungsabläufe dann zu benennen, also zu klassifizieren, dh Bewegungsablauf x als Aufschlag. Wenn das häufig genug gemacht wurde und Fehler korrigiert wurden (reinforced learning) dann hast du ein System was in Videos Aufschlag erkennt.

Das ist alles sehr vereinfacht ausgedrückt und da gibt's noch weir mehr Probleme und Herausforderungen zum lösen. Wäre ggf ein interessantes Thema für eine Masterarbeit für einen speziellen Sport und dann Doktorarbeit für die Verallgemeinerung, zb von Tischtennis auf Sportarten mit Schläger.

Ekki-LM1 · 19. Mai 2024

@Ayo34 und @Touch-Knie
Danke für euer feedback.
"Nvidia Chat with RTX" kann wohl Videos verarbeiten, aber die Inhaltserkennung scheint trotzdem textbasiert, was bei der Beschreibung spezifischer Bewegungsabläufe sicher schwierig wird.
TensorFlow u. OpenCV, oh jeh, sieht kompliziert aus, da werde ich zum Einlesen länger brauchen...

@Tornhoof
Super erklärt, Vielen Dank !
Na wenn das schon "sehr vereinfacht ausgedrückt" ist, will ich gar nicht die "komplizierte" Variante wissen

Die Idee war, aus etlichen Wettkampf-Videos z.B. ganz best. Schnitt-Techniken beim Aufschlag zu einem Video zusammenzuschneiden, um die Bewegungsabläufe dann gezielt zu analysieren (bin selbst Spieler).
Dasselbe bei anderen Sportarten, bei der KI mit Auto-Erkennung enorm helfen könnte, statt zig Std. Videomaterial mühsam in Echtzeit abzusehen.
Wie du sagst, wäre das sicher ein gutes Thema für eine wissenschaftliche Arbeit.

Zum anderen hätte ich auch gern mal ein "Best Of" zusammengestellt, etwa besondere Trickshots beim Snooker, beste Hackentricks FuBa o.ä..
Aber bis ich ein KI-System soweit verstanden u. konfiguriert habe, dass es die gewünschten Szenen zuverlässig erkennt, denke, wird wohl ein größeres Projekt.

Dachte ja, wenn heutige Apps mit wenigen Klicks alles mögliche in Videos erkennen u. entfernen können, dass es dann auch Desktop-Anwendungen gibt, die ebenso einfach Bewegungsabläufe sichten können - aber ist dann wohl nicht so.

Suche

mit KI-Software Videos durchsuchen lassen ?

Ekki-LM1

Lt. Junior Grade

Tornhoof

Commander

Ayo34

Rear Admiral

Ekki-LM1

Lt. Junior Grade

Touch-Knie

Commander

Tornhoof

Commander

Ekki-LM1

Lt. Junior Grade

Ähnliche Themen