Drakonomikon schrieb:
verstehen wie dieser Filter im Detail arbeitet.
Es ist ein Neuronales Netzwek, trainiert mit menschlicher Stimme. Damit wird dann der Audio Stream analysiert und alles rausgeworfen, was nicht nach menschlicher Stimme aussieht.
Insgesamt handelt sich eigentlich "einfach" nur um Mustererkennung. Eine ganz simple Form der Mustererkennung ist z.B. das Anti Aliasing. Bei simplen Anti Aliasing Verfahren werden dabei einfach die Farbwerte von umliegenden Pixeln verglichen, und wenn ein bestimmtes Muster gefunden wird, werden ein paar Farbwerte abgeändert, sodass der Treppeneffekt verschwindet.
Das Interessante an Neuronalen Netzwerken ist nun aber, dass man hochkomplexe Muster verwenden kann. Und die Erkennung auch funktioniert, wenn man völlig neue und unbekannte Daten analysieren lässt. Das wird dann auch gerne als "KI" bezeichnet. Funktioniert dann genau so wie die menschliche Intelligenz: Du kannst eine Katze als Katze identifizieren, obwohl du genau diese Katze noch nie zuvor gesehen hast. Aber das Neuronale Netzwerk in deinem Kopf kennt andere Katzen und kann sich daraus ein Muster für Katzen zusammenreimen, und wenn du was auf der Straße siehst, das diesem Muster genügend ähnelt, dann weißt du: Aha! Eine Katze!
Das Ergebnis einer solchen Mustererkennung wird in der Regel mit einer Wahrscheinlichkeit angegeben und es können auch mehrere Ergebnisse rauskommen, wie z.B. Objekt trifft zu 95% eine Katze zu und zu 33% auf einen Hund. Dann liegt es natürlich bei den Software Entwicklern diese Daten sinnvoll weiterzuverarbeiten, z.B. kann man sagen, dass man Ergebnisse erst ab 99,9% akzeptiert, oder bei mehreren Ergebnissen einfach das mit der höchsten Wahrscheinlichkeit nimmt.
Es können natürlich auch mehrere Objekte in einem Bild erkannt werden. Und das Neuronale Netz kann dir auch zeigen wo genau sie das Objekt gefunden hat.
Und genau das passiert auch beim Filtern von Audio Streams. Es werden halt keine Bilder analysiert, sondern Audio Samples. Aber im Endeffekt macht das keinen Unterschied: Man sucht bekannte Muster in einem Datenhaufen.
Bei RTX Voice wird nach menschlicher Stimme gesucht, und alles was überhaupt nicht erkannt wurde oder mit einer sehr geringen Übereinstimmung wird aus dem Audio Stream entfernt.
Wenn du genauer wissen willst, wie so ein Neuronales Netz arbeitet, such einfach bei der Suchmaschine deiner Wahl nach "neuronales netz funktionsweise" oder "mustererkennung".