Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder einen alternativen Browser verwenden.
NewsGoogle Lyra: Effizienter Sprachcodec ist jetzt Open Source
Google hat seinen extrem effizienten Sprachcodec „Lyra“, mit dessen Hilfe sich Sprache mit einer Datenrate von gerade einmal 3 kbit/s kodieren lässt, offengelegt und für jedermann als Open Source freigegeben. Der speziell für ARM64-Plattformen optimierte Codec setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen.
Um was für mathemtatische Funktionen geht es hier? Ist die standardmäßig über CMSIS verfügbare arm_math gemeint? Oder kommt man an diese Funktionen aktuell gar nicht dran?
Das Schema deutet wohl auf den Einsatz eines Vector Quantized Variational Autoencoders hin! Sehr schön zu sehen, dass moderne Algorithmen dieser Art in Anwendungen genutzt werden!
Außerdem: "...setzt außerdem auf Künstliche Intelligenz und maschinelles Lernen." Das ist ein bisschen wie nasses Wasser, hm? Na ja, vermutlich kommt die Phrase aus dem Marketing.
Immer wenn es so eine News gibt bin ich ein wenig stolz und gleichzeitig betrübt, dass es wohl auf "Schwiizerdütsch" nicht funktionieren wird. Hat wohl seinen Preis keine Sprache, sondern nur ein Dialekt zu sein.
@ET-Fan Das funktioniert mit allen Sprachen. Sie haben "einfach nur" die Spektogramme (=Frequenzverläufe) von vielen verschiedenen Sprachen und Sprechern berücksichtigt, um eine große Bandbreite an Lauten und Sprachmelodien zu erfassen.
Grundsätzlich geht's darum das Audiosignal so zu komprimieren, dass die fürs Sprachverständnis unwichtigen Bestandteile wegfallen und nur die wichtigen erhalten bleiben. Dein "Schwiizerdütsch" wird hoffentlich genug Ähnlichkeiten mit anderen erfassten Sprachen haben, um genauso "gut" komprimiert und wieder dekomprimiert werden zu können .
Ergänzung ()
Na ja, wenn das Video stehenbleibt, ist es doch schön, wenn wenigstens der Ton weiter verständlich übertragen wird. Und das ist einfacher, wenn er wenig Bandbreite braucht.
3 KBit/s sind schon verdammt wenig. Das wären 1,3 MB pro Stunde.
Ohne bzw. nach Aufbrauchen meines Tarifs falle ich auf 32 KBit/s (bzw 4 KB/s). Da ist Telefonie in WhatsApp schon teilweise grenzwertig, owohl ich die 10-fache Bandbreite habe.
@ErichH. Stimmt, da habe ich wohl zu viel in die News reininterpretiert. Habe irgendwie angenommen, da geht es um Spracherkennung, als ich das mit der Anlernung von 70 Sprachen gelesen habe. Aber ist ja "nur" ein Komprimierungsverfahren.
@Yuuri Sehr interessant, gleich mal gelesen.
LPCNet hat noch eine temporale Komponente mit drin und komprimiert sozusagen inhaltverlaufssensitiv. Ohne dass ich jetzt das Paper zur Google-Implementation gelesen hätte, würde ich denen unterstellen, dass sie ohne temporale Komponente arbeiten, d.h. einfach stur Frequenzpaket für Frequenzpaket komprimieren.
Schön das es OS ist, aber was ist daran besser als die bisherigen Varianten wie z.B:
Codec 2 is a low-bitrate speech audio codec (speech coding) that is patent free and open source.[1] Codec 2 compresses speech using sinusoidal coding, a method specialized for human speech. Bit rates of 3200 to 450 bit/s have been successfully created.
Hör zum ersten mal davon... also böse gesagt ist es eigentlich nur billige positive Werbung für Google denn es gibt schon gleichwertige Lösungen.
Am Ende nur ein weiteres Puzzlestück um jemanden in die Google Abhängigkeit zu bringen. Wie soviele andere gute Google Tools...
Nicht das Google pauschal schlecht ist. Da arbeiten auch nur Menschen aber mittlerweile gehts bei Google nur noch ums Geld, sei es auch nur indirekt. Und wenn es nur ums Geld geht kann man nicht im guten handeln das schließt sich aus so funktioniert unser Wirtschaftssystem.
Die bessere Audioqualität ist zwar toll, aber das Decoding zieht auch mehr am Akku, ein Grund warum ich beim Videocall Google Duo umgehe und lieber Skype nutze
Ist halt ein Tradeoff - Rechenleistung gegen Bandbreite. Ist schlicht situationsabhängig, was von beiden gerade knapper ist und daher geschont werden muss.
Aber das war doch schon immer die Strategie von Google, öffne soviel wie nötig und mache soviel wie möglich "gratis". Ansonsten wären wir heute nicht da wo wir sind. Überall Connections zu Google, Javascript Bibliotheken, Analysetools, Fonts, Betriebsysteme, Browser... bis der Anteil so groß ist das es schwierig ist wieder rauszukommen und man "eingesperrt" ist.
Die Qualität der Referenzschnippsel ist echt erstaunlich, verglichen mit anderen Codecs die bei 3-6kBit/s kaum noch nutzbar sind. LPC10 geht bei 2,4kBit/s noch, aber das ist dann schon sehr roboterhaft.
Nur mal als Vergleich: GSM braucht 13kBit/s in Fullrate als Low-Bandwith
Ich kannte weder Lyra noch LPCNet.
Habe mir von beiden Beispiele angehört und bin beeindruckt.
Leider habe ich noch keinen direkten Vergleich gefunden. Ideal wäre es einmal mit eine sauberen Aufnahmesituation und einmal mit Störgeräuschen.
Hat da schon jemand was gefunden?