Maxine: Nvidia optimiert mit KI Videokonferenzen in der Cloud
Die Anzahl der Videokonferenzen über das Internet statt echten Meetings im Büro ist vor allem in Zeiten der COVID-19-Pandemie gestiegen. Anbietern entsprechender Lösungen bietet Nvidia mit Maxine nun eine Plattform an, die die Qualität von Videokonferenzen steigern und gleichzeitig den Traffic beim Streaming reduzieren soll.
Nvidia bezeichnet Maxine als Video-KI-Plattform für Internet Service Provider und Anbieter von Software für Videokonferenzen. Prominente Beispiele dafür sind unter anderem Microsoft Skype und Teams, Cisco WebEx oder Zoom. Etwa 30 Millionen Videokonferenzen werden laut Nvidia aktuell täglich über das Internet abgewickelt. Deren Qualität und Bandbreitenbedarf will Nvidia mit Maxine optimieren.
Alle Berechnungen von Maxine finden ausschließlich in der Cloud statt, sodass beim Nutzer der Software keine spezielle Hardware benötigt oder zusätzliche Rechenleistung belegt wird. In Maxine führt Nvidia Errungenschaften der Entwicklung in den Bereichen Video, Audio und Konversationen zusammen.
Ein Zehntel des Traffics bei H.264
Maxine soll die für Videokonferenzen benötigte Bandbreite bei der Nutzung von H.264 auf ein Zehntel der aktuell benötigten Bandbreite reduzieren. Anstatt die vollständige Aufnahme eines Teilnehmers der Videokonferenz zu übertragen, werden bei Maxine ausschließlich die wichtigsten Punkte des Gesichts ermittelt und dessen Animation über KI in der Cloud für die Ausgabe bei den anderen Teilnehmern nachgestellt. Diese KI-basierte Nachbildung und damit Kompression läuft in der Cloud auf GPUs von Nvidia und soll die Kosten für Anbieter reduzieren und parallel für eine flüssigere Wiedergabe sorgen, da weniger Daten für das Streaming anfallen.
Maxine optimiert, verändert und ersetzt
Darüber hinaus nutzt Nvidia Maxine, um Veränderungen am Original der Videoaufnahme einer Webcam vorzunehmen. Aufgrund der Positionierung der Webcam im Notebook, Desktop-PC, Smartphone oder Tablet kommt es häufig dazu, dass Anwender nicht in die Kamera, sondern auf den Bildschirm schauen. Mit Maxine kann Nvidia Gesichter so ausrichten, als würde diese sich in einem echten Gespräch gegenüberstehen. Parallel dazu passt Maxine die Blickrichtung der Augen an, auch wenn diese nicht auf einer Linie mit der Kamera liegt. Diese Anpassung, allerdings nicht von Nvidia entwickelt, kommt bereits bei FaceTime von Apple zum Einsatz. Darüber hinaus kann Maxine das Bildrauschen entfernen und mit Super Resolution die Qualität steigern.
Entwickler können Maxine aber auch dafür nutzen, um den Kopf eines Teilnehmers vollständig durch ein animiertes Avatar zu ersetzen, dessen Animationen in Echtzeit von den Mundbewegungen und Emotionen in der Tonlage beeinflusst werden. Eine Auto-Framing-Option kann dafür sorgen, dass die Kamera im physisch vorhandenen Sichtfeld dem Nutzer folgt.
Assistenten nehmen an Konferenz teil
Die Cloud-Plattform lässt sich über das Jarvis SDK von Nvidia auch um digitale Assistenten ergänzen. So könnte etwa der Google Assistant oder eine vergleichbare Lösungen im Hintergrund an einer Konferenz teilnehmen und auf Befehle der Anwender warten. Während einer Videokonferenz ließen sich so Notizen in der Cloud anlegen, Fragen an den Assistenten stellen oder Übersetzungen fremdsprachiger Teilnehmer durchführen.
Computer-Vision-KI-Entwickler, Software-Partner, Startups sowie App-Anbieter können sich ab sofort für ein Early-Access-Programm von Maxine bei Nvidia bewerben.
ComputerBase hat Informationen zu diesem Artikel von Nvidia unter NDA erhalten. Die einzige Vorgabe war der frühest mögliche Veröffentlichungszeitpunkt.