Nvidia Broadcast 2.0 im Test: Die neue KI-Studio-Sprachaufnahme ausprobiert
Parallel zu RTX 50 und neuen Grafiktreibern ist Nvidia Broadcast in Version 2.0 erschienen. Mit von der Partie ist das Beta-Feature Studio-Sprachaufnahme, mit dem Nutzer die Qualität ihres Mikrofons auf das Niveau eines High-End-Tonstudios anheben können sollen. ComputerBase hat die neue Funktion ausprobiert.
Nvidia Broadcast 2.0
Zeitgleich zum Marktstart von GeForce RTX 5090 (Test) und RTX 5080 (Test) hat Nvidia neue Grafiktreiber veröffentlicht, die mit Smooth Motion unter anderem ein Pendant zu AMDs AFMF im Treiber bieten. Aber auch beim übrigen RTX-Ökosystem hat sich etwas getan, beispielsweise bei Nvidia Broadcast. Die im Jahr 2020 als RTX Voice veröffentlichte App bietet seitdem hauptsächlich eine KI-gestützte Rausch- und Raumhall-Unterdrückung für Sprachaufnahmen und die Sprachwiedergabe. Mit Broadcast 2.0 will Nvidia Aufnahmen jetzt nicht nur bereinigen, sondern in der Qualität deutlich anheben können – und zwar auf Tonstudio-Niveau, sagt der Entwickler.
Wenig überraschend kommt auch dafür ein KI-Modell zum Einsatz, das ordentlich Leistung benötige: Nvidia empfiehlt die Studio-Sprachaufnahme erst ab einer GeForce RTX 5080, nachdem zwischenzeitlich auch die RTX 4080 genannt wurde. Tatsächlich lässt sich die Funktion aber auch auf älteren respektive schwächeren GeForce-RTX-Grafikkarten aktivieren; die Redaktion konnte das mit einer RTX 3080 nachvollziehen.
Aktuell ist die Studio-Sprachaufnahme als Beta-Version verfügbar. Der Hersteller spricht pauschal davon, dass die Funktion die Mikrofonqualität der Anwender auf das Niveau eines High-End-Aufnahmegerätes anheben könne und damit ein professionelles Tonstudio simuliert werde. Aufgrund des Leistungsbedarfs sei die Funktion aber weder für den Sprachchat in Spielen noch parallel zu anderen Anwendungen mit hohem GPU-Anforderungen geeignet, sondern primär für Chatting-Streams oder Podcast-Aufnahmen. Für andere Szenarien stehen weiterhin die klassischen RTX-Broadcast-Funktionen zur Geräusch- und Raumecho-Unterdrückung zur Verfügung.
Studio-Sprachaufnahme im Test
Wie klingt das neue Feature also, wie viel Leistung benötigt es tatsächlich und kann Nvidia die versprochene Qualität – auch auf günstigen Mikrofonen – wirklich bieten? ComputerBase hat die Beta der Studio-Sprachaufnahme ausprobiert. Zum Einsatz kam dabei zunächst ein AM4-System mit GeForce RTX 4080, an dem als Mikrofon ein Røde NT-USB angeschlossen ist. Hörer des ComputerBase-Podcasts CB-Funk sind mit dem Tonprofil der resultierenden Aufnahmen bestens vertraut: Nativ klingen Aufnahmen eben genau so, wie Fabian auch im Podcast klingt.
Die Studio-Sprachaufnahme kann die Stimme verändern
Daher beginnt die nachfolgende erste Test-Aufnahme auch nativ, denn mit der Studio-Sprachaufnahme ändert sich das Stimmprofil merklich. Mit dem ersten Wechsel zum neuen Beta-Feature nach rund 40 Sekunden klingt Fabian dann plötzlich ganz anders. Ob besser oder schlechter, sei erst einmal dahingestellt, ein Effekt ist aber nicht von der Hand zu weisen. Die Stimmlage wird einerseits tiefer und wärmer, klingt andererseits in einem ersten Eindruck aber auch ein wenig generisch und – große Überraschung – teilweise wie von generativer KI erzeugt. Aufgefallen ist auch, dass die Lautstärke generell höher ausfällt und zischende, scharfe Höhen geglättet werden.
Die höhere Lautstärke lässt sich teilweise dadurch erklären, dass Broadcast 2.0 den unter Windows konfigurierten Pegel des Mikrofons beim Start der Studio-Sprachaufnahme auf 100 Prozent überschreibt. Wird das Feature beendet, fällt auch der Pegel wieder auf das zuvor festgelegte Niveau. Etwaige Probleme eines zu hohen Mikrofon-Pegels sind bei eingeschalteter Studio-Sprachaufnahme indes nicht aufgefallen; die Funktion bügelt ein Übersteuern oder Rauschen zuverlässig glatt.
Anzumerken ist, dass die beiden bekannten Nvidia-Broadcast-Features Geräusch- und Raumecho-Unterdrückung beim Einsatz der Studio-Sprachaufnahme nicht mehr manuell aktiviert werden können. Es ist davon auszugehen, dass beides in diesem Fall ohnehin im Hintergrund aktiv ist oder aber von dem neuen KI-Modell gleich mit übernommen wird, denn die Funktion beider Effekte ist gegeben.
Wie viel GPU-Leistung benötigt die Studio-Sprachaufnahme?
Und all das kostet sicherlich sehr viel Leistung, wo Nvidia doch idealerweise eine GeForce RTX 5080 empfiehlt? Ja und nein: Die GPU wird tatsächlich gefordert, eine RTX 5080 muss es aber nicht sein. Im Testsystem lag nach dem Einschalten der Studio-Sprachaufnahme, was übrigens ein paar Sekunden dauert und die Audioeingabe währenddessen arg verzerrt, sofort der Boost-Takt der GeForce RTX 4080 an: Aus 210 MHz „Idle“-Takt auf dem Desktop wurden grob 2,8 GHz. Während der Aufnahme schwankte der Takt dann schließlich meist zwischen 1.200 und 1.800 MHz.
Die Ursache ist eine nicht zu vernachlässigende Auslastung der GPU, die gemäß Task-Manager bei rund 60 Prozent und gemäß GPU-Z bei rund 40 Prozent liegt. Der VRAM-Bedarf stieg im Vergleich zum Leerlauf auf dem Desktop mit einigen geöffneten Fenstern um rund 1 GB auf ungefähr 2,5 GB. In der Konsequenz steigt selbstredend auch die Leistungsaufnahme der Grafikkarte. Mit zwei UHD-Bildschirmen, einmal 144 Hz und einmal 60 Hz, liegt diese laut Telemetrie üblicherweise bei 10 bis 20 Watt, bei eingeschalteter Studio-Sprachaufnahme wurden daraus 70 bis 90 Watt – auch, wenn gerade gar nichts gesagt wird. Passiv lässt sich diese Abwärme nur noch bei ausreichend dimensionierten GPU-Kühlern abführen.
Nativ und Studio-Sprachaufnahme im direkten Vergleich
Für einen direkten Vergleich der nativen Stimme respektive Mikrofonausgabe sowie der von Nvidias Studio-Sprachaufnahme manipulierten Tonspur wurden zweimal die gleichen Zeilen vorgelesen, erneut mit dem Røde NT-USB.
Der Effekt der KI-Aufbereitung ist wenig verwunderlich ähnlich.
Tests mit anderen Mikrofonen
Aber wie sieht es aus, wenn andere Mikrofonen und Stimmen ausprobiert werden? Das Røde NT-USB hat einen UVP von rund 150 Euro, aber Nvidia setzt keine spezifische Mikrofon-Qualität voraus, was ist also mit günstigeren Mikrofonen?
Gleiches Setup, kleineres Mikrofon
Das hat die Redaktion zunächst mit einem deutlich kleineren Lavalier-Mikrofon an sonst unverändertem Setup und mit gleichem Sprecher getestet. Details zum Mikrofon lassen sich an dieser Stelle nicht mehr finden, es handelt sich um ein inzwischen nicht mehr verfügbares Modell eines chinesischen Herstellers, das vor einigen Jahren auf Amazon für unter 20 Euro erworben wurde. Umso interessanter die Frage, wie die Studio-Sprachaufnahme mit dieser Eingangsqualität zurechtkommt.
Anders, so die knappe Antwort. Der Effekt des KI-Modells auf die Stimmlage- und Charakteristik fällt deutlich kleiner aus. Stellenweise klingt die manipulierte Aufnahme dumpf und in den Höhen reduziert, mitunter aber auch deutlicher verständlich. Das Resultat legt aber nahe, dass die Studio-Sprachaufnahme einen gewissen Spielraum beim Input benötigt, um eine Ausgabe-Tonspur modellieren zu können, die sich bei der Qualität merklich abheben kann.
Andere Stimme und RTX-30-GPU
In einem letzten Test wurden gleich alle Parameter geändert: Als Grafikkarte übernimmt die GeForce RTX 3080, die laut Nvidias Empfehlung zu wenig Leistung für die Studio-Sprachaufnahme mitbringt. Eingesprochen wurde derselbe Text mit anderer Stimme am Endgame Gear XSTRM. Gemäß UVP kostet das Mikrofon analog zum Røde NT-USB rund 150 Euro, kann diesen Preis im freien Handel aber keineswegs halten. Tatsächlich ist das XSTRM schon lange für rund 90 Euro und derzeit ab rund 45 Euro verfügbar, sodass es preislich zwischen den beiden bisher getesteten Modellen liegt.
Dementsprechend passt es auch ins Bild, dass das Ergebnis mit Studio-Sprachaufnahme zwischen den beiden vorherigen Mikrofonen liegt, allerdings deutlich näher am günstigen Lavalier-Mikrofon. Das neue Feature glättet scharfe Töne und insbesondere die Höhen merklich. So merklich, dass die resultierende Tonspur ein wenig dumpf klingt. Außerdem wurde der Hall reduziert und die Stimme wirkt wie beim Røde NT-USB wärmer und verändert, wenngleich nicht ganz so deutlich.
Ein erstes Fazit zur Beta
Die Beta-Version der neuen Studio-Sprachaufnahme in Nvidia Broadcast 2.0 macht etwas – auch auf GeForce RTX 40 und älteren RTX-Grafikkarten, ohne diese völlig zu überfordern. Die Ergebnisse bei mehreren Testaufnahmen mit verschiedenen Mikrofonen und Sprechern fallen allerdings durchwachsen aus; Änderungen bei der Tonqualität sind mitunter subjektiv und nicht pauschal ein Gewinn. Deutlich wurde, dass die Studio-Sprachaufnahme nicht bei jedem Mikrofon den gleichen Effekt hat, tendenziell bieten bessere und damit zumeist teurere Modelle mehr Spielraum.
Prinzipiell ist die Studio-Sprachaufnahme damit von den Anforderungen und der Zielsetzung der jeweiligen Nutzer abhängig. Für den Sprachchat in Spielen und das Streaming von Live-Gameplay eignet sich das Feature aufgrund der GPU-Last nicht, wie Nvidia zurecht betont. In anderen Szenarien kann es derweil störend sein, dass sich die Stimme der Sprecher je nach Mikrofon und Stimmlage arg verändern kann. Das ist ein potenzieller Nachteil, wenn ein vorhandenes Publikum die eigene Stimme bereits gewohnt ist, trifft aber selbstredend nicht auf jedes Szenario zu.
-
Das hört sich super an, der Anstieg bei der Qualität ist eindeutig.
-
Na ja, durchwachsen würde ich sagen. Mal hört es sich besser an, mal auch nicht.
-
Meiner Meinung nach hört sich das gar nicht besser an, nur anders.
-
Was, das soll sich nach einer Studio-Aufnahme anhören? Ich find' die Qualität mit der Funktion schlechter als ohne.
In Summe wird deutlich, wo Nvidia mit der Studio-Sprachaufnahme hin will: Tonaufnahmen sollen dank Machine Learning wärmer, voller und vor Allem angenehm wirken – so als wären sie unter kontrollierten Umgebungsbedingungen mit einem hochwertigen Großmembran-Kondensatormikrofon in einem akustisch optimiertem Raum aufgenommen worden. Allerdings neigt die Studio-Sprachaufnahme dazu, Stimmen generisch und anders wirken zu lassen. Mitunter kann es so wirken, als sei nicht nur das Mikrofon, sondern gleich der Sprecher ausgetauscht worden. Eine stärkere Nähe zur Charakteristik und Stimmlage der nativen Tonspur steht insofern weit oben auf der Wunschliste für die weitere Entwicklung des Beta-Features.
Dieser Artikel war interessant, hilfreich oder beides? Die Redaktion freut sich über jede Unterstützung durch ComputerBase Pro und deaktivierte Werbeblocker. Mehr zum Thema Anzeigen auf ComputerBase.
Downloads
-
Nvidia Broadcast Download
4,3 SterneNvidia Broadcast soll die Audio- und Videoqualität eigener Aufnahmen mit Nvidia-RTX-Karten verbessern.
- Version 2.0.0