Test Nvidia Broadcast 2.0 im Test: Die neue KI-Studio-Sprachaufnahme ausprobiert

Für bessere Vergleichbarkeit hätte ich aber eigentlich erwartet, dass ihr nur eine Tonspur aufnehmt und die virtuell an Broadcast verfüttert.
So kann es leicht passieren, dass beim zweiten Einsprechen Betonung oder Geschwindigkeit schon im Input verändert sind.
 
Hab's mit der schlimmsten Aufnahme mit meinen (vertretbaren) Mitteln versucht. Dat is schon ne Scheisse. Hat auch 50% eines Kerns bei mir gekostet, und trotzdem macht das keinen Spass. (Für ein Beispiel für den Anstecker, siehe Post #60)

Opus 64kbit/Kanal, 300 kByte

So lange man das Mikro in die Nähe und auf den Sauerstoffverbrenner richten kann, ist schon viel gewonnen.
Ergänzung ()

Wollte noch hinzufügen, im professionellen Bereich der Postproduktion legen wahrscheinlich alle von uns Dialogmischern sehr grossen Wert auf die Unverfälschtheit des grundlegenden Charakters der Stimme.

Es gibt Tools wie dxRevive Pro, die eine Stimme zum Teil resynthetisieren können. Allerdings hat das Tool auch die Möglichkeit den grundlegenden Klang der Stimme völlig unagetastet zu lassen, was für am Set aufgenommenden Ton die häufigste Wahl ist.

Falls Nvidia den Grundcharakter der Stimme unangetastet lassen kann, würde ich das auch für Liveanwendungen in Betracht ziehen, sowie für Postproduktion.

Frage an die Redaktion: Wie sieht es für NVidia Broadcast v2 eigentlich mit der Latenz aus ?
 

Anhänge

Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Der Nachbar
Also beim Rode gefällt mir die Aufnahme mit aktivem Broadcast viel, viel besser. Sie klingt normal viel zu (sorry) nass für meine Ohren und ich könnte mir das keine 2 Minuten anhören.
Mit dem Ansteckmikrofon sehe ich es anders. Klingt beides eher meh, aber sehr undeutlich mit Broadcast, da würde ich es ausgeschaltet lassen.

Mich interessiert aber
Als Grafikkarte übernimmt die GeForce RTX 3080, die laut Nvidias Empfehlung zu wenig Leistung für die Studio-Sprachaufnahme mitbringt.
Der Part im Beitrag, wo habt ihr die Empfehlungen gefunden? Auf der Webseite sehe ich nichts davon, dass die 3080 nicht ausreicht. Oder habt ihr das in Broadcast aus dem
"Erfordert High-End-GPU. Nicht für die Verwendung mit Spielen oder GPU-intensiven Apps empfohlen."
- Part geschlussfolgert? Bei mir, mit der 3090, kommt beim Aktivieren der Studio-Sprachaufnahme auch keine Meldung oder ähnlich.

Selbst nutze ich das Augenkontakt-Feature schon seit es verfügbar ist und finde es top. Auch das Keylight nutze ich jetzt und bin sehr, sehr zufrieden damit. Da die wirklich furchtbar schlechte Logitech G Hub Software mal wieder mein Blue Yeti X nicht erkennt, werde ich die Tage mal mit den Mikroeinstellungen von Broadcast rumprobieren, ob sich das bei mir auch so gut anhört, wie mit dem Rode aus der Redaktion :D


Edit: Hab die Studio-Sprachaufnahme mal im Nvidia Broadcast mit der Kombination aus RTX 3090 und Blue Yeti X ausprobiert. Es verändert sich mehr oder weniger gar nichts vom Klang her. Die VRAM-Auslastung geht von 1,4 GB im Idle auf 2,7 GB hoch mit der Option, irgendwas wird also geladen, aber von den 1,5 GB Auslastung auf der 5080 aus dem Beitrag bin ich noch etwas weg. Der Takt schwankt auch massiv, wie auch die Leistungsaufnahme, die sich bei mir einfach um 90W erhöht. Das ist ordentlich für so wenig Effekt, bei mir bleibt die Funktion aus :)
1738619112145.png
 
Zuletzt bearbeitet:
Die überarbeitete Aufnahme von einem Cleanen Signal klingt einen Tick "sauberer"... Zischlaute oder Schmatzen werden unterdrückt. Das war es dann aber auch. Dafür wird das Timbre der Stimme total verändert. Das geht gar nicht. Zudem verliert die Aufnahme an Charakter.

Und bei dem Extremfall versagt das Feature natürlich vollkommen. Bestenfalls ist das ganze also noch mit einem Auge zugedrückt als "Anders, aber nicht besser/schlechter" zu bezeichnen, mit Tendenz zu "schlechter".

Der Einsatzzweck will mir dann auch nicht so recht einfallen, da es ja wie gesagt mit dem Extremszenario so gar nicht mehr zurecht kommt. Und dann bleibt auch noch die hohe GPU-Last. Die "NoiseClean-out" Funktion meines Audio Interface zusammen mit einer kleinen EQ-Anpassung für das Mikro machen das ganze deutlich besser und ohne (mehrklich) Last auf GPU oder CPU zu erzeugen... Zusammen mit einem dezent eingestellten Noise Gate ist das eigentlich alles, was man braucht.
 
  • Gefällt mir
Reaktionen: CadillacFan77
Wieso sind die Leistungsanforderungen so hoch? Und wieso brauche ich dafür KI? Man kann ja auch anderweitig die Stimme anders klingen lassen. Dafür gibt es viel bessere Tools die man nutzen kann. Aber der Trend geht zur großen Heizung/PC.
 
Finde die Ergebnisse sehr sehr ernüchternd.

Zwar nicht live, aber mit Ergebnissen die wirklich einen baff machen... Adobe Speech Enchance V2

Da kann der Eingang wirklich grottenschlecht klingen und der haut dir eine wirklich brauchbare Tonqualität raus.
 
Ganz ohne überteuerte RTX und mit wesentlich besserem Ergebnis kann das Adobe Podcast übrigens schon länger. Was Nvidia da ausspuckt ist ja wirklich katastrophal schlecht - die Stimmen werden komplett verfremdet.
 
  • Gefällt mir
Reaktionen: Wintermute
S.Kara schrieb:
Mich würde eher interessieren wie es sich anhört wenn es Störgeräusche gibt, z.B:
  • TV im Hintergrund
  • Staubsauger nebenann
  • Baustelle draußen
  • Ventilator auf dem Tisch
  • Tippgeräusche (nebenbei Text auf Tastatur schreiben)
  • Stuhl knarrt und quietscht wenn sich der Sprecher bewegt

Die von dir genannten Störgeräusche werden bei mir, mit einem Elgato Wave:3, zu 99% rausgefiltert. Raumecho-Unterdrückung funktioniert ebenfalls tadellos. Zusätzlich nutze ich noch den Blur Effekt (kann von der Intensität her angepasst werden) und die Rauschunterdrückung bei der Webcam.

Alles in allem nutze ich NV Broadcast aber für die obengenannten Zwecke beruflich sehr gerne.

Der Stromverbrauch hält sich dann auch in Grenzen 😉 Bei Aktivierung der Studio-Sprachaufnahme schaut das natürlich anders aus.
 
  • Gefällt mir
Reaktionen: S.Kara und Wintermute
Zurück
Oben