Meta: Neues KI-Modell kann rund 100 Sprachen übersetzen

23.8.2023 12:08 Uhr

Mit SeamlessM4T hat Meta ein multimodales KI-Modell veröffentlicht, dass Spracheingaben und Text in annähernd 100 Sprachen übersetzen kann. Die Pläne des Konzerns sind weitgehend, als Vorbild nennt Meta den Babel-Fisch aus Douglas Adams „Per Anhalter durch die Galaxis“ als Vorbild.

Mit dieser Anleihe beschreibt man den Anspruch, einen „universellen“ Übersetzer zu entwickeln, der das Verständigen über mehrere Sprachen hinweg erleichtert. Bereits im letzten Jahr hat Meta ein KI-Modell veröffentlicht, dass 200 Sprachen bei Text-zu-Text-Übersetzungen unterstützt. Das multimodale SeamlessM4T erweitert das System nun um die Audio-Ausgabe.

Die Eingaben sind sowohl per Text als auch per Sprache möglich, dasselbe gilt für die Ausgabe. Das bedeutet: Nutzer können sich einen via Sprache eingegebenen Satz sowohl als Sprache als auch Text ausgeben lassen. Dasselbe gilt für eine Texteingabe.

Meta Seamless M4T: Arten der Übersetzung (Bild: Meta SeamlessM4T)

Bei der automatische Spracherkennung unterstützt es annähernd 100 Sprachen, bei diesen ist auch eine Text-zu-Text-Übersetzung möglich. Begrenzt wird die Auswahl an Sprachen, wenn diese als Audio-Datei ausgegeben werden soll. Das ist noch bei 36 Sprachen möglich.

KI-Modell ist frei verfügbar

Wie schon bei den Llama-Sprachmodellen nutzt Meta einen offenen Ansatz. Veröffentlicht wird SeamlessM4T unter der Creative-Commons-Lizenz CC BY-NC 4.0, für nicht-kommerzielle Zwecke ist es also frei verfügbar. Transparenz verspricht der Konzern auch bei den Trainingsdaten. So werden auch die Metadaten von dem Trainingsdaten bereitgestellt, weitere Details finden sich im Blog-Beitrag sowie in dem von Meta veröffentlichten Paper.

Interessant ist angesichts der aktuelle Copyright-Debatte, wo die Trainingsdaten herstammen. Meta schreibt im Paper, dass vier Millionen Stunden an rohen Audiodaten verwendet wurden, die aus einem öffentlich zugänglichen Archiv stammen, das durch den Einsatz von Web-Crawlern zusammengestellt wurde. Demnach wurde erneut das Web nach entsprechenden Dateien „abgegrast“. Woher die Audiodaten genau stammen, erklärt Meta nicht und wollte es auch auf Anfrage der Nachrichtenagentur Reuters nicht kommentieren.

Abzuwarten bleibt zudem, wie die Qualität der Übersetzungen am Ende ausfällt. Laut Metas Benchmark schneidet SeamlessM4T besser ab als OpenAIs Whisper- und Googles PaLM-2-Modell. Viele weitere Firmen arbeiten aber ebenfalls an Übersetzungstools, zu den führenden Anbietern zählt etwa auch das in Köln ansässige Unternehmen DeepL.

Selbst testen lässt sich Seamless mit einer Demo-Version.