News Meta: Neues KI-Modell kann rund 100 Sprachen übersetzen

Andy

Tagträumer
Teammitglied
Registriert
Mai 2003
Beiträge
7.909
Mit SeamlessM4T hat Meta ein multimodales KI-Modell veröffentlicht, dass Spracheingaben und Text in annähernd 100 Sprachen übersetzen kann. Die Pläne des Konzerns sind weitgehend, als Vorbild nennt Meta den Babel-Fisch aus Douglas Adams „Per Anhalter durch die Galaxis“ als Vorbild.

Zur News: Meta: Neues KI-Modell kann rund 100 Sprachen übersetzen
 
  • Gefällt mir
Reaktionen: N3utr4l1s4t0r, -Stealth-, netzgestaltung und eine weitere Person
Die englische Stimme klingt viel natürlicher als die deutsche. Ansonsten funktioniert es bei mir schon echt gut. Bin gespannt, wann es hinter der Paywall verschwindet.
 
Ok .. und wo ist jetzt der große Durchbruch ? Das schafft mein Pixel 7 auch schon.... das Pixel 6 konnte es schon letztes Jahr .... und die Anzahl Sprachen nimmt immer weiter zu.
BTW braucht man nichtmal ein Pixel dazu, gibt ja auch die App für andere Geräte die dann nur nicht komplet lokal läuft ....
 
NatokWa schrieb:
Ok .. und wo ist jetzt der große Durchbruch ? Das schafft
ok, wo steht was von "großem Durchbruch"
 
  • Gefällt mir
Reaktionen: manchae und Kazuja
Ich frage mich ob grosse Spielentwickler da auch ein Auge drauf haben?
Während der Entwicklung zb. "OnTheFly" zu lokalisieren und nur noch zu überprüfen dürfte doch interessant sein ( und Kosten sparen). Gerade für textlastige Spiele könnte das noch interessant werden. huhu Nippon Ichi
 
Kraeuterbutter schrieb:
ok, wo steht was von "großem Durchbruch"
Naja, ist irgenwie schon einer.
Das ist deutlich simpler, als bisherige vergleichbare Systeme.
  • Es kann zwischen allen unterstuetzten Sprachen bidirektional übersetzen
  • Automatische Spracherkennung
  • Multimodal (deckt alle derzeit in dem Feld relevanten uebersetzungsmodi ab)
  • GAN zur Sprachsynthese

Das ist schon extrem beeindruckend, dass in einem einzigen Modell zu vereinen
 
  • Gefällt mir
Reaktionen: stevefrogs, Xiaolong, MalWiederIch und 2 andere
ist es... beeindruckend


die "Anklage" war aber: "wo ist der große Durchbruch"
und davon stand ansich nichts im Artikel. Warum also vorwerfen, dass es kein Druchbruch wäre?
 
  • Gefällt mir
Reaktionen: manchae, DNS81 und madmax2010
Ich hab gut und deutlich "Guten Tag" gesagt, heraus kam:

Language: English
Put on your coat.

Language: German
Hüttentag

Naja
 
Wie gut die Übersetzter sind zeigen Wörter die es in anderen Sprachen nicht gibt.
Im Englischen gibt es kein z.B.: Sinngemäßes Wort für Kummerspeck
Die Amerikaner verwenden auch gerne das Wort "Watschengesicht" als Schimpfwort
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: wuselsurfer
Was steht eigentlich bei Youtube in den AGB?? Ich könnte mir vorstellen Google würde beim training einfach auf YT zugreifen und sie haben dann mal eben "ein paar Stunden" Material :evillol:
Wenn das mal fertig ist sicher super auf Reisen. Der Babelfisch ist dann ein Ohrstöpsel mit Micro, Kopfhörer und Lautsprecher.
 
Also seit ich GTP-4 für Übersetzungen von und nach Japanisch nutze, staubt mein DeepL Account fast schon ein. Wenn die nicht ebenfalls an einem LLM Upgrade arbeiten, dann haben die auf jeden Fall das nachsehen.
Ergänzung ()

Haldi schrieb:
Und wie kriegt man das Lokal zum laufen?

Gibt mehrere Wege. Erstmal musst du dir das Model besorgen, (https://github.com/facebookresearch/seamless_communication). Dann kannst du etwas wie text-generation-webui nutzen (https://github.com/oobabooga/text-generation-webui). Ist der gleiche Ansatz wie Stable Diffusion. Die installation ist dort gut beschrieben.

Letztendlich brauchst du relativ potente hardware. Je nachdem wie viele parameter das Modell hat. Also 3B, 7B oder 13B (Billion Parameters) musst du entsprechend viel VRAM haben. Die Regel hier ist: Wieviel VRAM brauche ich? Antwort: "Ja."
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: Haldi
Jakxx schrieb:
Die Regel hier ist: Wieviel VRAM brauche ich? Antwort: "Ja."
Wie der Witz mit der guten Fee:

Gute Fee an Programmierer: "Du hast einen Wunsch frei!"
Programmierer: "Ich hätte gern einen RAM, der nie voll wird."
Gute Fee: " Hast Du. Du hast noch einen Wunsch frei!"
Programmierer: "Noch mehr Speicher."
 
Jakxx schrieb:
Letztendlich brauchst du relativ potente hardware. Je nachdem wie viele parameter das Modell hat. Also 3B, 7B oder 13B (Billion Parameters) musst du entsprechend viel VRAM haben. Die Regel hier ist: Wieviel VRAM brauche ich? Antwort: "Ja."

Gibt bisher wohl nur zwei Größen, 2.3B (SeamlessM4T-Large) und 1.2B (SeamlessM4T-Medium).

Was den VRAM-Verbrauch angeht: Ich habe ein wenig mit dem 2.3B-Model herumgespielt. Obwohl der Download knapp 10GB groß war, hat er dann beim Übersetzen nur ~6GB VRAM belegt. Ich hab's aber auch nur mit kleineren Texten gefüttert ...
 
Jakxx schrieb:
Also seit ich GTP-4 für Übersetzungen von und nach Japanisch nutze, staubt mein DeepL Account fast schon ein. Wenn die nicht ebenfalls an einem LLM Upgrade arbeiten, dann haben die auf jeden Fall das nachsehen.
Dito, seitdem DeepL so "richtig" Reichweite erhalten hat ist es meiner Meinung nach deutlich schlechter. Wo ich vorher die Texte zu 95% so übernehmen konnte wie vorgeschlagen kommt seit einiger Zeit so ein Schmarn raus, dass ich schneller bin das selber zu tippen anstatt DeepL zu korrigieren. GPT-4 funktioniert da deutlich besser :)
 
Dann darfst du nicht unsere Kaffeemaschinen bei der Arbeit sehen... Die "KI" darin besteht, dass di am öftesten angewählten Kaffees in der Liste weiter oben stehen, das ist nichtmal ein Bot, das ist bestenfalls etwas was einem Sortieralgorithmus nahe kommt... Aber auf der Verpackung und außen draufschreiben "Mit KI Funktion"....
 
  • Gefällt mir
Reaktionen: -Stealth-
Zurück
Oben