Bitget App
Trade smarter
Krypto kaufenMärkteTradenFuturesEarnPlazaMehr
Meta AI stellt omnilinguale ASR vor und verbessert damit die automatische Spracherkennung in mehr als 1,600 Sprachen.

Meta AI stellt omnilinguale ASR vor und verbessert damit die automatische Spracherkennung in mehr als 1,600 Sprachen.

MPOSTMPOST2025/11/12 02:51
Von:MPOST

In Kürze Meta AI hat das Omnilingual ASR-System auf den Markt gebracht, das Spracherkennung für über 1,600 Sprachen bietet, und hat Open-Source-Modelle sowie ein Korpus für 350 unterversorgte Sprachen veröffentlicht.

Forschungsabteilung des Technologieunternehmens Meta, spezialisiert auf KI und Augmented Reality, Meta-KI kündigte die Veröffentlichung des Meta Omnilingual Automatic Speech Recognition (ASR)-Systems an. 

Diese Modellreihe ermöglicht die automatische Spracherkennung für über 1,600 Sprachen und erzielt dabei eine beispiellose Leistungsfähigkeit. Darüber hinaus veröffentlicht Meta AI Omnilingual wav2vec 2.0 als Open Source – ein selbstüberwachtes, massiv mehrsprachiges Sprachrepräsentationsmodell mit 7 Milliarden Parametern, das für vielfältige nachgelagerte Sprachverarbeitungsaufgaben entwickelt wurde.

Neben diesen Tools veröffentlicht die Organisation auch das Omnilingual ASR Corpus, eine kuratierte Sammlung transkribierter Sprachaufnahmen aus 350 unterversorgten Sprachen, die in Zusammenarbeit mit globalen Partnern entwickelt wurde.

Die automatische Spracherkennung hat in den letzten Jahren große Fortschritte gemacht und erreicht für viele weit verbreitete Sprachen nahezu perfekte Genauigkeit. Die Ausweitung auf weniger verbreitete Sprachen stellt jedoch aufgrund des hohen Daten- und Rechenaufwands bestehender KI-Architekturen weiterhin eine Herausforderung dar. Das Omnilingual ASR-System begegnet dieser Einschränkung, indem es den Sprachcodierer wav2vec 2.0 auf 7 Milliarden Parameter skaliert und so aus roher, untranskribierter Sprache reichhaltige mehrsprachige Repräsentationen erzeugt. Zwei Decodervarianten ordnen diese Repräsentationen Zeichen-Tokens zu: eine mittels konnektionistischer temporaler Klassifikation (CTC) und eine weitere mittels eines Transformer-basierten Ansatzes, ähnlich dem in großen Sprachmodellen.

Dieser LLM-inspirierte ASR-Ansatz erzielt eine herausragende Leistung in mehr als 1,600 Sprachen, wobei die Fehlerrate bei 78 % der Sprachen unter 10 liegt, und führt eine flexiblere Methode zum Hinzufügen neuer Sprachen ein. 

Im Gegensatz zu herkömmlichen Systemen, die eine Feinabstimmung durch Experten erfordern, kann Omnilingual ASR eine bisher nicht unterstützte Sprache mit nur wenigen Audio-Text-Paaren integrieren und so die Transkription ohne umfangreiche Daten, spezialisiertes Fachwissen oder Hochleistungsrechner ermöglichen. Obwohl die Ergebnisse von Zero-Shot-Systemen noch nicht mit vollständig trainierten Systemen mithalten können, bietet diese Methode einen skalierbaren Weg, unterversorgte Sprachen in das digitale Ökosystem zu integrieren.

Meta AI wird die Spracherkennung mit einer omnilingualen ASR-Suite und einem Korpus voranbringen 

Die Forschungsabteilung hat eine umfassende Modellsuite und einen Datensatz veröffentlicht, die die Sprachtechnologie für jede Sprache voranbringen sollen. Aufbauend auf früheren Forschungen von FAIR umfasst Omnilingual ASR zwei Decodervarianten: von ressourcenschonenden 300M-Modellen für Geräte mit geringem Stromverbrauch bis hin zu 7B-Modellen mit hoher Genauigkeit für vielfältige Anwendungen. Das universelle Sprachmodell wav2vec 2.0 ist ebenfalls in verschiedenen Größen verfügbar und ermöglicht so ein breites Spektrum an sprachbezogenen Aufgaben jenseits der automatischen Spracherkennung (ASR). Alle Modelle stehen unter der Apache-2.0-Lizenz, der Datensatz unter CC-BY. Dadurch können Forscher, Entwickler und Sprachförderer Sprachlösungen mithilfe des Open-Source-Frameworks fairseq2 von FAIR im PyTorch-Ökosystem anpassen und erweitern.

Omnilingual ASR wird anhand eines der größten und sprachlich vielfältigsten ASR-Korpora trainiert, das jemals zusammengestellt wurde. Es kombiniert öffentlich zugängliche Datensätze mit von der Community erstellten Aufnahmen. Um Sprachen mit geringer digitaler Präsenz zu unterstützen, Meta-KI In Zusammenarbeit mit lokalen Organisationen wurden Muttersprachler in abgelegenen oder unterrepräsentierten Regionen rekrutiert und vergütet. So entstand das Omnilingual ASR Corpus, der bisher größte Datensatz spontaner automatischer Spracherkennung (ASR) mit extrem geringen Ressourcen. Weitere Kooperationen im Rahmen des Language Technology Partner Program brachten Linguisten, Forscher und Sprachgemeinschaften weltweit zusammen, darunter Partnerschaften mit Common Voice der Mozilla Foundation und Lanfrica/NaijaVoices. Diese Bemühungen lieferten tiefgreifende linguistische Erkenntnisse und kulturelle Kontextinformationen und stellten sicher, dass die Technologie den lokalen Bedürfnissen gerecht wird und gleichzeitig vielfältige Sprachgemeinschaften weltweit stärkt.

0

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn
APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.
Jetzt Lockedn!

Das könnte Ihnen auch gefallen

Ethereum im Aufwind: Prognosen für Kursverdopplung und große Investitionen

Zusammenfassung des Artikels Ethereum wird als zukunftsträchtige Kryptowährung angesehen, mit der Möglichkeit eines Kursanstiegs in den nächsten 12 bis 18 Monaten, während gleichzeitig Krypto-Betrug ein ernstes Problem darstellt.

Kryptomagazin2025/11/16 19:57
Ethereum im Aufwind: Prognosen für Kursverdopplung und große Investitionen

Solana im freien Fall: Extreme Angst bei Anlegern trotz institutionellem Interesse

Zusammenfassung des Artikels Trotz eines dramatischen Kursrückgangs bleibt das institutionelle Interesse an Solana stark, während die Unterstützung bei 130 Dollar entscheidend für die zukünftige Entwicklung ist.

Kryptomagazin2025/11/16 19:57
Solana im freien Fall: Extreme Angst bei Anlegern trotz institutionellem Interesse

Cardano: Kursrückgang, Bullrun-Prognosen und starkes Nutzerengagement im Ökosystem

Zusammenfassung des Artikels Cardano zeigt trotz eines Kursrückgangs von 50 Prozent starkes Wachstum im Ökosystem, während die Unterstützung bei 0,51-0,53 US-Dollar entscheidend für eine mögliche Trendwende ist.

Kryptomagazin2025/11/16 19:57
Cardano: Kursrückgang, Bullrun-Prognosen und starkes Nutzerengagement im Ökosystem

Dogecoin zeigt Stabilität: Wale kaufen massiv, Marktanalysen deuten auf Trendwende hin

Zusammenfassung des Artikels Dogecoin zeigt trotz Verkaufswellen von Großinvestoren Stabilität um die 0,16-Dollar-Marke, während Wale massiv DOGE aufstocken und technische Analysen eine mögliche Trendwende andeuten.

Kryptomagazin2025/11/16 19:57
Dogecoin zeigt Stabilität: Wale kaufen massiv, Marktanalysen deuten auf Trendwende hin