Mark Zuckerberg, CEO de Meta, dijo que la compañía habilitó el proyecto Massively Multilingual Speech (MMS, por sus siglas en inglés), capaz de identificar más de 4 mil idiomas que se hablan en la actualidad.
Zuckerberg también indicó que MMS amplía la tecnología de voz (voz a texto y texto a voz) y puede generar voces artificiales, así como la conversión de textos con los caracteres correctos según la gramática de cada idioma.
De acuerdo con la compañía, este nuevo modelo de IA con sus códigos se compartirá con otros investigadores para que puedan utilizarlos como referencia, así como una pequeña contribución para preservar la increíble diversidad lingüística del mundo.
“Hoy abrimos otro nuevo modelo de IA que llamamos Massively Multilingual Speech. Puede identificar más de 4 mil idiomas hablados y facilitará a las personas conectarse y acceder a la información en su idioma”, publicó Zuckerberg en su perfil de Facebook.
Según la compañía, el proyecto Massively Multilingual Speech (MMS) es en la actualidad uno de los modelos de reconocimiento de voz con más opciones de idiomas. El MMS utiliza algoritmos y técnicas de procesamiento de señales de audio con los que interpreta y transcribe las palabras habladas al idioma que el usuario seleccione y se lo facilita en un formato sencillo.
“En el proyecto MMS superamos algunos desafíos… Nuestros resultados demuestran que MMS se desempeña bien en comparación con los modelos actuales y cubren 10 veces más idiomas. Meta se centra en el multilingüismo en general y el proyecto amplía la tecnología de voz a muchos más idiomas”, agregó la compañía.
De acuerdo con el informe oficial de Meta, el primer desafío de MMS fue la recopilación de datos de audio de miles de idiomas debido a que la mayoría de los conjuntos de datos de voz en la actualidad como mucho, 100 idiomas.
“Para superar todos los obstáculos recurrimos a textos religiosos, como la Biblia, que se tradujeron a muchos idiomas distintos y cuyas traducciones se estudiaron en profundidad para investigar la traducción de textos lingüísticos”, indicó Meta debido a que esas traducciones cuentan con grabaciones de audio, a disposición del público, de personas leyendo estos textos en diferentes idiomas.
“Como parte de este proyecto, creamos un conjunto de datos de lecturas del Nuevo Testamento en más de mil cien idiomas, lo que proporcionó un promedio de 32 horas de datos por idioma”, agregó la compañía.
New work! The Massively Multilingual Speech (MMS) project scales speech technology to 1,100-4,000 languages using self-supervised learning with wav2vec 2.0.
Paper: https://t.co/C4Uhk4Q4m5
Blog: https://t.co/XXBQFcj086
Code/models: https://t.co/6mOhKPXy1X pic.twitter.com/cBAD1Z8kB8— Michael Auli (@MichaelAuli) May 22, 2023
Los resultados
Según Meta, muchos idiomas del mundo están en peligro de desaparecer y las limitaciones de las tecnologías actuales de reconocimiento y generación de voz solo acelerarán esta tendencia. “Nuestra visión es un mundo en el que la tecnología tenga el efecto contrario, que anime a las personas a preservar sus idiomas a raíz de poder acceder a la información y utilizar la tecnología en su idioma de preferencia”, indicó la compañía.
De acuerdo con el informe oficial, el proyecto MMS representa un importante avance y la compañía desea que, en el futuro, se aumente la cantidad de idiomas y afrontar el desafío de algunos que se hablan en regiones específicas. “Nuestro objetivo es facilitar a las personas el acceso a la información y el uso de los dispositivos en su idioma de preferencia. También hay muchos casos de uso concretos de la tecnología de voz, como la tecnología de VR/AR (que puede utilizarse en el idioma que prefiera la persona) o los servicios de mensajes que pueden entender la voz de cualquier persona”, afirmó Meta.
Para la compañía, el proyecto MMS promete un modelo futuro capaz de resolver varias tareas de voz en cualquier idioma. “Aunque entrenamos modelos distintos de reconocimiento de voz, síntesis de voz e identificación de idiomas, creemos que, en el futuro, un único modelo podrá realizar todas estas tareas y muchas más, lo que permitirá mejorar el rendimiento general”, se indicó en un comunicado.