• magazine
  • entertainment
  • news
  • España
    • Global Edition
    • Australia
    • Belgique
    • Brasil
    • Canada (fr)
    • Canada (en)
    • Colombia
    • Deutschland
    • España
    • France
    • India
    • Ireland
    • Italia
    • Latino
    • México
    • Österreich
    • South Africa
    • Switzerland
    • United Kingdom
    • USA
Blog Title
  • Facebook
  • adsfasdf
  • YouTube

Google avanza en su modelo de lenguaje universal para dar soporte a los 1000 idiomas más hablados

Lucía Panadero

2023-03-07
Representación
Representación del planeta Tierra y algunos de los idiomas hablados en él – GOOGLE

Google ha compartido los avances que ha realizado en el desarrollo de su modelo de lenguaje universal (USM, por sus siglas en inglés), con el que pretende dar soporte a los mil idiomas más hablados del mundo, incluso aquellos de los que existen pocos datos.

La compañía tecnológica utiliza USM en YouTube, donde reconoce de forma automática la voz en idiomas ampliamente hablados, pero también en otros con menos usuarios, como el amárico (norte y centro de Etiopía) o el cebuano (Filipinas). Resulta útil, por ejemplo, para la introducción de subtítulos automáticos en los vídeos.

El objetivo de este modelo de lenguaje es dar soporte a los mil idiomas más hablados del mundo, algunos de los cuales tienen menos de 20 millones de hablantes, lo que reduce la cantidad de datos disponibles sobre ellos frente a, por ejemplo, el chino mandarín, el español o el inglés.

USM tiene 2.000 millones de parámetros y ha sido entrenado con 12 millones de horas de voz y 28.000 millones oraciones en texto, en más de 300 idiomas.

Lo más destacado es que en él han utilizado ’’un gran conjunto de datos multilingües sin etiquetar para entrenar previamente al codificador del modelo y ajustar un conjunto más pequeño de datos etiquetados’’, lo que permite reconocer idiomas subrepresentados, como ha destacado en su blog de Google Search.

El modelo de entrenamiento utilizado también ha demostrado ser ’’efectivo para adaptarse a nuevos lenguajes y datos’’, afirman desde la compañía.

SOPORTE PARA MIL IDIOMAS Para lograr el objetivo de ’’modelar la voz de los próximos mil idiomas’’, Google ha optado por una arquitectura de codificador-decodificador estándar y un sistema de aprendizaje autosupervisado ajustado.

La primera parte de los trabajos con USM parte del aprendizaje autosupervisado y abarca una gran cantidad de archivos de voz de cientos de idiomas, que puede complementarse de forma opcional con un preentrenamiento de datos de texto adicionales, en caso de que los haya, lo que mejora el rendimiento del USM.

’’El modelo introduce un módulo codificador adicional para tomar texto como entrada y capas adicionales para combinar la salida del codificador de voz y el codificador de texto, y entrena el modelo conjuntamente en datos de voz sin etiquetar, voz etiquetada y texto’’, detallan desde Google.

Posteriormente, se ajustan las tareas, como pueda ser la traducción automática de voz, con una pequeña cantidad de datos supervisados. Según Google, ’’con el conocimiento adquirido durante la capacitación previa, los modelos USM logran una buena calidad con solo una pequeña cantidad de datos supervisados de las tareas posteriores’’.

’’Creemos que la arquitectura del modelo base y el proceso de capacitación de USM constituyen una base sobre la cual podemos expandir el modelado de voz a los próximos mil idiomas’’, concluye la compañía.

Fuente: (EUROPA PRESS)

  • España ante un fenómeno excepcional: el histórico ciclo de eclipses de 2026 a 2028
    2026-01-09

    España ante un fenómeno excepcional: el histórico ciclo de eclipses de 2026 a 2028

  • La 2 estrena la serie documental ‘La conquista de la democracia’ dirigida por seis grandes cineastas españoles
    2025-03-18

    La 2 estrena la serie documental ‘La conquista de la democracia’ dirigida por seis grandes cineastas españoles

  • La DGT revoluciona el proceso de baja definitiva de vehículos: ahora podrás hacerlo desde tu móvil
    2025-03-18

    La DGT revoluciona el proceso de baja definitiva de vehículos: ahora podrás hacerlo desde tu móvil

  • La aspirina podría ayudar a prevenir la metástasis del cáncer, según un nuevo estudio de la Universidad de Cambridge
    2025-03-07

    La aspirina podría ayudar a prevenir la metástasis del cáncer, según un nuevo estudio de la Universidad de Cambridge

  • 14 alimentos que son saludables pero que también pueden ser perjudiciales si los consumimos en exceso
    2025-02-05

    14 alimentos que son saludables pero que también pueden ser perjudiciales si los consumimos en exceso

  • Las 20 mordeduras y picaduras de animales e insectos para el ser humano
    2025-02-01

    Las 20 mordeduras y picaduras de animales e insectos para el ser humano

  • Famosos que mantuvieron en secreto graves enfermedades
    2025-01-31

    Famosos que mantuvieron en secreto graves enfermedades

  • Facebook
  • adsfasdf
  • YouTube
  • magazine
  • entertainment
  • news
  • Terms & Conditions
  • Privacy Policy
  • © 2023 Copyright News 360 S.L.