Microsoft Translator lanza una traducción literaria al chino

Publicado en 25 de agosto de 202130 de agosto de 2021por Microsoft Translator

Al leer antiguo Chino poesía, a menudo nos maravillamos de las maravillosas palabras que los escritores antiguos podían utilizar para describir personas, acontecimientos, objetos y escenas. Se trata de un espléndido tesoro cultural que nos han dejado. Sin embargo, al igual que Shakespeare'Aunque los versos de estos poetas están en inglés, el chino literario utilizado por ellos es a menudo difícil de entender para la gente de hoy en día, y los significados y sutilezas que encierra se pierden con frecuencia.

Para resolver este problema, los investigadores de Microsoft Research Asia adoptaron las últimas técnicas de traducción automática neural para entrenar modelos de traducción directa entre el chino literario y el chino moderno, lo que también da como resultado la creación de capacidades de traducción entre el chino literario y el más de 90 idiomas más y dialectos en Microsoft Translator. Actualmente, la traducción literaria al chino se ha integrado en el Microsoft Translator App, Traductor de Azure Cognitive Servicesy una serie de productos de Microsoft que son compatibles con los servicios de Microsoft Translator.

Imagen: La pintura de "West Mountain in Misty Rain" de Shen Zhou, dinastía Ming. El antiguo poema chino que aparece en el cuadro es de Yong Liu, dinastía Song del Norte. El poema describe el paisaje primaveral del sur de China durante el Festival Qingming y la prosperidad de la vida social.

Permitir que más personas aprecien el encanto de la cultura tradicional china

El chino literario es un importante portador de la cultura tradicional china. Numerosos libros y textos de la antigüedad han registrado la China'La cultura rica y profunda de los últimos cinco mil años. Los pensamientos y la sabiduría acumulada y contenida en ellos son dignos de continua exploración y reflexión.

Con la ayuda de la traducción automática, los turistas pueden ahora entender los textos y poemas chinos antiguos escritos en edificios y monumentos históricos, los estudiantes tienen ahora una herramienta adicional para ayudarles a aprender chino, y los investigadores que se dedican a cotejar y traducir textos antiguos pueden ser más productivos.

Dongdong Zhang, investigador principal de Microsoft Research Asia, dijo: "Desde una perspectiva técnica, el chino literario puede considerarse una lengua aparte. Una vez realizada la traducción entre el chino literario y el chino moderno, la traducción entre el chino literario y otros idiomas como el inglés, el francés y el alemán se convierte en algo natural."

La mayor dificultad del modelo de IA de traducción literaria al chino: Pocos datos de entrenamiento

El elemento más crítico del entrenamiento de modelos de IA son los datos. Sólo cuando el volumen de datos es lo suficientemente grande y su calidad lo suficientemente alta enlatar tú entrenar un modelo más preciso. En la traducción automática, el entrenamiento del modelo requiere datos bilingües: datos del texto original y datos de la lengua de destino. La traducción del chino literario es muy especial, ya que's una lengua que no se utiliza en la vida cotidiana. Por lo tanto, en comparación con la traducción de otros idiomas, los datos de entrenamiento de la traducción literaria del chino son muy reducidos, lo que no favorece el entrenamiento de los modelos de traducción automática.

Aunque los investigadores de Microsoft Research Asia recopilaron una gran cantidad de datos literarios y chinos modernos disponibles públicamente en las primeras etapas, los datos originales no pueden utilizarse directamente. Es necesario llevar a cabo una limpieza de datos para normalizar los datos procedentes de diferentes fuentes, varios formatos, así como la anchura total/puntuaciones de media anchura, como medio para minimizar la interferencia de los datos no válidos en el entrenamiento del modelo. De este modo, se reducen aún más los datos reales de alta calidad disponibles.

Según Shuming Ma, investigador de Microsoft Research Asia, para reducir el problema de la escasez de datos, los investigadores han realizado una gran cantidad de trabajos de síntesis y aumento de datos, entre ellos:

En primer lugar, el carácter común– alineación y expansión para aumentar el tamaño de los datos de entrenamiento. Diferente de En las traducciones entre el chino y otros idiomas como el inglés, el francés, el ruso, etc., el chino literario y el chino moderno utilizan el mismo juego de caracteres. Aprovechando esta característica, los investigadores de Microsoft Research Asia han utilizado algoritmos innovadores para permitir que la traducción automática recuerde los caracteres comunes, lleve a cabo una alineación natural y luego se amplíe a palabras, frases y oraciones cortas, sintetizando así una gran cantidad de datos utilizables.

En segundo lugar, deformar la estructura de las frases para mejorar la solidez de la traducción automática. En cuanto a rupturas en textos y poemas, los investigadores han añadido una serie de variantes para que las máquinas sean más completas en el aprendizaje de poemas antiguos. Para las personas, incluso cuando ven una frase estructurada de forma anormal, como un poema segmentado en líneas basadas en el ritmo y no en frases completas, pueden unir las partes y entenderlo. Pero para un modelo de traducción que nunca ha visto una segmentación de este tipo, es probable que se confunda. Por tanto, la transformación del formato de los datos no sólo puede ampliar la cantidad de datos de entrenamiento, sino también mejorar la solidez del entrenamiento del modelo de traducción.

En tercer lugar, realizar un entrenamiento de traducción de caracteres tradicional y simplificado para aumentar la adaptabilidad del modelo. En chino, los caracteres tradicionales existen tanto en el chino literario como en el moderno. Cuando los investigadores entrenaron el modelo, para mejorar su adaptabilidad, no sólo aprovecharon los datos en chino simplificado, sino que también añadieron datos en chino tradicional, así como datos mezclados con caracteres tradicionales y simplificados. De este modo, el modelo puede entender tanto los contenidos tradicionales como los simplificados, lo que conduce a resultados de traducción más precisos.

En cuarto lugar, aumentar la formación de palabras en lengua extranjera para mejorar la precisión de la traducción. Al traducir el chino moderno al chino literario, a menudo aparecen palabras modernas derivadas de palabras en lenguas extranjeras y palabras nuevas que nunca han aparecido en el chino antiguo, como "Microsoft", "ordenador", "tren de alta velocidad" y muchas otras similares. Para solucionar este problema, los investigadores entrenaron un pequeño modelo para reconocer entidades. El modelo tradujo primero el significado de la palabra fuera de la entidad, y luego volvió a rellenar la entidad para garantizar la precisión de la máquina's procesamiento de las palabras extranjeras.

Imagen: Tél chino literario proceso de traducción

Además, para estilos de escritura informales como blogs, foros, Weibo, etc., el modelo de traducción automática se ha entrenado específicamente para mejorar aún más la solidez de la traducción entre el chino moderno y el literario.

Dongdong Zhang expresó: "Basándonos en el sistema de traducción actual, seguiremos enriqueciendo el conjunto de datos y mejorando el método de entrenamiento del modelo para hacerlo más robusto y versátil. En el futuro, el método no solo podrá utilizarse para la traducción literaria del chino, sino que podrá extenderse a otros escenarios de aplicación."

Microsoft Translator blog