Microsoft Translator lança tradução literária para o chinês

Publicado em 25 de agosto de 202130 de agosto de 2021por Microsoft Translator

Ao ler antigo Chinês Na poesia, muitas vezes ficamos maravilhados com as palavras maravilhosas que os escritores antigos podiam usar para descrever pessoas, eventos, objetos e cenas. Esse é um esplêndido tesouro cultural que foi deixado para nós. Entretanto, assim como Shakespeare'No entanto, como os versos dos poetas da língua inglesa, o chinês literário usado por esses poetas é muitas vezes difícil de ser entendido pelas pessoas de hoje, e os significados e sutilezas embutidos nele são frequentemente perdidos.

Para resolver esse problema, os pesquisadores da Microsoft Research Asia adotaram as mais recentes técnicas de tradução automática neural para treinar modelos de tradução direta entre o chinês literário e o chinês moderno, o que também resulta na criação de recursos de tradução entre o chinês literário e o chinês moderno. mais de 90 outros idiomas e dialetos no Microsoft Translator. Atualmente, a tradução literária em chinês foi integrada ao Aplicativo Microsoft Translator, Tradutor dos Serviços Cognitivos do Azuree vários produtos da Microsoft que são suportados pelos serviços do Microsoft Translator.

Imagem: A pintura de "West Mountain in Misty Rain" (Montanha Oeste em Chuva Névoa) de Shen Zhou, Dinastia Ming. O poema chinês antigo na pintura é de Yong Liu, Dinastia Song do Norte. O poema retrata o cenário da primavera no sul da China durante o Festival de Qingming e a prosperidade da vida social.

Permitir que mais pessoas apreciem o charme da cultura tradicional chinesa

O chinês literário é um importante veículo da cultura tradicional chinesa. Livros e textos volumosos desde os tempos antigos registraram a China'A cultura rica e profunda da China nos últimos cinco mil anos. Os pensamentos e a sabedoria acumulados e contidos neles são dignos de exploração e reflexão contínuas.

Com a ajuda da tradução automática, os turistas agora podem entender textos e poemas chineses antigos escritos em edifícios e monumentos históricos, os estudantes agora têm uma ferramenta extra para ajudá-los a aprender chinês e os pesquisadores que estão envolvidos na compilação e tradução de textos antigos podem ser mais produtivos.

Dongdong Zhang, pesquisador principal da Microsoft Research Asia, disse: "De uma perspectiva técnica, o chinês literário pode ser considerado um idioma separado. Quando a tradução entre o chinês literário e o chinês moderno for realizada, a tradução entre o chinês literário e outros idiomas, como inglês, francês e alemão, se tornará uma questão natural."

A maior dificuldade do modelo de IA de tradução literária do chinês: Poucos dados de treinamento

O elemento mais importante do treinamento de modelos de IA são os dados. Somente quando o volume de dados é grande o suficiente e sua qualidade é alta o bastante pode você treinar um modelo mais preciso. Na tradução automática, o treinamento do modelo requer dados bilíngues: dados do texto original e dados do idioma de destino. A tradução do chinês literário é muito especial, como énão é um idioma usado na vida cotidiana. Portanto, em comparação com a tradução de outros idiomas, os dados de treinamento da tradução literária chinesa são muito pequenos, o que não é propício para o treinamento de modelos de tradução automática.

Embora os pesquisadores da Microsoft Research Asia tenham coletado muitos dados literários e chineses modernos disponíveis publicamente nos estágios iniciais, os dados originais não podem ser usados diretamente. A limpeza de dados precisa ser realizada para normalizar os dados de diferentes fontes, vários formatos, bem como de largura total/pontuações de meia largura, como um meio de minimizar a interferência de dados inválidos no treinamento do modelo. Dessa forma, os dados de alta qualidade realmente disponíveis são reduzidos ainda mais.

De acordo com Shuming Ma, pesquisador da Microsoft Research Asia, para reduzir o problema da escassez de dados, os pesquisadores realizaram uma grande quantidade de trabalhos de síntese e aumento de dados, incluindo:

Primeiro, o caráter comum- alinhamento e expansão com base em dados para aumentar o tamanho dos dados de treinamento. Diferente de Em um contexto de traduções entre o chinês e outros idiomas, como inglês, francês, russo etc., o chinês literário e o chinês moderno usam o mesmo conjunto de caracteres. Aproveitando esse recurso, os pesquisadores da Microsoft Research Asia usaram algoritmos inovadores para permitir que a tradução automática recuperasse caracteres comuns, conduzisse o alinhamento natural e, em seguida, expandisse para palavras, frases e sentenças curtas, sintetizando assim uma grande quantidade de dados utilizáveis.

Segundo, deformar a estrutura da frase para melhorar a robustez da tradução automática. Com relação a Em relação às quebras de ritmo em textos e poemas, os pesquisadores acrescentaram uma série de variantes para tornar as máquinas mais abrangentes no aprendizado de poemas antigos. Para as pessoas, mesmo quando veem uma frase estruturada de forma anormal, como um poema segmentado em linhas com base no ritmo em vez de frases completas, elas ainda podem juntar as partes e entendê-la. Mas para um modelo de tradução que nunca viu essa segmentação antes, ele provavelmente ficará confuso. Portanto, a transformação do formato dos dados pode não apenas expandir a quantidade de dados de treinamento, mas também melhorar a robustez do treinamento do modelo de tradução.

Terceiro, realize um treinamento de tradução de caracteres tradicionais e simplificados para aumentar a adaptabilidade do modelo. Em chinês, os caracteres tradicionais existem tanto no chinês literário quanto no moderno. Quando os pesquisadores treinaram o modelo, a fim de melhorar a adaptabilidade do modelo, eles não apenas aproveitaram os dados em chinês simplificado, mas também adicionaram dados em chinês tradicional, bem como dados misturados com caracteres tradicionais e simplificados. Assim, o modelo pode entender tanto o conteúdo tradicional quanto o simplificado, o que leva a resultados de tradução mais precisos.

Quarto, aumente o treinamento de palavras em idiomas estrangeiros para melhorar a precisão da tradução. Ao traduzir o chinês moderno para o chinês literário, muitas vezes há palavras modernas derivadas de palavras de idiomas estrangeiros e palavras novas que nunca apareceram no chinês antigo, como "Microsoft", "computador", "trem de alta velocidade" e muitas outras semelhantes. Para lidar com esse problema, os pesquisadores treinaram um pequeno modelo para reconhecer entidades. O modelo primeiro traduziu o significado da palavra fora da entidade e, em seguida, preencheu a entidade novamente para garantir a precisão da máquina's processamento das palavras estrangeiras.

Imagem: Tele chinês literário processo de tradução

Além disso, para estilos de escrita informais, como blogs, fóruns, Weibo, etc., o modelo de tradução automática foi treinado especificamente para melhorar ainda mais a robustez da tradução entre o chinês moderno e o literário.

Dongdong Zhang disse: "Com base no sistema de tradução atual, continuaremos a enriquecer o conjunto de dados e a aprimorar o método de treinamento do modelo para torná-lo mais robusto e versátil. No futuro, o método poderá ser usado não apenas para tradução literária em chinês, mas também poderá ser estendido a outros cenários de aplicação."

Blog do Microsoft Translator