Pular para o conteúdo principal
Translator
Esta página foi traduzida automaticamente pelo serviço de tradução automática do Microsoft Translator. Saiba Mais

Microsoft Tradutor blog

Máquinas politicamente incorretas

Enquanto nós na equipe de tradução de máquina têm vindo a ver o aumento do tráfego para as nossas várias ofertas ao longo dos últimos meses, percebemos uma colisão súbita no trânsito ontem. Tendo crescido em Agatha Christie e Sherlock Holmes, tais mistérios são irresistíveis para mim-e um número de outras pessoas na equipe foram tão curiosos para descobrir o que causou essa colisão súbita. Nós pensamos que o Atividade IE8/AceleradorO Bot Mensageiro, Pesquisar traduções, Traduções do Office foram todos mostrando a mesma tendência ascendente como os dias antes e, portanto, não foram a razão específica para esta colisão.

Eventualmente, fomos capazes de identificar uma possível razão pela qual estávamos vendo esse pico. Nossa comunidade de usuários encontrou uma estranheza em como o motor de tradução automática processou a tradução para vários nomes de Inglês para alemão. Era de se esperar que quando o motor traduz o nome do candidato de um partido para alguém da outra parte, dada a atmosfera política atual na corrida até eleições E.U., que acabaria como notícia. Embora nós certamente bem-vindos todos os novos usuários que vieram para verificar este fenômeno para fora-queríamos compartilhar com nossos usuários a razão pela qual essas coisas parecem acontecer de vez em quando com sistemas de tradução de máquina estatisticamente treinados de nós e outros.

Um mecanismo de tradução automática de estatísticas é treinado em lotes e lotes de dados paralelos, ou seja, dados que existem em um idioma de origem (por exemplo, inglês) e um idioma de destino (por exemplo, alemão), onde a origem e o destino são traduções um do outro. Nosso motor é treinado em milhões de frases para cada par de idiomas que apoiamos. A fim treinar em um corpus particular dos dados-talvez um grande número artigos do Newswire no inglês que foram traduzidos no alemão-nós primeiramente temos que quebrar esse corpus para baixo em sentenças. Depois que o corpus é sentença quebrada, nós alimentamos as sentenças resultantes em um aligner da sentença, a única finalidade de que é encontrar que sentenças no lado da fonte alinham com as sentenças no lado do alvo. Esta não é uma tarefa trivial, uma vez que uma sentença de um lado poderia concebìvelmente alinhar com uma ou mais frases sobre o alvo (ou possivelmente nenhum!). O alinhador às vezes comete erros, e desalinha uma frase com outra que, na verdade, não é uma tradução. Isto pode conduzir a alguns mistranslations, especial se há umas palavras na fonte e no alvo que estão ocorrendo infrequëntemente. Uma vez que o nosso motor de tradução é estatístico, é altamente dependente das frequências de coocorrência entre as palavras nos dados de origem e de destino. Se certas palavras ocorrerem com pouca frequência — os nomes das pessoas, por exemplo, podem ocorrer apenas algumas vezes em um corpus de milhões de sentenças — a falta de frequência pode levar a uma desconfiança resultante de "suposições" incorretas entre a fonte e o alvo (isto é, baixa probabilidades atribuídas a determinadas palavras de origem e de destino). Isso pode levar a algumas gafes cômicas em nosso sistema de tradução.

Então, foi assim que a "máquina" decidiu traduzir de uma forma que acabou com a Comunidade atribuindo-a ao senso de humor da nossa equipe. Enquanto continuamos a trabalhar arduamente para garantir alinhamentos adequados, é de se esperar de um sistema estatístico que é construído em milhões de bilhões de palavras que tal situação poderia repetir.

O problema atual com o alinhamento agora deve ser resolvido, mas pedimos a nossa comunidade de usuários para continuar nos ajudando a identificar essas situações, entrando em contato conosco através deste blog.

-O Vikram

Vikram Dendi lidera estratégia de negócios e planejamento de produtos para a equipe do Microsoft Translator