Avanços na tradução da fala de nossas equipes de pesquisa
Este é o ano do aprendizado de máquina e do big data. Seja para prever resultados políticos, sobrealimentação suas planilhas do Excel, ajudando mapear consultas para intenção na Pesquisa, ou mesmo Personalização de um mecanismo de tradução para melhor se adequar ao seu conteúdo - essas áreas de pesquisa estão desempenhando um papel de destaque na transformação da tecnologia e da produtividade.
Há algumas semanas, na 14ª edição anual do Conferência Computing in the 21st Century (Computação no século 21)No evento, os participantes tiveram um vislumbre de onde mais essas tecnologias estão nos levando e adoraram. Rick Rashid, que dirige a Microsoft Research em todo o mundo, subiu ao palco e, em um intervalo de oito frases, fez com que o público de mais de 2.000 pessoas se levantasse e aplaudisse. Foi um momento em que a tecnologia era indistinguível da magia - e que estimularia os escritores de ficção científica a começarem a pensar em desafios maiores para os pesquisadores enfrentarem 🙂
Assista ao vídeo para ver com seus próprios olhos:
Uma combinação de tecnologias poderosas foi empregada para tornar possível essa incrível demonstração: O processamento baseado em redes neurais profundas, combinado com a computação de alto desempenho, permitiu um salto significativo na precisão do reconhecimento de fala. O Tecnologia Microsoft Translator que você usa todos os dias foi personalizado para melhor se adequar ao conteúdo da fala de Rick. A nova tecnologia de síntese de fala que permite a personalização das características acústicas foi capaz de criar a "voz de Rick" em um idioma que ele não fala. Você pode ler o discurso de Rick postagem no blog aqui.
Algumas dessas tecnologias já estão disponíveis atualmente, especialmente a tradução líder do setor (Microsoft Translator) com recursos de personalização (Centro de tradutores). Se você é um usuário do Windows Phone, tem aproveitado a aplicativo de tradução mais inovador em qualquer telefone há mais de um ano, o que inclui uma experiência inicial de tradução de fala que foi ajustada para situações de viagem. A saída de áudio que você ouve no Tradutor do Bing O site usa alguns dos mais novos mecanismos de síntese de fala provenientes de nossa pesquisa sobre fala. A pesquisa de redes neurais profundas também está por trás de nosso serviço de indexação de áudio/vídeo. MAVISque está disponível comercialmente.
A empolgação que tem sido ondulação entre o web A resposta a essa demonstração é um indicador do quanto todos querem experimentar essa "mágica". Ainda há muito trabalho a ser feito, mas você verá os benefícios dessa incrível pesquisa em nossos produtos nas próximas versões.
Vikram Dendi
Diretor
Microsoft/Bing Translator e Microsoft Research