Microsoft Translator ofrece traducción de voz end-to-end a todos con la primera API de traducción de voz del mundo

Publicado en 30 de marzo de 2016por Microsoft Translator

Hoy hemos lanzado una nueva versión de API de Microsoft Translator que agrega capacidades de traducción de voz a voz en tiempo real (y voz a texto) a la API de traducción de texto existente. Esta capacidad, impulsada por las tecnologías de inteligencia artificial de vanguardia de Microsoft, ha estado disponible para millones de usuarios de Skype durante más de un año, y a iOS Y Android usuarios de las apps de Microsoft Translator desde finales de 2015. Ahora, las empresas podrán añadir estas capacidades de traducción de voz a sus aplicaciones o servicios y ofrecer experiencias de usuario más naturales y eficaces a sus clientes y personal.

La traducción de voz está disponible para ocho idiomas. Árabe, Chino mandarín, Inglés, Francés, alemán, Italiano, Portugués y español. La traducción al texto está disponible en todos los de Microsoft Translator idiomas apoyados 50 +. La traducción al audio hablado está disponible en 18 idiomas soportados.

Esta nueva versión de Microsoft Translator es la primera solución de traducción de voz end-to-end optimizada para conversaciones en la vida real (frente a comandos simples de humanos a máquina) disponibles en el mercado. Antes de hoy, las soluciones de traducción de voz tenían que ser improvisadas entre una serie de diferentes APIs (reconocimiento de voz, traducción y síntesis de voz), no estaban optimizadas para el discurso conversacional o diseñadas para trabajar entre ellas. Ahora, los usuarios finales y las empresas por igual pueden eliminar las barreras lingüísticas con la integración de la traducción de voz en sus aplicaciones y servicios familiares.

¿Cómo puede mi negocio utilizar la tecnología de traducción de voz?

La traducción del habla se puede utilizar en una variedad de escenarios de persona a persona, grupo o humano a máquina. Los escenarios de persona a persona pueden incluir traducción unidireccional, como traducción personal, subtitulado o comunicaciones multilingües remotas o en persona, similares a las que se encuentran actualmente en Skype Translator o Microsoft Translator apps for iOS y Android. Los escenarios de grupo podrían incluir presentaciones en tiempo real tales como conferencias de eventos, cursos de difusión por Internet y clases universitarias, o reuniones tales como encuentros en persona o salas de chat de juegos en línea. Los escenarios de persona a máquina podrían incluir escenarios de inteligencia de negocios (como los registros de análisis o llamadas de clientes) o interacciones de AI.

Estamos empezando a rascar la superficie de los escenarios donde esta tecnología ayudará y, como se basa el aprendizaje en máquina, su calidad y por lo tanto la aplicabilidad mejorará con el tiempo a medida que más personas y empresas lo están utilizando.

Varias empresas socias han probado la API y la han integrado en sus propias aplicaciones:

Tele 2 de Suecia, un operador de telefonía móvil líder con más de 15 millones de abonados en más de 15 países, integró Translator en su centralita para permitir la traducción de llamadas telefónicas en tiempo real (¡sin necesidad de aplicación!) en su red celular.
Lionbridge (Boston, MA), proveedor de servicios lingüísticos y socio de Gold Level Translator, desarrolló una solución integrada de subtitulado de vídeo.
Prosordo, un proveedor de aplicaciones especializada en el desarrollo de tecnologías para apoyar a las comunidades sordas y con dificultades auditivas, integró la nueva API en su aplicación Avatar de lenguaje de señas para permitir el soporte multilingüe del lenguaje para firmar escenarios.

¿Cómo funciona la traducción de voz?

La traducción de voz a voz es un desafío muy complejo. Utiliza las últimas tecnologías de la AI, como las redes neuronales profundas para el reconocimiento de voz y la traducción de texto. No hay otra solución de traducción de voz totalmente integrada disponible en el mercado hoy en día y la entrega de una plataforma que apoyaría los escenarios de la traducción del habla en la vida real requiere ir más allá de simplemente coser juntos el reconocimiento de voz existente y tecnologías de traducción de textos. Hay cuatro etapas a la traducción del discurso para poder entregar esta experiencia:

Reconocimiento automático de voz (ASR): Una red neuronal profunda entrenada con miles de horas de audio analiza el habla entrante. Este modelo se ha entrenado con interacciones entre humanos y no con comandos entre humanos y máquinas, lo que produce un reconocimiento del habla optimizado para conversaciones normales.
TrueText — TrueText, una innovación de Microsoft Research, toma el texto literal y lo transforma para reflejar mejor la intención del usuario. Para ello, elimina las disfluencias del habla, como los "um" y los "ah", así como los tartamudeos y las repeticiones. El texto también se hace más legible y traducible añadiendo pausas en las frases, puntuación adecuada y mayúsculas. (véase la imagen de abajo)
Traducción— El texto se traduce a cualquiera de los más de 50 idiomas que admite Microsoft Translator. Los ocho idiomas de habla se han optimizado aún más para las conversaciones mediante el entrenamiento en millones de palabras de datos conversacionales utilizando modelos lingüísticos alimentados por redes neuronales profundas.
Texto a voz: Si el idioma de destino es uno de los dieciocho idiomas de habla admitidos, el texto se convierte en salida de voz utilizando la síntesis de voz. Esta etapa se omite en los escenarios de traducción de voz a texto, como la subtitulación de vídeos.

¿Cómo puedo empezar?

Es fácil empezar a trabajar con la nueva API de voz de Microsoft Translator. Se ofrece una prueba gratuita de 10 horas en aka.ms/TranslatorADMSpeech. Puede probar la configuración y la implementación en un entorno virtual, así como leer la documentación de la API en nuestro nuevo Página de Swagger. También puede encontrar ejemplos de aplicaciones y otra información útil en Github.

Por supuesto, si usted tiene preguntas, problemas, o comentarios, nos encantaría oírlo! Usted puede hacernos saber Foro de retroalimentación y apoyo.

Aprende más

Microsoft Translator blog

¿Cómo puede mi negocio utilizar la tecnología de traducción de voz?

¿Cómo funciona la traducción de voz?

¿Cómo puedo empezar?