Máquinas políticamente incorrectas
Mientras que en el equipo de traducción automática hemos estado viendo el creciente tráfico a nuestras diversas ofertas en los últimos meses, nos dimos cuenta de un golpe repentino en el tráfico de ayer. Habiendo crecido en Agatha Christie y Sherlock Holmes, tales misterios son irresistibles para mí – y un número de otras personas en el equipo eran tan curiosos para averiguar qué causó este golpe repentino. Pensamos que el Actividad de IE8/AceleradorLla Messenger bot, Buscar traducciones, Traducciones de la oficina todos estaban mostrando la misma tendencia ascendente que los días anteriores y por lo tanto no eran la razón específica de este bulto.
Eventualmente, pudimos identificar una razón potencial por la que estábamos viendo este pico. Nuestra comunidad de usuarios encontró una rareza en cómo el motor de traducción automática procesó la traducción para varios nombres del inglés al alemán. Era de esperar que cuando el motor traduzca el nombre del candidato de un partido a alguien de la otra parte, dada la atmósfera política actual en la carrera hasta las elecciones estadounidenses, que acabaría como noticia. Aunque sin duda damos la bienvenida a todos los nuevos usuarios que vinieron a comprobar este fenómeno, queríamos compartir con nuestros usuarios la razón por la que estas cosas parecen suceder de vez en cuando con sistemas de traducción automática entrenados estadísticamente de nosotros y otros.
Un motor de traducción automática estadística se entrena en lotes y muchos datos paralelos, es decir, datos que existen tanto en un idioma de origen (por ejemplo, en inglés) como en un idioma de destino (por ejemplo, alemán), donde la fuente y el destino son traducciones entre sí. Nuestro motor está entrenado en millones de oraciones para cada par de idiomas que apoyamos. Con el fin de entrenar en un corpus particular de datos — tal vez un gran número de artículos de noticias en inglés que han sido traducidos al alemán — primero tenemos que dividir ese Corpus en oraciones. Después de que el corpus es una sentencia rota, alimentamos las oraciones resultantes en un alineador de oraciones, cuyo único propósito es encontrar qué oraciones en el lado de origen se alinean con oraciones en el lado de destino. Esto no es una tarea trivial, ya que una frase de un lado podría coincidir con una o más oraciones en el objetivo (o posiblemente ninguna en absoluto!). El alineador a veces comete errores, y desalinea una frase con otra que de hecho no es una traducción. Esto puede conducir a algunas traducciones, especialmente si hay palabras en la fuente y el destino que ocurren con poca frecuencia. Dado que nuestro motor de traducción es estadístico, es altamente dependiente de las frecuencias de co-ocurrencia entre las palabras en los datos de origen y de destino. Si algunas palabras ocurren con poca frecuencia — los nombres de las personas, por ejemplo, sólo pueden ocurrir unas cuantas veces a través de un corpus de millones de oraciones — la falta de frecuencia puede llevar a que se produzcan traducciones erróneas resultantes de "conjetanzas" incorrectas entre la fuente y el objetivo (es decir, bajo las probabilidades asignadas a determinadas palabras de origen y destino). Esto puede llevar a algunos meteduras cómicos en nuestro sistema de traducción.
Así, así es como la "máquina" decidió traducir de una manera que terminó con la comunidad atribuyendo al sentido del humor de nuestro equipo. Aunque seguimos trabajando arduamente para asegurar alineaciones apropiadas, es de esperar de un sistema estadístico que se basa en millones de miles de palabras que tal situación podría repetir.
El problema actual con la alineación ahora debe resolverse, pero instamos a nuestra comunidad de usuarios a seguir ayudándonos a identificar situaciones de este tipo poniéndose en contacto con nosotros a través de este blog.
-Vikram