Passa a contenuti principali
Translator
Questa pagina è stata tradotta automaticamente dal servizio di traduzione automatica di Microsoft Translator. Ulteriori informazioni

Blog di Microsoft Translator

Macchine politicamente errate

Mentre noi del team di traduzione automatica abbiamo visto aumentare il traffico per le nostre varie offerte negli ultimi mesi, abbiamo notato un improvviso urto nel traffico di ieri. Essendo cresciuto su Agatha Christie e Sherlock Holmes, tali misteri sono irresistibili per me – e un certo numero di altre persone della squadra erano altrettanto curiosi di scoprire cosa ha causato questo improvviso urto. Abbiamo pensato che il Attività IE8/AcceleratorLe Messenger Bot, Ricerca traduzioni, Traduzioni di Office erano tutti mostrando la stessa tendenza verso l'alto come i giorni prima e quindi non erano la ragione specifica per questo urto.

Alla fine, siamo stati in grado di identificare un potenziale motivo per cui stavamo vedendo questo picco. La nostra comunità di utenti ha trovato una stranezza nel modo in cui il motore di traduzione automatica ha elaborato la traduzione per diversi nomi dall'inglese al tedesco. Ci si aspettava che quando il motore traduce il nome del candidato di una parte a qualcuno dall'altra parte, data l'attuale atmosfera politica nella corsa alle elezioni americane, che finirebbe come notizia. Mentre certamente accogliamo tutti i nuovi utenti che sono venuti a controllare questo fenomeno-abbiamo voluto condividere con i nostri utenti il motivo per cui tali cose sembrano accadere di volta in volta con sistemi di traduzione automatica con training statisticamente da noi e da altri.

Un motore di traduzione automatica statistica è addestrato su lotti e lotti di dati paralleli, cioè dati che esistono sia in una lingua di origine (ad esempio, inglese) e una lingua di destinazione (ad esempio, tedesco), dove l'origine e la destinazione sono traduzioni l'uno dall'altro. Il nostro motore è addestrato su milioni di frasi per ogni coppia linguistica che sosteniamo. Per allenarsi su un particolare corpus di dati-forse un gran numero di articoli di Newswire in inglese che sono stati tradotti in tedesco-dobbiamo prima rompere quel corpus in frasi. Dopo che il corpus è una frase spezzata, nutriamo le frasi risultanti in un allineatore di frasi, il cui unico scopo è quello di trovare le frasi sul lato sorgente allineate con le frasi sul lato bersaglio. Questo non è un compito banale, dal momento che una frase su un lato potrebbe plausibilmente allineare con una o più frasi sul bersaglio (o forse nessuno a tutti!). L'aligner a volte commette errori, e boli una frase con un'altra che in realtà non è una traduzione. Questo può portare ad alcune mistranslations, soprattutto se ci sono parole nell'origine e nella destinazione che si verificano raramente. Dal momento che il nostro motore di traduzione è statistico, è altamente dipendente dalle frequenze di co-occorrenza tra le parole nei dati di origine e di destinazione. Se certe parole si verificano raramente, i nomi delle persone, ad esempio, possono verificarsi solo poche volte attraverso un corpus di milioni di frasi: la mancanza di frequenza può portare a controsensi risultanti da "ipotesi" errate tra origine e bersaglio (ad esempio, bassa probabilità assegnate a determinate parole di origine e di destinazione). Questo può portare ad alcune gaffe comiche nel nostro sistema di traduzione.

Così, è così che la "macchina" ha deciso di tradurre in un modo che ha finito con la comunità attribuendo al senso dell'umorismo del nostro team. Mentre continuiamo a lavorare sodo per garantire allineamenti corretti, è prevedibile da un sistema statistico che si basa su milioni di miliardi di parole che una tale situazione potrebbe ripetersi.

Il problema attuale con l'allineamento dovrebbe ora essere risolto, ma invitiamo la nostra comunità di utenti a continuare ad aiutarci a identificare tali situazioni contattandoci attraverso questo blog.

-Vikram

Vikram Dendi guida strategia aziendale & pianificazione del prodotto per il team di Microsoft Translator