Passeur direct au contenu principal
Translator
Cette page a été automatiquement traduite par le service de traduction automatique de Microsoft Translator. Pour en savoir plus

Blog de Microsoft Translator

Traduction automatique de statistiques-blog d'invité (mis à jour avec le papier supplémentaire)

Will Lewis est un gestionnaire de programme de l'équipe Microsoft Translator, qui travaille sur la qualité linguistique et l'acquisition de données.  Blog invité d'aujourd'hui est une explication de haut niveau de la façon dont le moteur fonctionne:  

Comme beaucoup d'entre vous le savez, sous le capot Microsoft Translator est alimenté par un moteur de traduction automatique statistique (SMT).  Les systèmes statistiques sont différents de ceux fondés sur des règles en ce que les «règlements» qui mappaient des mots et des phrases d'une langue à une autre sont appris par le système au lieu d'être codés à la main.  La formation d'un SMT nécessite l'accumulation d'une grande quantité de données de formation parallèles, heureusement de bonne qualité et de sources hétérogènes, et la formation du moteur sur ces données.  (En parallèle, nous entendons une source de données où le contenu d'une langue est le même que le contenu de l'autre.)  Le moteur apprend les correspondances entre les mots et les phrases dans une langue et ceux dans un autre, qui sont souvent renforcés par des occurrences répétées des mêmes mots et phrases tout au long de l'entrée.  Par exemple, en formant le système anglais-allemand disons, si le moteur voit la phrase Tous droits réservés côté anglais et remarque également Alle Rechte vorbehalten du côté allemand, il peut aligner ces deux phrases, et assigner une certaine probabilité à cet alignement.  Les occurrences répétées des phrases source et cible dans les données de formation ne feront que renforcer cet alignement.

En général, le fait d'avoir des données parallèles pour une paire de langues signifie que nous pouvons former les moteurs dans les deux directions (c.-à-d., les systèmes anglais-allemand et allemand-anglais peuvent être formés sur les mêmes phrases d'entrée).  Certains d'entre vous ont des questions sur la raison pour laquelle nous avons publié le système anglais-espagnol avant de publier l'espagnol-anglais.  Il y avait vraiment deux raisons.  Premièrement, l'anglais-espagnol était la première paire de langages de domaine général que nous avons publié.  La libération d'une paire de langues nous a permis de tester l'infrastructure avant de commencer à libérer plus.  Deuxièmement, la technologie pour l'espagnol-anglais était légèrement différente de celle utilisée pour l'anglais-espagnol, et nous avons besoin de temps supplémentaire pour faire les changements infrastructurels nécessaires pour accommoder.  À l'avenir, nous prévoyons de publier de nouveaux systèmes de traduction par paires (à quelques exceptions près).  Je ne peux pas révéler les langues que nous avons planifiées ensuite, mais ne vous attendez pas à de nouveaux bientôt!

Pour ceux d'entre vous intéressés par les discussions techniques concernant nos moteurs et comment ils fonctionnent, s'il vous plaît se référer à certains des documents par les chercheurs qui les ont développées.  Trois Articles récents de note sont:

Chris Quirk, les Menises Arul. Avons-nous besoin de phrases? Contester la sagesse conventionnelle dans la traduction automatique statistique Mai 2006 New York, New York, États-Unis Actes de la HLT-NAACL 2006

Chris Quirk, les Menises Arul. Dépendance Treelet traduction: la convergence de la traduction automatique basée sur les statistiques et l'exemple? Mars 2006 machine translation 43-65 (fichier joint)


Chris Quirk, les Menises Arul. Utilisation de modèles d'ordre de dépendance pour améliorer la généralité dans la traduction 2007 juillet Association pour la linguistique computationnelle

Dépendance Treelet traduction la convergence des statistiques et de la machinetranslation. pdf basée sur l'exemple