Μετάβαση στο κύριο περιεχόμενο
Μεταφραστής
Είσοδος
Αυτή η σελίδα έχει μεταφραστεί αυτόματα από την υπηρεσία μηχανικής μετάφρασης της Microsoft. Μάθε περισσότερα

Ιστολόγιο μετάφρασης της Microsoft

Στατιστική μηχανή μετάφραση – blog επισκεπτών (ενημερωμένο με επιπλέον χαρτί)

Ο Γουίλ Λούις είναι ένας διαχειριστής προγράμματος στην ομάδα μεταφράσεων της Microsoft, που εργάζεται για την ποιότητα της γλώσσας και την απόκτηση δεδομένων.  Το σημερινό blog επισκεπτών είναι μια υψηλής στάθμης επεξήγηση του τρόπου λειτουργίας του κινητήρα:  

Όπως πολλοί από εσάς γνωρίζετε, κάτω από το καπό Μεταφραστής της Microsoft τροφοδοτείται από έναν κινητήρα στατιστική μηχανή μετάφρασης (SMT).  Τα στατιστικά συστήματα είναι διαφορετικά από αυτά που βασίζονται σε κανόνες, στο ότι η χαρτογράφηση των λέξεων και των φράσεων από τη μια γλώσσα στην άλλη, γίνεται από το σύστημα και όχι από το χέρι-κωδικοποιημένο.  Η κατάρτιση ενός SMT απαιτεί τη συνύπαρξη μεγάλου ύψους δεδομένων παράλληλης κατάρτισης — ελπίζω καλής ποιότητας και από ετερογενείς πηγές — και την κατάρτιση του κινητήρα σε αυτά τα δεδομένα.  (Παράλληλα, εννοούμε μια πηγή δεδομένων όπου το περιεχόμενο για μία γλώσσα είναι το ίδιο με το περιεχόμενο για το άλλο.)  Ο κινητήρας μαθαίνει τις αντιστοιχίες μεταξύ των λέξεων και των φράσεων σε μία γλώσσα και σε εκείνες σε μια άλλη, οι οποίες συχνά ενισχύονται από επαναλαμβανόμενες εμφανίσεις των ίδιων λέξεων και φράσεων σε όλη την είσοδο.  Για παράδειγμα, στην εκπαίδευση του αγγλικού-γερμανικού συστήματος Ας πούμε, αν ο κινητήρας δει τη φράση Όλα τα δικαιώματα διατηρούνται στην αγγλική πλευρά και επίσης παρατηρεί Το στη γερμανική πλευρά, μπορεί να ευθυγραμμίσει αυτές τις δύο φράσεις και να εκχωρήσει κάποια πιθανότητα σε αυτή τη στοίχιση.  Οι επαναλαμβανόμενες εμφανίσεις της πηγής και των φράσεων-στόχων στα δεδομένα εκπαίδευσης θα ενισχύσουν αυτήν την ευθυγράμμιση.

Γενικά, η ύπαρξη παράλληλων δεδομένων για ένα ζεύγος γλωσσών σημαίνει ότι μπορούμε να εκπαιδεύσουμε κινητήρες και στις δύο κατευθύνσεις (δηλ., τόσο το αγγλικό-γερμανικό όσο και το γερμανικό-αγγλικό σύστημα μπορούν να εκπαιδευτούν με τις ίδιες ποινές εισόδου).  Μερικοί από εσάς είχαν κάποιες ερωτήσεις σχετικά με το γιατί ήταν ότι κυκλοφόρησε το αγγλικό-ισπανικό σύστημα πριν κυκλοφορήσει Ισπανικά-Αγγλικά.  Υπήρχαν πραγματικά δύο λόγοι.  Πρώτον, τα Αγγλικά-Ισπανικά ήταν το πρώτο κοινό ζεύγος γλωσσών τομέα που κυκλοφορήσαμε.  Η απελευθέρωση ενός ζεύγους γλωσσών μας επέτρεψε να ελέγξουμε την υποδομή πριν αρχίσουμε να απελευθερώνουμε περισσότερα.  Δεύτερον, η τεχνολογία για τα Ισπανικά-Αγγλικά ήταν ελαφρώς διαφορετική από εκείνη που χρησιμοποιείται για την αγγλική-ισπανική, και χρειαζόμαστε λίγο επιπλέον χρόνο για να κάνουμε τις απαραίτητες αλλαγές υποδομής για να ικανοποιήσουμε.  Στο μέλλον, σχεδιάζουμε να απελευθερώσουμε νέα Μεταφραστικά συστήματα σε ζεύγη (με μερικές εξαιρέσεις).  Δεν μπορώ να αποκαλύψω ποιες γλώσσες έχουμε σχεδιάσει μετά, αλλά περιμένουμε μερικά νέα σύντομα!

Για όσους από εσάς ενδιαφέρεστε για τεχνικές συζητήσεις σχετικά με τους κινητήρες μας και πώς λειτουργούν, παρακαλείσθε να ανατρέξετε σε ορισμένα από τα έγγραφα των ερευνητών που τα ανέπτυξαν.  Τρεις πρόσφατες σημειώσεις είναι:

Κρις Κουέικ, Αρούλ Μένις. Χρειαζόμαστε φράσεις; Πρόκληση της συμβατικής σοφίας στη στατιστική μηχανή μετάφραση Μάιος 2006 Νέα Υόρκη, Νέα Υόρκη, ΗΝΩΜΈΝΕς Πολιτείες Διαδικασίες του HLT-NAACL 2006

Κρις Κουέικ, Αρούλ Μένις. Μετάφραση εξαρτήσεων: η σύγκλιση της στατιστικής και της μηχανικής μετάφρασης που βασίζεται σε παράδειγμα; Μάρτιος 2006 μηχανή μετάφρασης 43-65 (συνημμένο αρχείο)


Κρις Κουέικ, Αρούλ Μένις. Χρήση προτύπων παραγγελιών εξαρτήσεων για τη βελτίωση της γενικότητας στη μετάφραση 2007 Ιουλίου Σύνδεσμος υπολογιστικής Γλωσσολογίας

Μετάφραση εξάρτησης από τη σύγκλιση της στατιστικής και της μετάφρασης με βάση το παράδειγμα. pdf