Lompati ke konten utama
Penerjemah
Halaman ini telah diterjemahkan secara otomatis oleh layanan penerjemahan mesin Microsoft Translator. Pelajari lebih lanjut

Microsoft Translator blog

Politik salah mesin

Sementara kami di tim terjemahan mesin telah melihat meningkatkan lalu lintas ke berbagai penawaran kami selama beberapa bulan terakhir, kami melihat sebuah benjolan mendadak lalu lintas kemarin. Setelah tumbuh di Agatha Christie dan Sherlock Holmes, misteri seperti itu tak tertahankan bagi saya-dan sejumlah orang lain di tim itu hanya sebagai penasaran untuk mencari tahu apa yang menyebabkan benjolan mendadak ini. Kami menduga bahwa Aktivitas IE8/AcceleratorTje Bot Messenger, Cari terjemahan, Terjemahan kantor Semua menunjukkan kecenderungan yang sama ke atas sebagai hari sebelumnya dan dengan demikian bukan alasan khusus untuk benjolan ini.

Akhirnya, kami dapat mengidentifikasi satu potensi alasan mengapa kami melihat lonjakan ini. Komunitas pengguna kami menemukan keanehan dalam bagaimana mesin penerjemahan mesinnya memproses terjemahan untuk beberapa nama dari bahasa Inggris ke bahasa Jerman. Itu harus diharapkan bahwa ketika mesin menerjemahkan nama calon satu pihak kepada seseorang dari pihak lain, mengingat suasana politik saat ini dalam menjalankan hingga Pemilu AS, bahwa hal itu akan berakhir sebagai berita. Sementara kita pasti menyambut semua pengguna baru yang datang dengan untuk memeriksa fenomena ini keluar-kami ingin berbagi dengan pengguna kami alasan mengapa hal seperti itu tampaknya terjadi dari waktu ke waktu dengan sistem terjemahan Statistik mesin terlatih dari kami dan lain-lain.

Mesin Statistik mesin penerjemahan dilatih pada banyak dan banyak data paralel, yaitu data yang ada dalam bahasa sumber (misalnya Inggris) dan bahasa target (misalnya, Jerman), di mana sumber dan target adalah terjemahan satu sama lain. Mesin kami dilatih pada jutaan kalimat untuk setiap pasangan bahasa yang kami dukung. Dalam rangka untuk melatih pada Corpus tertentu dari data-mungkin sejumlah besar artikel Newswire dalam bahasa Inggris yang telah diterjemahkan ke dalam bahasa Jerman-pertama kita harus istirahat yang Corpus turun menjadi kalimat. Setelah Corpus adalah kalimat patah, kita makan kalimat yang dihasilkan menjadi Aligner kalimat, satu-satunya tujuan yang adalah untuk menemukan apa kalimat di sisi sumber sejajar dengan kalimat di sisi target. Ini bukan tugas sepele, karena kalimat di satu sisi bisa dibayangkan selaras dengan satu atau lebih kalimat pada target (atau mungkin tidak sama sekali!). Aligner terkadang akan membuat kesalahan, dan salah satu kalimat dengan yang lain yang sebenarnya bukan terjemahan. Hal ini dapat menyebabkan beberapa penerjemahan yang salah, terutama jika ada kata dalam sumber dan target yang jarang terjadi. Karena mesin penerjemahan kami adalah statistik, sangat bergantung pada frekuensi kejadian bersama antara kata dalam data sumber dan target. Jika kata tertentu jarang terjadi — nama orang, misalnya, hanya dapat terjadi beberapa kali di seluruh Corpus dari jutaan kalimat — kurangnya frekuensi dapat menyebabkan salah tafsir akibat salah "dugaan" antara sumber dan target (yaitu, rendah probabilitas yang ditugaskan untuk kata sumber dan target tertentu). Hal ini dapat menyebabkan beberapa gaffes lucu dalam sistem terjemahan kami.

Jadi, itu adalah bagaimana "mesin" memutuskan untuk menerjemahkan dengan cara yang berakhir dengan masyarakat yang menghubungkan ke rasa humor tim kami. Sementara kita terus bekerja keras untuk memastikan keberpihakan yang tepat, itu harus diharapkan dari sebuah sistem statistik yang dibangun di atas jutaan kata miliaran perkataan yang seperti situasi bisa mengulang.

Masalah saat ini dengan keselarasan sekarang harus diselesaikan tetapi kami mendesak komunitas pengguna kami untuk terus membantu kami mengidentifikasi situasi seperti itu dengan menghubungi kami melalui blog ini.

-Vikram

Vikram Dendi memimpin strategi bisnis & perencanaan produk untuk tim penerjemah Microsoft