Політично некоректні машини
Хоча ми в команді машинного перекладу були бачачи збільшення трафіку на наші різні пропозиції протягом останніх декількох місяців, ми помітили раптовий удар в русі вчора. Виріс на Агата Крісті і Шерлок Холмс, такі таємниці є непереборними для мене-і ряд інших людей на команді були так само цікаво дізнатися, що викликало цей раптовий удар. Ми зрозуміли, що IE8 діяльності/Прискорювач, то Messenger бот, Пошук перекладів, Офісні переклади всі були показані ж вгору тенденція, як за днів до і, отже, не є конкретною причиною цього удар.
Врешті-решт, ми змогли визначити одну потенційну причину, чому ми бачимо цей сплеск. Наші користувачі знайшли дивина в тому, як двигун машинного перекладу обробляється переклад для декількох назв з англійської на німецьку. Слід було очікувати, що, коли двигун переводить ім'я кандидата однієї партії до когось з іншої сторони, з урахуванням нинішньої політичної атмосфери напередодні виборів до США, що вона буде в кінцевому підсумку як новина. Хоча ми, звичайно, вітаємо всіх нових користувачів, які прийшли, щоб перевірити це явище Out-ми хотіли б поділитися з нашими користувачами причина, чому такі речі, здається, відбуваються час від часу з статистично підготовлених систем машинного перекладу від нас та інших.
Статистичний механізм машинного перекладу навчається на багатьох паралельних даних, тобто даних, які існують як у вихідній мові (наприклад, англійською), так і в цільовій мові (наприклад, німецькою мовою), де джерелом і мішенню є переклади один одного. Наш двигун навчається на мільйони речень для кожної мовної пари ми підтримуємо. Для того, щоб навчати на конкретному корпус даних, може бути, велика кількість Newswire статей англійською мовою, які були переведені на німецьку мову-ми спочатку повинні розірвати, що корпус вниз у вироки. Після корпус є вирок зламаною, ми годуєте в результаті покарання у реченні alalner, єдиною метою якого є знайти те, що речення на стороні джерела узгодження з вироки на цільовій стороні. Це не тривіальне завдання, так як вирок з одного боку можна було узгодити з одним або більше речень на ціль (або, можливо, ніхто на всіх!). Алітнер іноді роблять помилки, і неправильне вирівнювання одного речення з іншим, що насправді не є перекладом. Це може призвести до деяких mistranslations, особливо якщо є слова в джерелі і мішені, які нерідко відбуваються. Оскільки наш движок перекладу є статистичним, він високо залежить від взаємодії частот між словами в вихідних і цільових даних. Якщо певні слова часто трапляються — імена людей, наприклад, можуть відбуватися лише кілька разів через корпус мільйонів речень — відсутність частоти може призвести до містланслецій, що виникають внаслідок неправильних «здогадок» між джерелом і цільовим (наприклад, низькою імовірностей, призначених конкретним джерелу та цільовим словам). Це може привести до деяких комічних gaffes в нашій системі перекладу.
Отже, ось як "машина" вирішила перевести таким чином, що в кінцевому підсумку з спільнотою приписуючи його почуття гумору нашої команди. Хоча ми продовжуємо наполегливо працювати, щоб забезпечити належне вирівнювання, слід очікувати від статистичної системи, яка побудована на мільйонах мільярди слів, що така ситуація може повторюватися.
Поточний питання з вирівнюванням тепер повинні бути вирішені, але ми закликаємо нашу спільноту користувачів продовжувати допомагати нам ідентифікувати будь-які такі ситуації, зв'язавшись з нами через цей блог.
-Вікрам