Bỏ qua và nội dung chính
Translator
Trang này đã được tự động dịch của Microsoft Translator Dịch vụ máy dịch. Tìm hiểu thêm

Blog của Microsoft Translator

Chính trị không đúng máy

Trong khi chúng tôi ở các nhóm máy dịch đã được nhìn thấy lưu lượng truy cập ngày càng tăng để cung cấp khác nhau của chúng tôi trong vài tháng qua, chúng tôi nhận thấy một bump đột ngột trong giao thông ngày hôm qua. Có trưởng thành trên Agatha Christie và Sherlock Holmes, bí ẩn như vậy là cưỡng cho tôi-và một số folks khác về đội bóng đã được chỉ là tò mò để tìm hiểu những gì gây ra Bump này đột ngột. Chúng tôi figured rằng các IE8 hoạt động/Accelerator, các Messenger bot, Tìm kiếm bản dịch, Bản dịch văn phòng Tất cả đều hiển thị xu hướng trở lên tương tự như những ngày trước và do đó không phải là lý do cụ thể cho các vết sưng này.

Cuối cùng, chúng tôi đã có thể xác định một trong những lý do tiềm năng tại sao chúng tôi đã nhìn thấy điều này cành. Cộng đồng người dùng của chúng tôi tìm thấy một sự kỳ quặc trong cách các công cụ dịch thuật máy xử lý các bản dịch cho một số tên từ tiếng Anh sang Đức. Nó đã được mong đợi rằng khi động cơ dịch tên của ứng cử viên của một bên cho một người nào đó từ bên kia, cho bầu không khí chính trị hiện nay trong chạy lên đến cuộc bầu cử Mỹ, mà nó sẽ kết thúc như là tin tức. Trong khi chúng tôi chắc chắn hoan nghênh tất cả những người dùng mới mà đến bằng cách kiểm tra hiện tượng này ra-chúng tôi muốn chia sẻ với người dùng của chúng tôi là lý do tại sao những điều như vậy dường như xảy ra theo thời gian với hệ thống dịch thuật được đào tạo thống kê máy từ chúng tôi và những người khác.

Một công cụ dịch máy thống kê được đào tạo về rất nhiều và rất nhiều dữ liệu Parallel, nghĩa là dữ liệu tồn tại trong cả hai ngôn ngữ nguồn (ví dụ, tiếng Anh) và một ngôn ngữ mục tiêu (ví dụ: Đức), nơi mà nguồn và mục tiêu là bản dịch của nhau. Động cơ của chúng tôi được đào tạo trên hàng triệu câu cho mỗi cặp ngôn ngữ chúng tôi hỗ trợ. Để đào tạo trên một Corpus cụ thể của dữ liệu-có thể một số lượng lớn các bài viết Newswire trong tiếng Anh đã được dịch sang tiếng Đức-chúng tôi đầu tiên phải phá vỡ mà Corpus xuống câu. Sau khi Corpus là câu bị hỏng, chúng tôi ăn các câu kết quả thành một câu aligner, mục đích duy nhất trong đó là để tìm những gì các câu trên bên nguồn align với câu về phía mục tiêu. Điều này là không có nhiệm vụ tầm thường, kể từ một câu ở một bên có thể conceivably align với một hoặc nhiều câu trên mục tiêu (hoặc có thể không có gì cả!). Các aligner đôi khi sẽ làm cho những sai lầm, và misalign một câu với một trong đó là trong thực tế, không phải là một bản dịch. Điều này có thể dẫn đến một số mistranslations, đặc biệt là nếu có những từ trong nguồn và mục tiêu mà không thường xuyên xảy ra. Kể từ công cụ dịch thuật của chúng tôi là thống kê, nó rất phụ thuộc vào tần số đồng xuất hiện giữa các từ trong dữ liệu nguồn và mục tiêu. Nếu một số từ không thường xuyên xảy ra-tên của người dân, ví dụ, chỉ có thể xuất hiện một vài lần trên một Corpus của hàng triệu câu-thiếu tần số có thể dẫn đến mistranslations kết quả từ không chính xác "đoán" giữa nguồn và mục tiêu (ví dụ, thấp xác suất được gán cho các từ nguồn và mục tiêu cụ thể). Điều này có thể dẫn đến một số mình hài hước trong hệ thống dịch thuật của chúng tôi.

Vì vậy, đó là cách "máy" đã quyết định dịch một cách mà kết thúc với cộng đồng attributing nó vào cảm giác hài hước của đội ngũ của chúng tôi. Trong khi chúng tôi tiếp tục làm việc chăm chỉ để đảm bảo các alignments thích hợp, nó là để được mong đợi từ một hệ thống thống kê được xây dựng trên hàng triệu đến tỷ từ mà tình hình như vậy có thể lặp lại.

Vấn đề hiện tại với liên kết bây giờ sẽ được giải quyết nhưng chúng tôi kêu gọi cộng đồng của chúng tôi người sử dụng để giữ giúp chúng tôi xác định bất kỳ tình huống như vậy bằng cách tiếp xúc với chúng tôi qua blog này.

-Bà Vikram

Vikram Dendi dẫn kinh doanh chiến lược & kế hoạch sản phẩm cho nhóm dịch Microsoft