Kiểm tra chất lượng dịch thuật: khách blog
Anand Chakravarty là một SDET trên máy dịch thuật nhóm trong 2,5 năm qua, đã được Microsoft trong 8 năm, và là sản phẩm đầu tiên thử nghiệm trên MT đội (và "vẫn còn có vui vẻ với việc kiểm tra MT:-)"). Blog khách ngày hôm nay là về kiểm tra chất lượng dịch thuật.
—————————————————————————————————————
Một trong những điểm đầu tiên mà nói đến cái tâm, khi nói về việc xác minh chất lượng của một hệ thống dịch thuật, là làm thế nào để bạn đo lường chất lượng, hoặc được chính xác, tính chính xác của bản dịch? Dịch giữa các ngôn ngữ của con người bằng cách sử dụng máy tính là một lĩnh vực đó là gần nửa thế kỷ cũ. Khu vực này là đủ thách thức mà ngay cả những hệ thống dịch máy tốt nhất hiện đang có sẵn không phải là gần để thu được chất lượng ngôn ngữ đó sẽ là hoàn toàn thỏa đáng.
Một phần của thách thức là nhiều dữ liệu khác nhau-điểm mà con người xử lý để hiểu ý nghĩa của văn bản nói/viết. Có cú pháp, phân tích, ngữ nghĩa, bối cảnh, định hướng, sắp xếp lại, tất cả trong số đó, và nhiều hơn nữa, đi vào sự hiểu biết một câu. Và đây chỉ là câu trong 1 ngôn ngữ. Bây giờ hãy xem xét việc áp dụng tất cả của nó để xây dựng lại câu trong một ngôn ngữ khác và làm cho nó có ý nghĩa như nhau.
Một số ví dụ có thể giúp làm cho điểm này rõ ràng hơn. Thuật ngữ ' Olympics 2008 ' là khá rõ ràng. Tương tự như vậy, người ta có thể mong đợi thuật ngữ ' bầu cử 2008 ' để có nghĩa là các cuộc bầu cử tổng thống tại Hoa Kỳ. Tuy nhiên, nếu người sử dụng là từ, nói, Canada, nó sẽ có nhiều khả năng tham khảo các cuộc bầu cử địa phương ở đó.
Một tổng quát hơn, và do đó phổ biến hơn, ví dụ là một câu như ' lưu ý là sai '. Là từ ' lưu ý ' một tham chiếu đến một tin nhắn thông tin hoặc một thuật ngữ âm nhạc? Bản dịch thích hợp phụ thuộc vào ngữ cảnh. Sử dụng bối cảnh nhiều hơn, và cơ hội của bạn nhận được một bản dịch cải thiện chính xác hơn. Tuy nhiên điều này đi kèm với chi phí: bối cảnh hơn hệ thống cố gắng để có được, hiệu suất của nó chậm hơn. Các quyết định vận chuyển thông minh liên quan đến việc cân bằng quyền giữa việc cải thiện tính chính xác của bản dịch và cung cấp kết quả bản dịch hoàn toàn khả thi cho người dùng. Tất nhiên, cả hai đều rất quan trọng. Điều quan trọng là phải hiểu nơi bạn trực tiếp nỗ lực cải thiện tùy thuộc vào cách hữu ích kết quả cuối cùng là cho người dùng.
Điều này trở nên đặc biệt thú vị khi dịch tài liệu hoặc các trang web, thay vì chỉ có câu riêng lẻ. Hãy để chúng tôi nói một yêu cầu dịch thuật đã được nhận cho một trang web có chứa 100 câu. Tùy thuộc vào kiến trúc của hệ thống dịch thuật, tất cả các câu này có thể đi đến một quá trình, hoặc được phân phối trên nhiều quy trình/máy. Dù bằng cách nào, rõ ràng là thời gian thực hiện để dịch trang này trong toàn bộ là tỷ lệ thuận với thời gian tối đa được thực hiện để dịch một câu. Chúng tôi chi tiêu một câu trước khi thời gian đầu tư trở nên bất lợi cho thời gian của người dùng là bao lâu? Trong việc theo đuổi các bản dịch tốt nhất, chúng tôi có thể kết thúc chặn người dùng nhận được bất cứ điều gì thông tin để đáp ứng yêu cầu dịch thuật của họ. Các tiện ích của hệ thống do đó được điều chỉnh bởi các quyết định được thực hiện để cân bằng chất lượng ngôn ngữ và hiệu suất ứng dụng.
Với sản phẩm Microsoft Translator, có các tính năng bổ sung của người xem song ngữ của chúng tôi, một cái gì đó độc đáo trong công khai các sản phẩm dịch thuật có sẵn. Nó hỗ trợ làm nổi bật văn bản song song, đồng bộ hóa di chuyển và trình bày các trang (s) với rendering tiến bộ. Điều này thêm một lớp vào những gì người dùng của chúng tôi nhìn thấy, và do đó một lớp để polish và kết thúc.
Trong những tuần tới, chúng tôi hy vọng sẽ mang lại cho bạn thêm chi tiết về các lĩnh vực cụ thể được và đang được thử nghiệm để tàu một hệ thống dịch chất lượng hàng đầu. Hãy đăng bất kỳ câu hỏi bạn có về vấn đề này, một cái gì đó bạn luôn muốn hỏi:-), trong phần ý kiến.