콘텐츠로 건너뛰기
번역기
이 페이지는 Microsoft 번역기의 기계 번역 서비스에서 자동으로 번역되었습니다. 자세히

마이크로 소프트 번역기 블로그

통계 기계 번역 – 게스트 블로그 (추가 용지로 업데이트)

것 이다 루이스는 언어 품질 및 데이터 수집에 대 한 작업, 마이크로 소프트 번역기 팀의 프로그램 관리자입니다.  오늘의 게스트 블로그는 엔진이 작동 하는 방법에 대 한 높은 수준의 설명입니다.  

많은 사람들이 알다시피, 후드 아래 마이크로 소프트 번역기는 통계 기계 번역 (SMT) 엔진에 의해 구동 됩니다.  통계적 인 시스템은 한 언어에서 다른 언어로 단어와 구를 매핑하는 것이 아니라 시스템에서 직접 코딩 하는 것 보다는 "규칙" 이라는 점에서 규칙 기반 것과 다릅니다.  SMT 교육을 위해서는 많은 양의 병렬 교육 데이터 (좋은 품질 및 이기종 소스의 소스)를 사용 하 고 해당 데이터에 대 한 엔진을 교육 해야 합니다.  (병렬로, 우리는 하나의 언어에 대 한 콘텐츠는 다른에 대 한 콘텐츠와 동일한 데이터의 소스를 의미 한다.)  이 엔진은 한 언어와 다른 언어로 된 단어와 어구 사이의 서신을 배운다,이는 종종 입력 전체에 걸쳐 동일한 단어와 구문의 반복 발생에 의해 강화 된다.  예를 들어, 영어-독일어 시스템을 훈련 할 때 엔진이 구를 볼 수 있다고 가정해 봅시다. 판권 영어 측면에서 그리고 또한 통지 이은 지 독일어 측면에서이 두 구를 정렬 하 고이 맞춤에 약간의 확률을 지정할 수 있습니다.  학습 데이터에서 소스 및 대상 구가 반복 해 서 발생 하면이 맞춤만 강화 됩니다.

일반적으로, 언어 쌍에 대 한 병렬 데이터를 갖는 것은 우리가 두 방향으로 엔진을 훈련 할 수 있다는 것을 의미 합니다 (즉, 영어-독일어와 독일어-영어 시스템 모두 동일한 입력 문장에 대 한 교육을 받을 수 있습니다).  스페인어-영어를 출시 하기 전에 영어-스페인어 시스템을 출시 한 이유에 대 한 몇 가지 질문이 있었습니다.  정말 두 가지 이유가 있었습니다.  첫째, 영어-스페인어는 우리가 발표 한 첫 번째 일반 도메인 언어 쌍 이었다.  한 언어 쌍을 놓으면 더 많은 릴리스를 시작 하기 전에 인프라를 테스트할 수 있게 되었습니다.  둘째, 스페인어-영어에 대 한 기술은 영어-스페인어에 사용 되는 것 보다 약간 다른, 우리는 수용 하기 위해 필요한 인프라 변경 작업을 수행 하기 위해 약간의 추가 시간이 필요 합니다.  앞으로 새로운 번역 시스템을 쌍으로 출시할 계획입니다 (몇 가지 예외 포함).  나는 우리가 다음 계획 한 언어를 공개 할 수 없습니다, 하지만 곧 몇 가지 새로운 것을 기대 합니다!

당사의 엔진과 그 작동 방식에 관한 기술 토론에 관심이 있는 분 들을 위해,이를 개발한 연구자 들의 논문을 참조 하십시오.  노트의 세 가지 최근 논문은 다음과 같습니다:

크리스이 크, 아 울 메 네 제 스. 우리는 문구가 필요 합니까? 통계적 기계 번역의 기존 지혜에 도전 5 월 2006 뉴욕, 뉴욕, 미국 hlt-naacl 2006의 절차

크리스이 크, 아 울 메 네 제 스. 종속성 treelet 번역: 통계 및 예제 기반 기계 번역의 융합? 3 월 2006 기계 번역 43-65 (첨부 파일)


크리스이 크, 아 울 메 네 제 스. 종속성 순서 템플릿을 사용 하 여 변환에서 일반 성 향상 7 월 2007 전산 언어학 협회

종속성 treelet 번역 통계 및 예제 기반 기계 번역의 수렴. pdf