규모에 다국어 번역: 10000 언어 쌍 이상
마이크로소프트는 에 대 한 탐구에 규모의 AI 차세대 AI 경험을 가능하게 하려는 높은 포부. 마이크로소프트 번역기 Z코드 팀이 함께 작업하고 있습니다. 마이크로소프트 프로젝트 튜링 그리고 마이크로소프트 리서치 아시아는 이 이니셔티브의 핵심에서 언어와 다국어 지원을 발전시키기 위해 서 식을 수 있습니다. Microsoft는 Microsoft 전반에 걸쳐 다양한 언어 시나리오를 지원하기 위해 다국어 모델로 국경을 계속 밀어 붙입니다. 지난 여름, 우리는 우리의 대규모를 발표했다 전문가의 다국어 혼합물 모델 딥스피드 이는 개별 적인 대규모 이중 언어 모델을 능가할 수 있습니다. 최근, 최신 튜링 유니버설 언어 표현 모델 (T-ULRv5) 마이크로 소프트가 만든 모델은 다시 한 번 예술의 상태와 구글의 상단에 XTREME 공개 리더보드 그 때. 최근, 마이크로소프트는 가장 큰 발표 메가트론 튜링 NLG 530B 매개 변수 모델입니다.
기계 번역에 대한 연례 회의 (일명 WMT 2021)는 아름다운 푼타 카나, 도미니카 공화국에서 지난 주 결론을 내렸다. WMT는 전체 기계 번역 분야, 산업 및 학계에서 연구원을 함께 모여 일련의 공유 작업에 참여하도록 하고, 각각 기계 번역의 중요한 영역에서 벤치 마크를 정의하여 새로운 국경으로 필드를 밀어 넣습니다.
튜링 팀 및 마이크로소프트 리서치 아시아와 함께 작업하는 Microsoft 번역기 ZCode 팀은 101개 언어로 10,000개 방향 모두를 번역하는 전체 작업과 5개의 중앙 및 남부 유럽 언어에 중점을 둔 두 가지 작은 작업으로 구성된 "대규모 다국어 번역" 트랙에 참가했습니다. Microsoft ZCode-DeltaLM 모델은 M2M100 모델에 비해 10개 이상의 포인트 이득을 포함하여 3개의 작업을 모두 큰 차이로 이겼습니다. (대규모 다국어 기계 번역에 대한 WMT 2021 공유 작업 결과, 웬제크 외, WMT 2021).
그림 1: WMT 2021 대규모 다국어 번역 공유 작업의 풀 태스크 및 소규모 태스크1에 대한 공식 결과(BLEU 점수)
ZCode-DeltaLM 접근 방식
이 블로그 게시물에서 는 우승 한 Microsoft ZCode-DeltaLM 모델의 후드 아래를 살펴 보겠습니다. 우리의 출발점은 델타LM (DeltaLM: 사전 학습된 다국어 인코더를 보강하여 언어 생성 및 번역을 위한 인코더 디코더 사전 교육), 마이크로 소프트에서 대규모 다국어 사전 훈련 언어 모델의 점점 더 강력한 시리즈의 최신.
DeltaLM은 인코더 디코더 모델이지만 처음부터 교육하는 대신 이전에 미리 훈련된 최첨단 인코더 전용 모델에서 초기화됩니다( 특히)툴르브3). 인코더를 초기화하는 것은 간단하지만, 디코더는 인코더의 자기 주의에 교차주의를 추가하기 때문에 덜 중요합니다. DeltaLM은 이 문제를 새로운 인터리브 아키텍처로 해결하며, 이 곳에서 자기 주의와 교차주의가 레이어 간에 번갈아 가며, 이상한 레이어에 사용되는 자기 주의와 짝수 레이어에 사용되는 교차 주의가 있습니다. 이 인터리빙을 사용하면 디코더 구조가 인코더와 일치하므로 TULRv3에서 동일한 방식으로 초기화될 수도 있습니다.
DeltaLM은 ZCode 강력한 멀티태스킹 학습으로 보강됩니다. 다국어 신경 기계 번역을 위한 다중 작업 학습. 우리의 모델은 멀티 태스킹과 다국어 학습을 결합하면 대규모 사전 학습 된 언어 모델에 대한 교육을 크게 향상시킬 수 있음을 보여줍니다. 이러한 다중 언어 학습 패러다임은 다양한 다운스트림 작업에서 더 나은 성능을 수행하기 위해 동시에 여러 작업 및 언어에서 유도 편향과 정규화를 활용하고 있습니다. 아래 그림과 같이 번역 작업을 사용하고 있으며, 자동 인코더 작업 및 번역 범위 손상 작업을 사용하지 않습니다.
대규모 다국어 번역 트랙 우승
우리의 승리 대규모 다국어 번역 시스템을 구축하기 위해 (WMT21 공유 작업에 대한 마이크로 소프트에서 다국어 기계 번역 시스템) zCode-DeltaLM으로 시작하여 몇 가지 트릭을 추가했습니다.
우리는 진보적 인 학습을 적용, 먼저 24 인코더 레이어와 12 디코더 레이어와 모델을 훈련, 다음 깊은 36 층 인코더의 결과로 12 추가 인코더 레이어와 훈련을 계속합니다. 모든 언어 쌍을 커버하기 위해 병렬 데이터의 양쪽이 영어로 변환된 합성형 이중 의사 병렬 데이터를 생성합니다. 또한 합성 데이터를 생성하기 위해 반복적인 역번역을 적용합니다. 우리는 전체 시끄러운 교육 데이터부터 시작하여 깨끗한 하위 집합으로 줄이는 커리큘럼 학습을 적용합니다. 번역 목표에 가중치를 두어 백-번역 및 이중 의사 병렬 데이터를 통해 병렬 데이터를 선호합니다. 우리는 언어 쌍에 걸쳐 균형을 온도 샘플링을 적용합니다. 각 언어 쌍에 대해, 우리는 영어를 통해 직접 번역 또는 피벗 번역을 선호하든, 개발 세트에 따라 선택합니다.
이 모든 것을 종합해 볼 때, 우리는 놀라운 대규모 다국어 시스템을 가지고 있다는 것을 알았지만 블라인드 테스트 세트의 공식 결과는 우리의 기대를 뛰어 넘었습니다. 다음 경쟁사보다 2.5~9점, 기준선 M2M-175 모델보다 10~21점 앞서는 BLEU 포인트를 기록했습니다. 개발 테스트에서 우리는 더 큰 M2M-615 모델에 비해, 우리는 또한 10 에서 18 점 이겼다.
번역 비: 보편적 언어 세대
우리는 WMT 2021에서 큰 승리에 대해 흥분하는 동안, 더 흥미로운 것은 다른 경쟁업체와는 달리, 우리의 ZCode-DeltaLM 모델은 단지 번역 모델이 아니라 번역을 넘어 세대 작업의 모든 종류에 사용할 수있는 일반적인 사전 훈련 인코더 디코더 언어 모델입니다. 이를 통해 모델은 다양한 다국어 자연어 생성 작업에서 매우 잘 수행할 수 있습니다.
우리는 에서 많은 인기있는 세대 작업에서 새로운 SOTA에 도달 GEM 벤치마크위키링구아(요약), 텍스트 단순화(WikiAuto), 구조-텍스트(WebNLG)를 포함합니다. DeltaLM-ZCode 모델은 mT5 XL(3.7B)과 같은 훨씬 더 큰 모델보다 훨씬 뛰어난 성능을 발휘하며, 이는 훨씬 더 큰 데이터에서도 교육을 받고 있습니다. 이는 많은 작업에서 강력한 성능으로 이어지는 모델의 효율성과 다기능성을 입증했습니다.
그림 2. GEM 벤치마크에서 요약 및 텍스트 단순화 작업에 대한 ZCode-DeltaLM의 성능(RL 점수)
앞을 내다보다
다국어 기계 번역은 낮은 자원 언어와 높은 자원 언어 모두에서 이중 언어 시스템을 능가하는 매우 잘 수행되는 지점에 도달했습니다. 전문가 (MoE) 모델의 혼합물은 GShard에 표시된 것과 같은 모델을 확장하는 데 매우 적합한 것으로 나타났습니다. 우리는 전문가의 혼합물로 이러한 모델을 효율적으로 확장하는 방법을 탐구합니다. 멀티태스플 다국어 모델을 위한 확장 가능하고 효율적인 MoE 교육. 대규모 다국어 데이터와 감독되지 않은 멀티태스킹 교육을 갖춘 MoE 모델은 Microsoft 번역기 팀이 전 세계 언어 장벽을 제거하고 다양한 자연어 생성 작업을 지원할 수 있는 진정한 범용 시스템을 제공할 수 있는 전례 없는 기회를 제공합니다.
승인
우리는 대규모 다국어 FLORES 테스트 세트를 수집하고 대규모 평가와 함께이 WMT 트랙을 조직 프란시스코 구즈만과 그의 팀에 감사드립니다.