Многоезичен превод в мащаб: 10000 езикови двойки и извън него
Microsoft е в търсене на AI по скала с висока амбиция, за да се даде възможност на следващото поколение преживявания с ИИ. Преводачът на Microsoft ZCode екип работи заедно с Проект на Microsoft Тюринг и Microsoft Research Asia да напредне език и многоезична подкрепа в основата на тази инициатива. Продължаваме да прокарваме граници с многоезични модели, за да поддържаме различни езикови сценарии в целия Microsoft. Миналото лято обявихме големия си мащаб Многоезична смес от експертни модел с ДийпШпийд които могат да преизпълнени отделни големи мащабни двуезични модели. Наскоро най-новият модел на Тюринг за универсално езиково представяне (Т-УЛРв5), създаден от Microsoft модел отново е състоянието на изкуството и в горната част на Google XTREME обществена класация по това време. Съвсем наскоро Microsoft обяви най-голямата Мегатрон-Тюринг NLG 530B модела на параметрите.
Годишната Конференция за машинен превод (известен още като WMT 2021) приключи миналата седмица в красива Пунта Кана, Доминиканска република. WMT обединява изследователи от цялата област "Машинен превод", както промишлеността, така и академичните среди, за да участва в поредица от споделени задачи, като всеки определя еталон във важна област на машинен превод, за да прокара полето в нови граници.
Екипът на Преводач zCode на Microsoft, Работейки заедно с Turing team и Microsoft Research Asia, се състезаваха в пистата "Широкомащабен многоезичен превод", която се състоя от Пълна задача за превод между всички 10 000 посоки на 101 езика, и две Малки задачи: Една фокусирана върху 5 езика от Централна и Южна Европа, и една на 5 югоизточни азиатски езика. Моделът Microsoft ZCode-DeltaLM спечели и трите задачи с огромни маржове, включително невероятна печалба от 10+ точки над модела M2M100 в голямата задача, оценена на масивни езикови двойки от 10 000. (Констатации от споделената задача на WMT 2021 за широкомащабен многоезичен машинен превод, Wenzek et al, WMT 2021).
Фигура 1: Официални резултати (резултати от BLEU) относно пълната задача и малката задача1 на споделената задача wMT 2021 Big Scale Multilingual Translation
Подходът ZCode-DeltaLM
В тази публикация в блога нека погледнем под капака на печелившия модел Microsoft ZCode-DeltaLM. Нашата отправна точка беше DeltaLM (DeltaLM: Енкодер-декодер Предварително обучение за генериране на език и превод чрез усилване на предварително обучени многоезични енкодери), най-новата от все по-мощната серия от масивно многоезични предуредени езикови модели от Microsoft.
DeltaLM е модел на енкодер-декодер, но вместо обучение от нулата, той се инициализира от предварително предварително предварително предопределен най-съвременен модел само на кодери, специално (TULRv3). Докато инициализирането на енкодера е ясно, декодерът е по-малко толкова, тъй като добавя кръстосано внимание към самовнимание на енкодера. DeltaLM решава този проблем с новела пречленена архитектура, където самовнимание и кръстосано внимание се редуват между слоевете, като самовнимание се използва в нечетните слоеве и кръстосаното внимание, използвано в равномерните слоеве. С това интерлиращо, декодерната структура съвпада с енкодера и така може да се инициализира и по същия начин от TULRv3.
DeltaLM се допълва от ZCode мощно многозадачно обучение: Многозадачно обучение за многоезичен превод на невронни машини. Нашите модели показват, че комбинирането на многозадачно и многоезично обучение може значително да подобри обучението за големи мащабни предуказани езикови модели. Такава многоезична учебна парадигма е ливъридж индуктивното пристрастие и регуляризация от няколко задачи и езици едновременно, за да се представят по-добре на различни задачи надолу по веригата. Ние използваме превод задача, деноизиращ автоматично кодер задача и превод педя корупционна задача, както е показано на фигурата по-долу.
Спечелване на масивно многоезични превод писта
За да изградим нашата печеливша масивно многоезична система за превод (Многоезични машина превод системи от Microsoft за WMT21 споделена задача), започнахме с zCode-DeltaLM, и добавихме няколко трикове.
Прилагаме прогресивно обучение, първо тренираме модел с 24 енкодерни слоя и 12 декодерни слоя, след което продължаваме обучението с 12 добавени енкодерни слоя, което води до дълбок 36 слой енкодер. За да обхванем всички езикови двойки, генерираме двойно-псевдоуспоредни данни, където двете страни на паралелните данни са синтетични, преведени по модела от английски език. Прилагаме итеративен бек-превод за генериране на синтетични данни. Прилагаме обучение по учебни програми, като започнем с целите шумни данни за обучението, след което ги намаляваме до чиста подгрупа. Претеглим целта за превод, за да благоприятстваме паралелните данни пред бек-превода и двойно-псевдо-паралелните данни. Прилагаме температурно вземане на проби за баланс между езиковите двойки. За всяка езикова двойка избираме, въз основа на набора dev, дали да предпочетем директен превод или pivot превод чрез английски език.
Поставяйки всичко заедно, знаехме, че имаме невероятна масивно многоезична система, но официалните резултати на комплекта от слепи тестове надхвърлиха очакванията ни. Отбелязахме 2.5 до 9 BLEU пред следващия конкурент, и 10 до 21 BLEU точки пред базовия модел M2M-175. На теста dev сравнихме спрямо по-големия модел M2M-615, който победихме и с 10 до 18 точки.
Отвъд превода: Универсално генериране на език
Макар да сме развълнувани от голямата победа на WMT 2021, това, което е още по-вълнуващо, е, че за разлика от останалите конкуренти, нашият модел ZCode-DeltaLM не е просто модел на превод, а по-скоро общ претрениран езиков модел енкодер-декодер, използваем за всички видове задачи от поколение отвъд превода. Това наистина дават възможност на нашите модели да се представят доста добре на различни многоезични задачи за генериране на естествен език.
Стигнахме до нова SOTA в много популярни задачи от поколение от Показател за GEM, включително Wikilingua (обобщаване), Опростяване на текста (WikiAuto), и структура към текст (WebNLG). Моделът DeltaLM-ZCode широко прекалява с много по-големи модели като mT5 XL (3.7B), който също е обучен и на много по-големи данни. Това демонстрира ефективността и универсалността на моделите, водещи до силна производителност в рамките на много задачи.
Фигура 2. Производителност (RL резултати) на ZCode-DeltaLM по задачите за обобщаване и опростяване на текста в бенчмарка gEM
С поглед напред
Многоезичен машинен превод достигна точка, в която се представя много добре, превишавайки двуезични системи, както на ниски, така и на високи езици на ресурсите. Доказано е, че моделите на Смес от експерти (MoE) са много добри, за да мащабирате такива модели, както е показано в GShard. Изследваме как ефективно да мащабираме такива модели със Смес от експерти: Мащабируемо и ефективно обучение на MoE за многоезични модели. Моделите на MoE с масивни многоезични данни и безнадзорно многозадачно обучение представят безпрецедентни възможности за такива модели да предоставят наистина универсални системи, които допълнително могат да дадат възможност на екипа на Microsoft Translator да премахне езиковите бариери в целия свят, както и да подкрепят разнообразни задачи за генериране на естествен език.
Благодарности
Бихме искали да признаем и благодарим на Франсиско Гузман & неговия екип, който събра масивно многоезичният тестов комплект FLORES и организира тази wMT писта с такава голяма мащабна оценка.