Многоязычный перевод в масштабе: 10000 языковых пар и выше
Корпорация Майкрософт находится в поиске ИИ в масштабе с высокими амбициями по созданию следующего поколения ИИ. Переводчик Майкрософт ЗКод команда работает вместе с Проект Майкрософт по Тьюлингу и Microsoft Research Asia для продвижения языковой и многоязычной поддержки в основе этой инициативы. Мы продолжаем расширять границы с многоязычными моделями для поддержки различных языковых сценариев в корпорации Майкрософт. Прошлым летом мы объявили о наших масштабах Многоязычная смесь экспертов модель с Глубокая скорость которые могут превзойти отдельные крупномасштабные двуязычные модели. Недавно была представлена новейшая универсальная модель представления языка Тьюринга (Т-УЛРв5), модель, созданная Microsoft, снова является самым современным и находится на вершине Google. Публичная таблица лидеров XTREME в то время. Совсем недавно Microsoft анонсировала крупнейшую Мегатрон-Тьюнинг NLG 530B модель параметров.
Ежегодная конференция по машинному переводу (она же WMT 2021) завершилась на прошлой неделе в прекрасной Пунта-Кане, Доминиканская Республика. WMT объединяет исследователей из всей области машинного перевода, как в промышленности, так и в научных кругах, для участия в ряде общих задач, каждая из которых определяет ориентир в важной области машинного перевода, чтобы вывести область на новые рубежи.
Команда Microsoft Translator ZCode, работающая вместе с командой Тьюринга и Microsoft Research Asia, соревновалась в треке «Крупномасштабный многоязычный перевод», который состоял из полной задачи перевода между всеми 10 000 направлениями на 101 языке и двух небольших задач: одна была сосредоточена на 5 языках Центральной и Южной Европы, а другая на 5 языках Юго-Восточной Азии. Модель Microsoft ZCode-DeltaLM выиграла все три задачи с огромным отрывом, включая невероятный выигрыш в 10+ очков по сравнению с моделью M2M100 в большой задаче, оцененной на массивных 10 000 языковых парах. (Результаты общей задачи WMT 2021 по крупномасштабному многоязычному машинному переводу, Wenzek et al, WMT 2021).
Рисунок 1: Официальные результаты (баллы BLEU) по общей задаче Full-Task и Small-Task1 на совместной задаче WMT 2021 Large Scale Multilingual Translation
Подход ZCode-DeltaLM
В этом блоге давайте посмотрим под капот на победившую модель Microsoft ZCode-DeltaLM. Нашей отправной точкой была DeltaLM (DeltaLM: Предварительная подготовка кодировщика-декодера для генерации и перевода языков путем расширения предварительно обученных многоязычных кодировщиков), последняя во все более мощной серии массово многоязычных предварительно обученных языковых моделей от Microsoft.
DeltaLM является моделью кодировщика-декодера, но вместо обучения с нуля она инициализируется из ранее предварительно обученной современной модели кодировщика, в частности ,ТУЛРв3). В то время как инициализация кодировщика проста, декодер менее прост, поскольку он добавляет перекрестное внимание к самовнимания кодировщика. DeltaLM решает эту проблему с помощью новой взаимосвязанной архитектуры, где самовнимания и перекрестное внимание чередуются между слоями, причем самовнимания используется в нечетных слоях, и перекрестное внимание, используемое в четных слоях. При таком чередовании структура декодера соответствует кодировщику, и поэтому она также может быть инициализирована таким же образом из TULRv3.
DeltaLM дополнен мощным многозадачностью ZCode: Многозадачное обучение для многоязычного нейронного машинного перевода. Наши модели показывают, что сочетание многозадачного и многоязычного обучения может значительно улучшить обучение крупномасштабным предварительно обученным языковым моделям. Такая многозадачная парадигма многоязычного обучения использует индуктивную предвзятость и регуляризацию от нескольких задач и языков одновременно для лучшей работы с различными последующими задачами. Мы используем задачу перевода, задачу автоматического кодирования и задачу повреждения диапазона перевода, как показано на рисунке ниже.
Победа в массово многоязычном переводе
Построить нашу выигрышную многоязычность системы перевода (Многоязычные системы машинного перевода от Microsoft для общей задачи WMT21), мы начали с zCode-DeltaLM и добавили несколько трюков.
Мы применяем прогрессивное обучение, сначала обучая модель с 24 слоями кодировщика и 12 слоями декодера, а затем продолжаем обучение с 12 добавленными слоями кодировщика, в результате чего получается глубокий 36-слойный кодировщик. Чтобы охватить все языковые пары, мы генерируем двойные псевдопаралленные данные, где обе стороны параллельных данных являются синтетическими, переведенными моделью с английского языка. Мы также применяем итеративную обратное трансляцию для создания синтетических данных. Мы применяем обучение по учебной программе, начиная со всех шумных обучающих данных, затем сводя их к чистому подмножеству. Мы переоцениваем цель перевода, чтобы она отдала предпочтение параллельным данным, а не обратным и двойным псевдо-параллельным данным. Мы применяем температурную выборку для балансировки между языковыми парами. Для каждой языковой пары мы выбираем, исходя из набора разработчиков, предпочитаем ли прямой перевод или сводный перевод на английский язык.
Сложив все это вместе, мы знали, что у нас есть удивительная многоязычная система, но официальные результаты на слепом тестовом наборе превзошли наши ожидания. Мы набрали 2,5-9 BLEU впереди следующего конкурента и 10-21 BLEU-очковые баллы, опередив базовую модель M2M-175. В тесте разработчиков мы сравнили с более крупной моделью M2M-615, которую мы также обошел на 10-18 пунктов.
За пределами перевода: поколение универсального языка
Хотя мы рады большой победе на WMT 2021, еще более захватывающим является то, что в отличие от других конкурентов, наша модель ZCode-DeltaLM - это не просто модель перевода, а скорее общая предварительно обученная языковая модель кодировщика-декодера, пригодная для всех видов задач генерации, помимо перевода. Это действительно позволяет нашим моделям довольно хорошо работать с различными многоязычными задачами генерации естественного языка.
Мы достигли новой SOTA во многих популярных задачах поколения от Тест GEM, включая Wikilingua (обобщение), упрощение текста (WikiAuto) и преобразование структуры в текст (WebNLG). Модель DeltaLM-ZCode значительно превосходит гораздо более крупные модели, такие как mT5 XL (3.7B), которые также обучаются на гораздо больших данных. Это продемонстрировало эффективность и универсальность моделей, что привело к высокой производительности во многих задачах.
Рисунок 2. Производительность (оценки RL) ZCode-DeltaLM в задачах суммирования и упрощения текста в тесте GEM
Взгляд в будущее
Многоязычный машинный перевод достиг точки, когда он работает очень хорошо, превосходя двуязычные системы, как на языках с низким, так и на языках с высоким уровнем ресурсов. Было показано, что модели смеси экспертов (MOE) очень хорошо подходят для масштабирования таких моделей, как это было показано в GShard. Мы исследуем, как эффективно масштабировать такие модели с помощью Mix of Experts: Масштабируемое и эффективное обучение MoE для многозадачных многоязычных моделей. Модели MoE с массивными многоязычными данными и неконтролируемым многозадачным обучением предоставляют для таких моделей непревзойденную возможность предоставлять действительно универсальные системы, которые могут дополнительно позволить команде Microsoft Translator устранять языковые барьеры по всему миру, а также поддерживать различные задачи генерации естественного языка.
Благодарности
Мы хотели бы отметить и поблагодарить Франциско Гусмана и его команду, которые собрали многоязычный тестовый набор FLORES и организовали этот трек WMT с такой масштабной оценкой.