Перейти к основному контенту
Translator
Эта страница была автоматически переведена службой машинного перевода Microsoft Translator. Подробнее

Блог переводчика Майкрософт

Перевод отсканированных PDF-документов с помощью перевода документов

Телефон, используемый для захвата изображения документа.

Сегодня Перевод документов Функция Translator, когнитивной службы Microsoft Azure, добавляет возможность переводить PDF-документы, содержащие отсканированное содержимое изображений, устраняя необходимость для клиентов предварительно обрабатывать их с помощью механизма OCR перед переводом.

Перевод документов стал общедоступным в прошлом году, 25 мая 2021 года, что позволило клиентам переводить целые документы и партии документов в более чем 110 языков и диалектов при сохранении макета и форматирования исходного файла. Перевод документов поддерживает различные типы файлов, включая Word, PowerPoint и PDF, и клиенты могут использовать как готовые, так и пользовательские модели машинного перевода. Перевод документов готов к использованию на предприятии с проверкой подлинности Azure Active Directory, обеспечивая безопасный доступ между службой и хранилищем с помощью управляемого удостоверения.

Перевод PDF-файлов с отсканированным содержимым изображений является очень востребованной функцией со стороны клиентов по переводу документов. Клиентам трудно отделить PDF-документы, которые имеют обычный текст или отсканированное изображение с помощью автоматизации. Это создает проблемы с рабочим процессом, поскольку клиенты должны сначала направлять PDF-документы со сканированным содержимым изображений в механизм OCR, прежде чем отправлять их на перевод документов.

Службы перевода документов теперь обладают интеллектом

  • чтобы определить, содержит ли PDF-документ отсканированное содержимое изображения или нет,
  • для маршрутизации PDF-файлов, содержащих содержимое отсканированных изображений, в механизм OCR для извлечения текста,
  • реконструировать переведенное содержимое как обычный текст PDF с сохранением исходного макета и структуры.

Форматирование шрифтов, таких как полужирный, курсив, подчеркивание, выделения и т. Д., Не сохраняется для отсканированного содержимого PDF, поскольку технология OCR в настоящее время не захватывает их. Однако форматирование шрифтов сохраняется при переводе обычных текстовых PDF-документов.

Перевод документов в настоящее время поддерживает PDF-документы, содержащие отсканированное содержимое изображения от 68 исходных языков до 87 целевых языков. Поддержка дополнительных исходных и целевых языков будет добавлена в надлежащее время.

Теперь клиентам стало проще отправлять все PDF-документы в перевод документов напрямую и решать, когда и как эффективно использовать механизм OCR.

Для клиентов, уже использующих перевод документов, для использования этой новой функции не требуется вносить изменения в код. PDF-документы со сканированным содержимым могут быть отправлены на перевод, как и любые другие поддерживаемые форматы документов.

Мы также рады сообщить, что перевод документов добавляет поддержку отсканированного содержимого PDF-документа без каких-либо дополнительных сборов для клиентов. Для перевода документов через Azure доступны два тарифных плана : план с оплатой по мере использования и план скидок на объем D3 для больших объемов перевода документов. Подробную информацию о ценах можно найти по адресу aka.ms/TranslatorPricing.

Узнайте, как начать работу с переводом документов на aka.ms/DocumentTranslationDocs.
Отправить отзывы mtfb@microsoft.com.