Перевод отсканированных PDF-документов с помощью перевода документов
Сегодня Перевод документов Функция Translator, когнитивной службы Microsoft Azure, добавляет возможность переводить PDF-документы, содержащие отсканированное содержимое изображений, устраняя необходимость для клиентов предварительно обрабатывать их с помощью механизма OCR перед переводом.
Перевод документов стал общедоступным в прошлом году, 25 мая 2021 года, что позволило клиентам переводить целые документы и партии документов в более чем 110 языков и диалектов при сохранении макета и форматирования исходного файла. Перевод документов поддерживает различные типы файлов, включая Word, PowerPoint и PDF, и клиенты могут использовать как готовые, так и пользовательские модели машинного перевода. Перевод документов готов к использованию на предприятии с проверкой подлинности Azure Active Directory, обеспечивая безопасный доступ между службой и хранилищем с помощью управляемого удостоверения.
Перевод PDF-файлов с отсканированным содержимым изображений является очень востребованной функцией со стороны клиентов по переводу документов. Клиентам трудно отделить PDF-документы, которые имеют обычный текст или отсканированное изображение с помощью автоматизации. Это создает проблемы с рабочим процессом, поскольку клиенты должны сначала направлять PDF-документы со сканированным содержимым изображений в механизм OCR, прежде чем отправлять их на перевод документов.
Службы перевода документов теперь обладают интеллектом
- чтобы определить, содержит ли PDF-документ отсканированное содержимое изображения или нет,
- для маршрутизации PDF-файлов, содержащих содержимое отсканированных изображений, в механизм OCR для извлечения текста,
- реконструировать переведенное содержимое как обычный текст PDF с сохранением исходного макета и структуры.
Форматирование шрифтов, таких как полужирный, курсив, подчеркивание, выделения и т. Д., Не сохраняется для отсканированного содержимого PDF, поскольку технология OCR в настоящее время не захватывает их. Однако форматирование шрифтов сохраняется при переводе обычных текстовых PDF-документов.
Перевод документов в настоящее время поддерживает PDF-документы, содержащие отсканированное содержимое изображения от 68 исходных языков до 87 целевых языков. Поддержка дополнительных исходных и целевых языков будет добавлена в надлежащее время.
Теперь клиентам стало проще отправлять все PDF-документы в перевод документов напрямую и решать, когда и как эффективно использовать механизм OCR.
Для клиентов, уже использующих перевод документов, для использования этой новой функции не требуется вносить изменения в код. PDF-документы со сканированным содержимым могут быть отправлены на перевод, как и любые другие поддерживаемые форматы документов.
Мы также рады сообщить, что перевод документов добавляет поддержку отсканированного содержимого PDF-документа без каких-либо дополнительных сборов для клиентов. Для перевода документов через Azure доступны два тарифных плана : план с оплатой по мере использования и план скидок на объем D3 для больших объемов перевода документов. Подробную информацию о ценах можно найти по адресу aka.ms/TranslatorPricing.
Узнайте, как начать работу с переводом документов на aka.ms/DocumentTranslationDocs.
Отправить отзывы mtfb@microsoft.com.