Превеждане на сканирани PDF документи с превод на документ
Днес Превод на документ функция на Translator, познавателна услуга на Microsoft Azure, добавя възможност за превод на PDF документи, съдържащи сканирано съдържание на изображения, премахване на необходимостта клиентите да ги препроцесират чрез OCR двигател преди превод.
Преводът на документи е направен общодостъпен миналата година, 25 май 2021 г., което позволява на клиентите да превеждат цели документи и партиди документи в повече от 110 езика и диалекти докато запазвате оформлението и форматирането на оригиналния файл. Преводът на документи поддържа различни типове файлове, включително Word, PowerPoint и PDF и клиентите могат да използват или предварително изградени, или персонализирани модели за машинен превод. Преводът на документи е готов за предприятие с удостоверяване на Azure Active Directory, осигурявайки защитен достъп между услугата и хранилището чрез "Управлявана самоличност".
Преводът на PDF файлове със сканирано съдържание на изображения е силно заявена функция от клиентите за превод на документи. На клиентите е трудно да се разделят PDF документи, които имат редовен текст или сканирано съдържание на изображения чрез автоматизация. Това създава проблеми с работния поток, тъй като клиентите трябва да маршрутизират PDF документи със сканирано съдържание на изображения първо към OCR двигател, преди да ги изпратят на превод на документи.
Услугите за превод на документи вече разполагат с разузнавателните
- за да установите дали PDF документът съдържа сканирано съдържание на изображения или не,
- да маршрутизирате PDF файлове, съдържащи сканирано съдържание на изображения към OCR двигател вътрешно, за да извлечете текст,
- да реконструира преведеното съдържание като обикновен текст PDF, като запазва оригиналното оформление и структура.
Форматирането на шрифта като удебелен шрифт, курсив, подчертаване, акценти и т.н. не се запазват за сканирано PDF съдържание, тъй като технологията OCR в момента не ги улавя. Форматирането на шрифта обаче се запазва, докато се превеждат редовни текстови PDF документи.
Преводът на документи в момента поддържа PDF документи, съдържащи сканирано съдържание на изображения от 68 изходни езика на 87 целеви езика. Подкрепата за допълнителни изходни и целеви езици ще бъде добавена своевременно.
Сега е по-лесно за клиентите да изпращат всички PDF документи на Document translation директно и да го оставят да реши кога и как да използва ефективно OCR двигателя.
За клиенти, които вече използват превод на документ, не се изисква промяна на кода, за да можете да използвате тази нова функция. PDF документи със сканирано съдържание могат да се подават за превод като всички други поддържани формати на документи.
Също така имаме удоволствието да обявим, че преводът на Документа добавя поддръжка за сканирано съдържание на PDF документ без допълнителни такси към клиентите. Два плана за ценообразуване са достъпни за превод на документи чрез Azure – pay-as-you-go план и D3 том отстъпка план за по-високи обеми на превод на документи. Подробности за ценообразуването можете да намерите на aka.ms/TranslatorPricing.
Научете как да започнете с превод на документ на aka.ms/DocumentTranslationDocs.
Изпратете обратна връзка до mtfb@microsoft.com.