Traduce documentos PDF escaneados con Document translation
Hoy en día, el Traducción de documentos de Translator, un servicio cognitivo de Microsoft Azure, añade la capacidad de traducir documentos PDF que contengan imágenes escaneadas, eliminando la necesidad de que los clientes los preprocesen a través de un motor OCR antes de la traducción.
La traducción de documentos estuvo disponible de forma generalizada el pasado 25 de mayo de 2021, permitiendo a los clientes traducir documentos enteros y lotes de documentos a más de 110 lenguas y dialectos conservando el diseño y el formato del archivo original. La traducción de documentos es compatible con diversos tipos de archivos, como Word, PowerPoint y PDF, y los clientes pueden utilizar modelos de traducción automática preconstruidos o personalizados. La traducción de documentos está preparada para la empresa con la autenticación de Azure Active Directory, que proporciona un acceso seguro entre el servicio y el almacenamiento a través de Managed Identity.
La traducción de PDF con contenido de imágenes escaneadas es una función muy solicitada por los clientes de traducción de documentos. A los clientes les resulta difícil separar los documentos PDF con contenido de texto normal o de imágenes escaneadas mediante la automatización. Esto crea problemas de flujo de trabajo, ya que los clientes tienen que dirigir los documentos PDF con contenido de imágenes escaneadas primero a un motor de OCR antes de enviarlos a la traducción de documentos.
Los servicios de traducción de documentos tienen ahora la inteligencia
- para identificar si el documento PDF contiene o no contenido de imagen escaneada,
- para dirigir los PDF que contienen imágenes escaneadas a un motor de OCR interno para extraer el texto,
- para reconstruir el contenido traducido como un texto normal en PDF, conservando el diseño y la estructura originales.
El formato de las fuentes, como la negrita, la cursiva, el subrayado, el resaltado, etc., no se conserva en los contenidos PDF escaneados, ya que la tecnología OCR no los captura actualmente. Sin embargo, el formato de las fuentes se conserva al traducir documentos PDF de texto normal.
La traducción de documentos admite actualmente documentos PDF con contenido de imágenes escaneadas de 68 lenguas de origen a 87 lenguas de destino. A su debido tiempo se añadirá la compatibilidad con otros idiomas de origen y destino.
Ahora es más fácil para los clientes enviar todos los documentos PDF a la traducción de documentos directamente y dejar que ésta decida cuándo y cómo utilizar el motor de OCR de forma eficaz.
Para los clientes que ya utilizan la traducción de documentos, no es necesario cambiar el código para poder utilizar esta nueva función. Los documentos PDF con contenido escaneado pueden enviarse para su traducción como cualquier otro formato de documento compatible.
También nos complace anunciar que la traducción de documentos añade soporte para el contenido de documentos PDF escaneados sin cargos adicionales para los clientes. Hay dos planes de precios disponibles para la traducción de documentos a través de Azure: el plan de pago por uso y el plan de descuento por volumen D3 para volúmenes mayores de traducción de documentos. Los detalles de los precios se pueden encontrar en aka.ms/TranslatorPricing.
Aprenda cómo empezar a traducir documentos en aka.ms/DocumentTranslationDocs.
Envíe sus comentarios a mtfb@microsoft.com.