Pular para o conteúdo principal
Tradutor

Blog do Microsoft Translator

Traduza documentos PDF digitalizados com a tradução de documentos

Telefone usado para capturar a imagem do documento.

Hoje, o Tradução de documentos do Translator, um Serviço Cognitivo do Microsoft Azure, adiciona a capacidade de traduzir documentos PDF com conteúdo de imagem digitalizada, eliminando a necessidade de os clientes pré-processarem esses documentos por meio de um mecanismo de OCR antes da tradução.

A tradução de documentos foi disponibilizada de forma geral no ano passado, em 25 de maio de 2021, permitindo que os clientes traduzissem documentos inteiros e lotes de documentos para mais de 110 idiomas e dialetos preservando o layout e a formatação do arquivo original. A tradução de documentos oferece suporte a vários tipos de arquivos, incluindo Word, PowerPoint e PDF, e os clientes podem usar modelos de tradução automática pré-criados ou personalizados. A tradução de documentos está pronta para a empresa com a autenticação do Azure Active Directory, fornecendo acesso seguro entre o serviço e o armazenamento por meio do Managed Identity.

A tradução de PDFs com conteúdo de imagem digitalizada é um recurso muito solicitado pelos clientes de tradução de documentos. Os clientes acham difícil separar documentos PDF que tenham texto normal ou conteúdo de imagem digitalizada por meio da automação. Isso cria problemas de fluxo de trabalho, pois os clientes precisam encaminhar os documentos PDF com conteúdo de imagem digitalizada primeiro para um mecanismo de OCR antes de enviá-los para a tradução de documentos.

Os serviços de tradução de documentos agora têm a inteligência

  • para identificar se o documento PDF contém conteúdo de imagem digitalizada ou não,
  • para encaminhar PDFs com conteúdo de imagem digitalizada para um mecanismo de OCR interno para extrair texto,
  • para reconstruir o conteúdo traduzido como texto regular em PDF, mantendo o layout e a estrutura originais.

A formatação da fonte, como negrito, itálico, sublinhado, destaques etc., não é mantida no conteúdo de PDFs digitalizados, pois a tecnologia de OCR não os captura atualmente. Entretanto, a formatação da fonte é preservada durante a tradução de documentos PDF de texto normal.

Atualmente, a tradução de documentos é compatível com documentos PDF que contêm conteúdo de imagem digitalizada de 68 idiomas de origem para 87 idiomas de destino. O suporte a outros idiomas de origem e de destino será adicionado no devido tempo.

Agora é mais fácil para os clientes enviar todos os documentos PDF diretamente para a tradução de documentos e deixar que ela decida quando e como usar o mecanismo de OCR de forma eficiente.

Para os clientes que já usam a tradução de documentos, não é necessário alterar o código para poder usar esse novo recurso. Os documentos PDF com conteúdo digitalizado podem ser enviados para tradução como qualquer outro formato de documento compatível.

Também temos o prazer de anunciar que a tradução de documentos adiciona suporte para conteúdo de documentos PDF digitalizados sem custos adicionais para os clientes. Dois planos de preços estão disponíveis para a tradução de documentos por meio do Azure: o plano de pagamento conforme o uso e o plano de desconto por volume D3 para volumes maiores de tradução de documentos. Os detalhes dos preços podem ser encontrados em aka.ms/TranslatorPricing.

Saiba como começar a usar a tradução de documentos em aka.ms/DocumentTranslationDocs.
Envie seus comentários para mtfb@microsoft.com.