Traduire des documents PDF numérisés avec la traduction de documents

Publié le 25 mai 202227 mai 2022par Microsoft Translator

Téléphone utilisé pour capturer l’image du document.

Aujourd'hui, le Traduction de documents fonctionnalité de Translator, un service cognitif Microsoft Azure, ajoute la possibilité de traduire des documents PDF contenant du contenu d’image numérisé, éliminant ainsi la nécessité pour les clients de les prétraiter via un moteur OCR avant la traduction.

La traduction de documents a été mise à la disposition générale l’année dernière, le 25 mai 2021, permettant aux clients de traduire des documents entiers et des lots de documents en plus de 110 langues et dialectes tout en préservant la mise en page et la mise en forme du fichier d’origine. La traduction de documents prend en charge une variété de types de fichiers, y compris Word, PowerPoint et PDF, et les clients peuvent utiliser des modèles de traduction automatique prédéfinis ou personnalisés. La traduction de documents est prête pour l’entreprise avec l’authentification Azure Active Directory, fournissant un accès sécurisé entre le service et le stockage via Managed Identity.

La traduction de fichiers PDF avec du contenu d’image numérisé est une fonctionnalité très demandée par les clients de la traduction de documents. Les clients ont du mal à séparer les documents PDF qui ont du texte normal ou du contenu d’image numérisé grâce à l’automatisation. Cela crée des problèmes de flux de travail, car les clients doivent d’abord acheminer les documents PDF avec du contenu d’image numérisé vers un moteur OCR avant de les envoyer à la traduction de documents.

Les services de traduction de documents ont maintenant l’intelligence

pour déterminer si le document PDF contient ou non du contenu d’image numérisé,
pour acheminer des fichiers PDF contenant du contenu d’image numérisé vers un moteur OCR en interne afin d’extraire du texte,
pour reconstruire le contenu traduit au format PDF tout en conservant la mise en page et la structure d’origine.

Les formatages de police tels que le gras, l’italique, le soulignement, les surlignages, etc. ne sont pas conservés pour le contenu PDF numérisé car la technologie OCR ne les capture pas actuellement. Toutefois, la mise en forme des polices est conservée lors de la traduction de documents PDF texte standard.

La traduction de documents prend actuellement en charge les documents PDF contenant du contenu d’image numérisé de 68 langues sources à 87 langues cibles. La prise en charge d’autres langues sources et cibles sera ajoutée en temps voulu.

Désormais, il est plus facile pour les clients d’envoyer directement tous les documents PDF à document translation et de décider quand et comment utiliser efficacement le moteur OCR.

Pour les clients qui utilisent déjà la traduction de documents, aucune modification de code n’est nécessaire pour pouvoir utiliser cette nouvelle fonctionnalité. Les documents PDF avec un contenu numérisé peuvent être soumis pour traduction comme tout autre format de document pris en charge.

Nous sommes également heureux d’annoncer que la traduction de documents ajoute la prise en charge du contenu de documents PDF numérisés sans frais supplémentaires pour les clients. Deux plans tarifaires sont disponibles pour la traduction de documents via Azure : le plan de paiement à l’utilisation et le plan de remise sur volume D3 pour les volumes plus élevés de traduction de documents. Les détails des prix peuvent être trouvés à l’adresse aka.ms/TranslatorPricing.

Découvrez comment démarrer avec la traduction de documents à l’adresse aka.ms/DocumentTranslationDocs.
Envoyez vos commentaires à mtfb@microsoft.com.

Blog de Microsoft Translator