Übersetzen Sie gescannte PDF-Dokumente mit Dokumentübersetzung

Veröffentlicht am 25. Mai 202227. Mai 2022bis Microsoft Translator

Telefon zum Erfassen des Bildes des Dokuments.

Heute ist die Übersetzung von Dokumenten Das Feature von Translator, einem Microsoft Azure Cognitive Service, bietet die Möglichkeit, PDF-Dokumente mit gescanntem Bildinhalt zu übersetzen, sodass Kunden diese vor der Übersetzung nicht mehr über ein OCR-Modul vorverarbeiten müssen.

Die Übersetzung von Dokumenten wurde im vergangenen Jahr, am 25. Mai 2021, allgemein verfügbar gemacht und ermöglicht es Kunden, ganze Dokumente und Stapel von Dokumenten in mehr als 110 Sprachen und Dialekte unter Beibehaltung des Layouts und der Formatierung der Originaldatei. Die Dokumentübersetzung unterstützt eine Vielzahl von Dateitypen, einschließlich Word, PowerPoint und PDF, und Kunden können entweder vorgefertigte oder benutzerdefinierte maschinelle Übersetzungsmodelle verwenden. Die Dokumentübersetzung ist mit Azure Active Directory-Authentifizierung unternehmenstauglich und bietet sicheren Zugriff zwischen dem Dienst und dem Speicher über Managed Identity.

Das Übersetzen von PDFs mit gescannten Bildinhalten ist eine sehr gefragte Funktion von Kunden für die Übersetzung von Dokumenten. Kunden finden es schwierig, PDF-Dokumente mit normalem Text oder gescanntem Bildinhalt durch Automatisierung zu trennen. Dies führt zu Workflow-Problemen, da Kunden PDF-Dokumente mit gescannten Bildinhalten zuerst an eine OCR-Engine weiterleiten müssen, bevor sie sie an die Dokumentübersetzung senden.

Dokumentenübersetzungsdienste verfügen jetzt über die Intelligenz

um festzustellen, ob das PDF-Dokument gescannte Bildinhalte enthält oder nicht,
um PDFs mit gescanntem Bildinhalt intern an eine OCR-Engine weiterzuleiten, um Text zu extrahieren,
den übersetzten Inhalt als normales Text-PDF unter Beibehaltung des ursprünglichen Layouts und der ursprünglichen Struktur zu rekonstruieren.

Schriftformatierungen wie Fett, Kursivschrift, Unterstreichung, Hervorhebungen usw. werden für gescannte PDF-Inhalte nicht beibehalten, da die OCR-Technologie sie derzeit nicht erfasst. Die Schriftformatierung bleibt jedoch bei der Übersetzung regulärer Text-PDF-Dokumente erhalten.

Die Dokumentübersetzung unterstützt derzeit PDF-Dokumente mit gescanntem Bildinhalt von 68 Ausgangssprachen in 87 Zielsprachen. Unterstützung für zusätzliche Quell- und Zielsprachen wird zu gegebener Zeit hinzugefügt.

Jetzt ist es für Kunden einfacher, alle PDF-Dokumente direkt an die Dokumentenübersetzung zu senden und sie entscheiden zu lassen, wann und wie sie die OCR-Engine effizient nutzen können.

Für Kunden, die bereits die Übersetzung von Dokumenten verwenden, ist keine Codeänderung erforderlich, um diese neue Funktion verwenden zu können. PDF-Dokumente mit gescanntem Inhalt können wie alle anderen unterstützten Dokumentformate zur Übersetzung eingereicht werden.

Wir freuen uns auch, Ihnen mitteilen zu können, dass die Dokumentübersetzung Unterstützung für gescannte PDF-Dokumentinhalte ohne zusätzliche Kosten für Kunden bietet. Für die Dokumentübersetzung über Azure stehen zwei Preispläne zur Verfügung: der Pay-as-you-go-Plan und der D3-Mengenrabattplan für höhere Mengen an Dokumentübersetzungen. Preisdetails finden Sie unter aka.ms/TranslatorPricing.

Informationen zu den ersten Schritten bei der Dokumentübersetzung finden Sie unter aka.ms/DocumentTranslationDocs.
Senden Sie Ihr Feedback an mtfb@microsoft.com.

Microsoft Translator Blog