使用文件翻譯翻譯掃描的 PDF 文件
今天, 檔翻譯 Translator(Microsoft Azure 認知服務)的功能增加了翻譯包含掃描圖像內容的 PDF 文檔的功能,從而無需客戶在翻譯之前通過 OCR 引擎對其進行預處理。
文檔翻譯於去年(2021 年 5 月 25 日)正式發佈,允許客戶將整個文檔和批量文檔翻譯成多個文檔 110種語言和方言 同時保留原始文件的佈局和格式。文檔翻譯支援各種文件類型,包括 Word、PowerPoint 和 PDF,客戶可以使用預構建或自定義的機器翻譯模型。文檔翻譯是企業就緒的,具有 Azure Active Directory 身份驗證,通過託管標識在服務和存儲之間提供安全訪問。
翻譯包含掃描圖像內容的 PDF 是文件翻譯客戶非常需要的功能。客戶發現很難通過自動化來隔離具有常規文本或掃描圖像內容的PDF文檔。這會產生工作流程問題,因為客戶必須先將包含掃描圖像內容的 PDF 文檔路由到 OCR 引擎,然後再將其發送到文檔翻譯。
文件翻譯服務現在擁有智慧
- 識別 PDF 文件是否包含掃描的圖像內容,
- 將包含掃描圖像內容的 PDF 路由到內部 OCR 引擎以提取文字,
- 將翻譯后的內容重建為常規文本 PDF,同時保留原始布局和結構。
對於掃描的 PDF 內容,不會保留粗體、斜體、下劃線、突出顯示等字體格式,因為 OCR 技術當前不會捕獲它們。但是,在翻譯常規文本 PDF 文件時,將保留字體格式。
文件翻譯目前支援包含掃描圖像內容的 PDF 文件 從 68 種源語言到 87 種目標語言.將在適當時候添加對其他源語言和目標語言的支援。
現在,客戶可以更輕鬆地將所有 PDF 文件直接發送到文件翻譯,並讓其決定何時以及如何有效地使用 OCR 引擎。
對於已在使用文檔翻譯的客戶,無需更改代碼即可使用此新功能。可以像任何其他受支援的文件格式一樣,提交包含掃描內容的 PDF 文件進行翻譯。
我們還很高興地宣佈,文檔翻譯增加了對掃描的PDF文檔內容的支援,而無需向客戶收取額外費用。通過 Azure 進行文件翻譯有兩種定價計劃:即用即付計劃和 D3 批量折扣計劃,用於更高數量的文件翻譯。定價詳情可在以下位置找到: aka.ms/TranslatorPricing.
瞭解如何開始使用文檔翻譯,網址為 aka.ms/DocumentTranslationDocs.
將反饋發送給 mtfb@microsoft.com。