此页面已由微软翻译机翻译服务自动翻译。 了解更多信息

微软翻译博客

用文件翻译来翻译扫描的PDF文件

用来捕捉文件图像的电话。

今天, 文件翻译 微软Azure认知服务Translator的功能增加了翻译包含扫描图像内容的PDF文档的能力,使客户在翻译前无需通过OCR引擎对其进行预处理。

文件翻译在去年,即2021年5月25日开始普遍使用,允许客户将整个文件和成批的文件翻译成超过 110种语言和方言 同时保留原始文件的布局和格式。文档翻译支持各种文件类型,包括Word、PowerPoint和PDF,客户可以使用预先建立的或自定义的机器翻译模型。文档翻译为企业准备了Azure Active Directory认证,通过Managed Identity在服务和存储之间提供安全访问。

翻译带有扫描图像内容的PDF文件是文件翻译客户强烈要求的一项功能。客户发现很难通过自动化来分离具有普通文本或扫描图像内容的PDF文件。这就产生了工作流程问题,因为客户必须将带有扫描图像内容的PDF文件先送至OCR引擎,然后再送至文档翻译。

文件翻译服务现在有了智能

  • 来识别PDF文件是否包含扫描的图像内容。
  • 将包含扫描图像内容的PDF路由到内部的OCR引擎以提取文本。
  • 将翻译后的内容重构为普通的PDF文本,同时保留原有的布局和结构。

由于OCR技术目前不能捕捉到字体格式,如粗体、斜体、下划线、高亮等,所以扫描的PDF内容不会保留这些格式。然而,在翻译普通文本的PDF文件时,字体格式是保留的。

文档翻译目前支持包含扫描图像内容的PDF文档 从68种源语言转换成87种目标语言.对其他源语言和目标语言的支持将在适当的时候增加。

现在,客户可以更容易地将所有PDF文件直接发送到文档翻译,并让它决定何时和如何有效地使用OCR引擎。

对于已经使用文档翻译的客户,不需要修改代码就能使用这个新功能。带有扫描内容的PDF文件可以像其他支持的文件格式一样提交翻译。

我们还高兴地宣布,文档翻译增加了对扫描的PDF文档内容的支持,而且不向客户收取额外费用。通过Azure为文档翻译提供两种定价计划--即付即用计划和针对较高文档翻译量的D3批量折扣计划。定价细节可在以下网站找到 aka.ms/TranslatorPricing.

了解如何开始进行文件翻译,请访问 aka.ms/DocumentTranslationDocs(文件翻译文件).
将您的反馈意见发送至 mtfb@microsoft.com。