Oversæt scannede PDF-dokumenter med Document translation

Slået fra 25. maj 202227. maj 2022ved Microsoft Translator

Telefon, der bruges til at tage et billede af dokumentet.

I dag er Oversættelse af dokumenter funktion i Translator, en Microsoft Azure Cognitive Service, giver mulighed for at oversætte PDF-dokumenter, der indeholder scannet billedindhold, så kunderne ikke længere behøver at forbehandle dem gennem en OCR-motor før oversættelse.

Dokumentoversættelse blev gjort generelt tilgængelig sidste år, den 25. maj 2021, og giver kunderne mulighed for at oversætte hele dokumenter og partier af dokumenter til mere end 110 sprog og dialekter samtidig med at du bevarer den oprindelige fils layout og formatering. Dokumentoversættelse understøtter en række forskellige filtyper, herunder Word, PowerPoint og PDF, og kunderne kan bruge enten forudbyggede eller tilpassede maskinoversættelsesmodeller. Dokumentoversættelse er virksomhedsklar med Azure Active Directory-godkendelse, der giver sikker adgang mellem tjenesten og lageret via Managed Identity.

Oversættelse af PDF-filer med indscannet billedindhold er en meget efterspurgt funktion fra kunderne til dokumentoversættelse. Kunderne finder det svært at adskille PDF-dokumenter med almindelig tekst eller scannet billedindhold gennem automatisering. Dette skaber problemer med arbejdsgangen, da kunderne først skal videresende PDF-dokumenter med scannet billedindhold til en OCR-motor, før de sender dem til dokumentoversættelse.

Dokumentoversættelsestjenester har nu intelligens

til at identificere, om PDF-dokumentet indeholder scannet billedindhold eller ej,
til at videresende PDF-filer med scannet billedindhold til en intern OCR-motor for at udtrække tekst,
at rekonstruere det oversatte indhold som en almindelig PDF-tekst, samtidig med at det oprindelige layout og den oprindelige struktur bevares.

Skrifttypeformatering som fede, kursiv, understregning, fremhævninger osv. bevares ikke for scannet PDF-indhold, da OCR-teknologien ikke kan registrere dem på nuværende tidspunkt. Dog bevares skrifttypeformatering ved oversættelse af PDF-dokumenter med almindelig tekst.

Dokumentoversættelse understøtter i øjeblikket PDF-dokumenter, der indeholder scannet billedindhold fra 68 kildesprog til 87 målsprog. Der vil blive tilføjet understøttelse af yderligere kilde- og målsprog i løbet af kort tid.

Nu er det nemmere for kunderne at sende alle PDF-dokumenter direkte til Document translation og lade den bestemme, hvornår og hvordan OCR-motoren skal bruges effektivt.

For kunder, der allerede bruger Document translation, er det ikke nødvendigt at ændre koden for at kunne bruge denne nye funktion. PDF-dokumenter med scannet indhold kan indsendes til oversættelse som alle andre understøttede dokumentformater.

Vi er også glade for at kunne meddele, at dokumentoversættelsen nu understøtter scannet PDF-dokumentindhold uden ekstra omkostninger for kunderne. Der er to prisplaner til rådighed for dokumentoversættelse via Azure - Pay-as-you-go planen og D3 volumenrabatplanen for større mængder dokumentoversættelse. Detaljer om prisfastsættelse kan findes på aka.ms/TranslatorPricing.

Lær, hvordan du kommer i gang med dokumentoversættelse på aka.ms/DocumentTranslationDocs.
Send din feedback til mtfb@microsoft.com.

Microsoft Translator blog