Virksomheder på tværs af forskellige brancher opretter, scanner og opbevarer store mængder PDF-dokumenter. I mange tilfælde er indholdet teksttungt og ofte skrevet på et andet sprog og kræver oversættelse. For at løse dette har du brug for en automatiseret løsning til at udtrække indholdet i disse PDF'er og oversætte dem hurtigt og omkostningseffektivt.
Mange virksomheder har forskellige globale brugere og har brug for at oversætte tekst for at muliggøre tværsproget kommunikation mellem dem. Dette er en manuel, langsom og dyr menneskelig indsats. Der er behov for at finde en skalerbar, pålidelig og omkostningseffektiv løsning til at oversætte dokumenter og samtidig bevare den originale dokumentformatering.
For vertikaler såsom sundhedspleje kræver de oversatte dokumenter på grund af lovmæssige krav et ekstra menneske i løkken for at verificere gyldigheden af det maskinoversatte dokument.
Hvis det oversatte dokument ikke bevarer den originale formatering og struktur, mister det sin kontekst. Dette kan gøre det svært for en menneskelig anmelder at validere og foretage rettelser.
I dette indlæg demonstrerer vi, hvordan man opretter en ny oversat PDF fra en scannet PDF, mens den originale dokumentstruktur og formatering bevares ved hjælp af en geometribaseret tilgang med amazontekst, Amazon Oversætog Apache PDF-boks.
Løsningsoversigt
Løsningen præsenteret i dette indlæg bruger følgende komponenter:
- amazontekst – En fuldt administreret maskinlæringstjeneste (ML), der automatisk udtrækker trykt tekst, håndskrift og andre data fra scannede dokumenter, der går ud over simpel optisk tegngenkendelse (OCR) for at identificere, forstå og udtrække data fra formularer og tabeller. Amazon Textract kan registrere tekst i en række dokumenter, herunder økonomiske rapporter, lægejournaler og skatteformularer.
- Amazon Oversæt – En neural maskinoversættelsestjeneste, der leverer hurtig, høj kvalitet og overkommelig sprogoversættelse. Amazon Translate leverer on-demand og batch-oversættelsesmuligheder af høj kvalitet på tværs af mere end 2,970 sprogpar, samtidig med at dine oversættelsesomkostninger reduceres.
- PDF-oversættelse – Et open source-bibliotek skrevet i Java og udgivet på AWS-prøver i GitHub. Dette bibliotek indeholder logik til at generere oversatte PDF-dokumenter på dit ønskede sprog med Amazon Textract og Amazon Translate. Det bruger også open source Java-biblioteket Apache PDFBox til at oprette PDF-dokumenter. Der er lignende PDF-behandlingsbiblioteker tilgængelige på andre programmeringssprog, for eksempel Node PDFBox.
Mens du udfører maskinoversættelser, kan du have situationer, hvor du ønsker at bevare bestemte dele af teksten fra at blive oversat, såsom navne eller unikke identifikatorer. Amazon Translate tillader tag-modifikationer, som giver dig mulighed for at angive, hvilken tekst der ikke skal oversættes. Amazon Translate understøtter også formalitetstilpasning, som giver dig mulighed for at tilpasse niveauet af formalitet i dit oversættelsesoutput.
For detaljer om Amazon Textract-grænser, se Kvoter i Amazon Textract.
Løsningen er begrænset til de sprog, der kan udtrækkes af Amazon Textract, som i øjeblikket understøtter engelsk, spansk, italiensk, portugisisk, fransk og tysk. Disse sprog understøttes også af Amazon Translate. Se den fulde liste over sprog, der understøttes af Amazon Translate Understøttede sprog og sprogkoder.
Vi bruger følgende PDF til at demonstrere oversættelse af teksten fra engelsk til spansk. Løsningen understøtter også generering af det oversatte dokument uden nogen form for formatering. Den oversatte teksts position bibeholdes. Kilden og de oversatte PDF-dokumenter kan også findes i AWS prøver GitHub repo.
I de følgende afsnit demonstrerer vi, hvordan man kører oversættelseskoden på en lokal maskine og ser på oversættelseskoden mere detaljeret.
Forudsætninger
Inden du går i gang, skal du konfigurere din AWS-konto og AWS kommandolinjegrænseflade (AWS CLI). For at få adgang til alle AWS-tjenester såsom Textract og Translate kræves passende IAM-tilladelser. Vi anbefaler at bruge mindste privilegerede tilladelser. For at lære mere om IAM-tilladelser se Politikker og tilladelser i IAM samt Sådan fungerer Amazon Textract med IAM , Sådan fungerer Amazon Translate med IAM.
Kør oversættelseskoden på en lokal maskine
Denne løsning fokuserer på den selvstændige Java-kode til at udtrække og oversætte et PDF-dokument. Dette er for nemmere test og tilpasninger for at få det bedst gengivede oversatte PDF-dokument. Koden kan derefter integreres i en automatiseret løsning til at implementere og køre i AWS. Se Oversættelse af PDF-dokumenter ved hjælp af Amazon Translate og Amazon Textract for en prøvearkitektur, der bruger Amazon Simple Storage Service (Amazon S3) til at gemme dokumenterne og AWS Lambda at køre koden.
Udfør følgende trin for at køre koden på en lokal maskine. Kodeeksemplerne er tilgængelige på GitHub repo.
- Klon GitHub-repoen:
- Kør følgende kommando:
- Kør følgende kommando for at oversætte fra engelsk til spansk:
To oversatte PDF-dokumenter oprettes i dokumentmappen, med og uden den originale formatering (SampleOutput-es.pdf
, SampleOutput-min-es.pdf
).
Kode til at generere den oversatte PDF
Følgende kodestykker viser, hvordan man tager et PDF-dokument og genererer et tilsvarende oversat PDF-dokument. Den udtrækker teksten ved hjælp af Amazon Textract og opretter den oversatte PDF ved at tilføje den oversatte tekst som et lag til billedet. Det bygger på løsningen vist i indlægget Generering af søgbare PDF'er fra scannede dokumenter automatisk med Amazon Textract.
Koden får først hver tekstlinje med Amazon Textract. Amazon Translate bruges til at få oversat tekst og gemme geometrien af den oversatte tekst.
Skriftstørrelsen beregnes som følger og kan nemt konfigureres:
Den oversatte PDF oprettes ud fra den gemte geometri og oversatte tekst. Ændringer i farven på den oversatte tekst kan nemt konfigureres.
Følgende billede viser dokumentet oversat til spansk med den originale formatering (SampleOutput-es.pdf
).
Følgende billede viser den oversatte PDF på spansk uden nogen formatering (SampleOutput-min-es.pdf
).
Behandlingstid
Det tog omkring 10 sekunder at udtrække, behandle og gengive den oversatte pdf-fil. Behandlingstiden for teksttunge dokumenter som f.eks Uafhængighedserklæringen PDF tog mindre end et minut.
Koste
Med Amazon Textract betaler du mens du går baseret på antallet af sider og billeder, der behandles. Med Amazon Translate betaler du mens du går baseret på antallet af teksttegn, der behandles. Henvise til Amazon Textract-priser , Amazon Translate-priser til faktiske omkostninger.
Konklusion
Dette indlæg viste, hvordan man bruger Amazon Textract og Amazon Translate til at generere oversatte PDF-dokumenter, mens den originale dokumentstruktur bevares. Du kan valgfrit efterbehandle Amazon Textract-resultater for at forbedre kvaliteten af oversættelsen, for eksempel kan udtrukne ord sendes gennem ML-baserede stavekontrol som f.eks. SymSpell til datavalidering, eller klyngealgoritmer kan bruges til at bevare læserækkefølgen. Du kan også bruge Amazon Augmented AI (Amazon A2I) til at opbygge arbejdsgange for menneskelige gennemgange, hvor du kan bruge din egen private arbejdsstyrke til at gennemgå de originale og oversatte PDF-dokumenter for at give mere nøjagtighed og kontekst. Se Design af arbejdsgange for menneskelige anmeldelser med Amazon Translate og Amazon Augmented AI , Opbygning af et flersproget dokumentoversættelsesworkflow med domænespecifik og sprogspecifik tilpasning at komme i gang.
Om forfatterne
Anubha Singhal er Senior Cloud Architect hos Amazon Web Services i AWS Professional Services-organisationen.
Sean Lawrence var tidligere Front End Engineer hos AWS. Han specialiserede sig i frontend-udvikling i AWS Professional Services-organisationen og Amazon Privacy-teamet.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Automotive/elbiler, Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- BlockOffsets. Modernisering af miljømæssig offset-ejerskab. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :er
- :ikke
- :hvor
- $OP
- 1
- 10
- 100
- 15 %
- 20
- 7
- 970
- a
- Om
- adgang
- Konto
- nøjagtighed
- tværs
- faktiske
- tilføje
- Yderligere
- adresse
- overkommelige
- algoritmer
- tillader
- også
- Amazon
- amazontekst
- Amazon Oversæt
- Amazon Web Services
- an
- ,
- enhver
- Apache
- Anvendelse
- tilgang
- passende
- arkitektur
- ER
- AS
- At
- augmented
- Automatiseret
- automatisk
- til rådighed
- AWS
- AWS Professional Services
- baseret
- BE
- være
- mellem
- Beyond
- Sort
- Bloker
- Blocks
- Boks
- bygge
- bygger
- virksomheder
- by
- beregnet
- CAN
- kapaciteter
- tilfælde
- Ændringer
- karakter
- karaktergenkendelse
- tegn
- Cloud
- klyngedannelse
- kode
- farve
- Kommunikation
- fuldføre
- konfigureret
- indeholder
- indhold
- indhold
- sammenhæng
- Rettelser
- Tilsvarende
- omkostningseffektiv
- Omkostninger
- skabe
- oprettet
- skaber
- For øjeblikket
- tilpasning
- tilpasse
- data
- leverer
- demonstrere
- indsætte
- ønskes
- detail
- detaljer
- Udvikling
- forskellige
- svært
- forskelligartede
- dokumentet
- dokumenter
- Er ikke
- grund
- hver
- lettere
- nemt
- indsats
- andet
- beskæftigelse
- muliggøre
- ende
- ingeniør
- Engelsk
- eksempel
- eksempler
- dyrt
- ekstrakt
- Uddrag
- falsk
- FAST
- udfylde
- finansielle
- Finde
- Fornavn
- Flyde
- fokuserer
- efter
- følger
- Til
- tidligere
- formularer
- fundet
- Fransk
- fra
- forsiden
- forreste ende
- Frontend udvikling
- fuld
- fuldt ud
- generere
- generere
- Tysk
- få
- GitHub
- Global
- Go
- Goes
- Have
- he
- sundhedspleje
- tunge
- højde
- link.
- høj kvalitet
- hus
- Hvordan
- How To
- HTML
- http
- HTTPS
- menneskelig
- identifikatorer
- identificere
- if
- billede
- billeder
- Forbedre
- in
- I andre
- omfatter
- Herunder
- industrier
- indgang
- integreret
- ind
- IT
- ITS
- Java
- Sprog
- Sprog
- stor
- lag
- LÆR
- læring
- mindst
- til venstre
- mindre
- Niveau
- biblioteker
- Bibliotek
- grænser
- Line (linje)
- linjer
- Liste
- lokale
- logik
- Se
- taber
- maskine
- machine learning
- lave
- lykkedes
- manuel
- mange
- Kan..
- medicinsk
- minut
- ML
- Modifikationer
- mere
- navne
- Behov
- behov
- Ny
- nummer
- objekt
- OCR
- of
- tit
- on
- On-Demand
- open source
- drift
- optisk tegngenkendelse
- or
- ordrer
- organisation
- original
- Andet
- output
- egen
- side
- sider
- par
- Bestået
- Betal
- udfører
- Tilladelser
- plato
- Platon Data Intelligence
- PlatoData
- Portugisisk
- position
- Indlæg
- forelagt
- Beskyttelse af personlige oplysninger
- private
- privilegium
- behandle
- Behandlet
- forarbejdning
- professionel
- Programmering
- programmeringssprog
- give
- giver
- offentliggjort
- kvalitet
- hurtigt
- Læsning
- anerkendelse
- anbefaler
- optegnelser
- region
- lovgivningsmæssige
- pålidelig
- Rapporter
- kræver
- Krav
- Kræver
- begrænset
- Resultater
- tilbageholde
- tilbageholdende
- afkast
- gennemgå
- Kør
- Gem
- skalerbar
- scanne
- sekunder
- sektioner
- se
- senior
- tjeneste
- Tjenester
- sæt
- bør
- Vis
- viste
- vist
- Shows
- lignende
- Simpelt
- situationer
- Størrelse
- langsom
- løsninger
- Kilde
- Spansk
- specialiserede
- specifikke
- standalone
- påbegyndt
- Steps
- opbevaring
- butik
- String
- struktur
- sådan
- Understøttet
- Understøtter
- TAG
- Tag
- skat
- hold
- Test
- end
- at
- The Source
- Them
- derefter
- Der.
- Disse
- denne
- Gennem
- tid
- til
- tog
- top
- Oversætte
- Oversættelse
- forstå
- enestående
- brug
- anvendte
- brugere
- bruger
- ved brug af
- Ved hjælp af
- VALIDATE
- validering
- række
- forskellige
- verificere
- vertikaler
- Specifikation
- mængder
- var
- we
- web
- webservices
- GODT
- Hvad
- som
- mens
- hvid
- bredde
- med
- inden for
- uden
- ord
- workflow
- arbejdsgange
- Workforce
- virker
- skriftlig
- Du
- Din
- zephyrnet