Bedrifter på tvers av ulike bransjer lager, skanner og lagrer store mengder PDF-dokumenter. I mange tilfeller er innholdet teksttungt og ofte skrevet på et annet språk og krever oversettelse. For å løse dette trenger du en automatisert løsning for å trekke ut innholdet i disse PDF-ene og oversette dem raskt og kostnadseffektivt.
Mange bedrifter har forskjellige globale brukere og trenger å oversette tekst for å muliggjøre tverrspråklig kommunikasjon mellom dem. Dette er en manuell, langsom og kostbar menneskelig innsats. Det er behov for å finne en skalerbar, pålitelig og kostnadseffektiv løsning for å oversette dokumenter samtidig som den originale dokumentformateringen beholdes.
For vertikaler som helsetjenester, på grunn av regulatoriske krav, krever de oversatte dokumentene et ekstra menneske i løkken for å bekrefte gyldigheten til det maskinoversatte dokumentet.
Hvis det oversatte dokumentet ikke beholder den opprinnelige formateringen og strukturen, mister det konteksten. Dette kan gjøre det vanskelig for en menneskelig anmelder å validere og foreta korrigeringer.
I dette innlegget demonstrerer vi hvordan du lager en ny oversatt PDF fra en skannet PDF mens du beholder den originale dokumentstrukturen og formateringen ved å bruke en geometribasert tilnærming med amazontekst, Amazon Oversettog Apache PDF-boks.
Løsningsoversikt
Løsningen presentert i dette innlegget bruker følgende komponenter:
- amazontekst – En fullstendig administrert maskinlæringstjeneste (ML) som automatisk trekker ut trykt tekst, håndskrift og andre data fra skannede dokumenter som går utover enkel optisk tegngjenkjenning (OCR) for å identifisere, forstå og trekke ut data fra skjemaer og tabeller. Amazon Textract kan oppdage tekst i en rekke dokumenter, inkludert økonomiske rapporter, medisinske poster og skatteskjemaer.
- Amazon Oversett – En nevrale maskinoversettelsestjeneste som leverer rask, høykvalitets og rimelig språkoversettelse. Amazon Translate gir høykvalitets on-demand og batch-oversettelsesmuligheter på tvers av mer enn 2,970 XNUMX språkpar, samtidig som du reduserer oversettelseskostnadene dine.
- PDF-oversett – Et åpen kildekode-bibliotek skrevet i Java og publisert på AWS-eksempler i GitHub. Dette biblioteket inneholder logikk for å generere oversatte PDF-dokumenter på ønsket språk med Amazon Textract og Amazon Translate. Den bruker også åpen kildekode Java-biblioteket Apache PDFBox for å lage PDF-dokumenter. Det finnes lignende PDF-behandlingsbiblioteker tilgjengelig på andre programmeringsspråk, for eksempel Node PDFBox.
Mens du utfører maskinoversettelser, kan du ha situasjoner der du ønsker å unngå at bestemte deler av teksten blir oversatt, for eksempel navn eller unike identifikatorer. Amazon Translate tillater tag-modifikasjoner, som lar deg spesifisere hvilken tekst som ikke skal oversettes. Amazon Translate støtter også formalitetstilpasning, som lar deg tilpasse nivået av formalitet i oversettelsesutdataene dine.
For detaljer om Amazon Textract-grenser, se Kvoter i Amazon Textract.
Løsningen er begrenset til språkene som kan trekkes ut av Amazon Textract, som for øyeblikket støtter engelsk, spansk, italiensk, portugisisk, fransk og tysk. Disse språkene støttes også av Amazon Translate. For en fullstendig liste over språk som støttes av Amazon Translate, se Støttede språk og språkkoder.
Vi bruker følgende PDF for å demonstrere oversettelse av teksten fra engelsk til spansk. Løsningen støtter også generering av det oversatte dokumentet uten formatering. Posisjonen til den oversatte teksten opprettholdes. Kilden og oversatte PDF-dokumenter kan også finnes i AWS prøver GitHub repo.
I de følgende delene viser vi hvordan du kjører oversettelseskoden på en lokal maskin og ser på oversettelseskoden mer detaljert.
Forutsetninger
Før du begynner, sett opp AWS-kontoen din og AWS kommandolinjegrensesnitt (AWS CLI). For tilgang til alle AWS-tjenester som Textract og Translate, kreves passende IAM-tillatelser. Vi anbefaler å bruke minst privilegerte tillatelser. For å lære mer om IAM-tillatelser se Retningslinjer og tillatelser i IAM i tillegg til Hvordan Amazon Textract fungerer med IAM og Hvordan Amazon Translate fungerer med IAM.
Kjør oversettelseskoden på en lokal maskin
Denne løsningen fokuserer på den frittstående Java-koden for å trekke ut og oversette et PDF-dokument. Dette er for enklere testing og tilpasninger for å få det best gjengitte oversatte PDF-dokumentet. Koden kan deretter integreres i en automatisert løsning for å distribuere og kjøre i AWS. Se Oversette PDF-dokumenter ved hjelp av Amazon Translate og Amazon Textract for en prøvearkitektur som bruker Amazon enkel lagringstjeneste (Amazon S3) for å lagre dokumentene og AWS Lambda for å kjøre koden.
For å kjøre koden på en lokal maskin, fullfør følgende trinn. Kodeeksemplene er tilgjengelige på GitHub repo.
- Klon GitHub-repoen:
- Kjør følgende kommando:
- Kjør følgende kommando for å oversette fra engelsk til spansk:
To oversatte PDF-dokumenter opprettes i dokumentmappen, med og uten originalformatering (SampleOutput-es.pdf
og SampleOutput-min-es.pdf
).
Kode for å generere den oversatte PDF-filen
Følgende kodebiter viser hvordan du tar et PDF-dokument og genererer et tilsvarende oversatt PDF-dokument. Den trekker ut teksten ved hjelp av Amazon Textract og lager den oversatte PDF-filen ved å legge den oversatte teksten som et lag til bildet. Den bygger på løsningen vist i innlegget Genererer søkbare PDF-filer fra skannede dokumenter automatisk med Amazon Textract.
Koden får først hver tekstlinje med Amazon Textract. Amazon Translate brukes til å få oversatt tekst og lagre geometrien til den oversatte teksten.
Skriftstørrelsen beregnes som følger og kan enkelt konfigureres:
Den oversatte PDF-filen lages fra den lagrede geometrien og den oversatte teksten. Endringer i fargen på den oversatte teksten kan enkelt konfigureres.
Følgende bilde viser dokumentet oversatt til spansk med originalformatering (SampleOutput-es.pdf
).
Følgende bilde viser den oversatte PDF-filen på spansk uten formatering (SampleOutput-min-es.pdf
).
Behandlingstid
Arbeidssøknaden pdf tok omtrent 10 sekunder å trekke ut, behandle og gjengi den oversatte pdf-en. Behandlingstiden for teksttunge dokumenter som f.eks Uavhengighetserklæringen PDF tok mindre enn ett minutt.
Kostnad
Med Amazon Textract betaler du mens du går basert på antall sider og bilder som behandles. Med Amazon Translate betaler du mens du går basert på antall teksttegn som behandles. Referere til Amazon Textract-priser og Amazon Translate-priser for faktiske kostnader.
konklusjonen
Dette innlegget viste hvordan du bruker Amazon Textract og Amazon Translate for å generere oversatte PDF-dokumenter mens du beholder den originale dokumentstrukturen. Du kan eventuelt etterbehandle Amazon Textract-resultater for å forbedre kvaliteten på oversettelsen, for eksempel kan utpakkede ord sendes gjennom ML-baserte stavekontroller som f.eks. SymSpell for datavalidering, eller klyngealgoritmer kan brukes for å bevare leserekkefølgen. Du kan også bruke Amazon Augmented AI (Amazon A2I) for å bygge menneskelige gjennomgangsarbeidsflyter der du kan bruke din egen private arbeidsstyrke til å gjennomgå de originale og oversatte PDF-dokumentene for å gi mer nøyaktighet og kontekst. Se Designe arbeidsgjennomganger med menneskelig gjennomgang med Amazon Translate og Amazon Augmented AI og Bygge en flerspråklig arbeidsflyt for dokumentoversettelse med domenespesifikk og språkspesifikk tilpasning å komme i gang.
Om forfatterne
Anubha Singhal er Senior Cloud Architect hos Amazon Web Services i AWS Professional Services-organisasjonen.
Sean Lawrence var tidligere Front End Engineer hos AWS. Han spesialiserte seg i frontend-utvikling i AWS Professional Services-organisasjonen og Amazon Privacy-teamet.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Bil / elbiler, Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- BlockOffsets. Modernisering av eierskap for miljøkompensasjon. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :er
- :ikke
- :hvor
- $OPP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Om oss
- adgang
- Logg inn
- nøyaktighet
- tvers
- faktiske
- legge
- Ytterligere
- adresse
- rimelig
- algoritmer
- tillater
- også
- Amazon
- amazontekst
- Amazon Oversett
- Amazon Web Services
- an
- og
- noen
- Apache
- Søknad
- tilnærming
- hensiktsmessig
- arkitektur
- ER
- AS
- At
- augmented
- Automatisert
- automatisk
- tilgjengelig
- AWS
- AWS profesjonelle tjenester
- basert
- BE
- være
- mellom
- Beyond
- Svart
- Blokker
- Blocks
- Eske
- bygge
- bygger
- bedrifter
- by
- beregnet
- CAN
- evner
- saker
- Endringer
- karakter
- karaktergjenkjenning
- tegn
- Cloud
- gruppering
- kode
- farge
- Kommunikasjon
- fullføre
- konfigurert
- inneholder
- innhold
- innhold
- kontekst
- Korreksjoner
- Tilsvarende
- kostnadseffektiv
- Kostnader
- skape
- opprettet
- skaper
- I dag
- tilpasning
- tilpasse
- dato
- leverer
- demonstrere
- utplassere
- ønsket
- detalj
- detaljer
- Utvikling
- forskjellig
- vanskelig
- diverse
- dokument
- dokumenter
- ikke
- to
- hver enkelt
- enklere
- lett
- innsats
- ellers
- sysselsetting
- muliggjøre
- slutt
- ingeniør
- Engelsk
- eksempel
- eksempler
- dyrt
- trekke ut
- ekstrakter
- falsk
- FAST
- fyll
- finansiell
- Finn
- Først
- Flyte
- fokuserer
- etter
- følger
- Til
- tidligere
- skjemaer
- funnet
- Fransk
- fra
- foran
- Front end
- Frontend utvikling
- fullt
- fullt
- generere
- genererer
- Tysk
- få
- GitHub
- Global
- Go
- Går
- Ha
- he
- helsetjenester
- tung
- høyde
- her.
- høykvalitets
- hus
- Hvordan
- Hvordan
- HTML
- http
- HTTPS
- menneskelig
- identifikatorer
- identifisere
- if
- bilde
- bilder
- forbedre
- in
- I andre
- inkludere
- Inkludert
- bransjer
- inngang
- integrert
- inn
- IT
- DET ER
- Java
- Språk
- språk
- stor
- lag
- LÆRE
- læring
- minst
- venstre
- mindre
- Nivå
- bibliotekene
- Bibliotek
- grenser
- linje
- linjer
- Liste
- lokal
- logikk
- Se
- taper
- maskin
- maskinlæring
- gjøre
- fikk til
- håndbok
- mange
- Kan..
- medisinsk
- minutt
- ML
- modifikasjoner
- mer
- navn
- Trenger
- nødvendig
- Ny
- Antall
- objekt
- OCR
- of
- ofte
- on
- På etterspørsel
- åpen kildekode
- drift
- Optisk karaktergjenkjennelse
- or
- rekkefølge
- organisasjon
- original
- Annen
- produksjon
- egen
- side
- sider
- par
- bestått
- Betale
- utfører
- tillatelser
- plato
- Platon Data Intelligence
- PlatonData
- Portugisisk
- posisjon
- Post
- presentert
- privatliv
- privat
- privilegium
- prosess
- Bearbeidet
- prosessering
- profesjonell
- Programmering
- programmerings språk
- gi
- gir
- publisert
- kvalitet
- raskt
- Lesning
- anerkjennelse
- anbefaler
- poster
- region
- regulatorer
- pålitelig
- Rapporter
- krever
- Krav
- Krever
- begrenset
- Resultater
- beholde
- støttemur
- retur
- anmeldelse
- Kjør
- Spar
- skalerbar
- skanne
- sekunder
- seksjoner
- se
- senior
- tjeneste
- Tjenester
- sett
- bør
- Vis
- viste
- vist
- Viser
- lignende
- Enkelt
- situasjoner
- Størrelse
- langsom
- løsning
- kilde
- Spansk
- spesialisert
- spesifikk
- stående
- startet
- Steps
- lagring
- oppbevare
- String
- struktur
- slik
- Støttes
- Støtter
- TAG
- Ta
- skatt
- lag
- Testing
- enn
- Det
- De
- Kilden
- Dem
- deretter
- Der.
- Disse
- denne
- Gjennom
- tid
- til
- tok
- topp
- oversette
- Oversettelse
- forstå
- unik
- bruke
- brukt
- Brukere
- bruker
- ved hjelp av
- utnytte
- VALIDERE
- validering
- variasjon
- ulike
- verifisere
- vertikaler
- Se
- volumer
- var
- we
- web
- webtjenester
- VI VIL
- Hva
- hvilken
- mens
- hvit
- bredde
- med
- innenfor
- uten
- ord
- arbeidsflyt
- arbeidsflyt
- arbeidsstyrke
- virker
- skrevet
- Du
- Din
- zephyrnet