Erinevate tööstusharude ettevõtted loovad, skannivad ja salvestavad suuri PDF-dokumente. Paljudel juhtudel on sisu tekstirohke ja sageli kirjutatud muus keeles ning vajab tõlkimist. Selle probleemi lahendamiseks vajate automaatset lahendust nende PDF-failide sisu eraldamiseks ning nende kiireks ja kuluefektiivseks tõlkimiseks.
Paljudel ettevõtetel on mitmesugused globaalsed kasutajad ja nad peavad tõlkima teksti, et võimaldada omavahelist keeltevahelist suhtlust. See on käsitsi, aeglane ja kallis inimtöö. Dokumentide tõlkimiseks tuleb leida skaleeritav, usaldusväärne ja kulutõhus lahendus, säilitades samal ajal dokumendi originaalvormingu.
Vertikaalsete valdkondade (nt tervishoid) puhul nõuavad tõlgitud dokumendid regulatiivsete nõuete tõttu täiendavat inimest, kes kontrollib masintõlgitud dokumendi kehtivust.
Kui tõlgitud dokument ei säilita algset vormingut ja struktuuri, kaotab see oma konteksti. See võib muuta inimesest ülevaataja jaoks valideerimise ja paranduste tegemise keeruliseks.
Selles postituses näitame, kuidas luua skannitud PDF-failist uus tõlgitud PDF, säilitades samal ajal dokumendi originaalstruktuuri ja vormingu, kasutades geomeetriapõhist lähenemist Amazoni tekst, Amazoni tõlgeja Apache PDFBox.
Lahenduse ülevaade
Selles postituses esitatud lahendus kasutab järgmisi komponente:
- Amazoni tekst – Täielikult hallatav masinõppeteenus (ML), mis eraldab skannitud dokumentidest automaatselt prinditud teksti, käsitsikirja ja muud andmed, mis lähevad kaugemale lihtsast optilisest märgituvastusest (OCR), et tuvastada, mõista ja eraldada andmeid vormidest ja tabelitest. Amazon Textract suudab tuvastada teksti mitmesugustes dokumentides, sealhulgas finantsaruannetes, meditsiinilistes dokumentides ja maksuvormides.
- Amazoni tõlge – Neuraalse masintõlke teenus, mis pakub kiiret, kvaliteetset ja taskukohast keeletõlget. Amazon Translate pakub kvaliteetseid nõudmisel ja pakktõlkevõimalusi enam kui 2,970 keelepaari jaoks, vähendades samal ajal teie tõlkekulusid.
- PDF-i tõlge - Avatud lähtekoodiga raamatukogu, mis on kirjutatud Java keeles ja avaldatud AWS-i näidised GitHubis. See raamatukogu sisaldab loogikat soovitud keeles tõlgitud PDF-dokumentide genereerimiseks Amazon Textracti ja Amazon Translate'i abil. Samuti kasutab see avatud lähtekoodiga Java teeki Apache PDFBox PDF-dokumentide loomiseks. Sarnaseid PDF-i töötlemise teeke on saadaval näiteks ka teistes programmeerimiskeeltes Sõlme PDFBox.
Masintõlke tegemisel võib tekkida olukordi, kus soovite tõlgimise eest säilitada teatud tekstiosasid, näiteks nimesid või kordumatuid identifikaatoreid. Amazon Translate võimaldab siltide muutmist, mis võimaldab teil määrata, millist teksti ei tohiks tõlkida. Amazon Translate toetab ka formaalsuse kohandamist, mis võimaldab teil kohandada tõlkeväljundi formaalsuse taset.
Lisateavet Amazon Textracti piirangute kohta leiate aadressilt Kvoodid Amazon Textractis.
Lahendus on piiratud keeltega, mida saab ekstraktida Amazon Textract, mis praegu toetab inglise, hispaania, itaalia, portugali, prantsuse ja saksa keelt. Neid keeli toetab ka Amazon Translate. Amazon Translate'i toetatavate keelte täieliku loendi leiate aadressilt Toetatud keeled ja keelekoodid.
Kasutame järgmist PDF-i, et demonstreerida teksti tõlkimist inglise keelest hispaania keelde. Lahendus toetab ka tõlgitud dokumendi genereerimist ilma vormindamiseta. Tõlgitud teksti asend säilib. Algallika ja tõlgitud PDF-dokumendid leiate ka aadressilt AWS proovib GitHubi repo.
Järgmistes osades näitame, kuidas tõlkekoodi kohalikus masinas käivitada, ja vaatame tõlkekoodi üksikasjalikumalt.
Eeldused
Enne alustamist seadistage oma AWS-i konto ja AWS-i käsurea liides (AWS CLI). Juurdepääsuks mis tahes AWS-i teenustele, nagu Textract ja Translate, on vaja asjakohaseid IAM-i õigusi. Soovitame kasutada minimaalseid õigusi. IAM-i lubade kohta lisateabe saamiseks vaadake IAM-i eeskirjad ja load sama hästi kui Kuidas Amazon Textract IAM-iga töötab ja Kuidas Amazon Translate IAM-iga töötab.
Käivitage tõlkekood kohalikus masinas
See lahendus keskendub eraldiseisvale Java-koodile PDF-dokumendi ekstraktimiseks ja tõlkimiseks. See on testimise ja kohandamise hõlbustamiseks, et saada kõige paremini renderdatud tõlgitud PDF-dokument. Seejärel saab koodi AWS-is juurutamiseks ja käitamiseks integreerida automatiseeritud lahendusse. Vaata PDF-dokumentide tõlkimine Amazon Translate'i ja Amazon Textracti abil näidisarhitektuuri jaoks, mis kasutab Amazoni lihtne salvestusteenus (Amazon S3) dokumentide hoidmiseks ja AWS Lambda koodi käivitamiseks.
Koodi käivitamiseks kohalikus masinas toimige järgmiselt. Koodinäited on saadaval aadressil GitHubi repo.
- Kloonige GitHubi repo:
- Käivitage järgmine käsk:
- Käivitage järgmine käsk inglise keelest hispaania keelde tõlkimiseks:
Dokumentide kausta luuakse kaks tõlgitud PDF-dokumenti nii originaalvorminguga kui ka ilma (SampleOutput-es.pdf
ja SampleOutput-min-es.pdf
).
Kood tõlgitud PDF-i genereerimiseks
Järgmised koodilõigud näitavad, kuidas võtta PDF-dokumenti ja luua vastav tõlgitud PDF-dokument. See ekstraheerib teksti Amazon Textracti abil ja loob tõlgitud PDF-i, lisades tõlgitud teksti kihina pildile. See põhineb postituses näidatud lahendusel Otsitavate PDF-ide genereerimine skannitud dokumentidest automaatselt Amazon Textracti abil.
Kood saab kõigepealt iga tekstirea Amazon Textractiga. Amazon Translate'i kasutatakse tõlgitud teksti hankimiseks ja tõlgitud teksti geomeetria salvestamiseks.
Fondi suurus arvutatakse järgmiselt ja seda saab hõlpsasti konfigureerida:
Tõlgitud PDF luuakse salvestatud geomeetriast ja tõlgitud tekstist. Tõlgitud teksti värvimuutusi saab hõlpsasti konfigureerida.
Järgmisel pildil on dokument tõlgitud hispaania keelde algse vorminguga (SampleOutput-es.pdf
).
Järgmine pilt näitab tõlgitud PDF-i hispaania keeles ilma vorminguta (SampleOutput-min-es.pdf
).
Töötlusaeg
Tööhõiveavalduse pdf-i tõlgitud pdf-i väljavõtmiseks, töötlemiseks ja renderdamiseks kulus umbes 10 sekundit. Raske tekstiga dokumendi (nt nt.) töötlemisaeg Declaration of Independence PDF võttis vähem kui minuti.
Maksma
Amazon Textractiga maksate töödeldud lehtede ja piltide arvu alusel. Amazon Translate'iga maksate töödeldud tekstimärkide arvu alusel. Viitama Amazon Textracti hinnakujundus ja Amazon Translate hinnakujundus tegelike kulude jaoks.
Järeldus
See postitus näitas, kuidas kasutada Amazon Textracti ja Amazon Translate'i tõlgitud PDF-dokumentide genereerimiseks, säilitades samal ajal dokumendi originaalstruktuuri. Soovi korral saate Amazon Textracti tulemusi tõlke kvaliteedi parandamiseks järeltöödelda, näiteks saab eraldatud sõnu läbida ML-põhiste õigekirjakontrollide, näiteks SymSpell andmete valideerimiseks või lugemisjärjestuse säilitamiseks saab kasutada klasterdamisalgoritme. Võite ka kasutada Amazoni laiendatud AI (Amazon A2I), et luua inimeste ülevaatuse töövooge, kus saate kasutada oma isiklikku tööjõudu originaal- ja tõlgitud PDF-dokumentide ülevaatamiseks, et tagada suurem täpsus ja kontekst. Vaata Inimeste ülevaatuse töövoogude kujundamine Amazon Translate'i ja Amazon Augmented AI abil ja Mitmekeelse dokumenditõlke töövoo loomine domeeni- ja keelepõhise kohandamisega alustada.
Autoritest
Anubha Singhal on AWS Professional Services organisatsiooni Amazon Web Services vanem pilvearhitekt.
Sean Lawrence oli varem AWSi esiotsa insener. Ta on spetsialiseerunud esiotsa arendamisele AWS Professional Services organisatsioonis ja Amazoni privaatsusmeeskonnas.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Autod/elektrisõidukid, Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- BlockOffsets. Keskkonnakompensatsiooni omandi ajakohastamine. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :on
- :mitte
- : kus
- $ UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- MEIST
- juurdepääs
- konto
- täpsus
- üle
- tegelik
- lisades
- Täiendavad lisad
- aadress
- taskukohane
- algoritme
- võimaldab
- Ka
- Amazon
- Amazoni tekst
- Amazoni tõlge
- Amazon Web Services
- an
- ja
- mistahes
- Apache
- taotlus
- lähenemine
- asjakohane
- arhitektuur
- OLEME
- AS
- At
- suurendatud
- Automatiseeritud
- automaatselt
- saadaval
- AWS
- AWS-i professionaalsed teenused
- põhineb
- BE
- on
- vahel
- Peale
- Must
- Blokeerima
- Plokid
- Kast
- ehitama
- Ehitab
- ettevõtted
- by
- arvutatud
- CAN
- võimeid
- juhtudel
- Vaidluste lahendamine
- iseloom
- tegelase äratundmine
- märki
- Cloud
- Klastrite loomine
- kood
- värv
- KOMMUNIKATSIOON
- täitma
- konfigureeritud
- sisaldab
- sisu
- sisu
- kontekst
- Parandused
- Vastav
- kuluefektiivne
- kulud
- looma
- loodud
- loob
- Praegu
- kohandamine
- kohandada
- andmed
- annab
- näitama
- juurutada
- soovitud
- detail
- detailid
- & Tarkvaraarendus
- erinev
- raske
- mitu
- dokument
- dokumendid
- Ei tee
- kaks
- iga
- lihtsam
- kergesti
- jõupingutusi
- teine
- töö
- võimaldama
- lõpp
- insener
- Inglise
- näide
- näited
- kallis
- väljavõte
- Väljavõtted
- vale
- KIIRE
- täitma
- finants-
- leidma
- esimene
- Float
- keskendub
- Järel
- järgneb
- eest
- varem
- vormid
- avastatud
- prantsuse
- Alates
- esi-
- Esiots
- Esiotsa arendus
- täis
- täielikult
- tekitama
- teeniva
- saksa
- saama
- GitHub
- Globaalne
- Go
- Goes
- Olema
- he
- tervishoid
- raske
- kõrgus
- siin
- kvaliteetne
- maja
- Kuidas
- Kuidas
- HTML
- http
- HTTPS
- inim-
- identifikaatorid
- identifitseerima
- if
- pilt
- pildid
- parandama
- in
- Teistes
- sisaldama
- Kaasa arvatud
- tööstusharudes
- sisend
- integreeritud
- sisse
- IT
- ITS
- Java
- keel
- Keeled
- suur
- kiht
- Õppida
- õppimine
- kõige vähem
- lahkus
- vähem
- Tase
- raamatukogud
- Raamatukogu
- piirid
- joon
- liinid
- nimekiri
- kohalik
- loogika
- Vaata
- Kaotab
- masin
- masinõpe
- tegema
- juhitud
- käsiraamat
- palju
- mai..
- meditsiini-
- minut
- ML
- Muudatused
- rohkem
- nimed
- Vajadus
- vaja
- Uus
- number
- objekt
- OCR
- of
- sageli
- on
- On-Demand
- avatud lähtekoodiga
- töö
- optiline märkide tuvastamine
- or
- et
- organisatsioon
- originaal
- Muu
- väljund
- enda
- lehekülg
- lehekülge
- paari
- Vastu võetud
- Maksma
- esitades
- Õigused
- Platon
- Platoni andmete intelligentsus
- PlatoData
- portugali
- positsioon
- post
- esitatud
- privaatsus
- era-
- privileeg
- protsess
- Töödeldud
- töötlemine
- professionaalne
- Programming
- programmeerimiskeeled
- anda
- annab
- avaldatud
- kvaliteet
- kiiresti
- Lugemine
- tunnustamine
- soovitama
- andmed
- piirkond
- regulatiivne
- usaldusväärne
- Aruanded
- nõudma
- Nõuded
- Vajab
- piiratud
- Tulemused
- säilitama
- säilitamine
- tagasipöördumine
- läbi
- jooks
- Säästa
- skaalautuvia
- skaneerida
- sekundit
- lõigud
- vaata
- vanem
- teenus
- Teenused
- komplekt
- peaks
- näitama
- näitas
- näidatud
- Näitused
- sarnane
- lihtne
- olukordades
- SUURUS
- aeglane
- lahendus
- allikas
- hispaania
- spetsialiseeritud
- konkreetse
- standalone
- alustatud
- Sammud
- ladustamine
- salvestada
- nöör
- struktuur
- selline
- Toetatud
- Toetab
- TAG
- Võtma
- maks
- meeskond
- Testimine
- kui
- et
- .
- Allikas
- Neile
- SIIS
- Seal.
- Need
- see
- Läbi
- aeg
- et
- võttis
- ülemine
- tõlkima
- Tõlge
- mõistma
- ainulaadne
- kasutama
- Kasutatud
- Kasutajad
- kasutusalad
- kasutamine
- kasutades
- KINNITAGE
- kinnitamine
- sort
- eri
- kontrollima
- vertikaalid
- vaade
- mahud
- oli
- we
- web
- veebiteenused
- Hästi
- M
- mis
- kuigi
- valge
- laius
- koos
- jooksul
- ilma
- sõnad
- töövoog
- Töövoogud
- Tööjõud
- töötab
- kirjalik
- sa
- Sinu
- sephyrnet