Podjetja v različnih panogah ustvarjajo, skenirajo in shranjujejo velike količine dokumentov PDF. V mnogih primerih je vsebina obsežna in pogosto napisana v drugem jeziku ter zahteva prevod. Če želite to rešiti, potrebujete avtomatizirano rešitev za ekstrahiranje vsebine v teh PDF-jih ter njihovo hitro in stroškovno učinkovito prevajanje.
Mnoga podjetja imajo različne globalne uporabnike in morajo prevesti besedilo, da omogočijo medjezikovno komunikacijo med njimi. To je ročni, počasen in drag človeški trud. Treba je najti razširljivo, zanesljivo in stroškovno učinkovito rešitev za prevajanje dokumentov ob ohranjanju izvirnega oblikovanja dokumenta.
Za vertikale, kot je zdravstvo, zaradi regulativnih zahtev prevedeni dokumenti zahtevajo dodatno osebo v zanki, da preveri veljavnost strojno prevedenega dokumenta.
Če prevedeni dokument ne ohrani izvirnega oblikovanja in strukture, izgubi kontekst. To lahko pregledovalcu oteži preverjanje in popravke.
V tej objavi prikazujemo, kako ustvariti nov preveden PDF iz optično prebranega PDF-ja, pri tem pa ohraniti izvirno strukturo dokumenta in oblikovanje z uporabo pristopa, ki temelji na geometriji z Amazonovo besedilo, Amazon prevodin Apache PDF Box.
Pregled rešitev
Rešitev, predstavljena v tej objavi, uporablja naslednje komponente:
- Amazonovo besedilo – Popolnoma upravljana storitev strojnega učenja (ML), ki samodejno izvleče natisnjeno besedilo, rokopis in druge podatke iz skeniranih dokumentov, ki presega preprosto optično prepoznavanje znakov (OCR) za prepoznavanje, razumevanje in pridobivanje podatkov iz obrazcev in tabel. Amazon Texttract lahko zazna besedilo v različnih dokumentih, vključno s finančnimi poročili, zdravstvenimi kartotekami in davčnimi obrazci.
- Amazon prevod – Storitev nevronskega strojnega prevajanja, ki zagotavlja hiter, visokokakovosten in cenovno dostopen jezikovni prevod. Amazon Translate zagotavlja visokokakovostne zmožnosti prevajanja na zahtevo in paketnega prevajanja v več kot 2,970 jezikovnih parih, hkrati pa zmanjšuje vaše stroške prevajanja.
- PDF prevod – Odprtokodna knjižnica, napisana v Javi in objavljena Vzorci AWS v GitHubu. Ta knjižnica vsebuje logiko za ustvarjanje prevedenih dokumentov PDF v želenem jeziku z Amazon Texttract in Amazon Translate. Za ustvarjanje dokumentov PDF uporablja tudi odprtokodno knjižnico Java Apache PDFBox. Podobne knjižnice za obdelavo PDF so na voljo na primer v drugih programskih jezikih Vozlišče PDFBox.
Med izvajanjem strojnega prevajanja se lahko zgodi, da želite obvarovati določene dele besedila pred prevajanjem, kot so imena ali edinstveni identifikatorji. Amazon Translate omogoča spreminjanje oznak, kar vam omogoča, da določite, katero besedilo naj ne bo prevedeno. Amazon Translate podpira tudi prilagoditev formalnosti, ki vam omogoča, da prilagodite raven formalnosti v izpisu prevoda.
Za podrobnosti o omejitvah Amazon Texttract glejte Kvote v Amazon Texttract.
Rešitev je omejena na jezike, ki jih lahko ekstrahira Amazon Texttract, ki trenutno podpira angleščino, španščino, italijanščino, portugalščino, francoščino in nemščino. Te jezike podpira tudi Amazon Translate. Za celoten seznam jezikov, ki jih podpira Amazon Translate, glejte Podprti jeziki in jezikovne kode.
Za prikaz prevajanja besedila iz angleščine v španščino uporabljamo ta PDF. Rešitev podpira tudi generiranje prevedenega dokumenta brez oblikovanja. Položaj prevedenega besedila se ohrani. Izvirne in prevedene dokumente PDF najdete tudi v AWS Samples GitHub repo.
V naslednjih razdelkih prikazujemo, kako zagnati prevajalsko kodo na lokalnem računalniku, in si podrobneje ogledamo prevajalsko kodo.
Predpogoji
Preden začnete, nastavite svoj račun AWS in Vmesnik ukazne vrstice AWS (AWS CLI). Za dostop do katere koli storitve AWS, kot sta Texttract in Translate, so potrebna ustrezna dovoljenja IAM. Priporočamo uporabo dovoljenj z najmanjšimi pravicami. Če želite izvedeti več o dovoljenjih IAM, glejte Politike in dovoljenja v IAM tako dobro, kot Kako Amazon Texttract deluje z IAM in Kako Amazon Translate deluje z IAM.
Zaženite prevodno kodo na lokalnem računalniku
Ta rešitev se osredotoča na samostojno kodo Java za ekstrahiranje in prevajanje dokumenta PDF. To je za lažje preizkušanje in prilagajanje, da dobite najbolje upodobljen preveden dokument PDF. Kodo je nato mogoče integrirati v avtomatizirano rešitev za uvajanje in izvajanje v AWS. glej Prevajanje dokumentov PDF z uporabo Amazon Translate in Amazon Textract za vzorčno arhitekturo, ki uporablja Preprosta storitev shranjevanja Amazon (Amazon S3) za shranjevanje dokumentov in AWS Lambda za zagon kode.
Če želite zagnati kodo na lokalnem računalniku, izvedite naslednje korake. Primeri kode so na voljo na Repo za GitHub.
- Klonirajte repo GitHub:
- Zaženite ta ukaz:
- Zaženite naslednji ukaz za prevajanje iz angleščine v španščino:
V mapi z dokumenti sta ustvarjena dva prevedena dokumenta PDF z izvirnim oblikovanjem in brez njega (SampleOutput-es.pdf
in SampleOutput-min-es.pdf
).
Koda za ustvarjanje prevedenega PDF-ja
Naslednji delčki kode prikazujejo, kako vzeti dokument PDF in ustvariti ustrezen preveden dokument PDF. Besedilo izvleče s pomočjo Amazon Texttract in ustvari prevedeni PDF tako, da sliki doda prevedeno besedilo kot plast. Gradi na rešitvi, prikazani v objavi Samodejno ustvarjanje iskanih PDF-jev iz skeniranih dokumentov z Amazon Texttract.
Koda najprej pridobi vsako vrstico besedila z Amazon Texttract. Amazon Translate se uporablja za pridobivanje prevedenega besedila in shranjevanje geometrije prevedenega besedila.
Velikost pisave se izračuna na naslednji način in jo je mogoče preprosto konfigurirati:
Preveden PDF je ustvarjen iz shranjene geometrije in prevedenega besedila. Spremembe barve prevedenega besedila je mogoče preprosto konfigurirati.
Naslednja slika prikazuje dokument, preveden v španščino z izvirnim oblikovanjem (SampleOutput-es.pdf
).
Naslednja slika prikazuje preveden PDF v španščino brez oblikovanja (SampleOutput-min-es.pdf
).
Čas obdelave
Pdf vloge za zaposlitev je trajal približno 10 sekund, da so ekstrahirali, obdelali in upodobili prevedeni pdf. Čas obdelave dokumentov z veliko besedila, kot je Deklaracija o neodvisnosti PDF je trajal manj kot minuto.
strošek
Z Amazon Texttract plačujete sproti glede na število obdelanih strani in slik. Z Amazon Translate plačate sproti glede na število obdelanih besedilnih znakov. Nanašati se na Cene Amazon Textract in Cene Amazon Translate za dejanske stroške.
zaključek
Ta objava je pokazala, kako uporabiti Amazon Texttract in Amazon Translate za ustvarjanje prevedenih dokumentov PDF ob ohranjanju izvirne strukture dokumenta. Izbirno lahko naknadno obdelate rezultate Amazon Texttract, da izboljšate kakovost prevoda, na primer izvlečene besede je mogoče posredovati skozi preverjanja črkovanja, ki temeljijo na ML, kot je SymSpell za preverjanje veljavnosti podatkov ali algoritme združevanja v gruče lahko uporabite za ohranitev vrstnega reda branja. Uporabite lahko tudi Amazon, razširjeni AI (Amazon A2I) za izgradnjo delovnih tokov človeškega pregleda, kjer lahko uporabite lastno zasebno delovno silo za pregled izvirnih in prevedenih dokumentov PDF, da zagotovite večjo natančnost in kontekst. glej Oblikovanje delovnih pregledov človeških pregledov z Amazon Translate in Amazon Augmented AI in Izdelava večjezičnega delovnega toka prevajanja dokumentov s prilagoditvijo, specifično za domeno in jezik da bi začeli.
O avtorjih
Anubha Singhal je višji arhitekt v oblaku pri Amazon Web Services v organizaciji AWS Professional Services.
Sean Lawrence je bil prej Front End inženir pri AWS. Specializiral se je za front end razvoj v organizaciji AWS Professional Services in ekipi Amazon Privacy.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Avtomobili/EV, Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- BlockOffsets. Posodobitev okoljskega offset lastništva. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- : je
- :ne
- :kje
- $GOR
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- O meni
- dostop
- Račun
- natančnost
- čez
- dejanska
- dodajanje
- Dodatne
- Naslov
- cenovno
- algoritmi
- omogoča
- Prav tako
- Amazon
- Amazonovo besedilo
- Amazon prevod
- Amazon Web Services
- an
- in
- kaj
- Apache
- uporaba
- pristop
- primerno
- Arhitektura
- SE
- AS
- At
- Povečana
- Avtomatizirano
- samodejno
- Na voljo
- AWS
- Strokovne storitve AWS
- temeljijo
- BE
- počutje
- med
- Poleg
- črna
- Block
- Bloki
- Pasovi
- izgradnjo
- Gradi
- podjetja
- by
- izračuna
- CAN
- Zmogljivosti
- primeri
- Spremembe
- značaja
- prepoznavanje znakov
- znaki
- Cloud
- grozdenje
- Koda
- barva
- Komunikacija
- dokončanje
- konfigurirano
- Vsebuje
- vsebina
- Vsebina
- ozadje
- Popravki
- Ustrezno
- stroškovno učinkovito
- stroški
- ustvarjajo
- ustvaril
- ustvari
- Trenutno
- customization
- prilagodite
- datum
- daje
- izkazati
- razporedi
- želeno
- Podatki
- Podrobnosti
- Razvoj
- drugačen
- težko
- razne
- dokument
- Dokumenti
- Ne
- 2
- vsak
- lažje
- enostavno
- prizadevanje
- ostalo
- zaposlovanja
- omogočajo
- konec
- inženir
- Angleščina
- Primer
- Primeri
- drago
- ekstrakt
- Izvlečki
- false
- FAST
- izpolnite
- finančna
- Najdi
- prva
- Plavaj
- Osredotoča
- po
- sledi
- za
- prej
- Obrazci
- je pokazala,
- francosko
- iz
- spredaj
- Prednji del
- Glavnina razvoja
- polno
- v celoti
- ustvarjajo
- ustvarjajo
- nemški
- dobili
- GitHub
- Globalno
- Go
- goes
- Imajo
- he
- zdravstveno varstvo
- težka
- višina
- tukaj
- visoka kvaliteta
- Hiša
- Kako
- Kako
- HTML
- http
- HTTPS
- človeškega
- identifikatorji
- identificirati
- if
- slika
- slike
- izboljšanje
- in
- V drugi
- vključujejo
- Vključno
- industrij
- vhod
- integrirana
- v
- IT
- ITS
- Java
- jezik
- jeziki
- velika
- plast
- UČITE
- učenje
- vsaj
- levo
- manj
- Stopnja
- knjižnice
- Knjižnica
- Meje
- vrstica
- linije
- Seznam
- lokalna
- Logika
- Poglej
- Izgubi
- stroj
- strojno učenje
- Znamka
- upravlja
- Navodilo
- več
- Maj ..
- medicinski
- min
- ML
- spremembe
- več
- Imena
- Nimate
- potrebna
- Novo
- Številka
- predmet
- OCR
- of
- pogosto
- on
- Na zahtevo
- open source
- Delovanje
- optično prepoznavanje znakov
- or
- Da
- Organizacija
- izvirno
- Ostalo
- izhod
- lastne
- Stran
- strani
- parov
- opravil
- Plačajte
- izvajati
- Dovoljenja
- platon
- Platonova podatkovna inteligenca
- PlatoData
- portugalski
- Stališče
- Prispevek
- predstavljeni
- zasebnost
- zasebna
- privilegij
- Postopek
- Predelano
- obravnavati
- strokovni
- Programiranje
- programskih jezikov
- zagotavljajo
- zagotavlja
- objavljeno
- kakovost
- hitro
- reading
- Priznanje
- Priporočamo
- evidence
- okolica
- regulatorni
- zanesljiv
- Poročila
- zahteva
- Zahteve
- zahteva
- omejeno
- Rezultati
- ohranijo
- ohranitev
- vrnitev
- pregleda
- Run
- Shrani
- razširljive
- skeniranje
- sekund
- oddelki
- glej
- višji
- Storitev
- Storitve
- nastavite
- shouldnt
- Prikaži
- je pokazala,
- pokazale
- Razstave
- Podoben
- Enostavno
- situacije
- Velikosti
- počasi
- Rešitev
- vir
- španski
- specializirani
- specifična
- samostojna
- začel
- Koraki
- shranjevanje
- trgovina
- String
- Struktura
- taka
- Podprti
- Podpira
- TAG
- Bodite
- davek
- skupina
- Testiranje
- kot
- da
- O
- Vir
- Njih
- POTEM
- Tukaj.
- te
- ta
- skozi
- čas
- do
- vzel
- vrh
- prevesti
- prevod
- razumeli
- edinstven
- uporaba
- Rabljeni
- Uporabniki
- uporablja
- uporabo
- Uporaben
- POTRDI
- potrjevanje
- raznolikost
- različnih
- preverjanje
- vertikale
- Poglej
- prostornine
- je
- we
- web
- spletne storitve
- Dobro
- Kaj
- ki
- medtem
- bele
- širina
- z
- v
- brez
- besede
- potek dela
- delovnih tokov
- Delovna sila
- deluje
- pisni
- Vi
- Vaša rutina za
- zefirnet