Yritykset eri toimialoilla luovat, skannaavat ja tallentavat suuria määriä PDF-dokumentteja. Monissa tapauksissa sisältö on runsaasti tekstiä ja usein kirjoitettu eri kielellä ja vaatii käännöksen. Tämän ratkaisemiseksi tarvitset automaattisen ratkaisun näiden PDF-tiedostojen sisällön purkamiseen ja niiden kääntämiseen nopeasti ja kustannustehokkaasti.
Monilla yrityksillä on erilaisia maailmanlaajuisia käyttäjiä, ja niiden on käännettävä tekstiä mahdollistaakseen kielten välisen viestinnän. Tämä on manuaalista, hidasta ja kallista inhimillistä työtä. On löydettävä skaalautuva, luotettava ja kustannustehokas ratkaisu asiakirjojen kääntämiseen säilyttäen samalla alkuperäisen asiakirjan muotoilun.
Teollisuuden, kuten terveydenhuollon, säädösten vuoksi käännetyt asiakirjat edellyttävät ylimääräistä henkilöä varmistamaan konekäännetyn asiakirjan kelpoisuus.
Jos käännetty asiakirja ei säilytä alkuperäistä muotoilua ja rakennetta, se menettää kontekstinsa. Tämä voi vaikeuttaa arvioijan vahvistamista ja korjauksia.
Tässä viestissä osoitamme, kuinka luodaan uusi käännetty PDF skannatusta PDF-tiedostosta säilyttäen samalla alkuperäisen asiakirjan rakenne ja muotoilu käyttämällä geometriaan perustuvaa lähestymistapaa. Amazonin teksti, Amazon Käännäja Apache PDFBox.
Ratkaisun yleiskatsaus
Tässä viestissä esitetty ratkaisu käyttää seuraavia komponentteja:
- Amazonin teksti – Täysin hallittu koneoppimispalvelu (ML), joka poimii automaattisesti tulostetun tekstin, käsinkirjoituksen ja muut tiedot skannatuista asiakirjoista ja joka ylittää yksinkertaisen optisen merkintunnistuksen (OCR) tunnistaakseen, ymmärtääkseen ja poimiakseen tietoja lomakkeista ja taulukoista. Amazon Textract voi havaita tekstiä useista asiakirjoista, mukaan lukien talousraportit, potilastiedot ja verolomakkeet.
- Amazon Käännä – Neuraalinen konekäännöspalvelu, joka tarjoaa nopean, laadukkaan ja edullisen kielenkäännöksen. Amazon Translate tarjoaa laadukkaita on-demand- ja eräkäännösominaisuuksia yli 2,970 XNUMX kieliparille, samalla kun käännöskustannukset pienenevät.
- PDF-käännös – Avoimen lähdekoodin kirjasto, joka on kirjoitettu Java-kielellä ja julkaistu AWS-näytteet GitHubissa. Tämä kirjasto sisältää logiikan, jolla voit luoda käännettyjä PDF-dokumentteja haluamallasi kielellä Amazon Textractilla ja Amazon Translatella. Se käyttää myös avoimen lähdekoodin Java-kirjastoa Apache PDFBox luodakseen PDF-dokumentteja. Vastaavia PDF-käsittelykirjastoja on saatavilla esimerkiksi muilla ohjelmointikielillä Solmu PDFBox.
Konekäännösten suorittamisen aikana saatat joutua tilanteisiin, joissa haluat säilyttää tietyt tekstin osat, kuten nimet tai yksilölliset tunnisteet, käännettävältä. Amazon Translate sallii tunnisteiden muokkaamisen, jolloin voit määrittää, mitä tekstiä ei pitäisi kääntää. Amazon Translate tukee myös muodollisuuksien mukauttamista, jonka avulla voit mukauttaa käännöstulosten muodollisuuden tasoa.
Katso lisätietoja Amazon Textractin rajoituksista Kiintiöt Amazon Textractissa.
Ratkaisu on rajoitettu kieliin, joita Amazon Textract voi purkaa, sillä tällä hetkellä se tukee englantia, espanjaa, italiaa, portugalia, ranskaa ja saksaa. Amazon Translate tukee myös näitä kieliä. Katso täydellinen luettelo Amazon Translaten tukemista kielistä osoitteesta Tuetut kielet ja kielikoodit.
Käytämme seuraavaa PDF-tiedostoa tekstin kääntämisen englannista espanjaksi. Ratkaisu tukee myös käännetyn asiakirjan luomista ilman muotoilua. Käännetyn tekstin sijainti säilyy. Lähde- ja käännetyt PDF-dokumentit löytyvät myös AWS näytteet GitHub-repo.
Seuraavissa osissa näytämme, kuinka käännöskoodi suoritetaan paikallisella koneella, ja tarkastellaan käännöskoodia tarkemmin.
Edellytykset
Ennen kuin aloitat, määritä AWS-tilisi ja AWS-komentoriviliitäntä (AWS CLI). AWS-palveluiden, kuten Textractin ja Translaten, käyttö edellyttää asianmukaiset IAM-oikeudet. Suosittelemme käyttämään vähiten etuoikeuksia. Lisätietoja IAM-oikeuksista on kohdassa IAM:n käytännöt ja käyttöoikeudet sekä Kuinka Amazon Textract toimii IAM:n kanssa ja Kuinka Amazon Translate toimii IAM:n kanssa.
Suorita käännöskoodi paikallisella koneella
Tämä ratkaisu keskittyy itsenäiseen Java-koodiin PDF-dokumentin purkamiseksi ja kääntämiseksi. Tämä helpottaa testaamista ja mukauttamista parhaan käännetyn PDF-dokumentin saamiseksi. Koodi voidaan sitten integroida automatisoituun ratkaisuun, joka voidaan ottaa käyttöön ja ajaa AWS:ssä. Katso PDF-dokumenttien kääntäminen Amazon Kääntäjän ja Amazon Textractin avulla malliarkkitehtuurille, joka käyttää Amazonin yksinkertainen tallennuspalvelu (Amazon S3) asiakirjojen tallentamiseen ja AWS Lambda suorittaaksesi koodin.
Suorita koodi paikallisessa koneessa suorittamalla seuraavat vaiheet. Koodiesimerkit ovat saatavilla osoitteessa GitHub-repo.
- Kloonaa GitHub-repo:
- Suorita seuraava komento:
- Suorita seuraava komento kääntääksesi englannista espanjaksi:
Asiakirjakansioon luodaan kaksi käännettyä PDF-dokumenttia alkuperäisen muotoilun kanssa ja ilman (SampleOutput-es.pdf
ja SampleOutput-min-es.pdf
).
Koodi käännetyn PDF:n luomiseksi
Seuraavat koodinpätkät osoittavat, kuinka PDF-dokumentti otetaan ja vastaava käännetty PDF-dokumentti luodaan. Se purkaa tekstin Amazon Textractin avulla ja luo käännetyn PDF:n lisäämällä käännetyn tekstin kerrokseksi kuvaan. Se perustuu viestissä näkyvään ratkaisuun Haettavien PDF-tiedostojen luominen skannatuista asiakirjoista automaattisesti Amazon Textractin avulla.
Koodi saa ensin jokaisen tekstirivin Amazon Textractin avulla. Amazon Translatea käytetään käännetyn tekstin hakemiseen ja käännetyn tekstin geometrian tallentamiseen.
Fonttikoko lasketaan seuraavasti, ja se voidaan helposti määrittää:
Käännetty PDF luodaan tallennetusta geometriasta ja käännetystä tekstistä. Muutokset käännetyn tekstin väriin voidaan helposti määrittää.
Seuraava kuva näyttää asiakirjan käännettynä espanjaksi alkuperäisellä muotoilulla (SampleOutput-es.pdf
).
Seuraava kuva näyttää käännetyn PDF-tiedoston espanjaksi ilman muotoilua (SampleOutput-min-es.pdf
).
Käsittelyaika
Työllisyyshakemuksen pdf-tiedoston purkaminen, käsittely ja renderöinti kesti noin 10 sekuntia. Käsittelyaika raskaan tekstin asiakirjalle, kuten Itsenäisyysjulistus PDF kesti alle minuutin.
Hinta
Amazon Textractin avulla maksat käsiteltyjen sivujen ja kuvien määrän perusteella. Amazon Translatella maksat käsiteltyjen tekstimerkkien määrän perusteella. Viitata Amazon Textract hinnoittelu ja Amazon Translate -hinnoittelu todellisille kustannuksille.
Yhteenveto
Tämä viesti osoitti, kuinka Amazon Textract ja Amazon Translate luodaan käännettyjä PDF-dokumentteja säilyttäen samalla alkuperäisen asiakirjarakenteen. Voit halutessasi jälkikäsitellä Amazon Textract -tuloksia käännöksen laadun parantamiseksi, esimerkiksi poimitut sanat voidaan siirtää ML-pohjaisten oikolukujen läpi, kuten esim. SymSpell tietojen validointia varten tai klusterointialgoritmeja voidaan käyttää lukujärjestyksen säilyttämiseen. Voit myös käyttää Amazonin laajennettu AI (Amazon A2I) rakentaaksesi ihmisen tarkastelun työnkulkuja, joissa voit käyttää omaa yksityistä työvoimaasi tarkastelemaan alkuperäisiä ja käännettyjä PDF-dokumentteja tarkkuuden ja kontekstin parantamiseksi. Katso Ihmisten arviointityövirtojen suunnittelu Amazon Translate: n ja Amazon Augmented AI: n avulla ja Monikielisen asiakirjojen käännöstyönkulun rakentaminen verkkotunnus- ja kielikohtaisilla räätälöinnillä päästä alkuun.
Tietoja Tekijät
Anubha Singhal on vanhempi pilviarkkitehti Amazon Web Servicesissä AWS Professional Services -organisaatiossa.
Sean Lawrence oli aiemmin Front End Engineer AWS:ssä. Hän on erikoistunut etupään kehittämiseen AWS Professional Services -organisaatiossa ja Amazon Privacy -tiimissä.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. Autot / sähköautot, hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- BlockOffsets. Ympäristövastuun omistuksen nykyaikaistaminen. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :On
- :ei
- :missä
- $ YLÖS
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Meistä
- pääsy
- Tili
- tarkkuus
- poikki
- todellinen
- lisää
- lisä-
- osoite
- edullinen
- algoritmit
- mahdollistaa
- Myös
- Amazon
- Amazonin teksti
- Amazon Käännä
- Amazon Web Services
- an
- ja
- Kaikki
- Apache
- Hakemus
- lähestymistapa
- sopiva
- arkkitehtuuri
- OVAT
- AS
- At
- täydennetty
- Automatisoitu
- automaattisesti
- saatavissa
- AWS
- AWS-asiantuntijapalvelut
- perustua
- BE
- ovat
- välillä
- Jälkeen
- Musta
- Tukkia
- Blocks
- Laatikko
- rakentaa
- rakentaa
- yritykset
- by
- laskettu
- CAN
- kyvyt
- tapauksissa
- Muutokset
- merkki
- hahmon tunnistaminen
- merkkejä
- pilvi
- klustereiden
- koodi
- väri
- Viestintä
- täydellinen
- määritetty
- sisältää
- pitoisuus
- sisältö
- tausta
- Korjaukset
- vastaava
- kustannustehokas
- kustannukset
- luoda
- luotu
- luo
- Tällä hetkellä
- räätälöinnin
- räätälöidä
- tiedot
- Antaa
- osoittaa
- sijoittaa
- haluttu
- yksityiskohta
- yksityiskohdat
- Kehitys
- eri
- vaikea
- useat
- asiakirja
- asiakirjat
- ei
- kaksi
- kukin
- helpompaa
- helposti
- vaivaa
- muu
- työllisyys
- mahdollistaa
- loppu
- insinööri
- Englanti
- esimerkki
- Esimerkit
- kallis
- uute
- otteet
- väärä
- FAST
- täyttää
- taloudellinen
- Löytää
- Etunimi
- kellua
- keskittyy
- jälkeen
- seuraa
- varten
- ennen
- lomakkeet
- löytyi
- Ranskan
- alkaen
- etuosa
- etupään
- Etupään kehitys
- koko
- täysin
- tuottaa
- tuottaa
- Saksan
- saada
- GitHub
- Global
- Go
- Goes
- Olla
- he
- terveydenhuollon
- raskas
- korkeus
- tätä
- korkealaatuisia
- Talo
- Miten
- Miten
- HTML
- http
- HTTPS
- ihmisen
- tunnisteet
- tunnistaa
- if
- kuva
- kuvien
- parantaa
- in
- Muilla
- sisältää
- Mukaan lukien
- teollisuuden
- panos
- integroitu
- tulee
- IT
- SEN
- Jaava
- Kieli
- kielet
- suuri
- kerros
- OPPIA
- oppiminen
- vähiten
- vasemmalle
- vähemmän
- Taso
- kirjastot
- Kirjasto
- rajat
- linja
- linjat
- Lista
- paikallinen
- logiikka
- katso
- Menettää
- kone
- koneoppiminen
- tehdä
- onnistui
- manuaalinen
- monet
- Saattaa..
- lääketieteellinen
- minuutti
- ML
- Muutokset
- lisää
- nimet
- Tarve
- tarvitaan
- Uusi
- numero
- objekti
- OCR
- of
- usein
- on
- Tarpeen vaatiessa
- avoimen lähdekoodin
- toiminta
- optinen hahmon tunnistus
- or
- tilata
- organisaatio
- alkuperäinen
- Muut
- ulostulo
- oma
- sivulla
- sivut
- paria
- Hyväksytty
- Maksaa
- esittävä
- Oikeudet
- Platon
- Platonin tietotieto
- PlatonData
- Portugalin
- sijainti
- Kirje
- esitetty
- yksityisyys
- yksityinen
- etuoikeus
- prosessi
- Käsitelty
- käsittely
- ammatillinen
- Ohjelmointi
- ohjelmointikielet
- toimittaa
- tarjoaa
- julkaistu
- laatu
- nopeasti
- Lukeminen
- tunnustaminen
- suositella
- asiakirjat
- alue
- sääntelyn
- luotettava
- Raportit
- edellyttää
- vaatimukset
- Vaatii
- rajoitettu
- tulokset
- säilyttää
- säilyttäen
- palata
- arviot
- ajaa
- Säästä
- skaalautuva
- skannata
- sekuntia
- osiot
- nähdä
- vanhempi
- palvelu
- Palvelut
- setti
- shouldnt
- näyttää
- osoittivat
- esitetty
- Näytä
- samankaltainen
- Yksinkertainen
- tilanteita
- Koko
- hidas
- ratkaisu
- lähde
- Espanjan
- erikoistunut
- erityinen
- itsenäinen
- alkoi
- Askeleet
- Levytila
- verkkokaupasta
- jono
- rakenne
- niin
- Tuetut
- Tukee
- TAG
- ottaa
- vero
- joukkue-
- Testaus
- kuin
- että
- -
- Lähde
- Niitä
- sitten
- Siellä.
- Nämä
- tätä
- Kautta
- aika
- että
- otti
- ylin
- Kääntää
- Kääntäminen
- ymmärtää
- unique
- käyttää
- käytetty
- Käyttäjät
- käyttötarkoituksiin
- käyttämällä
- Hyödyntämällä
- VAHVISTA
- validointi
- lajike
- eri
- todentaa
- pystysuunnassa
- Näytä
- volyymit
- oli
- we
- verkko
- verkkopalvelut
- HYVIN
- Mitä
- joka
- vaikka
- valkoinen
- leveys
- with
- sisällä
- ilman
- sanoja
- työnkulku
- työnkulkuja
- työvoima
- toimii
- kirjallinen
- Voit
- Sinun
- zephyrnet