A különböző iparágakban működő vállalatok nagy mennyiségű PDF-dokumentumot készítenek, szkennelnek és tárolnak. Sok esetben a tartalom szöveges, gyakran más nyelven íródott, és fordítást igényel. Ennek megoldásához automatizált megoldásra van szüksége a PDF-fájlok tartalmának kinyerésére, valamint gyors és költséghatékony fordítására.
Sok vállalkozásnak változatos globális felhasználói vannak, és le kell fordítaniuk a szöveget, hogy lehetővé tegyék köztük a többnyelvű kommunikációt. Ez manuális, lassú és költséges emberi erőfeszítés. Skálázható, megbízható és költséghatékony megoldást kell találni a dokumentumok lefordításához, miközben megőrzi az eredeti dokumentumformázást.
Az olyan vertikumok esetében, mint az egészségügy, a szabályozási követelmények miatt a lefordított dokumentumokhoz további emberre van szükség a géppel lefordított dokumentum érvényességének ellenőrzéséhez.
Ha a lefordított dokumentum nem őrzi meg az eredeti formázást és szerkezetet, elveszíti kontextusát. Ez megnehezítheti az emberi felülvizsgáló számára az érvényesítést és a javításokat.
Ebben a bejegyzésben bemutatjuk, hogyan lehet új lefordított PDF-et létrehozni egy beszkennelt PDF-ből, miközben megőrzi az eredeti dokumentum szerkezetét és formázását geometria alapú megközelítéssel Amazon szöveg, Amazon Translateés Apache PDF Box.
Megoldás áttekintése
Az ebben a bejegyzésben bemutatott megoldás a következő összetevőket használja:
- Amazon szöveg – Teljesen felügyelt gépi tanulási (ML) szolgáltatás, amely automatikusan kivonja a nyomtatott szöveget, kézírást és egyéb adatokat a beolvasott dokumentumokból, és túlmutat az egyszerű optikai karakterfelismerésen (OCR) az adatok azonosítása, megértése és az űrlapokból és táblázatokból való kinyerése érdekében. Az Amazon Textract számos dokumentumban képes felismerni a szöveget, beleértve a pénzügyi jelentéseket, az orvosi feljegyzéseket és az adózási űrlapokat.
- Amazon Translate – Neurális gépi fordítási szolgáltatás, amely gyors, kiváló minőségű és megfizethető nyelvi fordítást biztosít. Az Amazon Translate kiváló minőségű igény szerinti és kötegelt fordítási lehetőségeket biztosít több mint 2,970 nyelvpáron, miközben csökkenti a fordítási költségeket.
- PDF Fordítás – Nyílt forráskódú könyvtár, amely Java nyelven íródott és a következő napon jelent meg AWS-minták a GitHubban. Ez a könyvtár olyan logikát tartalmaz, amellyel lefordított PDF-dokumentumokat hozhat létre a kívánt nyelven az Amazon Textract és az Amazon Translate segítségével. A nyílt forráskódú Apache PDFBox Java könyvtárat is használja a PDF dokumentumok létrehozásához. Hasonló PDF-feldolgozó könyvtárak állnak rendelkezésre például más programozási nyelveken Node PDFBox.
Gépi fordítás közben előfordulhatnak olyan helyzetek, amikor meg akarja őrizni a szöveg bizonyos részeit a lefordítástól, például neveket vagy egyedi azonosítókat. Az Amazon Translate lehetővé teszi a címkék módosítását, ami lehetővé teszi annak megadását, hogy mely szöveget ne fordítsa le. Az Amazon Translate támogatja a formalitások testreszabását is, amely lehetővé teszi a fordítási kimenet formalitási szintjének testreszabását.
Az Amazon Textract korlátaival kapcsolatos részletekért lásd: Kvóták az Amazon Textractban.
A megoldás azokra a nyelvekre korlátozódik, amelyeket az Amazon Textract kinyerhet, amely jelenleg támogatja az angol, spanyol, olasz, portugál, francia és német nyelvet. Ezeket a nyelveket az Amazon Translate is támogatja. Az Amazon Translate által támogatott nyelvek teljes listáját lásd: Támogatott nyelvek és nyelvi kódok.
A következő PDF-et használjuk a szöveg angolról spanyolra fordításának bemutatására. A megoldás támogatja a lefordított dokumentum formázás nélküli generálását is. A lefordított szöveg helyzete megmarad. A forrás és a lefordított PDF dokumentumok szintén megtalálhatók a AWS minták GitHub repo.
A következő szakaszokban bemutatjuk, hogyan futtassuk le a fordítási kódot egy helyi gépen, és nézzük meg részletesebben a fordítási kódot.
Előfeltételek
Mielőtt elkezdené, állítsa be AWS-fiókját és a AWS parancssori interfész (AWS CLI). Az AWS-szolgáltatások, például a Textract és a Translate eléréséhez megfelelő IAM-engedélyek szükségesek. Javasoljuk, hogy használja a legkevesebb jogosultságot. Ha többet szeretne megtudni az IAM-engedélyekről, lásd: Szabályzatok és engedélyek az IAM-ban szintén Hogyan működik az Amazon Textract az IAM-mel és a Hogyan működik az Amazon Translate az IAM-mel.
Futtassa a fordítási kódot egy helyi gépen
Ez a megoldás az önálló Java-kódra összpontosít a PDF-dokumentumok kibontásához és lefordításához. Ez a könnyebb tesztelés és testreszabás érdekében a legjobban lefordított PDF-dokumentum elkészítéséhez szolgál. A kód ezután integrálható egy automatizált megoldásba az AWS-ben való üzembe helyezéshez és futtatáshoz. Lát PDF dokumentumok fordítása az Amazon Translate és az Amazon Textract segítségével használó mintaarchitektúrához Amazon egyszerű tárolási szolgáltatás (Amazon S3) a dokumentumok tárolására és AWS Lambda hogy futtassa a kódot.
A kód helyi gépen való futtatásához hajtsa végre a következő lépéseket. A kódpéldák elérhetők a GitHub repó.
- A GitHub repo klónozása:
- Futtassa a következő parancsot:
- Futtassa a következő parancsot az angolról spanyolra fordításhoz:
Két lefordított PDF dokumentum jön létre a dokumentumok mappában, az eredeti formázással és anélkül (SampleOutput-es.pdf
és a SampleOutput-min-es.pdf
).
Kód a lefordított PDF létrehozásához
A következő kódrészletek bemutatják, hogyan készíthet PDF-dokumentumot, és hogyan hozhat létre egy megfelelő lefordított PDF-dokumentumot. Kivonja a szöveget az Amazon Textract segítségével, és létrehozza a lefordított PDF-et úgy, hogy a lefordított szöveget rétegként hozzáadja a képhez. A posztban látható megoldásra épít Kereshető PDF-fájlok automatikus generálása beolvasott dokumentumokból az Amazon Textract segítségével.
A kód először minden szövegsort megkap az Amazon Textract segítségével. Az Amazon Translate a lefordított szöveg lekérésére és a lefordított szöveg geometriájának mentésére szolgál.
A betűméret kiszámítása a következőképpen történik, és könnyen konfigurálható:
A lefordított PDF a mentett geometriából és a lefordított szövegből jön létre. A lefordított szöveg színének módosítása egyszerűen konfigurálható.
A következő kép a dokumentumot mutatja spanyolra lefordítva az eredeti formázással (SampleOutput-es.pdf
).
A következő képen a lefordított PDF látható spanyol nyelven, formázás nélkül (SampleOutput-min-es.pdf
).
Feldolgozási idő
A foglalkoztatási kérelem pdf-je körülbelül 10 másodpercet vett igénybe a lefordított pdf kibontása, feldolgozása és renderelése. A nehéz szöveges dokumentumok feldolgozási ideje, mint pl Függetlenségi Nyilatkozat A PDF kevesebb mint egy percig tartott.
Költség
Az Amazon Textract szolgáltatással a feldolgozott oldalak és képek száma alapján fizet. Az Amazon Translate szolgáltatással a feldolgozott szövegkarakterek száma alapján fizet. Hivatkozni Amazon Textract árképzés és a Amazon Translate árazás tényleges költségekre.
Következtetés
Ez a bejegyzés bemutatta, hogyan használható az Amazon Textract és az Amazon Translate lefordított PDF-dokumentumok generálására az eredeti dokumentumstruktúra megőrzése mellett. Opcionálisan utólag feldolgozhatja az Amazon Textract eredményeit a fordítás minőségének javítása érdekében, például a kivont szavakat át lehet vinni ML-alapú helyesírás-ellenőrzéseken, mint pl. SymSpell adatérvényesítéshez, vagy klaszterező algoritmusok használhatók az olvasási sorrend megőrzésére. Használhatod is Amazon kiterjesztett AI (Amazon A2I) olyan emberi felülvizsgálati munkafolyamatok létrehozásához, amelyekben saját magánszemélyek segítségével tekintheti át az eredeti és lefordított PDF-dokumentumokat, hogy nagyobb pontosságot és kontextust biztosítson. Lát Emberi felülvizsgálati munkafolyamatok tervezése az Amazon Translate és az Amazon Augmented AI segítségével és a Többnyelvű dokumentumfordítási munkafolyamat létrehozása tartomány- és nyelvspecifikus testreszabással az induláshoz.
A szerzőkről
Anubha Singhal az Amazon Web Services vezető felhőépítésze, az AWS Professional Services szervezetben.
Sean Lawrence korábban az AWS frontend mérnöke volt. Az AWS Professional Services szervezetnél és az Amazon adatvédelmi csapatánál az előtér-fejlesztésre szakosodott.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Autóipar / elektromos járművek, Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- BlockOffsets. A környezetvédelmi ellentételezési tulajdon korszerűsítése. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :is
- :nem
- :ahol
- $ UP
- 1
- 10
- 100
- 15%
- 20
- 7
- 970
- a
- Rólunk
- hozzáférés
- Fiók
- pontosság
- át
- tényleges
- hozzáadásával
- További
- cím
- megfizethető
- algoritmusok
- lehetővé teszi, hogy
- Is
- amazon
- Amazon szöveg
- Amazon Translate
- Az Amazon Web Services
- an
- és a
- bármilyen
- Apache
- Alkalmazás
- megközelítés
- megfelelő
- építészet
- VANNAK
- AS
- At
- bővített
- Automatizált
- automatikusan
- elérhető
- AWS
- AWS professzionális szolgáltatások
- alapján
- BE
- hogy
- között
- Túl
- Fekete
- Blokk
- Blocks
- Doboz
- épít
- épít
- vállalkozások
- by
- számított
- TUD
- képességek
- esetek
- Változások
- karakter
- karakter felismerés
- karakter
- felhő
- csoportosítás
- kód
- szín
- közlés
- teljes
- konfigurálva
- tartalmaz
- tartalom
- tartalom
- kontextus
- Hiba
- Megfelelő
- költséghatékony
- kiadások
- teremt
- készítette
- teremt
- Jelenleg
- testreszabás
- testre
- dátum
- szállít
- bizonyítani
- telepíteni
- kívánatos
- részlet
- részletek
- Fejlesztés
- különböző
- nehéz
- számos
- dokumentum
- dokumentumok
- Nem
- két
- minden
- könnyebb
- könnyen
- erőfeszítés
- más
- foglalkoztatás
- lehetővé
- végén
- mérnök
- Angol
- példa
- példák
- drága
- kivonat
- kivonatok
- hamis
- GYORS
- kitöltése
- pénzügyi
- Találjon
- vezetéknév
- Úszó
- koncentrál
- következő
- következik
- A
- korábban
- formák
- talált
- francia
- ból ből
- front
- Front end
- Front end fejlesztés
- Tele
- teljesen
- generál
- generáló
- Német
- kap
- GitHub
- Globális
- Go
- Goes
- Legyen
- he
- egészségügyi
- nehéz
- magasság
- itt
- jó minőségű
- Ház
- Hogyan
- How To
- HTML
- http
- HTTPS
- emberi
- azonosítók
- azonosítani
- if
- kép
- képek
- javul
- in
- Más
- tartalmaz
- Beleértve
- iparágak
- bemenet
- integrált
- bele
- IT
- ITS
- Jáva
- nyelv
- Nyelvek
- nagy
- réteg
- TANUL
- tanulás
- legkevésbé
- balra
- kevesebb
- szint
- könyvtárak
- könyvtár
- határértékek
- vonal
- vonalak
- Lista
- helyi
- logika
- néz
- veszít
- gép
- gépi tanulás
- csinál
- sikerült
- kézikönyv
- sok
- Lehet..
- orvosi
- perc
- ML
- Módosítások
- több
- nevek
- Szükség
- szükséges
- Új
- szám
- tárgy
- OCR
- of
- gyakran
- on
- Igény szerint
- nyílt forráskódú
- működés
- optikai karakter felismerés
- or
- érdekében
- szervezet
- eredeti
- Más
- teljesítmény
- saját
- oldal
- oldalak
- párok
- Elmúlt
- Fizet
- előadó
- engedélyek
- Plató
- Platón adatintelligencia
- PlatoData
- portugál
- pozíció
- állás
- bemutatott
- magánélet
- magán
- kiváltság
- folyamat
- Feldolgozott
- feldolgozás
- szakmai
- Programozás
- programozási nyelvek
- ad
- biztosít
- közzétett
- világítás
- gyorsan
- Olvasás
- elismerés
- ajánl
- nyilvántartások
- vidék
- szabályozók
- megbízható
- Jelentések
- szükség
- követelmények
- megköveteli,
- korlátozott
- Eredmények
- megtartása
- visszatartó
- visszatérés
- Kritika
- futás
- Megtakarítás
- skálázható
- beolvasás
- másodperc
- szakaszok
- lát
- idősebb
- szolgáltatás
- Szolgáltatások
- készlet
- kellene
- előadás
- kimutatta,
- mutatott
- Műsorok
- hasonló
- Egyszerű
- helyzetek
- Méret
- lassú
- megoldások
- forrás
- spanyol
- specializált
- különleges
- önálló
- kezdődött
- Lépései
- tárolás
- tárolni
- Húr
- struktúra
- ilyen
- Támogatott
- Támogatja
- TAG
- Vesz
- adó
- csapat
- Tesztelés
- mint
- hogy
- A
- The Source
- Őket
- akkor
- Ott.
- Ezek
- ezt
- Keresztül
- idő
- nak nek
- vett
- felső
- fordít
- Fordítás
- megért
- egyedi
- használ
- használt
- Felhasználók
- használ
- segítségével
- kihasználva
- ÉRVÉNYESÍT
- érvényesítés
- fajta
- különféle
- ellenőrzése
- függőlegesek
- Megnézem
- kötetek
- volt
- we
- háló
- webes szolgáltatások
- JÓL
- Mit
- ami
- míg
- fehér
- szélesség
- val vel
- belül
- nélkül
- szavak
- munkafolyamat
- munkafolyamatok
- munkaerő
- művek
- írott
- te
- A te
- zephyrnet