Amazon szöveg egy gépi tanulási (ML) szolgáltatás, amely automatikusan kivonja a szöveget, a kézírást és az adatokat bármely dokumentumból vagy képből. Az Amazon Textractban van egy Táblázatok funkció AnalyzeDocument API, amely lehetővé teszi a táblázatos struktúrák automatikus kinyerését bármely dokumentumból. Ebben a bejegyzésben megbeszéljük a fejlesztéseket, amelyeket a Asztalok funkciót, és hogyan könnyíti meg az információk táblázatos struktúrákban történő kinyerését a legkülönfélébb dokumentumokból.
Az olyan dokumentumokban található táblázatos szerkezetek, mint a pénzügyi jelentések, fizetési táblák és az elemzési fájlok tanúsítványai, gyakran úgy vannak formázva, hogy lehetővé tegye az információk könnyű értelmezését. Gyakran olyan információkat is tartalmaznak, mint a táblázat címe, lábléce, szakasz címe és összefoglaló sorok a táblázatos szerkezeten belül a jobb olvashatóság és rendszerezés érdekében. A bővítést megelőző hasonló dokumentum esetében a Táblázatok funkció a benne található AnalyzeDocument
cellákként azonosította volna ezeket az elemeket, és nem bontotta ki azokat a címeket és lábléceket, amelyek a táblázat határain kívül találhatók. Ilyen esetekben egyéni utófeldolgozási logikára volt szükség az ilyen információk azonosításához vagy az API JSON-kimenetéből történő elkülönítéséhez. A Táblázat szolgáltatás továbbfejlesztéséről szóló bejelentéssel a táblázatos adatok különböző szempontjainak kinyerése sokkal egyszerűbbé válik.
2023 áprilisában az Amazon Textract bevezette azt a lehetőséget, hogy a Tables funkción keresztül automatikusan észlelje a dokumentumokban található címeket, lábléceket, szakaszcímeket és összefoglaló sorokat. Ebben a bejegyzésben ezeket a fejlesztéseket tárgyaljuk, és példákat adunk, amelyek segítenek megérteni és használni őket a dokumentumfeldolgozási munkafolyamatokban. Kódpéldák segítségével bemutatjuk, hogyan használhatja ezeket a fejlesztéseket az API használatához és a válasz feldolgozásához a Amazon Textract Textractor könyvtár.
A megoldás áttekintése
A következő képen látható, hogy a frissített modell nemcsak a táblázatot azonosítja a dokumentumban, hanem az összes megfelelő táblázatfejlécet és láblécet is. Ez a pénzügyi jelentés mintadokumentuma a táblázat címét, láblécét, szakaszcímét és összefoglaló sorait tartalmazza.
A Táblázatok funkció továbbfejlesztése négy új elem támogatását teszi lehetővé az API-válaszban, amely lehetővé teszi az egyes táblázatelemek egyszerű kinyerését, és lehetővé teszi a táblázat típusának megkülönböztetését.
Táblázat elemek
Az Amazon Textract képes azonosítani a táblázat több összetevőjét, például a táblázatcellákat és az egyesített cellákat. Ezek az összetevők, az úgynevezett Block
objektumok, magukba foglalják az összetevőhöz kapcsolódó részleteket, például a határoló geometriát, a kapcsolatokat és a megbízhatósági pontszámot. A Block
a dokumentumban egymáshoz közeli pixelcsoporton belül felismert elemeket jelöli. A következők az újak Táblázat blokkok ebben a bővítésben bevezetve:
- Táblázat címe – Egy új
Block
nevű típusTABLE_TITLE
amely lehetővé teszi egy adott táblázat címének azonosítását. A címek egy vagy több sorból állhatnak, amelyek általában egy táblázat felett helyezkednek el, vagy cellaként vannak beágyazva a táblázatba. - Táblázat láblécek – Egy új
Block
nevű típusTABLE_FOOTER
amely lehetővé teszi az adott táblához társított láblécek azonosítását. A lábléc lehet egy vagy több sor, amelyek általában a táblázat alatt találhatók, vagy cellaként vannak beágyazva a táblázatba. - A szakasz címe – Egy új
Block
nevű típusTABLE_SECTION_TITLE
amely lehetővé teszi annak azonosítását, hogy az észlelt cella szakaszcím-e. - Összefoglaló cellák – Egy új
Block
nevű típusTABLE_SUMMARY
amely lehetővé teszi annak azonosítását, hogy a cella összegző cella-e, például egy fizetési táblázat összesítésének cellája.
A táblázatok típusai
Amikor az Amazon Textract azonosít egy táblázatot a dokumentumban, a táblázat minden részletét kivonja egy legfelső szintre. Block
típusú TABLE
. Az asztalok különböző formájúak és méretűek lehetnek. Például a dokumentumok gyakran tartalmaznak olyan táblázatokat, amelyeknek van jól látható fejléce. Az ilyen típusú táblák megkülönböztetésének elősegítése érdekében két új entitástípust adtunk hozzá a TABLE Block
: SEMI_STRUCTURED_TABLE
és a STRUCTURED_TABLE
. Ezek az entitástípusok segítenek megkülönböztetni a strukturált és a félig strukturált táblázatokat.
A strukturált táblázatok olyan táblázatok, amelyek egyértelműen meghatározott oszlopfejlécekkel rendelkeznek. A félig strukturált táblázatok esetében azonban előfordulhat, hogy az adatok nem követnek szigorú struktúrát. Például az adatok táblázatos struktúrában jelenhetnek meg, amely nem egy táblázat meghatározott fejlécekkel. Az új entitástípusok rugalmasságot biztosítanak annak kiválasztásában, hogy mely táblákat kívánja megtartani vagy eltávolítani az utófeldolgozás során. A következő képen egy példa látható STRUCTURED_TABLE
és a SEMI_STRUCTURED_TABLE
.
Az API kimenet elemzése
Ebben a részben megvizsgáljuk, hogyan használhatja a Amazon Textract Textractor könyvtár API kimenetének utófeldolgozása AnalyzeDocument
a Táblázatok funkció fejlesztéseivel. Ez lehetővé teszi a releváns információk kinyerését a táblázatokból.
A Textractor egy olyan könyvtár, amelyet úgy hoztak létre, hogy zökkenőmentesen működjön együtt az Amazon Textract API-kkal és segédprogramokkal, hogy az API-k által visszaadott JSON-válaszokat később programozható objektumokká konvertálja. Használhatja a dokumentum entitásainak megjelenítésére és az adatok exportálására is olyan formátumokba, mint például a vesszővel tagolt értékek (CSV) fájlok. Célja, hogy segítse az Amazon Textract ügyfeleit az utófeldolgozási folyamatok beállításában.
Példáinkban a következő mintaoldalt használjuk egy 10 XNUMX SEC iktatódokumentumból.
Az alábbi kód megtalálható nálunk GitHub tárház. A dokumentum feldolgozásához a Textractor könyvtárat használjuk, és importáljuk számunkra az API kimenetek utófeldolgozásához és az adatok megjelenítéséhez:
Az első lépés az Amazon Textract felhívása AnalyzeDocument
Táblázatok funkcióval, amelyet a jelöl features=[TextractFeatures.TABLES]
paramétert a táblázat információinak kinyeréséhez. Vegye figyelembe, hogy ez a módszer a valós idejű (vagy szinkron) AnalyzeDocument API, amely támogatja az egyoldalas dokumentumokat. Használhatja azonban a aszinkron StartDocumentAnalysis
API többoldalas dokumentumok feldolgozásához (akár 3,000 oldalig).
A document
Az objektum áttekinthető metaadatokat tartalmaz a dokumentumról. Figyelje meg, hogy felismer egy táblát a dokumentumban a dokumentum többi entitásával együtt:
Most, hogy megvan a táblainformációkat tartalmazó API kimenet, a korábban tárgyalt válaszstruktúra segítségével megjelenítjük a táblázat különböző elemeit:
A Textractor könyvtár kiemeli a különböző entitásokat az észlelt táblán belül minden egyes táblaelemhez eltérő színkóddal. Merüljünk el mélyebben az egyes elemek kinyerésének módjában. A következő kódrészlet a táblázat címének kinyerését szemlélteti:
Hasonlóképpen a következő kódot használhatjuk a táblázat lábléceinek kibontására. Figyeljük meg, hogy a table_footers egy lista, ami azt jelenti, hogy egy vagy több lábléc lehet a táblához társítva. Iterálhatjuk ezt a listát, hogy lássuk az összes jelenlévő láblécet, és amint az a következő kódrészletben látható, a kimenet három láblécet jelenít meg:
Adatok generálása a későbbi feldolgozáshoz
A Textractor könyvtár segít leegyszerűsíteni a táblázat adatainak feldolgozását a későbbi rendszerekbe vagy más munkafolyamatokba. Például exportálhatja a kibontott táblázatadatokat egy ember által olvasható Microsoft Excel-fájlba. Az írás idején ez az egyetlen formátum, amely támogatja az egyesített táblázatokat.
Át is alakíthatjuk a Pandas DataFrame. A DataFrame népszerű választás az adatok manipulálására, elemzésére és megjelenítésére olyan programozási nyelvekben, mint a Python és az R.
A Pythonban a DataFrame a Pandas könyvtár elsődleges adatszerkezete. Rugalmas és hatékony, és gyakran az első választás az adatelemző szakemberek számára különféle adatelemzési és ML feladatokhoz. A következő kódrészlet bemutatja, hogyan konvertálhatja a kibontott táblázatinformációkat DataFrame-be egyetlen sornyi kóddal:
Végül a táblázat adatait CSV-fájllá alakíthatjuk. A CSV-fájlokat gyakran használják adatok relációs adatbázisokba vagy adattárházakba való beemelésére. Lásd a következő kódot:
Következtetés
Ezen új blokk- és entitástípusok bevezetése (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
és TABLE_SUMMARY
) jelentős előrelépést jelent a táblázatos struktúrák kinyerése terén az Amazon Textract segítségével.
Ezek az eszközök árnyaltabb és rugalmasabb megközelítést biztosítanak, mind a strukturált, mind a félig strukturált táblákat kiszolgálják, és biztosítják, hogy egyetlen fontos adat se maradjon figyelmen kívül, függetlenül attól, hogy hol helyezkednek el a dokumentumban.
Ez azt jelenti, hogy mostantól fokozott hatékonysággal és pontossággal kezelhetjük a különféle adattípusokat és táblaszerkezeteket. Ahogy továbbra is alkalmazzuk az automatizálás erejét a dokumentumfeldolgozási munkafolyamatokban, ezek a fejlesztések kétségtelenül megnyitják az utat az egyszerűbb munkafolyamatok, a magasabb termelékenység és az áttekinthetőbb adatelemzés felé. További információért AnalyzeDocument
és a Táblázatok szolgáltatást, lásd AnalyzeDocument.
A szerzőkről
Raj Pathak vezető megoldástervező és technológus, aki a pénzügyi szolgáltatásokra (biztosítás, banki szolgáltatások, tőkepiacok) és a gépi tanulásra szakosodott. Szakterülete a Natural Language Processing (NLP), a Large Language Models (LLM) és a Machine Learning infrastruktúra és műveleti projektek (MLOps).
Anjan Biswas vezető mesterséges intelligencia-szolgáltatási építész, aki az AI/ML-re és az adatelemzésre összpontosít. Anjan a világméretű mesterségesintelligencia-szolgáltatási csapat tagja, és az ügyfelekkel dolgozik, hogy segítsen nekik megérteni és megoldásokat kidolgozni az AI és az ML üzleti problémáira. Anjan több mint 14 éves tapasztalattal rendelkezik a globális ellátási lánc, gyártó és kiskereskedelmi szervezetekkel kapcsolatban, és aktívan segíti ügyfeleit az AWS AI-szolgáltatások megkezdésében és bővítésében.
Lalita Reddi az Amazon Textract csapatának vezető műszaki termékmenedzsere. Arra összpontosít, hogy gépi tanuláson alapuló szolgáltatásokat építsen ki az AWS-ügyfelek számára. Szabadidejében Lalita szeret társasjátékozni és kirándulni.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- EVM Finance. Egységes felület a decentralizált pénzügyekhez. Hozzáférés itt.
- Quantum Media Group. IR/PR erősített. Hozzáférés itt.
- PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :van
- :is
- :nem
- $ UP
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- képesség
- Rólunk
- felett
- Fiókok
- pontosság
- aktívan
- hozzáadott
- Hozzáteszi
- haladás
- ügynökség
- AI
- AI szolgáltatások
- AI / ML
- Támogatás
- Minden termék
- lehetővé teszi, hogy
- mentén
- Is
- amazon
- Amazon szöveg
- Az Amazon Web Services
- Összegek
- an
- elemzés
- analitika
- és a
- Közlemény
- Bemutatjuk
- bármilyen
- api
- API-k
- megjelenik
- megközelítés
- körülbelül
- április
- VANNAK
- AS
- szempontok
- Eszközök
- társult
- At
- automatikusan
- Automatizálás
- AWS
- Egyenleg
- mérlegek
- Banking
- alap
- BE
- válik
- lent
- Jobb
- között
- Billió
- Blokk
- bizottság
- Társasjátékok
- mindkét
- Épület
- üzleti
- de
- by
- hívás
- hívott
- TUD
- tőke
- Tőkepiacok
- esetek
- Készpénz
- Cellák
- bizonyos
- igazolás
- lánc
- választás
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- osztályoz
- világosan
- vásárló
- közel
- kód
- Párhuzamos
- szín
- Oszlop
- hogyan
- kötelezettségvállalások
- összetevő
- alkatrészek
- bizalom
- tartalmaz
- tartalmaz
- folytatódik
- megtérít
- Társasági
- Megfelelő
- Költség
- készítette
- hitel
- szokás
- Ügyfelek
- dátum
- adatelemzés
- Adatelemzés
- Adatszerkezet
- adatbázisok
- Adósság
- december
- mélyebb
- meghatározott
- mutatja
- részletek
- észlelt
- Fejleszt
- különböző
- irány
- Kedvezmény
- megvitatni
- tárgyalt
- kijelzők
- különbséget tesz
- számos
- dokumentum
- dokumentumok
- kétlem
- két
- alatt
- minden
- könnyű
- könnyebb
- könnyű
- hatékonyság
- elem
- elemek
- beágyazott
- ölelés
- lehetővé teszi
- fokozott
- fejlesztések
- Szervezetek
- egység
- részvény
- egyenértékűek
- birtok
- becsült
- példa
- példák
- Excel
- tapasztalat
- feltárása
- export
- kivonat
- kivonatok
- igazságos
- Funkció
- filé
- Fájlok
- Benyújtás
- pénzügyi
- pénzügyi jelentés
- pénzügyi szolgáltatások
- vezetéknév
- rögzített
- állandó jövedelem
- Rugalmasság
- rugalmas
- Összpontosít
- összpontosított
- következik
- következő
- A
- külföldi
- formátum
- talált
- négy
- ból ből
- alapok
- Nyereség
- Nyereség
- Games
- kap
- GitHub
- Ad
- adott
- Globális
- Go
- Kormány
- bruttó
- Csoport
- kellett
- fogantyú
- Legyen
- he
- fejlécek
- segít
- segít
- segít
- neki
- hierarchia
- <p></p>
- Kiemelt
- kiemeli
- Kirándulások
- tart
- Hogyan
- How To
- azonban
- HTML
- HTTPS
- emberi
- azonosított
- azonosítja
- azonosítani
- Identitás
- if
- kép
- importál
- fontos
- fejlesztések
- in
- tartalmaz
- Jövedelem
- információ
- Infrastruktúra
- telepíteni
- biztosítás
- szándékolt
- értelmezés
- bele
- Bevezetett
- Bevezetés
- beruházás
- behívja
- IT
- tételek
- ITS
- jpg
- json
- joghatóságok
- Tart
- ismert
- hiány
- nyelv
- Nyelvek
- nagy
- tanulás
- kevesebb
- szint
- könyvtár
- Kedvencek
- vonal
- vonalak
- Lista
- LLM
- terhelések
- elhelyezkedés
- logika
- hosszabb
- le
- veszteség
- gép
- gépi tanulás
- készült
- fontos
- csinál
- KÉSZÍT
- Gyártás
- menedzser
- Manipuláció
- gyártási
- piacára
- piacok
- Lehet..
- eszközök
- Metaadatok
- módszer
- microsoft
- esetleg
- millió
- Több millió
- ML
- MLOps
- modell
- modellek
- módosítása
- pénz
- pénz piac
- hónap
- több
- sok
- Természetes
- Természetes nyelvi feldolgozás
- elengedhetetlen
- háló
- Új
- NLP
- nem
- Értesítés..
- Most
- tárgy
- objektumok
- of
- ajánlat
- Ajánlatok
- gyakran
- on
- ONE
- csak
- Művelet
- or
- szervezet
- szervezetek
- Más
- másképp
- mi
- teljesítmény
- kívül
- felett
- oldal
- pandák
- paraméter
- rész
- egyengetni
- Plató
- Platón adatintelligencia
- PlatoData
- játszani
- Népszerű
- porció
- állás
- hatalom
- erős
- be
- korábban
- elsősorban
- elsődleges
- Előzetes
- problémák
- folyamat
- feldolgozás
- Termékek
- termék menedzser
- termelékenység
- tehetséges alkalmazottal
- Programozás
- programozási nyelvek
- projektek
- ad
- Piton
- Q1
- Q3
- Q3 2021
- 3. harmadik negyedév
- lekérdezések
- igazi
- ingatlan
- real-time
- elismert
- elismeri
- feljegyzett
- ismétlődő
- Tekintet nélkül
- vidék
- szabályozók
- összefüggő
- Kapcsolatok
- eltávolítása
- jelentést
- Jelentések
- jelentése
- kötelező
- illetőleg
- válasz
- válaszok
- korlátoz
- korlátozott
- korlátozások
- kapott
- kiskereskedelem
- felül
- s
- értékesítés
- Skála
- pontszám
- zökkenőmentesen
- SEC
- SEC bejelentés
- Rész
- Értékpapír
- biztonság
- lát
- Sellers
- idősebb
- szeptember
- szolgáltatás
- Szolgáltatások
- beállítás
- számos
- formák
- ő
- mutatott
- Műsorok
- aláírások
- jelentős
- hasonló
- egyszerűsítése
- egyetlen
- méretek
- Megoldások
- specializálódott
- szakosodott
- kezdődött
- Lépés
- áramvonalas
- Szigorú
- struktúra
- szerkesztett
- tárgy
- Később
- ilyen
- ÖSSZEFOGLALÓ
- kínálat
- ellátási lánc
- támogatás
- Támogatja
- Systems
- táblázat
- feladatok
- csapat
- Műszaki
- technológus
- mint
- hogy
- A
- azok
- Őket
- Ott.
- Ezek
- ők
- harmadik fél
- ezt
- azok
- három
- Keresztül
- idő
- Cím
- címei
- nak nek
- szerszámok
- felső szint
- Végösszeg
- kereskedelem
- kettő
- típus
- típusok
- jellemzően
- nekünk
- Amerikai kormány
- megért
- nem realizált veszteségek
- frissítve
- us
- használ
- használt
- segítségével
- segédprogramok
- érték
- Értékek
- fajta
- különféle
- Ellen
- keresztül
- megjelenítés
- volt
- Út..
- we
- háló
- webes szolgáltatások
- ami
- széles
- lesz
- val vel
- belül
- szavak
- Munka
- munkafolyamatok
- dolgozó
- művek
- lenne
- írás
- év
- te
- A te
- zephyrnet