Amazonin teksti on koneoppimispalvelu (ML), joka poimii automaattisesti tekstin, käsinkirjoituksen ja datan mistä tahansa asiakirjasta tai kuvasta. Amazon Textractissa on taulukot-ominaisuus Analysoi asiakirja API, joka tarjoaa mahdollisuuden poimia automaattisesti taulukkorakenteita mistä tahansa asiakirjasta. Tässä viestissä keskustelemme parannuksista, joita on tehty taulukot ominaisuus ja kuinka se helpottaa tietojen poimia taulukkorakenteissa useista asiakirjoista.
Taulukkorakenteet asiakirjoissa, kuten talousraporteissa, palkkalistoissa ja analyysitiedostoissa, on usein muotoiltu tavalla, joka mahdollistaa tiedon helpon tulkinnan. Ne sisältävät usein myös tietoja, kuten taulukon otsikon, taulukon alatunnisteen, osion otsikon ja yhteenvetorivejä taulukkorakenteen sisällä paremman luettavuuden ja järjestyksen parantamiseksi. Ennen tätä parannusta vastaavan asiakirjan Taulukot-ominaisuus AnalyzeDocument
olisi tunnistanut nämä elementit soluiksi, eikä se poiminut otsikoita ja alatunnisteita, jotka ovat taulukon rajojen ulkopuolella. Tällaisissa tapauksissa tarvittiin mukautettu jälkikäsittelylogiikka tällaisten tietojen tunnistamiseksi tai niiden erottamiseksi erikseen API:n JSON-tulosta. Tämän Taulukko-ominaisuuden parannuksia koskevan ilmoituksen myötä taulukkotietojen eri näkökohtien poimiminen tulee paljon yksinkertaisempaa.
Huhtikuussa 2023 Amazon Textract esitteli mahdollisuuden tunnistaa automaattisesti asiakirjoissa olevat otsikot, alatunnisteet, osien otsikot ja yhteenvetorivit Taulukot-ominaisuuden kautta. Tässä viestissä käsittelemme näitä parannuksia ja annamme esimerkkejä, jotka auttavat sinua ymmärtämään ja käyttämään niitä asiakirjojen käsittelyn työnkulkuissa. Käymme läpi, kuinka näitä parannuksia käytetään koodiesimerkkien avulla API:n käyttämiseen ja vastauksen käsittelyyn Amazon Textract Textractor -kirjasto.
Katsaus ratkaisuun
Seuraavasta kuvasta näkyy, että päivitetty malli identifioi asiakirjassa olevan taulukon lisäksi kaikki vastaavat taulukon ylä- ja alatunnisteet. Tämä esimerkkitalousraporttiasiakirja sisältää taulukon otsikon, alatunnisteen, osion otsikon ja yhteenvetorivit.
Taulukot-ominaisuuden parannus lisää tuen neljälle uudelle elementille API-vastauksessa, jonka avulla voit purkaa jokaisen näistä taulukkoelementeistä helposti ja lisää mahdollisuuden erottaa taulukon tyyppi.
Taulukon elementit
Amazon Textract voi tunnistaa useita taulukon osia, kuten taulukon soluja ja yhdistettyjä soluja. Nämä komponentit, jotka tunnetaan nimellä Block
objektit, kapseloi komponenttiin liittyvät yksityiskohdat, kuten rajoitusgeometria, suhteet ja luottamuspisteet. A Block
edustaa kohteita, jotka tunnistetaan asiakirjassa lähellä toisiaan olevien pikseliryhmien sisällä. Seuraavat ovat uusia Pöytälohkot otettu käyttöön tässä lisäyksessä:
- Taulukon otsikko - Uusi
Block
tyyppi nimeltäTABLE_TITLE
jonka avulla voit tunnistaa tietyn taulukon otsikon. Otsikot voivat olla yksi tai useampi rivi, jotka ovat tyypillisesti taulukon yläpuolella tai upotettuina soluna taulukon sisällä. - Taulukon alatunnisteet - Uusi
Block
tyyppi nimeltäTABLE_FOOTER
jonka avulla voit tunnistaa tiettyyn taulukkoon liittyvät alatunnisteet. Alatunnisteet voivat olla yksi tai useampi rivi, jotka ovat tyypillisesti taulukon alapuolella tai upotettuina soluna taulukon sisällä. - Osion otsikko - Uusi
Block
tyyppi nimeltäTABLE_SECTION_TITLE
jonka avulla voit tunnistaa, onko havaittu solu osion otsikko. - Yhteenvetosolut - Uusi
Block
tyyppi nimeltäTABLE_SUMMARY
jonka avulla voit tunnistaa, onko solu yhteenvetosolu, kuten palkkalistan summien solu.
Pöytien tyypit
Kun Amazon Textract tunnistaa asiakirjassa olevan taulukon, se poimii kaikki taulukon tiedot huipputasolle Block
tyyppi TABLE
. Pöydät voivat olla eri muotoisia ja kokoisia. Esimerkiksi asiakirjat sisältävät usein taulukoita, joissa voi olla tai ei ole havaittavissa olevaa taulukon otsikkoa. Auttaaksemme erottamaan tämäntyyppiset taulukot, lisäsimme kaksi uutta entiteettityyppiä kohtaan a TABLE Block
: SEMI_STRUCTURED_TABLE
ja STRUCTURED_TABLE
. Nämä entiteettityypit auttavat sinua erottamaan strukturoidun ja puolistrukturoidun taulukon.
Strukturoidut taulukot ovat taulukoita, joissa on selkeästi määritellyt sarakeotsikot. Puolirakenteisissa taulukoissa tiedot eivät kuitenkaan välttämättä noudata tiukkaa rakennetta. Tiedot voivat esimerkiksi näkyä taulukkorakenteessa, joka ei ole taulukko, jossa on määritellyt otsikot. Uudet entiteettityypit tarjoavat joustavuuden valita, mitkä taulukot säilytetään tai poistetaan jälkikäsittelyn aikana. Seuraavassa kuvassa on esimerkki STRUCTURED_TABLE
ja SEMI_STRUCTURED_TABLE
.
Analysoidaan API-tulostusta
Tässä osiossa tutkimme, kuinka voit käyttää Amazon Textract Textractor -kirjasto API-tulosteen jälkikäsittelyyn AnalyzeDocument
Taulukot-ominaisuuden parannuksilla. Näin voit poimia oleellisia tietoja taulukoista.
Textractor on kirjasto, joka on luotu toimimaan saumattomasti Amazon Textract API:iden ja apuohjelmien kanssa ja muuntaa myöhemmin API:iden palauttamat JSON-vastaukset ohjelmoitaviksi objekteiksi. Voit myös käyttää sitä visualisoimaan asiakirjan entiteettejä ja viemään tiedot muodossa, kuten CSV-tiedostoina. Se on tarkoitettu auttamaan Amazon Textract -asiakkaita niiden jälkikäsittelyputkistojen perustamisessa.
Esimerkeissämme käytämme seuraavaa esimerkkisivua 10 K SEC:n arkistointiasiakirjasta.
Seuraava koodi löytyy meiltä GitHub-arkisto. Tämän asiakirjan käsittelemiseksi käytämme Textractor-kirjastoa ja tuomme sen meille API-tulosteiden jälkikäsittelyä ja tietojen visualisointia varten:
Ensimmäinen askel on soittaa Amazon Textractiin AnalyzeDocument
Taulukot-ominaisuuden kanssa, joka on merkitty features=[TextractFeatures.TABLES]
parametri taulukon tietojen poimimiseksi. Huomaa, että tämä menetelmä kutsuu reaaliaikaisen (tai synkronisen) Analysoi asiakirja API, joka tukee yksisivuisia asiakirjoja. Voit kuitenkin käyttää asynkroninen StartDocumentAnalysis
API monisivuisten asiakirjojen käsittelyyn (jopa 3,000 XNUMX sivua).
- document
objekti sisältää metatietoja asiakirjasta, joka voidaan tarkistaa. Huomaa, että se tunnistaa yhden asiakirjan taulukon muiden dokumentin entiteettien ohella:
Nyt kun meillä on API-ulostulo, joka sisältää taulukkotiedot, visualisoimme taulukon eri elementit käyttämällä aiemmin käsiteltyä vastausrakennetta:
Textractor-kirjasto korostaa havaitun taulukon eri entiteetit eri värikoodilla jokaiselle taulukkoelementille. Sukellaan syvemmälle siihen, kuinka voimme erottaa kunkin elementin. Seuraava koodinpätkä havainnollistaa taulukon otsikon purkamista:
Vastaavasti voimme käyttää seuraavaa koodia taulukon alatunnisteiden purkamiseen. Huomaa, että table_footers on luettelo, mikä tarkoittaa, että taulukkoon voi liittyä yksi tai useampi alatunniste. Voimme toistaa tätä luetteloa nähdäksemme kaikki alatunnisteet, ja kuten seuraavassa koodinpätkässä näkyy, tulos näyttää kolme alatunnistetta:
Luodaan dataa myöhempää käsittelyä varten
Textractor-kirjasto auttaa myös yksinkertaistamaan taulukkotietojen syöttämistä loppupään järjestelmiin tai muihin työnkulkuihin. Voit esimerkiksi viedä puretut taulukkotiedot ihmisen luettavaan Microsoft Excel -tiedostoon. Tätä kirjoitettaessa tämä on ainoa muoto, joka tukee yhdistettyjä taulukoita.
Voimme myös muuntaa sen a Pandas DataFrame. DataFrame on suosittu valinta tietojen käsittelyyn, analysointiin ja visualisointiin ohjelmointikielillä, kuten Python ja R.
Pythonissa DataFrame on Pandas-kirjaston ensisijainen tietorakenne. Se on joustava ja tehokas, ja se on usein ensimmäinen valinta data-analyysin ammattilaisille erilaisiin data-analyysi- ja ML-tehtäviin. Seuraava koodinpätkä näyttää, kuinka puretut taulukkotiedot muunnetaan DataFrame-kehykseksi yhdellä koodirivillä:
Lopuksi voimme muuntaa taulukon tiedot CSV-tiedostoksi. CSV-tiedostoja käytetään usein tietojen syöttämiseen relaatiotietokantoihin tai tietovarastoihin. Katso seuraava koodi:
Yhteenveto
Näiden uusien lohko- ja entiteettityyppien käyttöönotto (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
ja TABLE_SUMMARY
) on merkittävä edistysaskel taulukkorakenteiden poimimisessa asiakirjoista Amazon Textractin avulla.
Nämä työkalut tarjoavat vivahteikkaamman ja joustavamman lähestymistavan, sillä ne sopivat sekä jäsennellyille että puolistrukturoiduille taulukoille ja varmistavat, että mitään tärkeää dataa ei jää huomiotta, riippumatta niiden sijainnista asiakirjassa.
Tämä tarkoittaa, että pystymme nyt käsittelemään erilaisia tietotyyppejä ja taulukkorakenteita parannetulla tehokkuudella ja tarkkuudella. Samalla kun hyödynnämme edelleen automaation voimaa asiakirjojen käsittelyn työnkuluissa, nämä parannukset tasoittavat epäilemättä tietä virtaviivaisemmille työnkuluille, korkeammalle tuottavuudelle ja oivaltavammalle data-analyysille. Lisätietoja aiheesta AnalyzeDocument
ja Taulukot-ominaisuus, katso Analysoi asiakirja.
Tietoja kirjoittajista
Raj Pathak on Senior Solutions -arkkitehti ja -teknologi, joka on erikoistunut rahoituspalveluihin (vakuutus, pankkitoiminta, pääomamarkkinat) ja koneoppimiseen. Hän on erikoistunut luonnollisen kielen käsittelyyn (NLP), suuriin kielimalleihin (LLM) ja koneoppimisen infrastruktuuri- ja toimintaprojekteihin (MLOps).
Anjan Biswas on vanhempi AI-palveluratkaisuarkkitehti, joka keskittyy tekoälyyn/ML:ään ja data-analyysiin. Anjan on osa maailmanlaajuista tekoälypalvelutiimiä ja työskentelee asiakkaiden kanssa auttaakseen heitä ymmärtämään tekoälyn ja ML:n liiketoimintaongelmia ja kehittämään niihin ratkaisuja. Anjanilla on yli 14 vuoden kokemus työskentelystä maailmanlaajuisten toimitusketju-, valmistus- ja vähittäismyyntiorganisaatioiden kanssa, ja hän auttaa aktiivisesti asiakkaita pääsemään alkuun ja skaalaamaan AWS AI -palveluita.
Lalita Reddi on vanhempi tekninen tuotepäällikkö Amazon Textract -tiimissä. Hän on keskittynyt rakentamaan koneoppimiseen perustuvia palveluita AWS-asiakkaille. Vapaa-ajallaan Lalita tykkää pelata lautapelejä ja käydä vaelluksissa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- EVM Finance. Hajautetun rahoituksen yhtenäinen käyttöliittymä. Pääsy tästä.
- Quantum Media Group. IR/PR vahvistettu. Pääsy tästä.
- PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :on
- :On
- :ei
- $ YLÖS
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- kyky
- Meistä
- edellä
- Tilit
- tarkkuus
- aktiivisesti
- lisä-
- Lisää
- edistäminen
- toimisto
- AI
- Tekoälyn palvelut
- AI / ML
- Tuki
- Kaikki
- mahdollistaa
- pitkin
- Myös
- Amazon
- Amazonin teksti
- Amazon Web Services
- määrät
- an
- analyysi
- Analytics
- ja
- Ilmoitus
- Ilmoittaa
- Kaikki
- api
- API
- näyttää
- lähestymistapa
- suunnilleen
- huhtikuu
- OVAT
- AS
- näkökohdat
- Varat
- liittyvä
- At
- automaattisesti
- Automaatio
- AWS
- Balance
- taseita
- Pankkitoiminta
- perusta
- BE
- tulee
- alle
- Paremmin
- välillä
- Miljardi
- Tukkia
- hallitus
- Lautapelit
- sekä
- Rakentaminen
- liiketoiminta
- mutta
- by
- soittaa
- nimeltään
- CAN
- pääoma
- Pääomamarkkinat
- tapauksissa
- kassa
- Solut
- tietty
- todistus
- ketju
- valinta
- Valita
- luokitella
- selvästi
- asiakas
- lähellä
- koodi
- Dokumentaatio
- väri
- Sarake
- Tulla
- sitoumukset
- komponentti
- osat
- luottamus
- sisältää
- sisältää
- jatkaa
- muuntaa
- Yrityksen
- vastaava
- Hinta
- luotu
- pisteitä
- asiakassuhde
- Asiakkaat
- tiedot
- tietojen analysointi
- Data Analytics
- Tietorakenne
- tietokannat
- Velka
- joulukuu
- syvempää
- määritelty
- osoittaa
- yksityiskohdat
- havaittu
- kehittää
- eri
- suunta
- Alennus
- pohtia
- keskusteltiin
- näytöt
- erottaa
- useat
- asiakirja
- asiakirjat
- Epäilen
- kaksi
- aikana
- kukin
- helpottaa
- helpompaa
- helppo
- tehokkuus
- elementti
- elementtejä
- upotettu
- omaksua
- mahdollistaa
- tehostettu
- parannuksia
- yksiköt
- kokonaisuus
- oma pääoma
- ekvivalenttia
- omaisuus
- arvioidaan
- esimerkki
- Esimerkit
- kunnostautua
- experience
- tutkia
- vienti
- uute
- otteet
- oikeudenmukainen
- Ominaisuus
- filee
- Asiakirjat
- Arkistointi
- taloudellinen
- taloudellinen raportti
- rahoituspalvelut
- Etunimi
- kiinteä
- kiinteät tulot
- Joustavuus
- joustava
- Keskittää
- keskityttiin
- seurata
- jälkeen
- varten
- ulkomainen
- muoto
- löytyi
- neljä
- alkaen
- varat
- Saada
- voitto
- Pelit
- saada
- GitHub
- Antaa
- tietty
- Global
- Go
- Hallitus
- brutto
- Ryhmä
- HAD
- kahva
- Olla
- he
- otsikot
- auttaa
- auttaa
- auttaa
- hänen
- hierarkia
- korkeampi
- Korostettu
- raidat
- vaellukset
- pitää
- Miten
- Miten
- Kuitenkin
- HTML
- HTTPS
- ihmisen
- tunnistettu
- tunnistaa
- tunnistaa
- Identiteetti
- if
- kuva
- tuoda
- tärkeä
- parannuksia
- in
- sisältää
- Tulo
- tiedot
- Infrastruktuuri
- asentaa
- vakuutus
- tarkoitettu
- tulkinta
- tulee
- käyttöön
- esittely
- investointi
- vedotaan
- IT
- kohdetta
- SEN
- jpg
- json
- lainkäyttöalueilla
- Pitää
- tunnettu
- Lack
- Kieli
- kielet
- suuri
- oppiminen
- vähemmän
- Taso
- Kirjasto
- tykkää
- linja
- linjat
- Lista
- OTK
- kuormat
- sijainti
- logiikka
- kauemmin
- pois
- tappiot
- kone
- koneoppiminen
- tehty
- merkittävä
- tehdä
- TEE
- Tekeminen
- johtaja
- Manipulointi
- valmistus
- markkinat
- markkinat
- Saattaa..
- välineet
- Metadata
- menetelmä
- Microsoft
- ehkä
- miljoona
- miljoonia
- ML
- MLOps
- malli
- mallit
- muokata
- raha
- rahamarkkinat
- kk
- lisää
- paljon
- Luonnollinen
- Luonnollinen kielen käsittely
- välttämätön
- netto
- Uusi
- NLP
- Nro
- Ilmoitus..
- nyt
- objekti
- esineet
- of
- kampanja
- Tarjoukset
- usein
- on
- ONE
- vain
- Operations
- or
- organisaatio
- organisaatioiden
- Muut
- muuten
- meidän
- ulostulo
- ulkopuolella
- yli
- sivulla
- pandas
- parametri
- osa
- tasoittaa
- Platon
- Platonin tietotieto
- PlatonData
- Pelaa
- Suosittu
- osa
- Kirje
- teho
- voimakas
- esittää
- aiemmin
- pääasiallisesti
- ensisijainen
- Painaa
- Aikaisempi
- ongelmia
- prosessi
- käsittely
- Tuotteet
- tuotepäällikkö
- tuottavuus
- ammattilaiset
- Ohjelmointi
- ohjelmointikielet
- hankkeet
- toimittaa
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- kyselyt
- todellinen
- kiinteistöt
- reaaliaikainen
- tunnustettu
- tunnustaa
- kirjataan
- toistuva
- riippumatta
- alue
- sääntelyn
- liittyvä
- Ihmissuhteet
- merkityksellinen
- poistaa
- raportti
- Raportit
- edustaa
- tarvitaan
- vastaavasti
- vastaus
- vasteet
- rajoittaa
- rajoitettu
- rajoitukset
- Saatu ja
- vähittäiskauppa
- tarkistetaan
- s
- myynti
- Asteikko
- pisteet
- saumattomasti
- SEK
- SEC-arkistointi
- Osa
- Arvopaperit
- turvallisuus
- nähdä
- Myyjät
- vanhempi
- syyskuu
- palvelu
- Palvelut
- asetus
- useat
- muodot
- hän
- esitetty
- Näytä
- allekirjoitukset
- merkittävä
- samankaltainen
- yksinkertaistaa
- single
- koot
- Ratkaisumme
- erikoistunut
- erikoistunut
- alkoi
- Vaihe
- virtaviivainen
- Tiukka
- rakenne
- jäsennelty
- aihe
- Myöhemmin
- niin
- YHTEENVETO
- toimittaa
- toimitusketju
- tuki
- Tukee
- järjestelmät
- taulukko
- tehtävät
- joukkue-
- Tekninen
- teknologi
- kuin
- että
- -
- heidän
- Niitä
- Siellä.
- Nämä
- ne
- kolmannen osapuolen
- tätä
- ne
- kolmella
- Kautta
- aika
- Otsikko
- otsikot
- että
- työkalut
- huipputaso
- Yhteensä
- kauppaa
- kaksi
- tyyppi
- tyypit
- tyypillisesti
- meille
- Yhdysvaltain hallitus
- ymmärtää
- realisoitumattomia tappioita
- päivitetty
- us
- käyttää
- käytetty
- käyttämällä
- apuohjelmia
- arvo
- arvot
- lajike
- eri
- Vastaan
- kautta
- visualisointi
- oli
- Tapa..
- we
- verkko
- verkkopalvelut
- joka
- leveä
- tulee
- with
- sisällä
- sanoja
- Referenssit
- työnkulkuja
- työskentely
- toimii
- olisi
- kirjoittaminen
- vuotta
- Voit
- Sinun
- zephyrnet