Amazonovo besedilo je storitev strojnega učenja (ML), ki samodejno izvleče besedilo, rokopis in podatke iz katerega koli dokumenta ali slike. Amazon Texttract ima funkcijo tabel znotraj AnalyzeDocument API, ki ponuja možnost samodejnega ekstrahiranja tabelarnih struktur iz katerega koli dokumenta. V tej objavi razpravljamo o izboljšavah Mize in kako olajša pridobivanje informacij v tabelarnih strukturah iz najrazličnejših dokumentov.
Tabelarne strukture v dokumentih, kot so finančna poročila, plačilne liste in datoteke s potrdili o analizi, so pogosto oblikovane na način, ki omogoča enostavno interpretacijo informacij. Pogosto vključujejo tudi informacije, kot so naslov tabele, noga tabele, naslov razdelka in vrstice s povzetki v strukturi tabele za boljšo berljivost in organizacijo. Za podoben dokument pred to izboljšavo, funkcija Tabele znotraj AnalyzeDocument
bi te elemente identificiral kot celice in ni izvlekel naslovov in nog, ki so prisotne zunaj meja tabele. V takih primerih je bila potrebna logika naknadne obdelave po meri za identifikacijo takšnih informacij ali njihovo ekstrahiranje ločeno od izhoda JSON API-ja. S to objavo izboljšav funkcije tabele postane pridobivanje različnih vidikov tabelarnih podatkov veliko preprostejše.
Aprila 2023 je Amazon Texttract uvedel možnost samodejnega zaznavanja naslovov, nog, naslovov odsekov in vrstic s povzetki, prisotnih v dokumentih, prek funkcije tabel. V tej objavi razpravljamo o teh izboljšavah in podajamo primere, ki vam bodo pomagali razumeti in jih uporabiti v delovnih tokovih obdelave dokumentov. Predstavili smo, kako uporabiti te izboljšave s primeri kode za uporabo API-ja in obdelavo odgovora z Knjižnica Amazon Texttract Textractor.
Pregled rešitve
Naslednja slika prikazuje, da posodobljeni model ne identificira samo tabele v dokumentu, temveč vse ustrezne glave in noge tabel. Ta vzorčni dokument finančnega poročila vsebuje naslov tabele, nogo, naslov razdelka in vrstice s povzetkom.
Izboljšava funkcije tabel dodaja podporo za štiri nove elemente v odzivu API-ja, ki vam omogoča, da z lahkoto ekstrahirate vsakega od teh elementov tabele, in dodaja možnost razlikovanja vrste tabele.
Elementi tabele
Amazon Texttract lahko identificira več komponent tabele, kot so celice tabele in združene celice. Te komponente, znane kot Block
predmetov, zajemajo podrobnosti, povezane s komponento, kot so mejna geometrija, odnosi in ocena zaupanja. A Block
predstavlja elemente, ki so prepoznani v dokumentu znotraj skupine slikovnih pik blizu druga drugi. Naslednji so novi Namizni bloki predstavljeno v tej izboljšavi:
- Naslov tabele - Novo
Block
imenovana vrstaTABLE_TITLE
ki vam omogoča, da prepoznate naslov dane tabele. Naslovi so lahko ena ali več vrstic, ki so običajno nad tabelo ali vdelane kot celica v tabeli. - Noge tabele - Novo
Block
imenovana vrstaTABLE_FOOTER
ki vam omogoča prepoznavanje nog, povezanih z dano tabelo. Noge so lahko ena ali več vrstic, ki so običajno pod tabelo ali vdelane kot celica v tabeli. - Naslov razdelka - Novo
Block
imenovana vrstaTABLE_SECTION_TITLE
ki vam omogoča, da ugotovite, ali je zaznana celica naslov razdelka. - Celice povzetka - Novo
Block
imenovana vrstaTABLE_SUMMARY
ki vam omogoča, da ugotovite, ali je celica celica s povzetkom, kot je celica za vsote na plačilni kartici.
Vrste tabel
Ko Amazon Texttract prepozna tabelo v dokumentu, izvleče vse podrobnosti tabele v najvišjo raven Block
tip TABLE
. Mize so lahko različnih oblik in velikosti. Dokumenti na primer pogosto vsebujejo tabele, ki imajo lahko ali pa tudi ne razpoznavno glavo tabele. Za pomoč pri razlikovanju teh vrst tabel smo dodali dve novi vrsti entitet za a TABLE Block
: SEMI_STRUCTURED_TABLE
in STRUCTURED_TABLE
. Ti tipi entitet vam pomagajo razlikovati med strukturirano tabelo in polstrukturirano tabelo.
Strukturirane tabele so tabele, ki imajo jasno določene glave stolpcev. Toda pri polstrukturiranih tabelah podatki morda ne sledijo strogi strukturi. Podatki se lahko na primer pojavijo v obliki tabele, ki ni tabela z definiranimi glavami. Novi tipi entitet ponujajo prilagodljivost pri izbiri, katere tabele obdržati ali odstraniti med naknadno obdelavo. Naslednja slika prikazuje primer STRUCTURED_TABLE
in SEMI_STRUCTURED_TABLE
.
Analiziranje izhoda API-ja
V tem razdelku raziskujemo, kako lahko uporabite Knjižnica Amazon Texttract Textractor za naknadno obdelavo izhoda API-ja AnalyzeDocument
z izboljšavami funkcij tabel. To vam omogoča pridobivanje ustreznih informacij iz tabel.
Textractor je knjižnica, ustvarjena za nemoteno delo z API-ji Amazon Texttract in pripomočki za naknadno pretvorbo odgovorov JSON, ki jih vrnejo API-ji, v objekte, ki jih je mogoče programirati. Uporabite ga lahko tudi za vizualizacijo entitet v dokumentu in izvoz podatkov v formatih, kot so datoteke z vrednostmi, ločenimi z vejico (CSV). Namenjen je pomoči strankam Amazon Texttract pri nastavitvi njihovih cevovodov za naknadno obdelavo.
V naših primerih uporabljamo naslednjo vzorčno stran iz vložnega dokumenta 10-K SEC.
Naslednjo kodo lahko najdete v našem GitHub repozitorij. Za obdelavo tega dokumenta uporabimo knjižnico Textractor in jo uvozimo, da naknadno obdelamo izhode API-ja in vizualiziramo podatke:
Prvi korak je, da pokličete Amazon Texttract AnalyzeDocument
s funkcijo tabel, označeno z features=[TextractFeatures.TABLES]
parameter za ekstrahiranje informacij tabele. Upoštevajte, da ta metoda prikliče realnočasovni (ali sinhroni) AnalyzeDocument API, ki podpira enostranske dokumente. Vendar pa lahko uporabite asinhrono StartDocumentAnalysis
API za obdelavo večstranskih dokumentov (z do 3,000 stranmi).
O document
predmet vsebuje metapodatke o dokumentu, ki jih je mogoče pregledati. Upoštevajte, da prepozna eno tabelo v dokumentu skupaj z drugimi entitetami v dokumentu:
Zdaj, ko imamo izhod API-ja, ki vsebuje informacije o tabeli, vizualiziramo različne elemente tabele z uporabo strukture odziva, o kateri smo govorili prej:
Knjižnica Textractor poudari različne entitete znotraj zaznane tabele z drugačno barvno kodo za vsak element tabele. Poglobimo se v to, kako lahko izvlečemo vsak element. Naslednji delček kode prikazuje ekstrahiranje naslova tabele:
Podobno lahko uporabimo naslednjo kodo za ekstrahiranje nog tabele. Upoštevajte, da je table_footers seznam, kar pomeni, da je lahko s tabelo povezanih ena ali več nog. Ta seznam lahko ponovimo, da vidimo vse prisotne noge, in kot je prikazano v naslednjem delčku kode, izhod prikaže tri noge:
Ustvarjanje podatkov za nadaljnji vnos
Knjižnica Textractor vam prav tako pomaga poenostaviti vnos podatkov tabele v sisteme na nižji stopnji ali druge poteke dela. Ekstrahirane podatke tabele lahko na primer izvozite v človeku berljivo datoteko Microsoft Excel. V času tega pisanja je to edini format, ki podpira združene tabele.
Lahko ga tudi pretvorimo v a Pandas DataFrame. DataFrame je priljubljena izbira za obdelavo podatkov, analizo in vizualizacijo v programskih jezikih, kot sta Python in R.
V Pythonu je DataFrame primarna podatkovna struktura v knjižnici Pandas. Je prilagodljiv in zmogljiv ter je pogosto prva izbira strokovnjakov za analizo podatkov za različne naloge analize podatkov in ML. Naslednji delček kode prikazuje, kako pretvoriti ekstrahirane informacije tabele v DataFrame z eno vrstico kode:
Končno lahko pretvorimo podatke tabele v datoteko CSV. Datoteke CSV se pogosto uporabljajo za vnos podatkov v relacijske baze podatkov ali podatkovna skladišča. Oglejte si naslednjo kodo:
zaključek
Uvedba teh novih vrst blokov in entitet (TABLE_TITLE
, TABLE_FOOTER
, STRUCTURED_TABLE
, SEMI_STRUCTURED_TABLE
, TABLE_SECTION_TITLE
, TABLE_FOOTER
in TABLE_SUMMARY
) označuje pomemben napredek pri pridobivanju tabelarnih struktur iz dokumentov z Amazon Texttract.
Ta orodja zagotavljajo bolj niansiran in prilagodljiv pristop, saj skrbijo tako za strukturirane kot polstrukturirane tabele in zagotavljajo, da noben pomemben podatek ni spregledan, ne glede na njegovo lokacijo v dokumentu.
To pomeni, da lahko zdaj obravnavamo različne tipe podatkov in strukture tabel z večjo učinkovitostjo in natančnostjo. Ker še naprej sprejemamo moč avtomatizacije v delovnih tokovih obdelave dokumentov, bodo te izboljšave nedvomno utrle pot za bolj poenostavljene delovne tokove, večjo produktivnost in bolj pronicljivo analizo podatkov. Za več informacij o AnalyzeDocument
in funkcijo Tabele, glejte AnalyzeDocument.
O avtorjih
Raj Pathak je višji arhitekt rešitev in tehnolog, specializiran za finančne storitve (zavarovalništvo, bančništvo, kapitalski trgi) in strojno učenje. Specializiran je za obdelavo naravnega jezika (NLP), velike jezikovne modele (LLM) ter infrastrukturo in operativne projekte strojnega učenja (MLOps).
Anjan Biswas je višji arhitekt rešitev za storitve AI s poudarkom na AI/ML in podatkovni analitiki. Anjan je del svetovne ekipe za storitve AI in sodeluje s strankami, da bi jim pomagal razumeti in razviti rešitve za poslovne težave z AI in ML. Anjan ima več kot 14 let izkušenj pri delu z globalno dobavno verigo, proizvodnjo in maloprodajnimi organizacijami ter strankam dejavno pomaga začeti in širiti storitve umetne inteligence AWS.
Lalita Reddi je višji tehnični produktni vodja pri ekipi Amazon Texttract. Osredotočena je na gradnjo storitev, ki temeljijo na strojnem učenju, za stranke AWS. V prostem času Lalita rada igra družabne igre in hodi na pohode.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- EVM Finance. Poenoten vmesnik za decentralizirane finance. Dostopite tukaj.
- Quantum Media Group. IR/PR ojačan. Dostopite tukaj.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/announcing-enhanced-table-extractions-with-amazon-textract/
- :ima
- : je
- :ne
- $GOR
- 000
- 1
- 10
- 100
- 11
- 116
- 14
- 15%
- 16
- 20
- 2021
- 2022
- 2023
- 22
- 26%
- 30
- 31
- 7
- 8
- a
- sposobnost
- O meni
- nad
- računi
- natančnost
- aktivno
- dodano
- Dodaja
- napredovanje
- agencija
- AI
- Storitve AI
- AI / ML
- Pomoč
- vsi
- omogoča
- skupaj
- Prav tako
- Amazon
- Amazonovo besedilo
- Amazon Web Services
- zneski
- an
- Analiza
- analitika
- in
- Objava
- Napoveduje
- kaj
- API
- API-ji
- zdi
- pristop
- približno
- april
- SE
- AS
- vidiki
- Sredstva
- povezan
- At
- samodejno
- Avtomatizacija
- AWS
- Ravnovesje
- bilance stanja
- Bančništvo
- Osnova
- BE
- postane
- spodaj
- Boljše
- med
- Billion
- Block
- svet
- Namizne igre
- tako
- Building
- poslovni
- vendar
- by
- klic
- se imenuje
- CAN
- Kapital
- Trgi kapitala
- primeri
- Denar
- Celice
- nekatere
- potrdilo
- verige
- izbira
- Izberite
- Razvrsti
- jasno
- stranke
- Zapri
- Koda
- zavarovanje
- barva
- Stolpec
- kako
- obveznosti
- komponenta
- deli
- zaupanje
- vsebujejo
- Vsebuje
- naprej
- pretvorbo
- Corporate
- Ustrezno
- strošek
- ustvaril
- kredit
- po meri
- Stranke, ki so
- datum
- Analiza podatkov
- Podatkovna analiza
- Struktura podatkov
- baze podatkov
- Dolg
- december
- globlje
- opredeljen
- dokazuje,
- Podrobnosti
- Zaznali
- Razvoj
- drugačen
- smer
- Popust
- razpravlja
- razpravljali
- prikazovalniki
- razlikovati
- razne
- dokument
- Dokumenti
- dvomim
- 2
- med
- vsak
- enostavnost
- lažje
- lahka
- učinkovitosti
- element
- elementi
- vgrajeni
- objem
- omogoča
- okrepljeno
- izboljšave
- subjekti
- entiteta
- pravičnost
- ekvivalenti
- nepremičnine
- ocenjeni
- Primer
- Primeri
- Excel
- izkušnje
- raziskuje
- izvoz
- ekstrakt
- Izvlečki
- sejem
- Feature
- file
- datoteke
- Vložitev
- finančna
- finančno poročilo
- finančne storitve
- prva
- Všita
- stalni prihodek
- prilagodljivost
- prilagodljiv
- Osredotočite
- osredotočena
- sledi
- po
- za
- tuji
- format
- je pokazala,
- štiri
- iz
- Skladi
- Gain
- zaslužek
- Games
- dobili
- GitHub
- Daj
- dana
- Globalno
- Go
- vlada
- bruto
- skupina
- imel
- ročaj
- Imajo
- he
- Glave
- pomoč
- pomoč
- Pomaga
- jo
- hierarhija
- več
- Poudarjeno
- Poudarki
- Pohodi
- drži
- Kako
- Kako
- Vendar
- HTML
- HTTPS
- človeškega
- identificirati
- identificira
- identificirati
- identiteta
- if
- slika
- uvoz
- Pomembno
- Izboljšave
- in
- vključujejo
- prihodki
- Podatki
- Infrastruktura
- namestitev
- zavarovanje
- namenjen
- razlago
- v
- Uvedeno
- Predstavitev
- naložbe
- prikliče
- IT
- Izdelkov
- ITS
- jpg
- json
- pristojnosti
- Imejte
- znano
- Pomanjkanje
- jezik
- jeziki
- velika
- učenje
- manj
- Stopnja
- Knjižnica
- všeč mi je
- vrstica
- linije
- Seznam
- LLM
- obremenitve
- kraj aktivnosti
- Logika
- več
- off
- izgube
- stroj
- strojno učenje
- je
- velika
- Znamka
- IZDELA
- Izdelava
- upravitelj
- Manipulacija
- proizvodnja
- Tržna
- Prisotnost
- Maj ..
- pomeni
- metapodatki
- Metoda
- Microsoft
- morda
- milijonov
- milijoni
- ML
- MLOps
- Model
- modeli
- spremenite
- Denar
- denarni trg
- mesecev
- več
- veliko
- naravna
- Obdelava Natural Language
- potrebno
- net
- Novo
- nlp
- št
- Opaziti..
- zdaj
- predmet
- predmeti
- of
- ponudba
- Ponudbe
- pogosto
- on
- ONE
- samo
- operacije
- or
- Organizacija
- organizacije
- Ostalo
- drugače
- naši
- izhod
- zunaj
- več
- Stran
- pand
- parameter
- del
- tlakovati
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Predvajaj
- Popular
- del
- Prispevek
- moč
- močan
- predstaviti
- prej
- v prvi vrsti
- primarni
- Tiskanje
- Predhodna
- Težave
- Postopek
- obravnavati
- Izdelek
- produktni vodja
- produktivnost
- strokovnjaki
- Programiranje
- programskih jezikov
- projekti
- zagotavljajo
- Python
- Q1
- Q3
- Q3 2021
- q3 2022
- poizvedbe
- pravo
- nepremičnine
- v realnem času
- priznana
- prepozna
- Zabeležena
- ponavljajoče se
- Ne glede na to
- okolica
- regulatorni
- povezane
- Razmerja
- pomembno
- odstrani
- poročilo
- Poročila
- predstavlja
- obvezna
- oziroma
- Odgovor
- odgovorov
- omejiti
- omejeno
- Omejitve
- rezultat
- Trgovina na drobno
- Pregledal
- s
- prodaja
- Lestvica
- rezultat
- brez težav
- SEC
- Vložitev SEC
- Oddelek
- Vrednostni papirji
- varnost
- glej
- Prodajalci
- višji
- september
- Storitev
- Storitve
- nastavitev
- več
- Oblike
- je
- pokazale
- Razstave
- Podpisi
- pomemben
- Podoben
- poenostavitev
- sam
- velikosti
- rešitve
- specializirano
- specializacijo
- začel
- Korak
- racionaliziran
- Stroga
- Struktura
- strukturirano
- predmet
- Kasneje
- taka
- POVZETEK
- dobavi
- dobavne verige
- podpora
- Podpira
- sistemi
- miza
- Naloge
- skupina
- tehnični
- tehnolog
- kot
- da
- O
- njihove
- Njih
- Tukaj.
- te
- jih
- tretjih oseb
- ta
- tisti,
- 3
- skozi
- čas
- Naslov
- naslove
- do
- orodja
- najvišji nivo
- Skupaj za plačilo
- trgovini
- dva
- tip
- Vrste
- tipično
- nas
- Ameriška vlada
- razumeli
- nerealizirane izgube
- posodobljeno
- us
- uporaba
- Rabljeni
- uporabo
- javne gospodarske službe
- vrednost
- Vrednote
- raznolikost
- različnih
- Proti
- preko
- vizualizacija
- je
- način..
- we
- web
- spletne storitve
- ki
- široka
- bo
- z
- v
- besede
- delo
- delovnih tokov
- deluje
- deluje
- bi
- pisanje
- let
- Vi
- Vaša rutina za
- zefirnet