Specify And Extract Information From Documents Using The New Queries Feature In Amazon Textract

Újra kiadta Platón

Követő: 0

Amazon szöveg egy gépi tanulási (ML) szolgáltatás, amely automatikusan kivonja a szöveget, a kézírást és az adatokat bármely dokumentumból vagy képből. Az Amazon Textract most rugalmasságot kínál a dokumentumokból kinyerni kívánt adatok megadására az Analyze Document API új Lekérdezések funkciójával. Nem kell ismernie a dokumentumban lévő adatok szerkezetét (táblázat, űrlap, implikált mező, beágyazott adatok), és nem kell aggódnia a dokumentumverziók és -formátumok eltérései miatt.

Ebben a bejegyzésben a következő témákat tárgyaljuk:

Az AWS-ügyfelek sikertörténetei és az új Lekérdezések funkció előnyei
Hogyan segít az Analyze Document Queries API információk kinyerésében a dokumentumokból
Az Amazon Textract konzol áttekintése
Kódpéldák az Analyze Document Queries API használatához
A válasz feldolgozása az Amazon Textract elemző könyvtárával

Az új Lekérdezések funkció előnyei

A hagyományos OCR-megoldások nehezen tudják pontosan kinyerni az adatokat a legtöbb félig strukturált és strukturálatlan dokumentumból, mivel jelentős eltérések mutatkoznak az adatok különböző verzióiban és formátumaiban. Egyéni utófeldolgozási kódot kell megvalósítania, vagy manuálisan át kell tekintenie az ezekből a dokumentumokból kinyert információkat. A Lekérdezések funkcióval természetes nyelvű kérdések formájában megadhatja a szükséges információkat (például „Mi az ügyfél neve”), és az API-válasz részeként megkapja a pontos információkat („John Doe”). A funkció vizuális, térbeli és nyelvi modellek kombinációját használja a keresett információk nagy pontosságú kinyerésére. A Lekérdezések funkciót a félig strukturált és strukturálatlan dokumentumok széles skálájára előtanították. Néhány példa a fizetési táblák, bankszámlakivonatok, W-2-ek, hiteligénylési űrlapok, jelzáloglevelek, valamint vakcina- és biztosítási kártyák.

"Az Amazon Textract lehetővé teszi ügyfeleink dokumentumfeldolgozási igényeinek automatizálását. A Lekérdezések funkcióval még nagyobb rugalmassággal és pontossággal tudunk majd adatokat kinyerni különféle dokumentumokból," – mondta Robert Jansen, a TekStream Solutions vezérigazgatója. "Úgy látjuk, hogy ez egy nagy termelékenységi nyereség az üzleti ügyfeleink számára, akik IDP-megoldásunk részeként használhatják a Lekérdezések funkciót, hogy gyorsan megkapják a legfontosabb információkat dokumentumaikból."

"Az Amazon Textract lehetővé teszi számunkra, hogy szöveget, valamint strukturált elemeket, például űrlapokat és táblázatokat nagy pontossággal kinyerjünk a képekből. Az Amazon Textract Queries segített nekünk drasztikusan javítani az információk kinyerésének minőségét számos üzleti szempontból kritikus dokumentumból, például biztonsági adatlapokból vagy anyagspecifikációkból." mondta Thorsten Warnecke, igazgató | A Camelot Management Consultants PC Analytics részlegének vezetője. "A természetes nyelvű lekérdező rendszer nagy rugalmasságot és pontosságot kínál, ami csökkentette az utófeldolgozási terhelésünket, és lehetővé tette számunkra, hogy gyorsabban adjunk új dokumentumokat adatkinyerési eszközeinkhez."

Hogyan segít az Analyze Document Queries API információk kinyerésében a dokumentumokból

A vállalatok fokozták a digitális platformok alkalmazását, különösen a COVID-19 világjárvány fényében. A legtöbb szervezet ma már digitális módot kínál arra, hogy okostelefonokat és más mobileszközöket használva szerezze be szolgáltatásait és termékeit, ami rugalmasságot kínál a felhasználóknak, de növeli a digitális dokumentumok áttekintésének, feldolgozásának és elemzésének mértékét is. Egyes munkaterheléseknél, ahol például jelzáloghitel-okmányokat, oltási kártyákat, fizetési csöveket, biztosítási kártyákat és egyéb dokumentumokat digitálisan kell elemezni, az adatkinyerés bonyolultsága exponenciálisan megnőhet, mivel ezeknek a dokumentumoknak nincs szabványos formátuma vagy jelentős eltérések vannak az adatformátumban. a dokumentum különböző verzióiban.

Még a hatékony OCR-megoldások is küzdenek az adatok pontos kinyerésével ezekből a dokumentumokból, és előfordulhat, hogy egyéni utófeldolgozást kell végrehajtania ezekhez a dokumentumokhoz. Ez magában foglalja az űrlapkulcsok lehetséges változatainak leképezését az ügyfél natív mezőneveire, vagy az egyéni gépi tanulás beépítését a strukturálatlan dokumentumban lévő konkrét információk azonosítására.

Az Amazon Textract új Analyze Document Queries API-ja természetes nyelven írott kérdésekre is képes válaszolni, például „Mi a kamatláb?” és hatékony AI- és ML-elemzést végezhet a dokumentumon, hogy kitalálja a kívánt információt, és utólagos feldolgozás nélkül kinyerje azokat a dokumentumból. A Lekérdezések funkció nem igényel egyéni modellképzést vagy sablonok vagy konfigurációk beállítását. Gyorsan elkezdheti feltölteni dokumentumait, és kérdéseket feltenni azokkal kapcsolatban az Amazon Textract konzolon keresztül. AWS parancssori interfész (AWS CLI), vagy AWS SDK.

A bejegyzés következő szakaszaiban részletes példákat mutatunk be arra vonatkozóan, hogyan használhatjuk ezt az új funkciót a gyakori terhelési esetekben, és hogyan használhatjuk az Analyze Document Queries API-t a munkaterhelés digitalizálási folyamatának agilitására.

Használja a Lekérdezések funkciót az Amazon Textract konzolon

Mielőtt elkezdené az API-t és a kódmintákat, tekintsük át az Amazon Textract konzolt. A következő képen látható egy példa a védőoltási kártyára Lekérdezések lapon az Analyze Document API-hoz az Amazon Textract konzolon. Miután feltöltötte a dokumentumot az Amazon Textract konzolra, válassza a lehetőséget Lekérdezések a Dokumentum konfigurálása szakasz. Ezután lekérdezéseket adhat hozzá természetes nyelvi kérdések formájában. Miután hozzáadta az összes lekérdezést, válassza a lehetőséget Konfiguráció alkalmazása. A kérdésekre adott válaszok a Lekérdezések Tab.

Kód példák

Ebben a részben elmagyarázzuk, hogyan hívható meg az Analyze Document API a Queries paraméterrel, hogy választ kapjon a dokumentummal kapcsolatos természetes nyelvi kérdésekre. A bemeneti dokumentum vagy bájttömb formátumú, vagy egy Amazon egyszerű tárolási szolgáltatás (Amazon S3) vödör. A Bytes tulajdonság használatával képbájtokat ad át egy Amazon Textract API-műveletnek. Használhatja például a Bytes tulajdonság átadja a helyi fájlrendszerből betöltött dokumentumot. A segítségével átadott képbájtok Bytes A tulajdonságnak base64 kódolásúnak kell lennie. Előfordulhat, hogy a kódnak nem kell kódolnia a dokumentumfájl bájtjait, ha AWS SDK-t használ az Amazon Textract API-műveletek meghívásához. Alternatív megoldásként átadhatja az S3 tárolóban tárolt képeket egy Amazon Textract API műveletnek a S3Object ingatlan. Az S3-as tárolóban tárolt dokumentumokat nem kell base64-kódolni.

A Lekérdezések funkció segítségével választ kaphat különböző típusú dokumentumokról, például fizetési lapokról, oltási kártyákról, jelzáloghitel-dokumentumokról, bankszámlakivonatokról, W-2 nyomtatványokról, 1099-es nyomtatványokról és egyebekről. A következő szakaszokban áttekintünk néhány dokumentumot, és bemutatjuk a Lekérdezések funkció működését.

Fizetési szalag

Ebben a példában végigjárjuk a fizetési táblázat elemzésének lépéseit a Lekérdezések funkció segítségével, ahogy az a következő példaképen látható.

A következő Python-kódot használjuk:

import boto3
import json #create a Textract Client
textract = boto3.client('textract') image_filename = "paystub.jpg" response = None
with open(image_filename, 'rb') as document: imageBytes = bytearray(document.read()) # Call Textract AnalyzeDocument by passing a document from local disk
response = textract.analyze_document( Document={'Bytes': imageBytes}, FeatureTypes=["QUERIES"], QueriesConfig={ "Queries": [{ "Text": "What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS" }, { "Text": "What is the current gross pay?", "Alias": "PAYSTUB_CURRENT_GROSS" }] })

A következő kód egy minta AWS CLI parancs:

aws textract analyze-document —document '{"S3Object":{"Bucket":"your-s3-bucket","Name":"paystub.jpg"}}' —feature-types '["QUERIES"]' —queries-config '{"Queries":[{"Text":"What is the year to date gross pay", "Alias": "PAYSTUB_YTD_GROSS"}]}'

Elemezzük az előző példában az Analyze Document API-nak továbbított két lekérdezésre kapott választ. A következő válasz úgy lett levágva, hogy csak a releváns részeket jelenítse meg:

{ "BlockType":"QUERY", "Id":"cbbba2fa-45be-452b-895b-adda98053153", #id of first QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT ] } ], "Query":{ "Text":"What is the year to date gross pay", #First Query "Alias":"PAYSTUB_YTD_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":87.0, "Text":"23,526.80", #Answer to the first Query "Geometry":{...}, "Id":"f2db310c-eaa6-481d-8d18-db0785c33d38" #id of first QUERY_RESULT }, { "BlockType":"QUERY", "Id":"4e2a17f0-154f-4847-954c-7c2bf2670c52", #id of second QUERY "Relationships":[ { "Type":"ANSWER", "Ids":[ "350ab92c-4128-4aab-a78a-f1c6f6718959"#id of second QUERY_RESULT ] } ], "Query":{ "Text":"What is the current gross pay?", #Second Query "Alias":"PAYSTUB_CURRENT_GROSS" } }, { "BlockType":"QUERY_RESULT", "Confidence":95.0, "Text":"$ 452.43", #Answer to the Second Query "Geometry":{...}, "Id":"350ab92c-4128-4aab-a78a-f1c6f6718959" #id of second QUERY_RESULT }

A válaszban a BlockType of QUERY ez mutatja a feltett kérdést és a Relationships szakasz, amely tartalmazza a választ tartalmazó blokk azonosítóját. A válasz a BlockType of QUERY_RESULT. Az Analyze Document API bemeneteként átadott álnév a válasz részeként kerül visszaadásra, és a válasz címkézésére használható.

Az általunk használt Amazon Textract Response Parser hogy csak a kérdéseket, az álnevet és a kérdésekre adott válaszokat bontsa ki:

import trp.trp2 as t2 d = t2.TDocumentSchema().load(response)
page = d.pages[0] # get_query_answers returns a list of [query, alias, answer]
query_answers = d.get_query_answers(page=page)
for x in query_answers: print(f"{image_filename},{x[1]},{x[2]}") from tabulate import tabulate
print(tabulate(query_answers, tablefmt="github"))

Az előző kód a következő eredményeket adja vissza:

|------------------------------------|-----------------------|-----------|
| What is the current gross pay? | PAYSTUB_CURRENT_GROSS | $ 452.43 |
| What is the year to date gross pay | PAYSTUB_YTD_GROSS | 23,526.80 |

További kérdések és a teljes kód a jegyzetfüzetben található GitHub repo.

Jelzálogjegy

Az Analyze Document Queries API az alábbi jelzáloglevelekkel is jól működik.

Az API meghívásának és az eredmények feldolgozásának folyamata ugyanaz, mint az előző példában. A teljes kódpéldát megtalálja a GitHub repo.

A következő kód az API használatával kapott példaválaszokat mutatja be:

|------------------------------------------------------------|----------------------------------|---------------|
| When is this document dated? | MORTGAGE_NOTE_DOCUMENT_DATE | March 4, 2022 |
| What is the note date? | MORTGAGE_NOTE_DATE | March 4, 2022 |
| When is the Maturity date the borrower has to pay in full? | MORTGAGE_NOTE_MATURITY_DATE | April, 2032 |
| What is the note city and state? | MORTGAGE_NOTE_CITY_STATE | Anytown, ZZ |
| what is the yearly interest rate? | MORTGAGE_NOTE_YEARLY_INTEREST | 4.150% |
| Who is the lender? | MORTGAGE_NOTE_LENDER | AnyCompany |
| When does payments begin? | MORTGAGE_NOTE_BEGIN_PAYMENTS | April, 2022 |
| What is the beginning date of payment? | MORTGAGE_NOTE_BEGIN_DATE_PAYMENT | April, 2022 |
| What is the initial monthly payments? | MORTGAGE_NOTE_MONTHLY_PAYMENTS | $ 2500 |
| What is the interest rate? | MORTGAGE_NOTE_INTEREST_RATE | 4.150% |
| What is the principal amount borrower has to pay? | MORTGAGE_NOTE_PRINCIPAL_PAYMENT | $ 500,000 |

Oltási kártya

Az Amazon Textract Queries funkció nagyon jól működik az oltási kártyákról vagy az arra hasonlító kártyákról történő információk kinyerésére is, mint a következő példában.

Az API meghívásának és az eredmények elemzésének folyamata ugyanaz, mint a fizetési táblázatnál. A válasz feldolgozása után a következő információkat kapjuk:

|------------------------------------------------------------|--------------------------------------|--------------|
| What is the patients first name | PATIENT_FIRST_NAME | Major |
| What is the patients last name | PATIENT_LAST_NAME | Mary |
| Which clinic site was the 1st dose COVID-19 administrated? | VACCINATION_FIRST_DOSE_CLINIC_SITE | XYZ |
| Who is the manufacturer for 1st dose of COVID-19? | VACCINATION_FIRST_DOSE_MANUFACTURER | Pfizer |
| What is the date for the 2nd dose covid-19? | VACCINATION_SECOND_DOSE_DATE | 2/8/2021 |
| What is the patient number | PATIENT_NUMBER | 012345abcd67 |
| Who is the manufacturer for 2nd dose of COVID-19? | VACCINATION_SECOND_DOSE_MANUFACTURER | Pfizer |
| Which clinic site was the 2nd dose covid-19 administrated? | VACCINATION_SECOND_DOSE_CLINIC_SITE | CVS |
| What is the lot number for 2nd dose covid-19? | VACCINATION_SECOND_DOSE_LOT_NUMBER | BB5678 |
| What is the date for the 1st dose covid-19? | VACCINATION_FIRST_DOSE_DATE | 1/18/21 |
| What is the lot number for 1st dose covid-19? | VACCINATION_FIRST_DOSE_LOT_NUMBER | AA1234 |
| What is the MI? | MIDDLE_INITIAL | M |

A teljes kód megtalálható a notebookban GitHub repo.

Biztosítási kártya

A Lekérdezések funkció az alábbihoz hasonló biztosítási kártyákkal is jól működik.

Az API meghívásának és az eredmények feldolgozásának folyamata ugyanaz, mint korábban. A teljes kódpélda elérhető a notebookban GitHub repo.

Az alábbiakban az API használatával kapott példaválaszok láthatók:

|-------------------------------------|-----------------------------------|---------------|
| What is the insured name? | INSURANCE_CARD_NAME | Jacob Michael |
| What is the level of benefits? | INSURANCE_CARD_LEVEL_BENEFITS | SILVER |
| What is medical insurance provider? | INSURANCE_CARD_PROVIDER | Anthem |
| What is the OOP max? | INSURANCE_CARD_OOP_MAX | $6000/$12000 |
| What is the effective date? | INSURANCE_CARD_EFFECTIVE_DATE | 11/02/2021 |
| What is the office visit copay? | INSURANCE_CARD_OFFICE_VISIT_COPAY | $55/0% |
| What is the specialist visit copay? | INSURANCE_CARD_SPEC_VISIT_COPAY | $65/0% |
| What is the member id? | INSURANCE_CARD_MEMBER_ID | XZ 9147589652 |
| What is the plan type? | INSURANCE_CARD_PLAN_TYPE | Pathway X-EPO |
| What is the coinsurance amount? | INSURANCE_CARD_COINSURANCE | 30% |

A lekérdezések elkészítésének bevált gyakorlatai

A lekérdezések elkészítésekor vegye figyelembe a következő bevált módszereket:

Általában tegyél fel egy természetes nyelvű kérdést, amely úgy kezdődik, hogy „Mi van”, „Hol van” vagy „Ki van”. A kivétel az, amikor szabványos kulcs-érték párokat próbál kivonni, ebben az esetben a kulcs nevét lekérdezésként adhatja át.
Kerülje a rosszul megformált vagy nyelvtanilag helytelen kérdéseket, mert ezek váratlan válaszokat eredményezhetnek. Például egy rosszul formázott lekérdezés a „Mikor?” mivel egy jól formált kérdés: „Mikor adták be az első vakcina adagot?”
Ha lehetséges, használja a dokumentumból származó szavakat a lekérdezés összeállításához. Bár a Lekérdezések funkció megpróbálja rövidítések és szinonimák egyeztetését végezni néhány gyakori iparági kifejezéshez, mint például az „SSN”, „adóazonosító” és „társadalombiztosítási szám”, a közvetlenül a dokumentumból származó nyelv használata javítja az eredményeket. Ha például a dokumentum azt írja, hogy „munka előrehaladása”, próbálja meg elkerülni az olyan változatok használatát, mint a „projekt előrehaladása”, „program előrehaladása” vagy „munka állapota”.
Hozzon létre egy lekérdezést, amely mind a sor-, mind az oszlopfejlécből tartalmaz szavakat. Például az előző oltási kártya példában a második oltás dátumának megismeréséhez a lekérdezést a következőképpen fogalmazhatja meg: „Mikor adták be a 2. adagot?”
A hosszú válaszok növelik a válaszadási várakozási időt, és időtúllépéshez vezethetnek. Próbáljon meg olyan kérdéseket feltenni, amelyekre a válaszok 100 szónál rövidebbek.
Csak a kulcsnév átadása kérdésként működik, ha szabványos kulcs-érték párokat próbál kivonni egy űrlapból. Javasoljuk, hogy az összes többi kivonatolási felhasználási esethez írja be a teljes kérdéseket.
Legyen a lehető legpontosabb. Például:
- Ha a dokumentum több szakaszt tartalmaz (például „Kölcsönfelvevő” és „Kölcsönvevőtárs”), és mindkét szakaszban van egy „SSN” nevű mező, kérdezze meg „Mi az SSN a kölcsönfelvevő számára?” és „Mi az SSN a társkölcsönző számára?”
- Ha a dokumentum több dátumhoz kapcsolódó mezővel rendelkezik, adja meg a lekérdezés nyelvét, és kérdezze meg: „Mi az a dátum, amikor a dokumentumot aláírták?” vagy „Mi a kérelem születési dátuma?” Kerülje a félreérthető kérdéseket, például: „Mi a dátum?”
Ha előre ismeri a dokumentum elrendezését, adjon meg helymeghatározást az eredmények pontosságának javítása érdekében. Például kérdezd meg: „Mi a dátum fent?” vagy „Mi a dátum a bal oldalon?” vagy „Mi a dátum az alján?”

A Lekérdezések funkcióval kapcsolatos további információkért tekintse meg a Textractot dokumentáció.

Következtetés

Ebben a bejegyzésben áttekintést adtunk az Amazon Textract új Lekérdezések funkciójáról, amellyel gyorsan és egyszerűen lekérhetők információk az olyan dokumentumokból, mint a fizetési utalványok, jelzáloglevelek, biztosítási kártyák és oltási kártyák természetes nyelvi kérdések alapján. Azt is leírtuk, hogyan elemezheti a válasz JSON-t.

További információkért lásd: Dokumentumok elemzése , vagy nézze meg az Amazon Textract konzolt, és próbálja ki ezt a funkciót.

A szerzőkről

Uday Narayanan Sr. Solutions Architect az AWS-nél. Szívesen segít ügyfeleinek innovatív megoldásokat találni összetett üzleti kihívásokra. Fő területe az adatelemzés, a big data rendszerek és a gépi tanulás. Szabadidejében szeret sportolni, nagy mennyiségben tévéműsorokat nézni és utazni.

Rafael Caixeta Sr. Solutions Architect az AWS-nél Kaliforniában. Több mint 10 éves tapasztalattal rendelkezik a felhő architektúrák fejlesztésében. Fő területei a szerver nélküliek, a konténerek és a gépi tanulás. Szabadidejében szívesen olvas szépirodalmi könyveket és utazik a világban.

Navneeth Nair az Amazon Textract csapatának műszaki vezető termékmenedzsere. Arra összpontosít, hogy gépi tanuláson alapuló szolgáltatásokat építsen ki az AWS-ügyfelek számára.

Martin Schade egy Senior ML Product SA az Amazon Textract csapatával. Több mint 20 éves tapasztalattal rendelkezik az internethez kapcsolódó technológiák, mérnöki és építészeti megoldások terén. 2014-ben csatlakozott az AWS-hez, és először a legnagyobb AWS-ügyfeleket irányította az AWS-szolgáltatások leghatékonyabb és skálázhatóbb használatához, majd később az AI/ML-re összpontosított, a számítógépes látásra összpontosítva. Jelenleg a dokumentumokból való információk kinyerésének megszállottja.

Időbélyeg: April 21, 2022

Időbélyeg: May 9, 2023

Újra kiadta Platón

Hatékony kérdésekre válaszoló robotot készíthet az Amazon SageMaker, az Amazon OpenSearch Service, a Streamlit és a LangChain segítségével | Amazon webszolgáltatások

Fokozza fel tartalomszerkesztését a Contentful és az Amazon Bedrock | segítségével Amazon webszolgáltatások

Az Amazon SageMaker Ground Truth segítségével készítsen egyedi kérdezz-felelet adatkészletet, hogy megtanítsa az ölelkező arcra vonatkozó Q&A NLU modellt

Az AWS Localization az Amazon Translate szolgáltatást használja a lokalizáció méretezéséhez

Mérőszámok az Amazon Rekognition és más tartalommoderálási szolgáltatások tartalommoderálásának értékeléséhez

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók