Build A Traceable, Custom, Multi-format Document Parsing Pipeline With Amazon Textract

Republicat de Platon

Urmaritori: 0

Formele organizaționale servesc ca instrument de afaceri principal în toate industriile, de la servicii financiare, la asistență medicală și multe altele. Luați în considerare, de exemplu, formularele de depunere a impozitelor în industria de gestionare a impozitelor, unde noi formulare apar în fiecare an cu în mare parte aceleași informații. Clienții AWS din toate sectoarele trebuie să proceseze și să stocheze informații în formulare ca parte a practicii lor zilnice de afaceri. Aceste formulare servesc adesea ca mijloc principal pentru ca informațiile să circule într-o organizație în care mijloacele tehnologice de captare a datelor nu sunt practice.

Pe lângă utilizarea formularelor pentru a capta informații, de-a lungul anilor de ofertă Text Amazon, am observat că clienții AWS își versează frecvent formularele organizaționale pe baza modificărilor structurale efectuate, a câmpurilor adăugate sau modificate sau a altor considerații, cum ar fi schimbarea anului sau versiunea formularului.

Atunci când structura sau conținutul unui formular se modifică, adesea acest lucru poate provoca provocări pentru sistemele OCR tradiționale sau poate avea impact asupra instrumentelor din aval utilizate pentru a capta informații, chiar și atunci când trebuie să captați aceleași informații de la an la an și să agregați datele pentru utilizare, indiferent de format. a documentului.

Pentru a rezolva această problemă, în această postare demonstrăm cum puteți construi și implementa o conductă de analiză a documentelor bazată pe evenimente, fără server, în format multiplu cu Amazon Texttract.

Prezentare generală a soluțiilor

Următoarea diagramă ilustrează arhitectura soluției noastre:

În primul rând, soluția oferă utilizarea pipeline ingest Serviciul Amazon de stocare simplă (Amazon S3), Notificări de evenimente Amazon S3 și un Serviciul de coadă simplă Amazon (Amazon SQS), astfel încât procesarea să înceapă atunci când un formular ajunge în partiția țintă Amazon S3. Un eveniment pe Amazon EventBridge este creat și trimis către un AWS Lambdas țintă care declanșează o activitate Amazon Texttract.

Puteți utiliza servicii AWS fără server, cum ar fi Lambda și Funcții pas AWS pentru a crea integrări de servicii asincrone între serviciile AWS AI și serviciile AWS Analytics și baze de date pentru depozitare, analiză și AI și învățare automată (ML). În această postare, demonstrăm cum să folosiți Step Functions pentru a controla și menține în mod asincron starea solicitărilor către API-urile asincrone Amazon Texttract. Acest lucru se realizează prin utilizarea unei mașini de stare pentru gestionarea apelurilor și a răspunsurilor. Folosim Lambda în mașina de stări pentru a îmbina datele de răspuns API paginate de la Amazon Textract într-un singur obiect JSON care conține date text semi-structurate extrase folosind OCR.

Apoi filtrăm în diferite forme folosind o abordare standardizată pentru a agrega aceste date OCR într-un format structurat comun folosind Amazon Atena și un SQL Amazon Text JSON SerDe.

Puteți urmări pașii făcuți prin această conductă folosind Funcții de pas fără server pentru a urmări starea de procesare și a reține rezultatul fiecărei stări. Acesta este un lucru pe care clienții din anumite industrii preferă să facă atunci când lucrează cu date în care trebuie să păstrați rezultatele tuturor predicțiilor de la servicii precum Amazon Texttract pentru a promova explicabilitatea rezultatelor pipelinei pe termen lung.

În cele din urmă, puteți interoga datele extrase în tabelele Athena.

În secțiunile următoare, vă prezentăm configurarea conductei folosind Formarea AWS Cloud, testarea conductei și adăugarea de noi versiuni de formular. Această conductă oferă o soluție care poate fi întreținută deoarece fiecare componentă (ingestarea, extragerea textului, procesarea textului) este independentă și izolată.

Definiți parametrii de intrare impliciti pentru stivele CloudFormation

Pentru a defini parametrii de intrare pentru stivele CloudFormation, deschideți default.properties în temeiul params folder și introduceți următorul cod:

- set the default value for parameter 'pInputBucketName' for Input S3 bucket - set the default value for parameter 'pOutputBucketName' for Output S3 bucket - set the default value for parameter 'pInputQueueName' for Ingest SQS (a.k.a job scheduler)

Implementați soluția

Pentru a vă implementa conducta, parcurgeți următorii pași:

Alege Lansați Stack:
Alege Pagina Următoare →.
Specificați detaliile stivei așa cum se arată în următoarea captură de ecran și alegeți Pagina Următoare →.
În Configurați opțiunile stivei secțiunea, adăugați etichete opționale, permisiuni și alte setări avansate.
Alege Pagina Următoare →.
Examinați detaliile stivei și selectați Recunosc că AWS CloudFormation ar putea crea resurse IAM cu nume personalizate.
Alege Creați stivă.

Acest lucru inițiază implementarea stivei în contul dvs. AWS.

După ce stiva este implementată cu succes, puteți începe testarea conductei așa cum este descris în secțiunea următoare.

Testați conducta

După o implementare cu succes, parcurgeți următorii pași pentru a vă testa conducta:

Descărcați fișiere eșantion pe computer.
Creați o /uploads folderul (partiția) sub găleata S3 de intrare nou creată.
Creați foldere separate (partiții), cum ar fi jobapplications în /uploads.
Încărcați prima versiune a cererii de job din dosarul de documente exemplu în /uploads/jobapplications partiție.

Când canalul este complet, puteți găsi cheia-valoare extrasă pentru această versiune a documentului în /OuputS3/03-textract-parsed-output/jobapplications pe consola Amazon S3.

Îl poți găsi și în tabelul Athena (applications_data_table) pe Baza de date meniu (jobapplicationsdatabase).

Încărcați cea de-a doua versiune a cererii de locuri de muncă din dosarul de documente exemplu în /uploads/jobapplications partiție.

Când conducta este completă, puteți găsi cheia-valoare extrasă pentru această versiune în /OuputS3/03-textract-parsed-output/jobapplications pe consola Amazon S3.

Îl poți găsi și în tabelul Athena (applications_data_table) pe Baza de date meniu (jobapplicationsdatabase).

Ați terminat! V-ați implementat cu succes pipeline.

Adăugați versiuni noi de formular

Actualizarea soluției pentru o nouă versiune de formular este simplă – fiecare versiune de formular trebuie să fie actualizată doar prin testarea interogărilor din stiva de procesare.

După ce faceți actualizările, puteți redistribui canalul actualizat utilizând API-urile AWS CloudFormation și puteți procesa documente noi, ajungând la aceleași puncte de date standard pentru schema dvs. cu întreruperi minime și efort de dezvoltare necesar pentru a face modificări în conductă. Această flexibilitate, care este obținută prin decuplarea comportamentului de analiză și extracție și prin utilizarea funcționalității JSON SerDe din Athena, face din această conductă o soluție care poate fi întreținută pentru orice număr de versiuni de formular pe care organizația dvs. trebuie să le proceseze pentru a culege informații.

Pe măsură ce rulați soluția de asimilare, datele din formularele primite sunt populate automat în Athena cu informații despre fișierele și intrările asociate acestora. Atunci când datele din formularele dvs. trec de la date nestructurate la date structurate, sunt gata de utilizare pentru aplicații din aval, cum ar fi analiza, modelarea ML și multe altele.

A curăța

Pentru a evita costurile curente, ștergeți resursele pe care le-ați creat ca parte a acestei soluții când ați terminat.

Pe consola Amazon S3, ștergeți manual compartimentele pe care le-ați creat ca parte a stivei CloudFormation.
În consola AWS CloudFormation, alegeți Stive în panoul de navigare.
Selectați stiva principală și alegeți Șterge.

Acest lucru șterge automat stivele imbricate.

Concluzie

În această postare, am demonstrat cum clienții care doresc să urmărească și să personalizeze procesarea documentelor pot construi și implementa o conductă de analiză a documentelor în format multiplu, fără server, bazată pe evenimente, cu Amazon Text. Această conductă oferă o soluție care poate fi întreținută deoarece fiecare componentă (ingestarea, extragerea textului, procesarea textului) este independentă și izolată, permițând organizațiilor să își operaționalizeze soluțiile pentru a răspunde nevoilor diverse de procesare.

Încercați soluția astăzi și lăsați-vă feedback în secțiunea de comentarii.

Despre Autori

Emily Soward este un Data Scientist cu AWS Professional Services. Ea deține un master în știință cu distincție în inteligență artificială de la Universitatea din Edinburgh din Scoția, Regatul Unit, cu accent pe procesarea limbajului natural (NLP). Emily a ocupat roluri științifice și de inginerie aplicate axate pe cercetarea și dezvoltarea de produse cu AI, excelența operațională și guvernanța pentru sarcinile de lucru AI care rulează în organizații din sectorul public și privat. Ea contribuie la îndrumarea clienților în calitate de vorbitor principal AWS și recent, ca autor pentru AWS Well-Architected in the Machine Learning Lens.

Sandeep Singh este un Data Scientist cu AWS Professional Services. El deține un Master în Sisteme Informaționale cu concentrare în AI și Știința Datelor de la San Diego State University (SDSU), California. El este un Data Scientist cu o experiență solidă în domeniul informaticii și un consilier de încredere cu specializare în sisteme AI și proiectare de control. Este pasionat să-i ajute pe clienți să-și ducă proiectele de mare impact în direcția corectă, să-i consilieze și să-i îndrume în călătoria lor în cloud și să construiască soluții de ultimă oră, activate AI/ML.

Timestamp-ul: Martie 17, 2022

Timestamp-ul: Iulie 18, 2023

Creați o conductă de analiză a documentelor urmăribilă, personalizată și multi-format cu Amazon Texttract

Republicat de Platon

Prezentare generală a soluțiilor

Definiți parametrii de intrare impliciti pentru stivele CloudFormation

Implementați soluția

Testați conducta

Adăugați versiuni noi de formular

A curăța

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Bazele de cunoștințe pentru Amazon Bedrock acceptă acum filtrarea metadatelor pentru a îmbunătăți acuratețea recuperării | Amazon Web Services

Configurați un proiect de rezumare a textului cu Hugging Face Transformers: Partea 1

Creați un detector de spam prin e-mail folosind Amazon SageMaker | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont