Cost-effective Document Classification Using The Amazon Titan Multimodal Embeddings Model

Republicat de Platon

Urmaritori: 0

Organizațiile din diverse industrii doresc să clasifice și să extragă informații din volume mari de documente de diferite formate. Procesarea manuală a acestor documente pentru a clasifica și extrage informații rămâne costisitoare, predispusă la erori și dificil de scalat. Avanseaza in inteligență artificială generativă (AI) au dat naștere la soluții inteligente de procesare a documentelor (IDP) care pot automatiza clasificarea documentelor și pot crea un nivel de clasificare rentabil, capabil să gestioneze documente diverse, nestructurate ale întreprinderii.

Clasificarea documentelor este un prim pas important în sistemele IDP. Vă ajută să determinați următorul set de acțiuni de întreprins în funcție de tipul de document. De exemplu, în timpul procesului de adjudecare a daunelor, echipa de conturi de plătibile primește factura, în timp ce departamentul de daune gestionează documentele contractului sau ale poliței. Motoarele de reguli tradiționale sau clasificarea bazată pe ML pot clasifica documentele, dar adesea ajung la o limită pentru tipurile de formate de document și suport pentru adăugarea dinamică a unor noi clase de documente. Pentru mai multe informații, vezi Clasificatorul de documente Amazon Comprehend adaugă suport pentru aspect pentru o precizie mai mare.

În această postare, discutăm despre clasificarea documentelor folosind Modelul Amazon Titan Multimodal Embeddings pentru a clasifica orice tip de document fără a fi nevoie de instruire.

Embeddings multimodale Amazon Titan

Amazon a fost recent introdus Embeddings multimodale Titan in Amazon Bedrock. Acest model poate crea înglobări pentru imagini și text, permițând crearea de înglobări de documente care să fie utilizate în noile fluxuri de lucru de clasificare a documentelor.

Acesta generează reprezentări vectoriale optimizate ale documentelor scanate ca imagini. Prin codificarea atât componentelor vizuale, cât și textuale în vectori numerici unificați care încapsulează semnificația semantică, permite indexarea rapidă, căutarea contextuală puternică și clasificarea precisă a documentelor.

Pe măsură ce noi șabloane și tipuri de documente apar în fluxurile de lucru de afaceri, puteți invoca pur și simplu API-ul Amazon Bedrock pentru a le vectoriza dinamic și a le atașa la sistemele lor IDP pentru a îmbunătăți rapid capacitățile de clasificare a documentelor.

Prezentare generală a soluțiilor

Să examinăm următoarea soluție de clasificare a documentelor cu modelul Amazon Titan Multimodal Embeddings. Pentru o performanță optimă, ar trebui să personalizați soluția în funcție de cazul dvs. de utilizare specific și de configurația existentă a conductei IDP.

Această soluție clasifică documentele folosind căutarea semantică prin încorporare vectorială prin potrivirea unui document de intrare cu o galerie de documente deja indexată. Folosim următoarele componente cheie:

Încorporări - Încorporări sunt reprezentări numerice ale obiectelor din lumea reală pe care sistemele de învățare automată (ML) și AI le folosesc pentru a înțelege domenii complexe de cunoaștere, așa cum o fac oamenii.
Baze de date vectoriale - Baze de date vectoriale sunt folosite pentru stocarea înglobărilor. Bazele de date vectoriale indexează și organizează eficient înglobările, permițând regăsirea rapidă a vectorilor similari pe baza unor metrici de distanță, cum ar fi distanța euclidiană sau asemănarea cosinusului.
Căutare semantică – Căutarea semantică funcționează luând în considerare contextul și semnificația interogării de intrare și relevanța acesteia pentru conținutul căutat. Înglobarile vectoriale sunt o modalitate eficientă de a capta și de a reține sensul contextual al textului și imaginilor. În soluția noastră, atunci când o aplicație dorește să efectueze o căutare semantică, documentul de căutare este mai întâi convertit într-o încorporare. Baza de date vectorială cu conținut relevant este apoi interogată pentru a găsi cele mai asemănătoare înglobări.

În procesul de etichetare, un set de mostre de documente comerciale, cum ar fi facturi, extrase de cont sau rețete, sunt convertite în înglobări folosind modelul Amazon Titan Multimodal Embeddings și stocate într-o bază de date vectorială pe etichete predefinite. Modelul Amazon Titan Multimodal Embedding a fost antrenat folosind algoritmul Euclidean L2 și, prin urmare, pentru cele mai bune rezultate, baza de date vectorială utilizată ar trebui să accepte acest algoritm.

Următoarea diagramă de arhitectură ilustrează modul în care puteți utiliza modelul Amazon Titan Multimodal Embeddings cu documente într-un Serviciul Amazon de stocare simplă (Amazon S3) găleată pentru crearea unei galerii de imagini.

Fluxul de lucru constă din următorii pași:

Un utilizator sau o aplicație încarcă un exemplu de imagine de document cu metadate de clasificare într-o galerie de imagini de document. Un prefix S3 sau metadatele obiectului S3 pot fi folosite pentru a clasifica imaginile galeriei.
Un eveniment de notificare de obiect Amazon S3 invocă încorporarea AWS Lambdas Funcția.
Funcția Lambda citește imaginea documentului și traduce imaginea în înglobări apelând Amazon Bedrock și utilizând modelul Amazon Titan Multimodal Embeddings.
Încorporarea imaginilor, împreună cu clasificarea documentelor, sunt stocate în baza de date vectorială.

Când un document nou necesită clasificare, același model de încorporare este utilizat pentru a converti documentul de interogare într-o încorporare. Apoi, o căutare de similaritate semantică este efectuată în baza de date vectorială folosind încorporarea interogării. Eticheta extrasă în raport cu potrivirea de încorporare de sus va fi eticheta de clasificare pentru documentul de interogare.

Următoarea diagramă de arhitectură ilustrează modul de utilizare a modelului Amazon Titan Multimodal Embeddings cu documente într-o găleată S3 pentru clasificarea imaginilor.

Fluxul de lucru constă din următorii pași:

Documentele care necesită clasificare sunt încărcate într-un compartiment S3 de intrare.
Funcția de clasificare Lambda primește notificarea obiectului Amazon S3.
Funcția Lambda traduce imaginea într-o încorporare apelând API-ul Amazon Bedrock.
Baza de date vectorială este căutată pentru un document care se potrivește folosind căutarea semantică. Clasificarea documentului de potrivire este utilizată pentru a clasifica documentul de intrare.
Documentul de intrare este mutat în directorul sau prefixul țintă S3 folosind clasificarea preluată din căutarea în baza de date vectorială.

Pentru a vă ajuta să testați soluția cu propriile documente, am creat un exemplu de blocnotes Python Jupyter, care este disponibil pe GitHub.

Cerințe preliminare

Pentru a rula notebook-ul, aveți nevoie de un Cont AWS cu adecvat Gestionarea identității și accesului AWS permisiuni (IAM) pentru a apela Amazon Bedrock. În plus, pe Acces model pagina consolei Amazon Bedrock, asigurați-vă că accesul este acordat pentru modelul Amazon Titan Multimodal Embeddings.

Punerea în aplicare

În următorii pași, înlocuiți fiecare substituent introdus de utilizator cu propriile informații:

Creați baza de date vectorială. În această soluție, folosim o bază de date FAISS în memorie, dar puteți utiliza o bază de date vectorială alternativă. Dimensiunea implicită a Amazon Titan este 1024.

index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

După ce baza de date vectorială este creată, enumerați peste documentele eșantion, creând înglobări ale fiecăruia și stocați-le în baza de date vectorială

Testați cu documentele dvs. Înlocuiți folderele din următorul cod cu propriile dosare care conțin tipuri de documente cunoscute:

DOC_CLASSES: list[str] = ["Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement"]

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

Folosind biblioteca Boto3, apelați Amazon Bedrock. Variabila inputImageB64 este o matrice de octeți codificată în baza 64 care reprezintă documentul dvs. Răspunsul de la Amazon Bedrock conține încorporarea.

bedrock = boto3.client(
service_name='bedrock-runtime',
region_name='Region’
)

request_body = {}
request_body["inputText"] = None # not using any text
request_body["inputImage"] = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read())

Adăugați înglobările în baza de date vectorială, cu un ID de clasă care reprezintă un tip de document cunoscut:

indexIDMap.add_with_ids(embeddings, classID)

Cu baza de date vectorială populată cu imagini (reprezentând galeria noastră), puteți descoperi asemănări cu documente noi. De exemplu, următoarea este sintaxa folosită pentru căutare. K=1 îi spune FAISS să returneze primul meci.

indexIDMap.search(embeddings, k=1)

În plus, este returnată și distanța euclidiană L2 dintre imaginea disponibilă și imaginea găsită. Dacă imaginea este o potrivire exactă, această valoare ar fi 0. Cu cât această valoare este mai mare, cu atât imaginile sunt mai depărtate în similaritate.

Considerații suplimentare

În această secțiune, discutăm considerații suplimentare pentru utilizarea eficientă a soluției. Aceasta include confidențialitatea datelor, securitatea, integrarea cu sistemele existente și estimările de costuri.

Confidențialitatea și securitatea datelor

AWS model de responsabilitate partajată se aplică la protejarea datelor în Amazon Bedrock. După cum este descris în acest model, AWS este responsabil pentru protejarea infrastructurii globale care rulează întregul AWS Cloud. Clienții sunt responsabili pentru menținerea controlului asupra conținutului lor care este găzduit pe această infrastructură. În calitate de client, sunteți responsabil pentru configurarea securității și sarcinile de gestionare pentru serviciile AWS pe care le utilizați.

Protecția datelor în Amazon Bedrock

Amazon Bedrock evită utilizarea solicitărilor și continuărilor clienților pentru a instrui modele AWS sau a le partaja terților. Amazon Bedrock nu stochează și nu înregistrează datele clienților în jurnalele sale de servicii. Furnizorii de modele nu au acces la jurnalele Amazon Bedrock sau acces la solicitările și continuările clienților. Ca urmare, imaginile utilizate pentru generarea de înglobări prin modelul Amazon Titan Multimodal Embeddings nu sunt stocate sau utilizate în formarea modelelor AWS sau distribuției externe. În plus, alte date de utilizare, cum ar fi marcajele de timp și ID-urile contului înregistrat, sunt excluse din instruirea modelului.

Integrare cu sistemele existente

Modelul Amazon Titan Multimodal Embeddings a fost instruit cu algoritmul Euclidean L2, astfel încât baza de date vectorială utilizată ar trebui să fie compatibilă cu acest algoritm.

Cost estimat

La momentul scrierii acestei postări, conform Prețuri Amazon Bedrock pentru modelul Amazon Titan Multimodal Embeddings, următoarele sunt costurile estimate folosind prețul la cerere pentru această soluție:

Cost unic de indexare – 0.06 USD pentru o singură serie de indexare, presupunând o galerie de 1,000 de imagini
Costul de clasificare – 6 USD pentru 100,000 de imagini de intrare pe lună

A curăța

Pentru a evita costurile viitoare, ștergeți resursele pe care le-ați creat, cum ar fi Instanță de notebook Amazon SageMaker, când nu este utilizat.

Concluzie

În această postare, am explorat modul în care puteți utiliza modelul Amazon Titan Multimodal Embeddings pentru a construi o soluție ieftină pentru clasificarea documentelor în fluxul de lucru IDP. Am demonstrat cum să creați o galerie de imagini cu documente cunoscute și să efectuați căutări de similaritate cu documente noi pentru a le clasifica. De asemenea, am discutat despre beneficiile utilizării înglobărilor de imagini multimodale pentru clasificarea documentelor, inclusiv capacitatea lor de a gestiona diverse tipuri de documente, scalabilitate și latență scăzută.

Pe măsură ce noi șabloane și tipuri de documente apar în fluxurile de lucru de afaceri, dezvoltatorii pot invoca API-ul Amazon Bedrock pentru a le vectoriza dinamic și pentru a le atașa sistemelor lor IDP pentru a îmbunătăți rapid capabilitățile de clasificare a documentelor. Acest lucru creează un nivel de clasificare ieftin, infinit scalabil, care poate gestiona chiar și cele mai diverse, nestructurate documente ale întreprinderii.

În general, această postare oferă o foaie de parcurs pentru construirea unei soluții ieftine pentru clasificarea documentelor în fluxul de lucru IDP folosind Amazon Titan Multimodal Embeddings.

Ca următorii pași, verificați Ce este Amazon Bedrock pentru a începe să utilizați serviciul. Și urmează Amazon Bedrock pe blogul AWS Machine Learning pentru a fi la curent cu noile capabilități și cazuri de utilizare pentru Amazon Bedrock.

Despre Autori

Sumit Bhati este manager senior de soluții pentru clienți la AWS, specializat în accelerarea călătoriei în cloud pentru clienții întreprinderilor. Sumit este dedicat asistenței clienților în fiecare fază a adoptării lor în cloud, de la accelerarea migrațiilor la modernizarea sarcinilor de lucru și facilitarea integrării practicilor inovatoare.

Cost-effective document classification using the Amazon Titan Multimodal Embeddings Model | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. David Girling este un arhitect senior de soluții AI/ML cu peste 20 de ani de experiență în proiectarea, conducerea și dezvoltarea sistemelor de întreprindere. David face parte dintr-o echipă de specialiști care se concentrează pe a ajuta clienții să învețe, să inoveze și să utilizeze aceste servicii de înaltă capacitate cu datele lor pentru cazurile lor de utilizare.

Ravi Avula este arhitect senior de soluții în AWS, concentrându-se pe arhitectura întreprinderii. Ravi are 20 de ani de experiență în inginerie software și a deținut mai multe roluri de conducere în inginerie software și arhitectură software în industria plăților.

Cost-effective document classification using the Amazon Titan Multimodal Embeddings Model | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. George Belsian este arhitect senior de aplicații cloud la AWS. Este pasionat de a ajuta clienții să-și accelereze călătoria de modernizare și adoptare a cloud-ului. În rolul său actual, George lucrează alături de echipele de clienți pentru a elabora strategii, arhitectură și dezvolta soluții inovatoare, scalabile.