Classificazione dei documenti economicamente vantaggiosa utilizzando il modello di incorporamento multimodale Amazon Titan

Ripubblicato da Platone

Seguaci: 0

Le organizzazioni di tutti i settori desiderano classificare ed estrarre informazioni da elevati volumi di documenti di diversi formati. L'elaborazione manuale di questi documenti per classificare ed estrarre informazioni rimane costosa, soggetta a errori e difficile da scalare. Avanzamenti in intelligenza artificiale generativa (AI) hanno dato origine a soluzioni di elaborazione intelligente dei documenti (IDP) in grado di automatizzare la classificazione dei documenti e creare un livello di classificazione conveniente in grado di gestire documenti aziendali diversi e non strutturati.

La categorizzazione dei documenti è un primo passo importante nei sistemi IDP. Ti aiuta a determinare la serie successiva di azioni da intraprendere a seconda del tipo di documento. Ad esempio, durante il processo di aggiudicazione dei sinistri, il team della contabilità fornitori riceve la fattura, mentre l'ufficio sinistri gestisce il contratto o i documenti della polizza. I motori di regole tradizionali o la classificazione basata su ML possono classificare i documenti, ma spesso raggiungono un limite sui tipi di formati di documenti e sul supporto per l'aggiunta dinamica di nuove classi di documenti. Per ulteriori informazioni, vedere Il classificatore di documenti Amazon Comprehend aggiunge il supporto del layout per una maggiore precisione.

In questo post, discutiamo la classificazione dei documenti utilizzando il file Modello di incorporamento multimodale di Amazon Titan per classificare qualsiasi tipo di documento senza necessità di formazione.

Incorporamenti multimodali di Amazon Titan

Amazon ha recentemente introdotto Incorporamenti multimodali Titan in Roccia Amazzonica. Questo modello può creare incorporamenti per immagini e testo, consentendo la creazione di incorporamenti di documenti da utilizzare nei nuovi flussi di lavoro di classificazione dei documenti.

Genera rappresentazioni vettoriali ottimizzate di documenti scansionati come immagini. Codificando componenti visivi e testuali in vettori numerici unificati che incapsulano il significato semantico, consente un'indicizzazione rapida, una potente ricerca contestuale e una classificazione accurata dei documenti.

Man mano che nuovi modelli e tipi di documenti emergono nei flussi di lavoro aziendali, puoi semplicemente richiamare il file API Amazon Bedrock per vettorializzarli dinamicamente e aggiungerli ai loro sistemi IDP per migliorare rapidamente le capacità di classificazione dei documenti.

Panoramica della soluzione

Esaminiamo la seguente soluzione di classificazione dei documenti con il modello Amazon Titan Multimodal Embeddings. Per prestazioni ottimali, è necessario personalizzare la soluzione in base al caso d'uso specifico e alla configurazione della pipeline IDP esistente.

Questa soluzione classifica i documenti utilizzando la ricerca semantica di incorporamento vettoriale abbinando un documento di input a una raccolta di documenti già indicizzata. Utilizziamo i seguenti componenti chiave:

incastri - incastri sono rappresentazioni numeriche di oggetti del mondo reale che i sistemi di machine learning (ML) e di intelligenza artificiale utilizzano per comprendere domini di conoscenza complessi come fanno gli esseri umani.
Database vettoriali - Database vettoriali vengono utilizzati per memorizzare gli incorporamenti. I database vettoriali indicizzano e organizzano in modo efficiente gli incorporamenti, consentendo il recupero rapido di vettori simili in base a parametri di distanza come la distanza euclidea o la somiglianza del coseno.
Ricerca semantica – La ricerca semantica funziona considerando il contesto e il significato della query di input e la sua rilevanza per il contenuto cercato. Gli incorporamenti vettoriali rappresentano un modo efficace per acquisire e conservare il significato contestuale di testo e immagini. Nella nostra soluzione, quando un'applicazione vuole eseguire una ricerca semantica, il documento di ricerca viene prima convertito in un incorporamento. Viene quindi interrogato il database vettoriale con i contenuti rilevanti per trovare gli incorporamenti più simili.

Nel processo di etichettatura, un insieme campione di documenti aziendali come fatture, estratti conto o prescrizioni viene convertito in incorporamenti utilizzando il modello Amazon Titan Multimodal Embeddings e archiviato in un database vettoriale rispetto a etichette predefinite. Il modello di incorporamento multimodale di Amazon Titan è stato addestrato utilizzando l'algoritmo euclideo L2 e pertanto per ottenere i migliori risultati il database vettoriale utilizzato dovrebbe supportare questo algoritmo.

Il seguente diagramma dell'architettura illustra come utilizzare il modello Amazon Titan Multimodal Embeddings con i documenti in un file Servizio di archiviazione semplice Amazon Bucket (Amazon S3) per la creazione di gallerie di immagini.

Il flusso di lavoro è costituito dai seguenti passaggi:

Un utente o un'applicazione carica un'immagine di documento di esempio con metadati di classificazione in una raccolta di immagini di documenti. È possibile utilizzare un prefisso S3 o metadati dell'oggetto S3 per classificare le immagini della galleria.
Un evento di notifica di un oggetto Amazon S3 richiama l'incorporamento AWS Lambda funzione.
La funzione Lambda legge l'immagine del documento e traduce l'immagine in incorporamenti chiamando Amazon Bedrock e utilizzando il modello Amazon Titan Multimodal Embeddings.
Gli incorporamenti di immagini, insieme alla classificazione dei documenti, vengono archiviati nel database vettoriale.

Quando un nuovo documento necessita di classificazione, lo stesso modello di incorporamento viene utilizzato per convertire il documento di query in un incorporamento. Quindi, viene eseguita una ricerca di somiglianza semantica sul database vettoriale utilizzando l'incorporamento della query. L'etichetta recuperata rispetto alla corrispondenza di incorporamento principale sarà l'etichetta di classificazione per il documento di query.

Il seguente diagramma dell'architettura illustra come utilizzare il modello Amazon Titan Multimodal Embeddings con i documenti in un bucket S3 per la classificazione delle immagini.

Il flusso di lavoro è costituito dai seguenti passaggi:

I documenti che richiedono la classificazione vengono caricati in un bucket S3 di input.
La funzione Lambda di classificazione riceve la notifica dell'oggetto Amazon S3.
La funzione Lambda traduce l'immagine in un incorporamento chiamando l'API Amazon Bedrock.
Nel database vettoriale viene cercato un documento corrispondente utilizzando la ricerca semantica. La classificazione del documento corrispondente viene utilizzata per classificare il documento di input.
Il documento di input viene spostato nella directory o nel prefisso S3 di destinazione utilizzando la classificazione recuperata dalla ricerca nel database vettoriale.

Per aiutarti a testare la soluzione con i tuoi documenti, abbiamo creato un esempio di notebook Python Jupyter, disponibile su GitHub.

Prerequisiti

Per eseguire il notebook è necessario un file Account AWS con appropriato Gestione dell'identità e dell'accesso di AWS (IAM) per chiamare Amazon Bedrock. Inoltre, su Accesso al modello della console Amazon Bedrock, assicurati che l'accesso sia concesso per il modello Amazon Titan Multimodal Embeddings.

Implementazione

Nei passaggi seguenti, sostituisci ciascun segnaposto di input dell'utente con le tue informazioni:

Creare il database vettoriale. In questa soluzione utilizziamo un database FAIISS in memoria, ma potresti utilizzare un database vettoriale alternativo. La dimensione predefinita di Amazon Titan è 1024.

index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

Dopo aver creato il database vettoriale, enumerare i documenti campione, creare incorporamenti di ciascuno e archiviarli nel database vettoriale

Prova con i tuoi documenti. Sostituisci le cartelle nel codice seguente con le tue cartelle che contengono tipi di documenti noti:

DOC_CLASSES: list[str] = ["Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement"]

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

Utilizzando la libreria Boto3, chiama Amazon Bedrock. La variabile inputImageB64 è un array di byte codificato base64 che rappresenta il tuo documento. La risposta di Amazon Bedrock contiene gli incorporamenti.

bedrock = boto3.client(
service_name='bedrock-runtime',
region_name='Region’
)

request_body = {}
request_body["inputText"] = None # not using any text
request_body["inputImage"] = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read())

Aggiungi gli incorporamenti al database vettoriale, con un ID di classe che rappresenta un tipo di documento noto:

indexIDMap.add_with_ids(embeddings, classID)

Con il database vettoriale popolato di immagini (che rappresentano la nostra galleria), puoi scoprire somiglianze con nuovi documenti. Ad esempio, quella seguente è la sintassi utilizzata per la ricerca. k=1 indica a FAISS di restituire la prima corrispondenza.

indexIDMap.search(embeddings, k=1)

Inoltre, viene restituita anche la distanza euclidea L2 tra l'immagine a portata di mano e l'immagine trovata. Se l'immagine corrisponde esattamente, questo valore sarebbe 0. Maggiore è questo valore, maggiore è la somiglianza tra le immagini.

Ulteriori considerazioni

In questa sezione verranno discusse ulteriori considerazioni per l'utilizzo efficace della soluzione. Ciò include la privacy dei dati, la sicurezza, l'integrazione con i sistemi esistenti e le stime dei costi.

Privacy e sicurezza dei dati

L'AWS modello di responsabilità condivisa si applica a protezione dati nel substrato roccioso dell'Amazzonia. Come descritto in questo modello, AWS è responsabile della protezione dell'infrastruttura globale che esegue tutto il cloud AWS. I clienti sono responsabili di mantenere il controllo sui propri contenuti ospitati su questa infrastruttura. In qualità di cliente, sei responsabile della configurazione della sicurezza e delle attività di gestione per i servizi AWS che utilizzi.

Protezione dei dati in Amazon Bedrock

Amazon Bedrock evita di utilizzare richieste e continuazioni dei clienti per addestrare modelli AWS o condividerli con terze parti. Amazon Bedrock non archivia né registra i dati dei clienti nei registri dei servizi. I fornitori di modelli non hanno accesso ai log di Amazon Bedrock né alle richieste e alle continuazioni dei clienti. Di conseguenza, le immagini utilizzate per generare incorporamenti tramite il modello Amazon Titan Multimodal Embeddings non vengono archiviate o utilizzate nell'addestramento dei modelli AWS o nella distribuzione esterna. Inoltre, altri dati sull'utilizzo, come timestamp e ID account registrati, sono esclusi dall'addestramento del modello.

Integrazione con i sistemi esistenti

Il modello Amazon Titan Multimodal Embeddings è stato sottoposto ad addestramento con l'algoritmo euclideo L2, quindi il database vettoriale utilizzato dovrebbe essere compatibile con questo algoritmo.

Costo stimato

Al momento della stesura di questo post, come da Prezzi di Amazon Bedrock per il modello Amazon Titan Multimodal Embeddings, di seguito sono riportati i costi stimati utilizzando i prezzi su richiesta per questa soluzione:

Costo di indicizzazione una tantum – $ 0.06 per una singola esecuzione di indicizzazione, presupponendo una galleria di 1,000 immagini
Costo di classificazione – $ 6 per 100,000 immagini in ingresso al mese

ripulire

Per evitare di incorrere in addebiti futuri, elimina le risorse che hai creato, come ad esempio Istanza di notebook Amazon SageMaker, quando non in uso.

Conclusione

In questo post, abbiamo esplorato come utilizzare il modello Amazon Titan Multimodal Embeddings per creare una soluzione economica per la classificazione dei documenti nel flusso di lavoro IDP. Abbiamo dimostrato come creare una galleria di immagini di documenti noti ed eseguire ricerche di somiglianza con nuovi documenti per classificarli. Abbiamo anche discusso i vantaggi derivanti dall'utilizzo di incorporamenti di immagini multimodali per la classificazione dei documenti, inclusa la loro capacità di gestire diversi tipi di documenti, scalabilità e bassa latenza.

Man mano che nuovi modelli e tipi di documenti emergono nei flussi di lavoro aziendali, gli sviluppatori possono invocare l'API Amazon Bedrock per vettorializzarli dinamicamente e aggiungerli ai loro sistemi IDP per migliorare rapidamente le capacità di classificazione dei documenti. Ciò crea un livello di classificazione poco costoso e infinitamente scalabile in grado di gestire anche i documenti aziendali più diversi e non strutturati.

Nel complesso, questo post fornisce una tabella di marcia per la creazione di una soluzione economica per la classificazione dei documenti nel flusso di lavoro IDP utilizzando Amazon Titan Multimodal Embeddings.

Come passaggi successivi, controlla Cos'è Amazon Bedrock per iniziare a utilizzare il servizio. E segui Amazon Bedrock sul blog di AWS Machine Learning per tenerti aggiornato sulle nuove funzionalità e casi d'uso per Amazon Bedrock.

Informazioni sugli autori

Sumit Bhati è un Senior Customer Solutions Manager presso AWS, specializzato nell'accelerare il percorso verso il cloud per i clienti aziendali. Sumit si impegna ad assistere i clienti in ogni fase dell'adozione del cloud, dall'accelerazione delle migrazioni alla modernizzazione dei carichi di lavoro e alla facilitazione dell'integrazione di pratiche innovative.

Classificazione dei documenti economicamente vantaggiosa utilizzando il modello di incorporamento multimodale di Amazon Titan | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. David Girling è un Senior AI/ML Solutions Architect con oltre 20 anni di esperienza nella progettazione, guida e sviluppo di sistemi aziendali. David fa parte di un team di specialisti che si concentra sull'aiutare i clienti ad apprendere, innovare e utilizzare questi servizi altamente capaci con i loro dati per i loro casi d'uso.

Ravi Avula è un Senior Solutions Architect in AWS specializzato in architettura aziendale. Ravi ha 20 anni di esperienza nell'ingegneria del software e ha ricoperto diversi ruoli di leadership nell'ingegneria del software e nell'architettura del software lavorando nel settore dei pagamenti.

Classificazione dei documenti economicamente vantaggiosa utilizzando il modello di incorporamento multimodale di Amazon Titan | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Giorgio Belsian è un Senior Cloud Application Architect presso AWS. La sua passione è aiutare i clienti ad accelerare il loro percorso di modernizzazione e adozione del cloud. Nel suo ruolo attuale, George lavora a fianco dei team dei clienti per definire strategie, progettare e sviluppare soluzioni innovative e scalabili.