Presentazione della classificazione in un solo passaggio e del riconoscimento delle entità con Amazon Comprehend per l'elaborazione intelligente dei documenti

Ripubblicato da Platone

Seguaci: 0

“Le soluzioni di elaborazione intelligente dei documenti (IDP) estraggono i dati per supportare l'automazione di attività ripetitive di elaborazione dei documenti ad alto volume e per l'analisi e la comprensione. IDP utilizza le tecnologie del linguaggio naturale e la visione artificiale per estrarre dati da contenuti strutturati e non strutturati, in particolare dai documenti, per supportare l'automazione e l'aumento. – Gartner

L'obiettivo dell'elaborazione intelligente dei documenti (IDP) di Amazon è automatizzare l'elaborazione di grandi quantità di documenti utilizzando l'apprendimento automatico (ML) al fine di aumentare la produttività, ridurre i costi associati al lavoro umano e fornire un'esperienza utente senza soluzione di continuità. I clienti dedicano una quantità significativa di tempo e impegno all'identificazione dei documenti e all'estrazione di informazioni critiche da essi per vari casi d'uso. In data odierna, Amazon Comprehend supporta la classificazione per documenti di testo semplice, che richiede di preelaborare i documenti in formati semi-strutturati (scansione, PDF digitale o immagini come PNG, JPG, TIFF) e quindi utilizzare l'output di testo semplice per eseguire l'inferenza con il tuo classificazione personalizzata modello. Allo stesso modo, per riconoscimento di entità personalizzate in tempo reale, la pre-elaborazione per estrarre il testo è necessaria per documenti semi-strutturati come PDF e file immagine. Questo processo in due fasi introduce complessità nei flussi di lavoro di elaborazione dei documenti.

L'anno scorso, noi ha annunciato il supporto per i formati di documenti nativi con riconoscimento di entità con nome personalizzato (NER) lavori asincroni. Oggi siamo lieti di annunciare la classificazione dei documenti in un'unica fase e l'analisi in tempo reale per NER per documenti semi-strutturati in formati nativi (PDF, TIFF, JPG, PNG) utilizzando Amazon Comprehend. In particolare, stiamo annunciando le seguenti funzionalità:

Supporto per documenti in formati nativi per classificazioni personalizzate, analisi in tempo reale e lavori asincroni
Supporto per documenti in formati nativi per l'analisi in tempo reale del riconoscimento di entità personalizzate

Con questa nuova versione, la classificazione personalizzata e il riconoscimento di entità personalizzate (NER) di Amazon Comprehend supporta direttamente i documenti in formati come PDF, TIFF, PNG e JPEG, senza la necessità di estrarne testo normale con codifica UTF8. La figura seguente confronta il processo precedente con la nuova procedura e supporto.

Questa funzione semplifica i flussi di lavoro di elaborazione dei documenti eliminando qualsiasi fase di pre-elaborazione necessaria per estrarre il testo normale dai documenti e riduce il tempo complessivo necessario per elaborarli.

In questo post, discutiamo di un progetto di soluzione di flusso di lavoro IDP di alto livello, alcuni casi d'uso del settore, le nuove funzionalità di Amazon Comprehend e come utilizzarle.

Panoramica della soluzione

Iniziamo esplorando un caso d'uso comune nel settore assicurativo. Un tipico processo di reclamo assicurativo prevede un pacchetto di reclami che può contenere più documenti. Quando viene presentato un reclamo assicurativo, include documenti come modulo di richiesta di risarcimento assicurativo, rapporti sugli incidenti, documenti di identità e documenti di reclamo di terze parti. Il volume di documenti per l'elaborazione e l'aggiudicazione di un sinistro assicurativo può arrivare a centinaia e persino migliaia di pagine a seconda del tipo di sinistro e dei processi aziendali coinvolti. I rappresentanti e i giudici delle richieste di risarcimento in genere trascorrono centinaia di ore a setacciare, ordinare ed estrarre manualmente le informazioni da centinaia o addirittura migliaia di richieste di risarcimento.

Analogamente al caso d'uso del settore assicurativo, anche il settore dei pagamenti elabora grandi volumi di documenti semi-strutturati per accordi di pagamento transfrontalieri, fatture ed estratti conto forex. Gli utenti aziendali trascorrono la maggior parte del loro tempo in attività manuali come l'identificazione, l'organizzazione, la convalida, l'estrazione e il passaggio delle informazioni necessarie alle applicazioni a valle. Questo processo manuale è noioso, ripetitivo, soggetto a errori, costoso e difficile da scalare. Altri settori che affrontano sfide simili includono mutui e prestiti, assistenza sanitaria e scienze della vita, gestione legale, contabile e fiscale. È estremamente importante per le aziende elaborare volumi così grandi di documenti in modo tempestivo con un elevato livello di accuratezza e uno sforzo manuale minimo.

Amazon Comprehend offre funzionalità chiave per automatizzare la classificazione dei documenti e l'estrazione delle informazioni da un grande volume di documenti con elevata precisione, in modo scalabile e conveniente. Il diagramma seguente mostra un flusso di lavoro logico IDP con Amazon Comprehend. Il nucleo del flusso di lavoro consiste nella classificazione dei documenti e nell'estrazione delle informazioni utilizzando NER con i modelli personalizzati di Amazon Comprehend. Il diagramma mostra anche come i modelli personalizzati possono essere continuamente migliorati per fornire una maggiore accuratezza man mano che i documenti e i processi aziendali si evolvono.

Classificazione personalizzata dei documenti

Con la classificazione personalizzata di Amazon Comprehend, puoi organizzare i tuoi documenti in categorie (classi) predefinite. Ad alto livello, i seguenti sono i passaggi per configurare un classificatore di documenti personalizzato ed eseguire la classificazione dei documenti:

Preparare i dati di addestramento per addestrare un classificatore di documenti personalizzato.
Addestra un classificatore di documenti cliente con i dati di addestramento.
Dopo che il modello è stato addestrato, facoltativamente distribuire un endpoint in tempo reale.
Esegui la classificazione dei documenti con un processo asincrono o in tempo reale utilizzando l'endpoint.

I passaggi 1 e 2 vengono in genere eseguiti all'inizio di un progetto IDP dopo che sono state identificate le classi di documenti rilevanti per il processo aziendale. Un modello di classificatore personalizzato può quindi essere periodicamente riaddestrato per migliorare la precisione e introdurre nuove classi di documenti. Puoi addestrare un modello di classificazione personalizzato in modalità multi-classe or modalità multietichetta. La formazione può essere eseguita per ciascuno in due modi: utilizzando un file CSV o utilizzando un file manifest aumentato. Fare riferimento a Preparazione dei dati di allenamento per ulteriori dettagli sull'addestramento di un modello di classificazione personalizzato. Dopo che un modello di classificatore personalizzato è stato addestrato, un documento può essere classificato utilizzando analisi in tempo reale o un lavoro asincrono. L'analisi in tempo reale richiede un endpoint da distribuire con il modello addestrato ed è più adatto per documenti di piccole dimensioni a seconda del caso d'uso. Per un numero elevato di documenti, è più adatto un processo di classificazione asincrona.

Addestra un modello di classificazione dei documenti personalizzato

Per dimostrare la nuova funzionalità, abbiamo addestrato un modello di classificazione personalizzato in modalità multi-etichetta, che può classificare i documenti assicurativi in una delle sette diverse classi. Le classi sono INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYe CMS1500. Vogliamo classificare i documenti di esempio in formato nativo PDF, PNG e JPEG, archiviati in un file Servizio di archiviazione semplice Amazon (Amazon S3), utilizzando il modello di classificazione. Per avviare un processo di classificazione asincrono, completare i seguenti passaggi:

Sulla console di Amazon Comprehend, scegli Lavori di analisi nel pannello di navigazione.
Scegli Crea lavoro.
Nel Nome, inserisci un nome per il tuo processo di classificazione.
Nel Tipo di analisi¸ scegli Classificazione personalizzata.
Nel Modello classificatore, scegliere il modello di classificazione addestrato appropriato.
Nel Versione, scegli la versione del modello appropriata.

Nel Dati in ingresso sezione, forniamo la posizione in cui sono archiviati i nostri documenti.

Nel Formato di inputscegli Un documento per file.
Nel Modalità di lettura del documento¸ scegli Forza l'azione di lettura del documento.
Nel Azione di lettura del documentoscegli Textract rileva il testo del documento.

Ciò consente ad Amazon Comprehend di utilizzare il file Testo Amazon RilevaDocumentoTesto API per leggere i documenti prima di eseguire la classificazione. Il DetectDocumentText L'API è utile per estrarre righe e parole di testo dai documenti. Puoi anche scegliere Documento di analisi del testo per Azione di lettura del documento, nel qual caso Amazon Comprehend utilizza Amazon Textract AnalizzaDocumento API per leggere i documenti. Con il AnalyzeDocument API, puoi scegliere di estrarre tavoli, Moduli, o entrambi. Il Modalità di lettura del documento L'opzione consente ad Amazon Comprehend di estrarre il testo dai documenti dietro le quinte, il che aiuta a ridurre il passaggio aggiuntivo di estrazione del testo dal documento, che è richiesto nel nostro flusso di lavoro di elaborazione dei documenti.

Il classificatore personalizzato di Amazon Comprehend può anche elaborare risposte JSON non elaborate generate da DetectDocumentText ed AnalyzeDocument API, senza alcuna modifica o preelaborazione. Ciò è utile per i flussi di lavoro esistenti in cui Amazon Textract è già coinvolto nell'estrazione del testo dai documenti. In questo caso, l'output JSON di Amazon Textract può essere inviato direttamente alle API di classificazione dei documenti di Amazon Comprehend.

Nel Dati di output sezione, per Posizione S3, specifica una posizione Amazon S3 in cui desideri che il processo asincrono scriva i risultati dell'inferenza.
Lascia le opzioni rimanenti come predefinite.
Scegli Crea lavoro per iniziare il lavoro.

È possibile visualizzare lo stato del lavoro sul Lavori di analisi .

Quando il lavoro è completo, possiamo visualizzare l'output del lavoro di analisi, che viene archiviato nella posizione Amazon S3 fornita durante la configurazione del lavoro. L'output di classificazione per il nostro documento CMS1500 di esempio PDF a pagina singola è il seguente. L'output è un file in formato righe JSON, che è stato formattato per migliorare la leggibilità.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

L'esempio precedente è un documento PDF a pagina singola; tuttavia, la classificazione personalizzata può anche gestire documenti PDF multipagina. Nel caso di documenti multipagina, l'output contiene più righe JSON, in cui ciascuna riga è il risultato della classificazione di ciascuna delle pagine di un documento. Di seguito è riportato un esempio di output di classificazione multipagina:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Riconoscimento dell'entità personalizzata

Con un riconoscimento di entità personalizzato di Amazon Comprehend, puoi analizzare documenti ed estrarre entità come codici prodotto o entità specifiche dell'azienda che soddisfano le tue esigenze particolari. Ad alto livello, i seguenti sono i passaggi per impostare un riconoscimento di entità personalizzato ed eseguire il rilevamento dell'entità:

Preparare i dati di addestramento per addestrare un riconoscimento di entità personalizzato.
Addestra un riconoscimento di entità personalizzato con i dati di addestramento.
Dopo che il modello è stato addestrato, facoltativamente distribuire un endpoint in tempo reale.
Esegui il rilevamento delle entità con un processo asincrono o in tempo reale utilizzando l'endpoint.

Un modello di riconoscimento di entità personalizzato può essere periodicamente riaddestrato per migliorare la precisione e introdurre nuovi tipi di entità. Puoi addestrare un modello di riconoscimento di entità personalizzato con entrambi elenchi di entità or annotazioni. In entrambi i casi, Amazon Comprehend apprende il tipo di documenti e il contesto in cui si verificano le entità per creare un modello di riconoscimento di entità che può essere generalizzato per rilevare nuove entità. Fare riferimento a Preparazione dei dati di allenamento per ulteriori informazioni sulla preparazione dei dati di addestramento per il riconoscimento di entità personalizzate.

Dopo che un modello di riconoscimento di entità personalizzato è stato addestrato, il rilevamento dell'entità può essere eseguito utilizzando analisi in tempo reale o un lavoro asincrono. L'analisi in tempo reale richiede un endpoint da distribuire con il modello addestrato ed è più adatto per documenti di piccole dimensioni a seconda del caso d'uso. Per un numero elevato di documenti, è più adatto un processo di classificazione asincrona.

Addestra un modello di riconoscimento di entità personalizzato

Per dimostrare il rilevamento dell'entità in tempo reale, abbiamo addestrato un modello di riconoscimento di entità personalizzato con documenti assicurativi e file manifest aumentati utilizzando annotazioni personalizzate e distribuito l'endpoint utilizzando il modello addestrato. I tipi di entità sono Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actione Sender. Vogliamo rilevare entità da documenti di esempio in formato PDF, PNG e JPEG nativi, archiviati in un bucket S3, utilizzando il modello di riconoscimento.

Si noti che è possibile utilizzare un modello di riconoscimento di entità personalizzato addestrato con documenti PDF per estrarre entità personalizzate da documenti PDF, TIFF, immagine, Word e testo normale. Se il tuo modello viene addestrato utilizzando documenti di testo e un elenco di entità, puoi utilizzare solo documenti di testo normale per estrarre le entità.

Abbiamo bisogno di rilevare entità da un documento di esempio in qualsiasi formato nativo PDF, PNG e JPEG utilizzando il modello di riconoscimento. Per avviare un processo di rilevamento dell'entità sincrona, completa i seguenti passaggi:

Sulla console di Amazon Comprehend, scegli Analisi in tempo reale nel pannello di navigazione.
Sotto Tipo di analisi, selezionare Custom.
Nel Riconoscimento dell'entità personalizzata, scegli il tipo di modello personalizzato.
Nel endpoint, scegli l'endpoint in tempo reale che hai creato per il tuo modello di riconoscimento di entità.
Seleziona Carica un file e scegli Scegli il file per caricare il file PDF o immagine per l'inferenza.
espandere la Inserimento avanzato di documenti sezione e per Modalità di lettura del documentoscegli Servizio predefinito.
Nel Azione di lettura del documentoscegli Textract rileva il testo del documento.
Scegli Analizzi i dati analizzare il documento in tempo reale.

Le entità riconosciute sono elencate nel Approfondimenti sezione. Ogni entità contiene il valore dell'entità (il testo), il tipo di entità definito dall'utente durante il processo di addestramento e il punteggio di affidabilità corrispondente.

Per ulteriori dettagli e una panoramica completa su come addestrare un modello di riconoscimento di entità personalizzato e utilizzarlo per eseguire l'inferenza asincrona utilizzando processi di analisi asincroni, fare riferimento a Estrai entità personalizzate dai documenti nel loro formato nativo con Amazon Comprehend.

Conclusione

Questo post ha dimostrato come classificare e classificare i documenti semi-strutturati nel loro formato nativo e rilevare da essi entità specifiche dell'azienda utilizzando Amazon Comprehend. Puoi utilizzare le API in tempo reale per i casi d'uso a bassa latenza oppure utilizzare processi di analisi asincrona per l'elaborazione di documenti in blocco.

Come passaggio successivo, ti invitiamo a visitare Amazon Comprehend Repository GitHub per esempi di codice completo per provare queste nuove funzionalità. Puoi anche visitare il Amazon Comprensione Guida per gli sviluppatori ed Risorse per gli sviluppatori di Amazon Comprehend per video, tutorial, blog e altro ancora.

Circa gli autori

Wrick Talukdar è un Senior Architect del team Amazon Comprehend Service. Lavora con i clienti AWS per aiutarli ad adottare il machine learning su larga scala. Al di fuori del lavoro, ama leggere e fotografare.

Anjan Biswas è un Senior AI Services Solutions Architect con un focus su AI/ML e Data Analytics. Anjan fa parte del team di servizi AI a livello mondiale e lavora con i clienti per aiutarli a comprendere e sviluppare soluzioni ai problemi aziendali con AI e ML. Anjan ha oltre 14 anni di esperienza di lavoro con organizzazioni globali di supply chain, produzione e vendita al dettaglio e sta attivamente aiutando i clienti a iniziare e scalare i servizi AWS AI.

Godwin Sahayaraj Vincent è un Enterprise Solutions Architect presso AWS, appassionato di machine learning e che fornisce assistenza ai clienti per progettare, distribuire e gestire i carichi di lavoro e le architetture AWS. Nel tempo libero ama giocare a cricket con i suoi amici ea tennis con i suoi tre figli.