Amazon Comprehend Document Classifier aggiunge il supporto del layout per una maggiore precisione

Ripubblicato da Platone

Seguaci: 0

La capacità di gestire ed elaborare efficacemente enormi quantità di documenti è diventata essenziale per le imprese nel mondo moderno. A causa del continuo afflusso di informazioni con cui tutte le aziende hanno a che fare, la classificazione manuale dei documenti non è più un'opzione praticabile. I modelli di classificazione dei documenti possono automatizzare la procedura e aiutare le organizzazioni a risparmiare tempo e risorse. Le tecniche di categorizzazione tradizionali, come l'elaborazione manuale e le ricerche basate su parole chiave, diventano meno efficienti e richiedono più tempo con l'aumentare del volume dei documenti. Questa inefficienza provoca una minore produttività e maggiori costi operativi. Inoltre, può impedire che le informazioni cruciali siano accessibili quando necessario, il che potrebbe portare a una scarsa esperienza del cliente e influire sul processo decisionale. Ad AWS re:Invent 2022, Amazon Comprehend, un servizio di elaborazione del linguaggio naturale (NLP) che utilizza l'apprendimento automatico (ML) per scoprire informazioni dettagliate dal testo, lanciato supporto per i tipi di documenti nativi. Questa nuova funzionalità ti ha dato la possibilità di classificare i documenti in formati nativi (PDF, TIFF, JPG, PNG, DOCX) utilizzando Amazon Comprehend.

Oggi siamo lieti di annunciare che Amazon Comprehend ora supporta l'addestramento del modello di classificazione personalizzato con documenti come PDF, Word e formati immagine. Ora puoi addestrare modelli di classificazione dei documenti personalizzati su documenti nativi che supportano il layout oltre al testo, aumentando la precisione dei risultati.

In questo post, forniamo una panoramica di come iniziare a addestrare un modello di classificazione dei documenti personalizzato di Amazon Comprehend.

Panoramica

La capacità di comprendere i posizionamenti relativi degli oggetti all'interno di uno spazio definito è indicata come consapevolezza del layout. In questo caso, aiuta il modello a comprendere come intestazioni, sottotitoli, tabelle e grafici si relazionano tra loro all'interno di un documento. Il modello può classificare in modo più efficace un documento in base al suo contenuto quando è a conoscenza della struttura e del layout del testo.

Il classificatore di documenti Amazon Comprehend aggiunge il supporto del layout per una maggiore precisione PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

In questo post, esaminiamo le fasi di preparazione dei dati coinvolte, dimostriamo il processo di addestramento del modello e discutiamo i vantaggi dell'utilizzo del nuovo modello di classificazione dei documenti personalizzato in Amazon Comprehend. Come best practice, dovresti prendere in considerazione i seguenti punti prima di iniziare ad addestrare il modello di classificazione dei documenti personalizzato.

Valuta le tue esigenze di classificazione dei documenti

Identifica i vari tipi di documenti che potresti aver bisogno di classificare, insieme alle diverse classi o categorie per supportare il tuo caso d'uso. Determinare la struttura o la tassonomia di classificazione adatta dopo aver valutato la quantità e i tipi di documenti che devono essere classificati. I tipi di documento possono variare da PDF, Word, immagini e così via. Assicurati di disporre dell'accesso autorizzato a una serie diversificata di documenti etichettati tramite un sistema di gestione dei documenti o altri meccanismi di archiviazione.

Prepara i tuoi dati

Assicurati che i file del documento che intendi utilizzare per l'addestramento del modello non siano crittografati o bloccati, ad esempio assicurati che i tuoi file PDF non siano crittografati e bloccati con una password. È necessario decrittografare tali file prima di poterli utilizzare per scopi di formazione. Etichetta un campione dei tuoi documenti con le categorie o le etichette appropriate (classi). Determinare se la classificazione con etichetta singola (modalità multi-classe) o puoi classificazione multi-etichetta è appropriato per il tuo caso d'uso. La modalità multiclasse associa solo una singola classe a ciascun documento, mentre la modalità multietichetta associa una o più classi a un documento.

Considera la valutazione del modello

Utilizza il set di dati etichettato per addestrare il modello in modo che possa imparare a classificare i nuovi documenti in modo accurato e valutare le prestazioni della versione del modello appena addestrata comprendendo le metriche del modello. Per comprendere i parametri forniti dalla formazione post-modello di Amazon Comprehend, fare riferimento a Metriche di classificazione personalizzate. Al termine del processo di formazione, è possibile iniziare a classificare i documenti in modo asincrono o in tempo reale. Nelle sezioni seguenti viene illustrato come eseguire il training di un modello di classificazione personalizzato.

Prepara i dati di allenamento

Prima di addestrare il nostro modello di classificazione personalizzato, dobbiamo preparare i dati di addestramento. I dati di addestramento sono costituiti da una serie di documenti etichettati, che possono essere documenti preidentificati da un repository di documenti a cui hai già accesso. Per il nostro esempio, abbiamo addestrato un modello di classificazione personalizzato con alcuni tipi di documenti diversi che si trovano in genere in un processo di aggiudicazione di un'assicurazione sanitaria: riepilogo delle dimissioni del paziente, fatture, ricevute e così via. Abbiamo anche bisogno di preparare un file di annotazioni in formato CSV. Di seguito è riportato un esempio di un file di annotazioni con dati CSV richiesti per la formazione:

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

Il file CSV delle annotazioni deve contenere tre colonne. La prima colonna contiene la classe desiderata (etichetta) per il documento, la seconda colonna è il nome del documento (nome file) e l'ultima colonna è il numero di pagina del documento che si desidera includere nel set di dati di addestramento. Poiché il processo di formazione supporta file PDF e DOCX multipagina nativi, è necessario specificare il numero di pagina nel caso in cui il documento sia multipagina. Se desideri includere tutte le pagine di un documento a più pagine nel set di dati di addestramento, devi specificare ogni pagina come una riga separata nel file di annotazioni CSV. Ad esempio, nel file di annotazioni precedente, invoice-1.pdf è un documento di due pagine e vogliamo includere entrambe le pagine nel set di dati di classificazione. Poiché i file come PDF, PNG e TIFF sono formati immagine, il valore del numero di pagina (terza colonna) deve essere sempre 1. Se il set di dati contiene file TIF multi-frame (multi-pagina), è necessario dividerli in file TIF separati per utilizzarli nel processo di formazione.

Abbiamo preparato un file di annotazioni chiamato test.csv con i dati appropriati per addestrare un modello di classificazione personalizzato. Per ogni documento di esempio, il file CSV contiene la classe a cui appartiene il documento, la posizione in cui si trova il documento Servizio di archiviazione semplice Amazon (Amazon S3), ad esempio path/to/prefix/document.pdfe il numero di pagina (se applicabile). Poiché la maggior parte dei nostri documenti sono file DOCX, PDF o TIF, JPG o PNG a pagina singola, il numero di pagina assegnato è 1. Poiché le nostre annotazioni CSV e i documenti di esempio sono tutti sotto lo stesso prefisso Amazon S3, non Non è necessario specificare esplicitamente il prefisso nella seconda colonna. Prepariamo anche almeno 10 o più campioni di documenti per ogni classe e abbiamo utilizzato un mix di file JPG, PNG, DOCX, PDF e TIF per addestrare il modello. Si noti che in genere è consigliabile disporre di un set diversificato di documenti di esempio per l'addestramento del modello per evitare l'overfitting del modello, che influisce sulla sua capacità di riconoscere nuovi documenti. Si consiglia inoltre di bilanciare il numero di campioni per classe, sebbene non sia necessario avere lo stesso numero esatto di campioni per classe. Successivamente, carichiamo il file test.csv file di annotazioni e tutti i documenti in Amazon S3. L'immagine seguente mostra parte del nostro file CSV di annotazioni.

Il classificatore di documenti Amazon Comprehend aggiunge il supporto del layout per una maggiore precisione PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Addestra un modello di classificazione personalizzato

Ora che abbiamo il file delle annotazioni e tutti i nostri documenti di esempio pronti, impostiamo un modello di classificazione personalizzato e lo addestriamo. Prima di iniziare a configurare l'addestramento del modello di classificazione personalizzato, assicurati che le annotazioni CSV e i documenti di esempio esistano in una posizione Amazon S3.

Sulla console di Amazon Comprehend, scegli Classificazione personalizzata nel pannello di navigazione.
Scegli Crea nuovo modello.
Nel Nome del modello, inserisci un nome univoco.
Nel Nome versione, inserisci un nome di versione univoco.
Nel Tipo di modello di allenamento, selezionare Documenti nativi.

Questo indica ad Amazon Comprehend che intendi utilizzare tipi di documenti nativi per addestrare il modello invece del testo serializzato.

Nel Modalità classificatore, selezionare Utilizzo della modalità etichetta singola.

Questa modalità indica al classificatore che intendiamo classificare i documenti in un'unica classe. Se devi addestrare un modello con modalità multietichetta, ovvero un documento può appartenere a una o più classi, devi impostare opportunamente il file delle annotazioni specificando le classi del documento separate da un carattere speciale nel CSV delle annotazioni file. In tal caso, selezionare il file Utilizzo della modalità multietichetta opzione.

Nel Posizione dell'annotazione su S3, inserisci il percorso del file CSV delle annotazioni.
Nel Posizione dei dati di allenamento su S3, inserisci la posizione Amazon S3 in cui risiedono i tuoi documenti.
Lascia tutte le altre opzioni come predefinite in questa sezione.
Nel Dati di output sezione, specifica una posizione Amazon S3 per l'output.

Questo è facoltativo, ma è buona norma fornire una posizione di output perché Amazon Comprehend genererà i parametri di valutazione dell'addestramento post-modello in questa posizione. Questi dati sono utili per valutare le prestazioni del modello, iterare e migliorare la precisione del modello.

Nel Ruolo IAM selezionare una sezione appropriata Gestione dell'identità e dell'accesso di AWS (IAM) che consente ad Amazon Comprehend di accedere alla posizione Amazon S3 e di scrivere e leggere da essa.
Scegli Creare per avviare l'addestramento del modello.

L'addestramento del modello può richiedere diversi minuti, a seconda del numero di classi e delle dimensioni del set di dati. È possibile rivedere lo stato della formazione sul Classificazione personalizzata pagina. Il processo di formazione visualizzerà a Inserito subito dopo l'inizio del processo di formazione e cambierà in Training stato quando inizia il processo di formazione. Dopo che il tuo modello è stato addestrato, il file Stato della versione cambierà in Allenato. Se Amazon Comprehend rileva incoerenze nei dati di addestramento, verrà visualizzato lo stato In errore insieme a un avviso che mostra il messaggio di errore appropriato in modo da poter intraprendere un'azione correttiva e riavviare il processo di addestramento con i dati corretti.

Il classificatore di documenti Amazon Comprehend aggiunge il supporto del layout per una maggiore precisione PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

In questo post, abbiamo dimostrato i passaggi per addestrare un modello di classificatore personalizzato utilizzando la console Amazon Comprehend. Puoi anche usare il SDK AWS in qualsiasi lingua (ad esempio, Boto3 per Python) O l' Interfaccia della riga di comando di AWS (AWS CLI) per avviare un addestramento del modello di classificazione personalizzato. Con l'SDK o l'AWS CLI, puoi utilizzare il CreaDocumentClassifier API per avviare l'addestramento del modello e successivamente utilizzare il file DescriviDocumentClassifier API per controllare lo stato del modello.

Dopo che il modello è stato addestrato, puoi eseguire entrambi analisi in tempo reale or lavori di analisi asincroni (batch). sui nuovi documenti. Per eseguire la classificazione in tempo reale sui documenti, devi distribuire un endpoint in tempo reale di Amazon Comprehend con il modello di classificazione personalizzato addestrato. Gli endpoint in tempo reale sono più adatti per i casi d'uso che richiedono risultati di inferenza in tempo reale a bassa latenza, mentre per classificare un set di documenti di grandi dimensioni è più appropriato un processo di analisi asincrona. Per informazioni su come eseguire l'inferenza asincrona su nuovi documenti utilizzando un modello di classificazione addestrato, fare riferimento a Presentazione della classificazione in un'unica fase e del riconoscimento delle entità con Amazon Comprehend per l'elaborazione intelligente dei documenti.

Vantaggi del modello di classificazione personalizzato compatibile con il layout

Il nuovo modello di classificatore offre una serie di miglioramenti. Non solo è più semplice addestrare il nuovo modello, ma puoi anche addestrare un nuovo modello con pochi campioni per ogni classe. Inoltre, non è più necessario estrarre testo normale serializzato da documenti digitalizzati o digitali come immagini o PDF per preparare il set di dati di addestramento. Di seguito sono riportati alcuni miglioramenti degni di nota aggiuntivi che puoi aspettarti dal nuovo modello di classificazione:

Precisione migliorata – Il modello ora tiene conto del layout e della struttura dei documenti, il che porta a una migliore comprensione della struttura e del contenuto dei documenti. Questo aiuta a distinguere tra documenti con testo simile ma layout o strutture differenti, con conseguente maggiore precisione di classificazione.
Robustezza – Il modello ora gestisce le variazioni nella struttura e nella formattazione del documento. Ciò lo rende più adatto alla classificazione di documenti provenienti da fonti diverse con layout o stili di formattazione diversi, una sfida comune nelle attività di classificazione dei documenti nel mondo reale. È compatibile con diversi tipi di documenti in modo nativo, rendendolo versatile e applicabile a diversi settori e casi d'uso.
Ridotto intervento manuale – Una maggiore precisione comporta un minor intervento manuale nel processo di classificazione. Ciò può far risparmiare tempo e risorse e aumentare l'efficienza operativa nel carico di lavoro di elaborazione dei documenti.

Conclusione

Il nuovo modello di classificazione dei documenti di Amazon Comprehend, che incorpora la consapevolezza del layout, è un punto di svolta per le aziende che si occupano di grandi volumi di documenti. Comprendendo la struttura e il layout dei documenti, questo modello offre una migliore precisione ed efficienza di classificazione. L'implementazione di una soluzione di classificazione dei documenti solida e accurata utilizzando un modello compatibile con il layout può aiutare la tua azienda a risparmiare tempo, ridurre i costi operativi e migliorare i processi decisionali.

Come passaggio successivo, ti invitiamo a provare il nuovo modello di classificazione personalizzata di Amazon Comprehend tramite il Console di Amazon Comprehend. Ti consigliamo inoltre di rivisitare i nostri annunci di miglioramento del modello di classificazione personalizzato da l'anno scorso e visitare il Repository GitHub per campioni di codice.

Circa gli autori

Anjan Biswas è un Senior AI Services Solutions Architect con un focus su AI/ML e Data Analytics. Anjan fa parte del team di servizi AI a livello mondiale e lavora con i clienti per aiutarli a comprendere e sviluppare soluzioni ai problemi aziendali con AI e ML. Anjan ha oltre 14 anni di esperienza di lavoro con organizzazioni globali di supply chain, produzione e vendita al dettaglio e sta attivamente aiutando i clienti a iniziare e scalare i servizi AWS AI.

Godwin Sahayaraj Vincent è un Enterprise Solutions Architect di AWS che è appassionato di Machine Learning e fornisce una guida ai clienti per progettare, distribuire e gestire i carichi di lavoro e le architetture AWS. Nel tempo libero ama giocare a cricket con i suoi amici e a tennis con i suoi tre figli.

Wrick Talukdar è un Senior Architect del team Amazon Comprehend Service. Lavora con i clienti AWS per aiutarli ad adottare il machine learning su larga scala. Al di fuori del lavoro, ama leggere e fotografare.