Testo Amazon è un servizio di machine learning (ML) che estrae automaticamente testo, grafia e dati dai documenti scansionati. Query è una funzionalità che consente di estrarre informazioni specifiche da documenti diversi e complessi utilizzando il linguaggio naturale. Query personalizzate fornisce un modo per personalizzare la funzione Query per documenti non standard specifici della tua azienda come contratti di prestito automatico, assegni ed estratti conto, in modo self-service. Personalizzando la funzionalità per riconoscere termini, strutture e informazioni chiave univoci specifici di questi tipi di documenti, è possibile soddisfare le esigenze di elaborazione a valle con maggiore precisione e un intervento umano minimo. Custom Queries è facile da integrare nella tua pipeline Textract esistente e potrai continuare a beneficiare delle funzionalità di elaborazione dei documenti intelligenti completamente gestite di Amazon Textract senza dover investire in competenze di ML o nella gestione dell'infrastruttura.
In questo post mostriamo come le query personalizzate possono estrarre con precisione i dati da assegni che sono documenti complessi e non standard. Inoltre, discutiamo dei vantaggi delle query personalizzate e condividiamo le migliori pratiche per utilizzare in modo efficace questa funzionalità.
Panoramica della soluzione
Quando inizi con un nuovo caso d'uso, puoi valutare il rendimento di Textract Queries sui tuoi documenti accedendo al file Console di testo e utilizzando la demo di analisi dei documenti o il caricamento di documenti in blocco. Fare riferimento a Best practice per le query per redigere query applicabili al tuo caso d'uso. Se identifichi errori nelle risposte alle query a causa della natura dei tuoi documenti aziendali, puoi utilizzare le query personalizzate per migliorare la precisione. Nel giro di poche ore, puoi annotare i tuoi documenti di esempio utilizzando il file Console di gestione AWS e addestrare un adattatore. Gli adattatori sono componenti che si collegano al modello di deep learning preaddestrato di Amazon Textract, personalizzandone l'output in base ai documenti annotati. È possibile utilizzare l'adattatore per l'inferenza passando l'identificatore dell'adattatore come parametro aggiuntivo al file Analizzare le query sui documenti Richiesta API.
Esaminiamo come Query personalizzate può migliorare la precisione dell'estrazione in uno scenario reale impegnativo come l'estrazione di dati dagli assegni. La sfida principale nell'elaborazione degli assegni deriva dal loro elevato grado di variazione a seconda del tipo (ad esempio, assegni personali o circolari), dell'istituto finanziario e del paese (ad esempio, formato della riga MICR). . Queste variazioni possono includere la posizione del nome del beneficiario, l'importo in numeri e parole, la data e la firma. Riconoscere e adattarsi a queste variazioni può essere un compito complesso durante l'estrazione dei dati. Per migliorare l'estrazione dei dati, le organizzazioni spesso utilizzano processi manuali di verifica e convalida, che aumentano i costi e i tempi del processo di estrazione.
Le query personalizzate affrontano queste sfide consentendo di personalizzare le funzionalità delle query preaddestrate sulle diverse varianti dei controlli. La personalizzazione della funzionalità pre-addestrata ti aiuta a ottenere un'elevata precisione di estrazione dei dati sulla varietà specifica di layout che elabori.
Nel nostro caso d'uso, un istituto finanziario desidera estrarre i seguenti campi da un assegno: nome del beneficiario, nome del pagatore, numero di conto, numero di routing, importo del pagamento (in numeri), importo del pagamento (in lettere), numero dell'assegno, data e promemoria.
Esploriamo il processo di generazione di un adattatore (componente che personalizza l'output) per l'elaborazione degli assegni. Gli adattatori possono essere creati tramite la console o a livello di codice tramite l'API. Questo post descrive in dettaglio l'esperienza della console; tuttavia, se desideri creare l'adattatore a livello di codice, fai riferimento agli esempi di codice nel file custom-queries-checks-blog.ipynb Taccuino Jupyter (Opzione 2).
Il processo di generazione dell'adattatore prevede cinque passaggi di alto livello: creare un adattatore, caricare documenti di esempio, annotare i documenti, addestrare l'adattatore e valutare i parametri delle prestazioni.
Crea un adattatore
Nella console Amazon Textract, crea un nuovo adattatore fornendo un nome, una descrizione e tag facoltativi che possano aiutarti a identificare l'adattatore. Hai la possibilità di abilitare gli aggiornamenti automatici, che consentono ad Amazon Textract di aggiornare l'adattatore quando la funzionalità Query sottostante viene aggiornata con nuove funzionalità.
Dopo aver creato l'adattatore, verrà visualizzata una pagina dei dettagli dell'adattatore con un elenco di passaggi nel file Come funziona sezione. Questa sezione attiverà i passaggi successivi man mano che li completi in sequenza.
Carica documenti di esempio
La fase iniziale nella generazione dell'adattatore prevede l'attenta selezione di un set appropriato di documenti campione per l'annotazione, il training e il test. Abbiamo un'opzione per dividere automaticamente i documenti in set di dati di test e training; tuttavia, per questo processo, dividiamo manualmente il set di dati.
È importante notare che è possibile costruire un adattatore con un minimo di cinque campioni di test e cinque di training, ma è essenziale garantire che questo set di campioni sia diversificato e rappresentativo del carico di lavoro riscontrato in un ambiente di produzione.
Per questo tutorial, abbiamo selezionato set di dati di controllo di esempio che puoi scaricare. Il nostro set di dati include variazioni come assegni personali, assegni circolari, assegni di stimolo e assegni incorporati nelle buste paga. Abbiamo incluso anche assegni scritti a mano e stampati; insieme a variazioni in campi come la riga del promemoria.
Annotare documenti di esempio
Come passaggio successivo, annoti i documenti di esempio associando le query alle risposte corrispondenti tramite la console. È possibile avviare l'annotazione tramite l'etichettatura automatica o l'etichettatura manuale. L'etichettatura automatica utilizza le query Amazon Textract per preetichettare il set di dati. Ti consigliamo di utilizzare l'etichettatura automatica per accelerare il processo di annotazione.
Per questo caso d'uso di elaborazione dei controlli, utilizziamo le seguenti query. Se il tuo caso d'uso coinvolge altri tipi di documenti, fai riferimento a Best practice per le query per redigere query applicabili al tuo caso d'uso.
- Chi è il beneficiario?
- Qual è l'assegno n.?
- Qual è l'indirizzo del beneficiario?
- Qual è la data?
- Qual è il conto#?
- Qual è l'importo dell'assegno in parole?
- Qual è il nome del conto/pagatore/traente?
- Qual è l'importo in dollari?
- Qual è il nome della banca/nome del trattario?
- Qual è il numero di routing della banca?
- Cos'è la linea MICR?
- Cos'è il promemoria?
Una volta completato il processo di etichettatura automatica, hai la possibilità di rivedere e apportare modifiche alle risposte fornite per ciascun documento. Scegliere Inizia a rivedere per rivedere le annotazioni rispetto a ciascuna immagine.
Se la risposta a una query manca o è sbagliata, puoi aggiungere o modificare la risposta disegnando un riquadro di delimitazione o inserendo la risposta manualmente.
Per accelerare la procedura dettagliata, abbiamo pre-annotato gli esempi di controlli da copiare sul tuo account AWS. Corri il custom-queries-checks-blog.ipynb Taccuino Jupyter all'interno del Esempi di codice Amazon Textract libreria per aggiornare automaticamente le tue annotazioni.
Addestrare l'adattatore
Dopo aver esaminato tutti i documenti di esempio per garantire l'accuratezza delle annotazioni, puoi iniziare il processo di formazione dell'adattatore. Durante questo passaggio, è necessario designare una posizione di archiviazione in cui salvare l'adattatore. La durata del processo di addestramento varierà a seconda delle dimensioni del set di dati utilizzato per l'addestramento. L'API di training può anche essere richiamata a livello di codice se si sceglie di utilizzare uno strumento di annotazione di propria scelta e passare i file di input pertinenti all'API. Fare riferimento a Query personalizzate per ulteriori dettagli.
Valutare le metriche delle prestazioni
Una volta completata la formazione dell'adattatore, è possibile valutarne le prestazioni esaminando le metriche di valutazione come punteggio F1, precisione e richiamo. È possibile analizzare questi parametri collettivamente o in base al documento. Utilizzando il nostro set di dati dei controlli di esempio, vedrai che la metrica di precisione (punteggio F1) migliorerà dal 68% al 92% con l'adattatore addestrato.
Inoltre, puoi testare l'output dell'adattatore su nuovi documenti scegliendo Prova l'adattatore.
Dopo la valutazione, puoi scegliere di migliorare le prestazioni dell'adattatore incorporando ulteriori documenti di esempio nel set di dati di training o annotando nuovamente i documenti con punteggi inferiori alla soglia. Per annotare nuovamente i documenti, scegliere Verificare i documenti nella pagina dei dettagli dell'adattatore, seleziona il documento e scegli Rivedi le annotazioni.
Testare l'adattatore a livello di codice
Una volta completata con successo la formazione, ora puoi utilizzare l'adattatore nel tuo AnalizzaDocumento Chiamate API. La richiesta API è simile alla richiesta API Amazon Textract Queries, con l'aggiunta del file AdaptersConfig
oggetto.
È possibile eseguire il seguente codice di esempio o eseguirlo direttamente all'interno del file custom-queries-checks-blog.ipynb Taccuino di Giove. Il notebook di esempio fornisce inoltre il codice per confrontare i risultati tra le query Amazon Textract e le query personalizzate Amazon Textract.
Creare un AdattatoriConfig oggetto con l'ID dell'adattatore e la versione dell'adattatore e facoltativamente includere le pagine a cui si desidera applicare l'adattatore:
Creare un QueriesConfig
oggetto con le query con cui hai addestrato l'adattatore e chiama l'API Amazon Textract. Tieni presente che puoi anche includere query aggiuntive per le quali l'adattatore non è stato addestrato. Amazon Textract utilizzerà automaticamente la funzionalità Query per queste domande e non le query personalizzate, offrendoti così la flessibilità di utilizzare le query personalizzate solo dove necessario.
Infine, tabuliamo i nostri risultati per una migliore leggibilità:
ripulire
Per ripulire le tue risorse, completa i seguenti passaggi:
- Nella console Amazon Textract, scegli Query personalizzate nel pannello di navigazione.
- Seleziona l'adattatore che desideri eliminare.
- Scegli Elimina.
Gestione dell'adattatore
Puoi migliorare regolarmente i tuoi adattatori creando nuove versioni di un adattatore generato in precedenza. Per creare una nuova versione di un adattatore, aggiungi nuovi documenti di esempio a un adattatore esistente, etichetta i documenti ed esegui il training. Puoi gestire contemporaneamente più versioni di un adattatore da utilizzare nelle pipeline di sviluppo. Per aggiornare i tuoi adattatori senza problemi, non apportare modifiche o eliminare i tuoi Servizio di archiviazione semplice Amazon (Amazon S3) bucket in cui vengono salvati i file necessari per la generazione dell'adattatore.
Buone pratiche
Quando utilizzi le query personalizzate sui tuoi documenti, fai riferimento a Best practice per le query personalizzate di Amazon Textract per ulteriori considerazioni e best practice.
Vantaggi delle query personalizzate
Le query personalizzate offrono i seguenti vantaggi:
- Migliore comprensione dei documenti – Grazie alla sua capacità di estrarre e normalizzare i dati con elevata precisione, Custom Query riduce la dipendenza da revisioni e audit manuali e consente di creare un'automazione più affidabile per i flussi di lavoro di elaborazione intelligente dei documenti.
- Time-to-value più rapido – Quando incontri nuovi tipi di documenti in cui è necessaria una maggiore precisione, puoi utilizzare le query personalizzate per generare un adattatore in modalità self-service entro poche ore. Non devi attendere un aggiornamento del modello pre-addestrato quando incontri nuovi tipi di documenti o variazioni di quelli esistenti nel tuo flusso di lavoro. Hai il controllo completo sulla tua pipeline e non hai bisogno di dipendere da Amazon Textract per supportare i tuoi nuovi tipi di documenti.
- Privacy dei dati – Le query personalizzate non conservano né utilizzano i dati utilizzati nella generazione degli adattatori per migliorare i nostri modelli generali preaddestrati disponibili per tutti i clienti. L'adattatore è limitato all'account del cliente o ad altri account esplicitamente designati dal cliente, garantendo che solo tali account possano accedere ai miglioramenti apportati utilizzando i dati del cliente.
- Convenienza –Le query personalizzate forniscono un'esperienza di inferenza completamente gestita simile alle query. La formazione sull'adattatore è gratuita e pagherai solo per l'inferenza. Le query personalizzate ti fanno risparmiare i costi generali e le spese di formazione e utilizzo di modelli personalizzati.
Conclusione
In questo post abbiamo discusso i vantaggi delle query personalizzate, mostrato come le query personalizzate possano estrarre accuratamente i dati dai controlli e condiviso le migliori pratiche per utilizzare in modo efficace questa funzionalità. In poche ore puoi creare un adattatore utilizzando la console e utilizzarlo nell'API AnalyseDocument per le tue esigenze di estrazione dei dati. Per ulteriori informazioni, fare riferimento a Query personalizzate.
Circa gli autori
Shibin Michaelraj è un Product Manager senior presso il team di Amazon Textract. Si concentra sulla creazione di prodotti basati su AI/ML per i clienti AWS. È entusiasta di aiutare i clienti a risolvere le loro complesse sfide aziendali sfruttando le tecnologie AI e ML. Nel tempo libero gli piace correre, sintonizzarsi sui podcast e affinare le sue abilità tennistiche amatoriali.
Keith Mascarenhas è un Sr. Solutions Architect del team di assistenza Amazon Textract. La sua passione è risolvere problemi aziendali su larga scala utilizzando l'apprendimento automatico e attualmente aiuta i nostri clienti in tutto il mondo ad automatizzare l'elaborazione dei documenti per ottenere tempi di commercializzazione più rapidi con costi operativi ridotti.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- :ha
- :È
- :non
- :Dove
- $ SU
- 1
- 10
- 100
- 17
- 36
- 7
- a
- capacità
- Chi siamo
- accelerare
- accesso
- Il mio account
- conti
- precisione
- con precisione
- Raggiungere
- adattamento
- aggiungere
- aggiunta
- aggiuntivo
- indirizzo
- indirizzi
- contro
- AI
- Tutti
- consente
- lungo
- anche
- dilettante
- Amazon
- Testo Amazon
- Amazon Web Services
- quantità
- an
- analizzare
- ed
- risposte
- api
- applicabile
- applicato
- opportuno
- SONO
- AS
- valutare
- At
- audit
- auto
- automatizzare
- Automatico
- automaticamente
- Automazione
- disponibile
- AWS
- Banca
- basato
- base
- BE
- stato
- iniziare
- beneficio
- vantaggi
- MIGLIORE
- best practice
- Meglio
- fra
- Scatola
- costruire
- Costruzione
- affari
- ma
- by
- chiamata
- Bandi
- Materiale
- funzionalità
- attento
- Custodie
- Challenge
- sfide
- impegnativo
- Modifiche
- dai un'occhiata
- Controlli
- scegliere
- Scegli
- la scelta
- cavedano
- codice
- collettivamente
- confrontare
- completamento di una
- Completato
- complesso
- componente
- componenti
- Considerazioni
- consolle
- costruire
- continua
- contratti
- di controllo
- Corrispondente
- Costo
- Costi
- nazione
- creare
- creato
- Creazione
- a cura
- Attualmente
- costume
- cliente
- Clienti
- personalizzazione
- personalizzare
- dati
- dataset
- Data
- deep
- apprendimento profondo
- Laurea
- dimostrazione
- Dipendente
- descrizione
- designato
- dettagli
- Mercato
- diverso
- direttamente
- discutere
- discusso
- paesaggio differenziato
- do
- documento
- documenti
- effettua
- Dollaro
- Dont
- bozza
- disegno
- dovuto
- durata
- durante
- e
- ogni
- facile
- in maniera efficace
- o
- incorporato
- occupato
- enable
- Abilita
- consentendo
- accrescere
- garantire
- assicurando
- entrare
- Ambiente
- errori
- essential
- valutare
- valutazione
- esaminare
- esaminando
- eccitato
- esistente
- spese
- esperienza
- competenza
- espressamente
- esplora
- estratto
- estrazione
- estratti
- f1
- più veloce
- caratteristica
- Caratteristiche
- pochi
- campi
- File
- finanziario
- istituzione finanziaria
- cinque
- Flessibilità
- concentrato
- i seguenti
- Nel
- formato
- Gratis
- da
- completamente
- Generale
- generare
- generato
- la generazione di
- ELETTRICA
- GitHub
- maggiore
- Avere
- avendo
- he
- Aiuto
- aiutare
- aiuta
- Alta
- alto livello
- superiore
- il suo
- ORE
- Come
- Tuttavia
- HTML
- http
- HTTPS
- umano
- ID
- identificatore
- identificare
- if
- Immagine
- importare
- importante
- competenze
- miglioramenti
- in
- includere
- incluso
- inclusi
- incorporando
- Aumenta
- informazioni
- Infrastruttura
- inizialmente
- avviare
- ingresso
- install
- Istituzione
- integrare
- Intelligente
- Elaborazione intelligente dei documenti
- intervento
- ai miglioramenti
- Investire
- invocato
- IT
- SUO
- jpg
- ad appena
- Le
- Discografica
- etichettatura
- Lingua
- apprendimento
- prestito
- leveraging
- Biblioteca
- piace
- Limitato
- linea
- Lista
- località
- inferiore
- macchina
- machine learning
- fatto
- mantenere
- make
- gestito
- gestione
- direttore
- modo
- Manuale
- manualmente
- Rappresentanza
- Soddisfare
- Promemoria
- metrico
- Metrica
- minimo
- mancante
- ML
- modello
- modelli
- Scopri di più
- multiplo
- Nome
- Naturale
- Natura
- navigazione
- Navigazione
- Bisogno
- di applicazione
- esigenze
- New
- GENERAZIONE
- taccuino
- adesso
- numero
- numeri
- oggetto
- of
- Offerte
- di frequente
- on
- quelli
- esclusivamente
- operativo
- operativa
- Opzione
- or
- organizzazioni
- Altro
- nostro
- produzione
- ancora
- proprio
- pagina
- pagine
- vetro
- parametro
- passare
- Di passaggio
- appassionato
- Paga le
- Pagamento
- Eseguire
- performance
- esegue
- cronologia
- fase
- pezzi
- conduttura
- collocamento
- Platone
- Platone Data Intelligence
- PlatoneDati
- spina
- Podcast
- Post
- pratiche
- Precisione
- in precedenza
- primario
- problemi
- processi
- i processi
- lavorazione
- Prodotto
- product manager
- Produzione
- Prodotti
- purché
- fornisce
- fornitura
- query
- Domande
- mondo reale
- riconoscere
- riconoscendo
- raccomandare
- Ridotto
- riduce
- riferimento
- raffinazione
- regolarmente
- pertinente
- affidabile
- fiducia
- rappresentante
- richiesta
- Risorse
- risposta
- risposte
- Risultati
- conservare
- recensioni
- rivisto
- Recensioni
- instradamento
- Correre
- running
- salvato
- Scala
- scenario
- Punto
- senza soluzione di continuità
- Sezione
- vedere
- prodotti
- Fai da te
- servizio
- Servizi
- set
- Condividi
- condiviso
- dovrebbero
- mostrare attraverso le sue creazioni
- ha mostrato
- firma
- simile
- Un'espansione
- contemporaneamente
- Taglia
- abilità
- Soluzioni
- RISOLVERE
- Soluzione
- specifico
- dividere
- Di partenza
- dichiarazioni
- step
- Passi
- stimolo
- controlli di stimolo
- conservazione
- strutture
- Con successo
- tale
- supporto
- Task
- team
- Tecnologie
- condizioni
- test
- Testing
- testo
- di
- che
- I
- loro
- Li
- in tal modo
- Strumenti Bowman per analizzare le seguenti finiture:
- questo
- soglia
- Attraverso
- tempo
- a
- Treni
- allenato
- Training
- TRP
- sintonia
- lezione
- Digitare
- Tipi di
- sottostante
- unico
- Aggiornanento
- aggiornato
- Aggiornamenti
- uso
- caso d'uso
- usa
- utilizzando
- utilizzati
- Utilizzando
- convalida
- varietà
- variando
- Convalida
- versione
- versioni
- via
- aspettare
- walkthrough
- volere
- vuole
- Modo..
- we
- sito web
- servizi web
- Che
- Che cosa è l'
- quando
- quale
- OMS
- wikipedia
- volere
- con
- entro
- senza
- parole
- flusso di lavoro
- flussi di lavoro
- In tutto il mondo
- Wrong
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro
- Codice postale