amazontekst er en maskinlæringstjeneste (ML) som muliggjør automatisk uttrekking av tekst, håndskrift og data fra skannede dokumenter, og overgår tradisjonell optisk tegngjenkjenning (OCR). Den kan identifisere, forstå og trekke ut data fra tabeller og skjemaer med bemerkelsesverdig nøyaktighet. For tiden er flere selskaper avhengige av manuelle utvinningsmetoder eller grunnleggende OCR-programvare, som er kjedelig og tidkrevende, og krever manuell konfigurasjon som må oppdateres når skjemaet endres. Amazon Textract hjelper til med å løse disse utfordringene ved å bruke ML til å automatisk behandle ulike dokumenttyper og nøyaktig trekke ut informasjon med minimal manuell intervensjon. Dette gjør at du kan automatisere dokumentbehandlingen og bruke de utpakkede dataene til ulike formål, for eksempel automatisering av lånebehandling eller innhenting av informasjon fra fakturaer og kvitteringer.
Ettersom reisen gjenopptas etter pandemien, kan det i mange tilfeller være nødvendig å bekrefte en reisendes vaksinasjonsstatus. Hoteller og reisebyråer må ofte gjennomgå vaksinasjonskort for å samle inn viktige detaljer som om den reisende er fullt vaksinert, vaksinedatoer og den reisendes navn. Noen byråer gjør dette gjennom manuell verifisering av kort, noe som kan være tidkrevende for ansatte og gir rom for menneskelige feil. Andre har bygget tilpassede løsninger, men disse kan være kostbare og vanskelige å skalere, og ta betydelig tid å implementere. Fremover kan det være muligheter for å effektivisere verifiseringsprosessen for vaksinasjonsstatus på en måte som er effektiv for bedrifter, samtidig som reisendes personvern og bekvemmelighet respekteres.
Amazon Textract-spørringer bidrar til å takle disse utfordringene. Amazon Textract Queries lar deg spesifisere og trekke ut bare informasjonen du trenger fra dokumentet. Det gir deg presis og nøyaktig informasjon fra dokumentet.
I dette innlegget leder vi deg gjennom en trinn-for-trinn implementeringsveiledning for å bygge en løsning for verifisering av vaksinasjonsstatus ved å bruke Amazon Textract Queries. Løsningen viser hvordan du behandler vaksinasjonskort ved hjelp av en Amazon Textract-forespørsel, verifiserer vaksinasjonsstatusen og lagrer informasjonen for fremtidig bruk.
Løsningsoversikt
Følgende diagram illustrerer løsningsarkitekturen.
Arbeidsflyten inkluderer følgende trinn:
- Brukeren tar bilde av et vaksinasjonskort.
- Bildet er lastet opp til en Amazon enkel lagringstjeneste (Amazon S3) bøtte.
- Når bildet blir lagret i S3-bøtten, påkaller det en AWS trinnfunksjoner arbeidsflyt:
- Spørsmålsavgjøreren AWS Lambda funksjonen undersøker dokumentet som sendes inn og legger til informasjon om mime-typen, antall sider og antall spørringer til arbeidsflyten Step Functions (for eksempelet vårt har vi fire spørringer).
NumberQueriesAndPagesChoice
er en valgtilstand som legger til betinget logikk til en arbeidsflyt. Hvis det er mellom 15–31 spørringer og antall sider er mellom 2–3,001 15, så er Amazon Textract asynkron behandling det eneste alternativet, fordi synkrone APIer kun støtter opptil XNUMX spørringer og énsides dokumenter. For alle andre tilfeller ruter vi til det tilfeldige utvalget av synkron eller asynkron behandling.- De
TextractSync
Lambda-funksjonen sender en forespørsel til Amazon Textract om å analysere dokumentet basert på følgende Amazon Textract-spørringer:- Hva er vaksinasjonsstatus?
- Hva er navn?
- Hva er fødselsdato?
- Hva er dokumentnummer?
- Amazon Textract analyserer bildet og sender svarene på disse spørsmålene tilbake til Lambda-funksjonen.
- Lambda-funksjonen verifiserer kundens vaksinasjonsstatus og lagrer sluttresultatet i CSV-format i samme S3-bøtte (
demoqueries-textractxxx
) Icsv-output
mappe.
Forutsetninger
For å fullføre denne løsningen bør du ha en AWS-konto og de nødvendige tillatelsene til å opprette ressursene som kreves som en del av løsningen.
Last ned distribusjonskoden og prøvevaksinasjonskortet fra GitHub.
Bruk Queries-funksjonen på Amazon Textract-konsollen
Før du bygger løsningen for vaksinasjonsverifisering, la oss utforske hvordan du kan bruke Amazon Textract Queries til å trekke ut vaksinasjonsstatus via Amazon Textract-konsollen. Du kan bruke vaksinasjonskortprøven du lastet ned fra GitHub-repoen.
- På Amazon Textract-konsollen velger du Analyser dokumentet i navigasjonsruten.
- Under Last opp dokument, velg Velg dokument for å laste opp vaksinasjonskortet fra din lokale stasjon.
- Etter at du har lastet opp dokumentet, velg Spørringer i Konfigurer dokument seksjon.
- Du kan deretter legge til spørsmål i form av spørsmål om naturlig språk. La oss legge til følgende:
- Hva er vaksinasjonsstatus?
- Hva er navn?
- Hva er fødselsdato?
- Hva er dokumentnummer?
- Når du har lagt til alle søkene dine, velger du Bruk konfigurasjon.
- Sjekk spørringene fanen for å se svarene på spørsmålene.
Du kan se at Amazon Textract trekker ut svaret på spørsmålet ditt fra dokumentet.
Implementer vaksinasjonsverifiseringsløsningen
I dette innlegget bruker vi en AWS Cloud9 forekomst og installer de nødvendige avhengighetene til forekomsten med AWS skyutviklingssett (AWS CDK) og Docker. AWS Cloud9 er et skybasert integrert utviklingsmiljø (IDE) som lar deg skrive, kjøre og feilsøke koden din med bare en nettleser.
- I terminalen velger du Last opp lokale filer på filet menyen.
- Velg Velg mappe og velg
vaccination_verification_solution
mappen du lastet ned fra GitHub. - I terminalen forbereder du den serverløse applikasjonen din for påfølgende trinn i utviklingsarbeidsflyten din AWS-serverløs applikasjonsmodell (AWS SAM) ved å bruke følgende kommando:
- Distribuer applikasjonen ved å bruke
cdk deploy
kommando:Vent til AWS CDK skal distribuere modellen og opprette ressursene nevnt i malen.
- Når distribusjonen er fullført, kan du sjekke de distribuerte ressursene på AWS skyformasjon konsoll på Ressurser fanen på stabeldetaljsiden.
Test løsningen
Nå er det på tide å teste løsningen. For å utløse arbeidsflyten, bruk aws s3 cp
å laste opp vac_card.jpg
filen til DemoQueries.DocumentUploadLocation
inne i docs-mappen:
Vaksinasjonssertifikatfilen lastes automatisk opp til S3-bøtten demoqueries-textractxxx
i opplastingsmappen.
Step Functions-arbeidsflyten utløses via en Lambda-funksjon så snart vaksinasjonssertifikatfilen er lastet opp til S3-bøtten.
Queries-Decider Lambda-funksjonen undersøker dokumentet og legger til informasjon om mime-typen, antall sider og antall spørringer i arbeidsflyten Step Functions (for dette eksempelet bruker vi fire spørringer – dokumentnummer, kundenavn, dato for fødsel og vaksinasjonsstatus).
De TextractSync
funksjonen sender inndataspørringene til Amazon Textract og returnerer synkront hele resultatet som en del av svaret. Den støtter 1-sides dokumenter (TIFF, PDF, JPG, PNG) og opptil 15 søk. De GenerateCsvTask
funksjonen tar JSON-utdata fra Amazon Textract og konverterer den til en CSV-fil.
Den endelige utgangen lagres i den samme S3-bøtten i csv-output-mappen som en CSV-fil.
Du kan laste ned filen til din lokale maskin ved å bruke følgende kommando:
Formatet på resultatet er timestamp
, classification
, filename
, page number
, key name
, key_confidence
, value
, value_confidence
, key_bb_top
, key_bb_height
, key_bb.width
, key_bb_left
, value_bb_top
, value_bb_height
, value_bb_width
, value_bb_left
.
Du kan skalere løsningen til hundrevis av vaksinasjonssertifikatdokumenter for flere kunder ved å laste opp vaksinasjonssertifikatene deres til DemoQueries.DocumentUploadLocation
. Dette utløser automatisk flere kjøringer av Step Functions-tilstandsmaskinen, og det endelige resultatet lagres i samme S3-bøtte i csv-output-mappen.
For å endre det første settet med spørringer som mates inn i Amazon Textract, kan du gå til AWS Cloud9-forekomsten og åpne start_execution.py-filen. I filvisningen i venstre rute, naviger til lambda, start_queries
, app
, start_execution.py
. Denne Lambda-funksjonen aktiveres når en fil lastes opp til DemoQueries.DocumentUploadLocation
. Spørringene som sendes til arbeidsflyten er definert i start_execution.py
; du kan endre disse ved å oppdatere koden som vist i følgende skjermbilde.
Rydd opp
For å unngå å pådra seg løpende kostnader, slett ressursene som er opprettet i dette innlegget ved å bruke følgende kommando:
Svar på spørsmålet Are you sure you want to delete: DemoQueries (y/n)?
med y.
konklusjonen
I dette innlegget viste vi deg hvordan du bruker Amazon Textract Queries for å bygge en vaksinasjonsverifiseringsløsning for reisebransjen. Du kan bruke Amazon Textract Queries til å bygge løsninger i andre bransjer som finans og helsevesen, og hente informasjon fra dokumenter som lønnsslipper, pantsedler og forsikringskort basert på spørsmål om naturlig språk.
For mer informasjon, se Analysere dokumenter, eller sjekk ut Amazon Textract-konsollen og prøv denne funksjonen.
Om forfatterne
Dhiraj Thakur er en løsningsarkitekt med Amazon Web Services. Han jobber med AWS-kunder og partnere for å gi veiledning om cloud-adopsjon, migrasjon og strategi for enterprise. Han er lidenskapelig opptatt av teknologi og liker å bygge og eksperimentere i analytics og AI / ML-rommet.
Rishabh Yadav er en Partner Solutions-arkitekt hos AWS med omfattende bakgrunn innen DevOps og sikkerhetstilbud hos AWS. Han samarbeider med ASEAN-partnere for å gi veiledning om skyadopsjon og arkitekturgjennomganger for bedrifter sammen med å bygge AWS-praksis gjennom implementeringen av Well-Architected Framework. Utenom jobben bruker han gjerne tiden sin på idrettsplassen og FPS-spilling.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
- PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
- PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
- PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/build-a-vaccination-verification-solution-using-the-queries-feature-in-amazon-textract/
- :er
- $OPP
- 001
- 100
- 15%
- 1930
- 2468
- 258
- 7
- 8
- a
- Om oss
- Logg inn
- nøyaktighet
- nøyaktig
- nøyaktig
- legge til
- adresse
- Legger
- Adopsjon
- byråer
- AI / ML
- Alle
- tillater
- langs
- Amazon
- amazontekst
- Amazon Web Services
- an
- analytics
- analysere
- analyser
- og
- besvare
- svar
- APIer
- Søknad
- hensiktsmessig
- arkitektur
- ER
- AS
- Asean
- At
- automatisere
- Automatisk
- automatisk
- Automatisere
- unngå
- AWS
- AWS Cloud9
- AWS skyformasjon
- tilbake
- bakgrunn
- basert
- grunnleggende
- BE
- fordi
- mellom
- fødsel
- nett~~POS=TRUNC leseren~~POS=HEADCOMP
- bygge
- Bygning
- bygget
- bedrifter
- men
- by
- CAN
- kort
- Kort
- saker
- CD
- sertifikat
- sertifikater
- utfordringer
- endring
- Endringer
- karakter
- karaktergjenkjenning
- avgifter
- sjekk
- valg
- Velg
- Cloud
- skyadopsjon
- Cloud9
- kode
- Selskaper
- fullføre
- Konfigurasjon
- Konsoll
- bekvemmelighet
- kostbar
- skape
- opprettet
- skikk
- kunde
- Kunder
- dato
- Dato
- datoer
- definert
- avhengig
- utplassere
- utplassert
- distribusjon
- ødelegge
- detaljer
- Utvikling
- forskjellig
- vanskelig
- do
- Docker
- dokument
- dokumenter
- nedlasting
- stasjonen
- effektiv
- muliggjør
- Enterprise
- Miljø
- feil
- undersøker
- eksempel
- utforske
- omfattende
- trekke ut
- utdrag
- ekstrakter
- Trekk
- Fed
- felt
- filet
- slutt~~POS=TRUNC
- finansiere
- etter
- Til
- skjema
- format
- skjemaer
- Forward
- fire
- fps
- Rammeverk
- fra
- fullt
- fullt
- funksjon
- funksjoner
- framtid
- gaming
- samle
- samle
- GitHub
- gir
- Go
- veiledning
- veilede
- Ha
- he
- helsetjenester
- hjelper
- hans
- hoteller
- Hvordan
- Hvordan
- HTML
- http
- HTTPS
- menneskelig
- Hundrevis
- identifisere
- if
- illustrerer
- bilde
- iverksette
- gjennomføring
- viktig
- in
- I andre
- inkluderer
- bransjer
- industri
- informasjon
- innledende
- inngang
- innsiden
- installere
- f.eks
- forsikring
- integrert
- intervensjon
- inn
- fakturaer
- påkalt
- påkaller
- IT
- jpg
- JSON
- bare
- Språk
- læring
- venstre
- Lar
- i likhet med
- liker
- Lån
- lokal
- logikk
- maskin
- maskinlæring
- håndbok
- mange
- Kan..
- nevnt
- Meny
- metoder
- migrasjon
- minimal
- ML
- modell
- mer
- Boliglån
- flytting
- flere
- navn
- Naturlig
- Naviger
- Navigasjon
- nødvendig
- Trenger
- behov
- Merknader
- Antall
- OCR
- OCR-programvare
- of
- tilbud
- ofte
- on
- pågående
- bare
- åpen
- Muligheter
- Optisk karaktergjenkjennelse
- Alternativ
- or
- Annen
- andre
- vår
- ut
- produksjon
- utenfor
- side
- sider
- brød
- del
- partner
- partnere
- bestått
- lidenskapelig
- tillatelser
- bilde
- brikke
- plato
- Platon Data Intelligence
- PlatonData
- Post
- post-pandemi
- praksis
- presis
- Forbered
- i dag
- privatliv
- prosess
- prosessering
- gi
- formål
- spørsmål
- spørsmål
- spørsmål
- tilfeldig
- kvitteringer
- anerkjennelse
- avhengige
- bemerkelsesverdig
- anmode
- påkrevd
- Krav
- Krever
- Ressurser
- respektere
- svar
- resultere
- avkastning
- anmeldelse
- Anmeldelser
- rom
- Rute
- Kjør
- går
- Sam
- samme
- lagret
- Skala
- Seksjon
- sikkerhet
- se
- velg
- utvalg
- sender
- sendt
- server~~POS=TRUNC
- tjeneste
- Tjenester
- sett
- flere
- bør
- viste
- vist
- signifikant
- Enkelt
- Software
- løsning
- Solutions
- LØSE
- noen
- snart
- Rom
- bruke
- Sports
- stable
- Staff
- Tilstand
- status
- Trinn
- Steps
- lagring
- oppbevare
- lagret
- butikker
- Strategi
- effektivisere
- senere
- slik
- støtte
- Støtter
- sikker
- overgår
- Ta
- tar
- Teknologi
- langtekkelig
- mal
- terminal
- test
- tekst
- Det
- De
- informasjonen
- deres
- deretter
- Der.
- Disse
- denne
- De
- Gjennom
- tid
- tidkrevende
- til
- tradisjonelle
- reiser
- reiseindustri
- reisende
- utløse
- utløst
- prøve
- typen
- typer
- forstå
- oppdatering
- lastet opp
- Opplasting
- URL
- bruke
- Bruker
- ved hjelp av
- utnytte
- Vaksine
- verdi
- Verifisering
- verifisere
- verifisere
- av
- Se
- gå
- ønsker
- Vei..
- we
- web
- webtjenester
- når
- om
- hvilken
- mens
- med
- Arbeid
- arbeidsflyt
- virker
- skrive
- Du
- Din
- zephyrnet