amazontext är en maskininlärningstjänst (ML) som möjliggör automatisk extrahering av text, handskrift och data från skannade dokument, vilket överträffar traditionell optisk teckenigenkänning (OCR). Den kan identifiera, förstå och extrahera data från tabeller och formulär med anmärkningsvärd noggrannhet. För närvarande förlitar sig flera företag på manuella extraktionsmetoder eller grundläggande OCR-mjukvara, vilket är tråkigt och tidskrävande, och kräver manuell konfiguration som behöver uppdateras när formuläret ändras. Amazon Textract hjälper till att lösa dessa utmaningar genom att använda ML för att automatiskt bearbeta olika dokumenttyper och exakt extrahera information med minimal manuell inblandning. Detta gör att du kan automatisera dokumentbehandlingen och använda de extraherade uppgifterna för olika ändamål, såsom att automatisera lånehanteringen eller samla information från fakturor och kvitton.
Eftersom resor återupptas efter pandemin kan det i många fall krävas att en resenärs vaccinationsstatus verifieras. Hotell och resebyråer behöver ofta granska vaccinationskort för att samla in viktiga detaljer som om resenären är helt vaccinerad, vaccinationsdatum och resenärens namn. Vissa byråer gör detta genom manuell verifiering av kort, vilket kan vara tidskrävande för personalen och lämnar utrymme för mänskliga fel. Andra har byggt skräddarsydda lösningar, men dessa kan vara dyra och svåra att skala och ta mycket tid att implementera. Framöver kan det finnas möjligheter att effektivisera processen för verifiering av vaccinationsstatus på ett sätt som är effektivt för företag samtidigt som resenärernas integritet och bekvämlighet respekteras.
Amazon Textract-frågor hjälper till att hantera dessa utmaningar. Amazon Textract Queries låter dig specificera och extrahera endast den information du behöver från dokumentet. Det ger dig exakt och korrekt information från dokumentet.
I det här inlägget går vi igenom en steg-för-steg implementeringsguide för att bygga en lösning för verifiering av vaccinationsstatus med hjälp av Amazon Textract Queries. Lösningen visar hur man behandlar vaccinationskort med hjälp av en Amazon Textract-fråga, verifierar vaccinationsstatusen och lagrar informationen för framtida bruk.
Lösningsöversikt
Följande diagram illustrerar lösningsarkitekturen.
Arbetsflödet innehåller följande steg:
- Användaren tar ett foto av ett vaccinationskort.
- Bilden laddas upp till en Amazon enkel lagringstjänst (Amazon S3) hink.
- När bilden sparas i S3-hinken, anropar den en AWS stegfunktioner arbetsflöde:
- Frågebeslutaren AWS Lambda funktion undersöker dokumentet som skickas in och lägger till information om mime-typen, antalet sidor och antalet frågor till arbetsflödet för Step Functions (till exempel har vi fyra frågor).
NumberQueriesAndPagesChoice
är ett valtillstånd som lägger till villkorlig logik till ett arbetsflöde. Om det finns mellan 15–31 frågor och antalet sidor är mellan 2–3,001 15, så är Amazon Textract asynkron bearbetning det enda alternativet, eftersom synkrona API:er endast stöder upp till XNUMX frågor och ensidiga dokument. För alla andra fall går vi till det slumpmässiga urvalet av synkron eller asynkron bearbetning.- Smakämnen
TextractSync
Lambda-funktionen skickar en begäran till Amazon Textract för att analysera dokumentet baserat på följande Amazon Textract-frågor:- Vad är vaccinationsstatus?
- Vad är namn?
- Vad är födelsedatum?
- Vad är dokumentnummer?
- Amazon Textract analyserar bilden och skickar svaren på dessa frågor tillbaka till Lambda-funktionen.
- Lambdafunktionen verifierar kundens vaccinationsstatus och lagrar slutresultatet i CSV-format i samma S3-hink (
demoqueries-textractxxx
) Icsv-output
mapp.
Förutsättningar
För att slutföra den här lösningen bör du ha ett AWS-konto och lämpliga behörigheter för att skapa de resurser som krävs som en del av lösningen.
Ladda ner distributionskoden och provvaccinationskortet från GitHub.
Använd Queries-funktionen på Amazon Textract-konsolen
Innan du bygger vaccinationsverifieringslösningen, låt oss utforska hur du kan använda Amazon Textract Queries för att extrahera vaccinationsstatus via Amazon Textract-konsolen. Du kan använda provet av vaccinationskortet som du laddade ner från GitHub-repo.
- Välj på Amazon Textract-konsolen Analysera dokument i navigeringsfönstret.
- Enligt Ladda upp dokumentväljer Välj dokument för att ladda upp vaccinationskortet från din lokala enhet.
- När du har laddat upp dokumentet väljer du Frågor i Konfigurera dokument sektion.
- Du kan sedan lägga till frågor i form av naturliga språkfrågor. Låt oss lägga till följande:
- Vad är vaccinationsstatus?
- Vad är namn?
- Vad är födelsedatum?
- Vad är dokumentnummer?
- När du har lagt till alla dina frågor väljer du Tillämpa konfiguration.
- Kontrollera frågorna fliken för att se svaren på frågorna.
Du kan se att Amazon Textract extraherar svaret på din fråga från dokumentet.
Implementera vaccinationsverifieringslösningen
I det här inlägget använder vi en AWS Cloud9 instans och installera nödvändiga beroenden på instansen med AWS Cloud Development Kit (AWS CDK) och Docker. AWS Cloud9 är en molnbaserad integrerad utvecklingsmiljö (IDE) som låter dig skriva, köra och felsöka din kod med bara en webbläsare.
- Välj i terminalen Ladda upp lokala filer på Fil meny.
- Välja Välj mapp och välj
vaccination_verification_solution
mapp som du laddade ner från GitHub. - I terminalen förbereder du din serverlösa applikation för efterföljande steg i ditt utvecklingsarbetsflöde AWS serverlös applikationsmodell (AWS SAM) med följande kommando:
- Distribuera applikationen med hjälp av
cdk deploy
kommando:Vänta tills AWS CDK distribuerar modellen och skapar de resurser som nämns i mallen.
- När distributionen är klar kan du kontrollera de distribuerade resurserna på AWS molnformation konsolen på Resurser fliken på sidan med stackdetaljer.
Testa lösningen
Nu är det dags att testa lösningen. För att utlösa arbetsflödet, använd aws s3 cp
att ladda upp vac_card.jpg
fil till DemoQueries.DocumentUploadLocation
inuti docs-mappen:
Vaccinationscertifikatsfilen laddas automatiskt upp till S3-hinken demoqueries-textractxxx
i mappen för uppladdningar.
Arbetsflödet för Step Functions utlöses via en lambdafunktion så snart vaccinationscertifikatsfilen laddas upp till S3-hinken.
Queries-Decider Lambda-funktionen undersöker dokumentet och lägger till information om mime-typen, antalet sidor och antalet frågor i arbetsflödet Step Functions (för det här exemplet använder vi fyra frågor – dokumentnummer, kundnamn, datum för födelse och vaccinationsstatus).
Smakämnen TextractSync
funktionen skickar inmatningsfrågorna till Amazon Textract och returnerar synkront hela resultatet som en del av svaret. Den stöder 1-sidiga dokument (TIFF, PDF, JPG, PNG) och upp till 15 frågor. De GenerateCsvTask
funktionen tar JSON-utdata från Amazon Textract och konverterar den till en CSV-fil.
Den slutliga utdatan lagras i samma S3-bucket i csv-output-mappen som en CSV-fil.
Du kan ladda ner filen till din lokala dator med följande kommando:
Formatet på resultatet är timestamp
, classification
, filename
, page number
, key name
, key_confidence
, value
, value_confidence
, key_bb_top
, key_bb_height
, key_bb.width
, key_bb_left
, value_bb_top
, value_bb_height
, value_bb_width
, value_bb_left
.
Du kan skala lösningen till hundratals vaccinationscertifikatdokument för flera kunder genom att ladda upp deras vaccinationscertifikat till DemoQueries.DocumentUploadLocation
. Detta utlöser automatiskt flera körningar av Step Functions-tillståndsmaskinen, och det slutliga resultatet lagras i samma S3-bucket i csv-output-mappen.
För att ändra den initiala uppsättningen av frågor som matas in i Amazon Textract kan du gå till din AWS Cloud9-instans och öppna filen start_execution.py. I filvyn i den vänstra rutan, navigera till lambda, start_queries
, app
, start_execution.py
. Denna Lambda-funktion anropas när en fil laddas upp till DemoQueries.DocumentUploadLocation
. Frågorna som skickas till arbetsflödet definieras i start_execution.py
; du kan ändra dessa genom att uppdatera koden som visas i följande skärmdump.
Städa upp
För att undvika att ådra sig pågående avgifter, ta bort resurserna som skapats i det här inlägget med följande kommando:
Svara på frågan Are you sure you want to delete: DemoQueries (y/n)?
med y.
Slutsats
I det här inlägget visade vi dig hur du använder Amazon Textract Queries för att bygga en vaccinationsverifieringslösning för resebranschen. Du kan använda Amazon Textract Queries för att bygga lösningar inom andra branscher som finans och hälsovård, och hämta information från dokument som lönebesked, pantsedlar och försäkringskort baserat på frågor om naturliga språk.
För mer information, se Analysera dokument, eller kolla in Amazon Textract-konsolen och prova den här funktionen.
Om författarna
Dhiraj Thakur är en lösningsarkitekt med Amazon Web Services. Han samarbetar med AWS-kunder och -partners för att ge vägledning om införande, migrering och strategi för företagsmoln. Han brinner för teknik och tycker om att bygga och experimentera inom analys- och AI/ML-området.
Rishabh Yadav är en Partner Solutions-arkitekt på AWS med en omfattande bakgrund inom DevOps och säkerhetserbjudanden på AWS. Han samarbetar med ASEAN-partners för att ge vägledning om företagsmolnantagande och arkitekturgranskningar tillsammans med att bygga AWS-praxis genom implementeringen av Well-Architected Framework. Utanför jobbet gillar han att spendera sin tid på idrottsplatsen och FPS-spel.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/build-a-vaccination-verification-solution-using-the-queries-feature-in-amazon-textract/
- :är
- $UPP
- 001
- 100
- 15%
- 1930
- 2468
- 258
- 7
- 8
- a
- Om Oss
- Konto
- noggrannhet
- exakt
- exakt
- lägga till
- adress
- Lägger
- Antagande
- byråer
- AI / ML
- Alla
- tillåter
- längs
- amason
- amazontext
- Amazon Web Services
- an
- analytics
- analysera
- analyser
- och
- svara
- svar
- API: er
- Ansökan
- lämpligt
- arkitektur
- ÄR
- AS
- Asean
- At
- automatisera
- Automat
- automatiskt
- automatisera
- undvika
- AWS
- AWS Cloud9
- AWS molnformation
- tillbaka
- bakgrund
- baserat
- grundläggande
- BE
- därför att
- mellan
- födelse
- webbläsare
- SLUTRESULTAT
- Byggnad
- byggt
- företag
- men
- by
- KAN
- kortet
- Kort
- fall
- CD
- certifikat
- certifikat
- utmaningar
- byta
- Förändringar
- karaktär
- karaktärigenkänning
- avgifter
- ta
- val
- Välja
- cloud
- moln adoption
- Cloud9
- koda
- Företag
- fullborda
- konfiguration
- Konsol
- bekvämlighet
- kostsam
- skapa
- skapas
- beställnings
- kund
- Kunder
- datum
- Datum
- Datum
- definierade
- beroenden
- distribuera
- utplacerade
- utplacering
- förstöra
- detaljer
- Utveckling
- olika
- svårt
- do
- Hamnarbetare
- dokumentera
- dokument
- ladda ner
- driv
- effektiv
- möjliggör
- Företag
- Miljö
- fel
- undersöker
- exempel
- utforska
- omfattande
- extrahera
- extraktion
- extrakt
- Leverans
- Fed
- fält
- Fil
- slutlig
- finansiering
- efter
- För
- formen
- format
- former
- Framåt
- fyra
- fps
- Ramverk
- från
- full
- fullständigt
- fungera
- funktioner
- framtida
- Gaming
- samla
- samla
- GitHub
- ger
- Go
- vägleda
- styra
- Har
- he
- hälso-och sjukvård
- hjälper
- hans
- hotell
- Hur ser din drömresa ut
- How To
- html
- http
- HTTPS
- humant
- Hundratals
- identifiera
- if
- illustrerar
- bild
- genomföra
- genomförande
- med Esport
- in
- I andra
- innefattar
- industrier
- industrin
- informationen
- inledande
- ingång
- inuti
- installera
- exempel
- försäkring
- integrerade
- ingripande
- in
- fakturor
- åberopas
- anropar
- IT
- jpg
- json
- bara
- språk
- inlärning
- vänster
- Lets
- tycka om
- gillar
- Lån
- lokal
- Logiken
- Maskinen
- maskininlärning
- manuell
- många
- Maj..
- nämnts
- Meny
- metoder
- migration
- minimum
- ML
- modell
- mer
- Inteckning
- rörliga
- multipel
- namn
- Natural
- Navigera
- Navigering
- nödvändigt för
- Behöver
- behov
- Anmärkningar
- antal
- OCR
- OCR-programvara
- of
- offer~~POS=TRUNC
- Ofta
- on
- pågående
- endast
- öppet
- möjligheter
- optisk teckenigenkänning
- Alternativet
- or
- Övriga
- Övrigt
- vår
- ut
- produktion
- utanför
- sida
- sidor
- panelen
- del
- partnern
- partner
- Godkänd
- brinner
- behörigheter
- bild
- bit
- plato
- Platon Data Intelligence
- PlatonData
- Inlägg
- post-pandemi
- praxis
- exakt
- Förbered
- nuvarande
- privatpolicy
- process
- bearbetning
- ge
- syfte
- sökfrågor
- fråga
- frågor
- slumpmässig
- kvitton
- erkännande
- förlita
- anmärkningsvärd
- begära
- Obligatorisk
- Krav
- Kräver
- Resurser
- respektera
- respons
- resultera
- återgår
- översyn
- Omdömen
- Rum
- Rutt
- Körning
- kör
- Sam
- Samma
- sparade
- Skala
- §
- säkerhet
- se
- välj
- Val
- sänder
- skickas
- Server
- service
- Tjänster
- in
- flera
- skall
- visade
- visas
- signifikant
- Enkelt
- Mjukvara
- lösning
- Lösningar
- LÖSA
- några
- snart
- Utrymme
- spendera
- Sporter
- stapel
- Personal
- Ange
- status
- Steg
- Steg
- förvaring
- lagra
- lagras
- lagrar
- Strategi
- effektivisera
- senare
- sådana
- stödja
- Stöder
- säker
- överträffar
- Ta
- tar
- Teknologi
- tråkig
- mall
- terminal
- testa
- text
- den där
- Smakämnen
- den information
- deras
- sedan
- Där.
- Dessa
- detta
- de
- Genom
- tid
- tidskrävande
- till
- traditionell
- färdas
- resebranschen
- resenär
- utlösa
- triggas
- prova
- Typ
- typer
- förstå
- uppdatering
- uppladdad
- uppladdning
- URL
- användning
- Användare
- med hjälp av
- Använda
- Vaccin
- värde
- Verifiering
- verifiera
- verifiera
- via
- utsikt
- gå
- vill
- Sätt..
- we
- webb
- webbservice
- när
- om
- som
- medan
- med
- Arbete
- arbetsflöde
- fungerar
- skriva
- Om er
- Din
- zephyrnet