amazontext är en maskininlärningstjänst (ML) som automatiskt extraherar text, handstil och data från skannade dokument. Frågor är en funktion som gör att du kan extrahera specifik information från varierande, komplexa dokument med naturligt språk. Anpassade frågor ger dig ett sätt för dig att anpassa funktionen Frågor för dina företagsspecifika, icke-standardiserade dokument som autolånekontrakt, checkar och löneutdrag på ett självbetjäningssätt. Genom att anpassa funktionen för att känna igen de unika termerna, strukturerna och nyckelinformationen som är specifik för dessa dokumenttyper, kan du möta dina nedströmsbehandlingsbehov med större precision och minimal mänsklig inblandning. Custom Queries är lätt att integrera i din befintliga Textract-pipeline och du fortsätter att dra nytta av de fullt hanterade intelligenta dokumentbehandlingsfunktionerna i Amazon Textract utan att behöva investera i ML-expertis eller infrastrukturhantering.
I det här inlägget visar vi hur Custom Queries exakt kan extrahera data från kontroller som är komplexa, icke-standardiserade dokument. Dessutom diskuterar vi fördelarna med anpassade frågor och delar bästa praxis för att effektivt använda den här funktionen.
Lösningsöversikt
När du börjar med ett nytt användningsfall kan du utvärdera hur Textract Queries presterar på dina dokument genom att navigera till Textract konsol och med hjälp av Analysera dokumentdemo eller Bulk Document Uploader. Hänvisa till Bästa metoder för frågor för att skapa utkast till frågor som är tillämpliga på ditt användningsfall. Om du identifierar fel i frågesvaren på grund av dina affärsdokuments karaktär kan du använda anpassade frågor för att förbättra noggrannheten. Inom några timmar kan du kommentera dina exempeldokument med hjälp av AWS Management Console och träna en adapter. Adaptrar är komponenter som ansluts till Amazon Textracts förutbildade djupinlärningsmodell, som anpassar dess utdata baserat på dina kommenterade dokument. Du kan använda adaptern för slutledning genom att skicka adapteridentifieraren som en extra parameter till Analysera dokumentfrågor API-begäran.
Låt oss undersöka hur Anpassade frågor kan förbättra extraheringsnoggrannheten i ett utmanande verklighetsscenario som extrahering av data från kontroller. Den primära utmaningen vid bearbetning av checkar beror på deras höga grad av variation beroende på typ (t.ex. personliga checkar eller kassacheckar), finansinstitut och land (t.ex. MICR-linjeformat). . Dessa variationer kan inkludera placeringen av betalningsmottagarens namn, beloppet i siffror och ord, datum och underskrift. Att känna igen och anpassa sig till dessa variationer kan vara en komplex uppgift under datautvinning. För att förbättra datautvinningen använder organisationer ofta manuella verifierings- och valideringsprocesser, vilket ökar kostnaden och tiden för utvinningsprocessen.
Custom Queries tar itu med dessa utmaningar genom att göra det möjligt för dig att anpassa de förutbildade Queries-funktionerna på de olika varianterna av kontroller. Anpassning av den förtränade funktionen hjälper dig att uppnå en hög dataextraktionsnoggrannhet på den specifika variation av layouter som du bearbetar.
I vårt användningsfall vill en finansiell institution extrahera följande fält från en check: betalningsmottagarens namn, betalarens namn, kontonummer, routingnummer, betalningsbelopp (i siffror), betalningsbelopp (i ord), checknummer, datum och PM.
Låt oss utforska processen för att generera en adapter (komponent som anpassar utdata) för kontrollbearbetning. Adaptrar kan skapas via konsolen eller programmatiskt via API:et. Det här inlägget beskriver konsolupplevelsen; men om du vill skapa adaptern programmatiskt, se kodexemplen i custom-queries-checks-blog.ipynb Jupyter anteckningsbok (alternativ 2).
Adaptergenereringsprocessen innefattar fem steg på hög nivå: skapa en adapter, ladda upp exempeldokument, kommentera dokumenten, träna adaptern och utvärdera prestandamått.
Skapa en adapter
På Amazon Textract-konsolen skapar du en ny adapter genom att ange ett namn, en beskrivning och valfria taggar som kan hjälpa dig att identifiera adaptern. Du har möjlighet att aktivera automatiska uppdateringar, vilket gör att Amazon Textract kan uppdatera din adapter när den underliggande Queries-funktionen uppdateras med nya funktioner.
När adaptern har skapats kommer du att se en adapterinformationssida med en lista med steg i Hur det fungerar sektion. Det här avsnittet kommer att aktivera dina nästa steg när du slutför dem sekventiellt.
Ladda upp exempeldokument
Den inledande fasen i adaptergenereringen innebär ett noggrant urval av en lämplig uppsättning exempeldokument för anteckningar, utbildning och testning. Vi har ett alternativ att automatiskt dela upp dokumenten i test- och träningsdatauppsättningar; Men för denna process delar vi upp datasetet manuellt.
Det är viktigt att notera att du kan konstruera en adapter med så få som fem test- och fem träningsexempel, men det är viktigt att se till att denna provuppsättning är mångsidig och representativ för arbetsbelastningen i en produktionsmiljö.
För den här handledningen har vi tagit fram exempel på datauppsättningar för kontroll som du kan ladda ner. Vår datauppsättning innehåller variationer som personliga checkar, kassacheckar, stimulanscheckar och checkar inbäddade i lönekort. Vi inkluderade även handskrivna och tryckta checkar; tillsammans med variationer i fält som memoraden.
Anteckna exempeldokument
Som nästa steg kommenterar du exempeldokumenten genom att associera frågor med deras motsvarande svar via konsolen. Du kan initiera anteckning via automatisk märkning eller manuell märkning. Automatisk märkning använder Amazon Textract Queries för att förmärka datamängden. Vi rekommenderar att du använder automatisk märkning för att snabba upp anteckningsprocessen.
För detta användningsfall för kontrollbearbetning använder vi följande frågor. Om ditt användningsfall involverar andra dokumenttyper, se Bästa metoder för frågor för att skapa utkast till frågor som är tillämpliga på ditt användningsfall.
- Vem är betalningsmottagaren?
- Vad är check#?
- Vad är betalningsmottagarens adress?
- Vad är datumet?
- Vad är kontonummer?
- Vad är checkbeloppet i ord?
- Vad är kontonamnet/betalaren/utdragarens namn?
- Vad är dollarbeloppet?
- Vad är bankens namn/mottagarnamn?
- Vad är bankens routingnummer?
- Vad är MICR-linjen?
- Vad är memo?
När den automatiska märkningsprocessen är klar har du möjlighet att granska och göra ändringar i svaren som tillhandahålls för varje dokument. Välja Börja granska för att granska kommentarerna mot varje bild.
Om svaret på en fråga saknas eller är felaktigt kan du lägga till eller redigera svaret antingen genom att rita en begränsningsram eller ange svaret manuellt.
För att påskynda din genomgång har vi förannoterat kontrollexemplen som du kan kopiera till ditt AWS-konto. Springa det custom-queries-checks-blog.ipynb Jupyter anteckningsbok inom Amazon Textract-kodexempel bibliotek för att automatiskt uppdatera dina kommentarer.
Träna adaptern
När du har granskat alla exempeldokument för att säkerställa att annoteringarna är korrekta kan du påbörja adapterutbildningsprocessen. Under detta steg måste du ange en lagringsplats där adaptern ska sparas. Träningsprocessens varaktighet kommer att variera beroende på storleken på datamängden som används för utbildningen. Utbildnings-API:et kan också anropas programmatiskt om du väljer att använda ett annoteringsverktyg efter eget val och skickar relevanta indatafiler till API:et. Hänvisa till Anpassade frågor för mer detaljer.
Utvärdera prestandamått
Efter att adaptern har genomfört utbildningen kan du bedöma dess prestanda genom att undersöka utvärderingsmått som t.ex F1-poäng, precision och återkallelse. Du kan analysera dessa mätvärden antingen kollektivt eller per dokument. Med hjälp av vår datauppsättning för provkontroller kommer du att se noggrannhetsmåttet (F1-poäng) förbättras från 68 % till 92 % med den tränade adaptern.
Dessutom kan du testa adapterns utdata på nya dokument genom att välja Prova Adapter.
Efter utvärderingen kan du välja att förbättra adapterns prestanda genom att antingen införliva ytterligare exempeldokument i träningsdatauppsättningen eller genom att kommentera dokument på nytt med poäng som är lägre än din tröskel. Välj om du vill kommentera dokument igen Verifiera dokument på adapterns informationssida, välj dokumentet och välj Granska kommentarer.
Testa adaptern automatiskt
Med utbildningen framgångsrikt genomförd kan du nu använda adaptern i din Analysera dokument API-anrop. API-begäran liknar Amazon Textract Queries API-begäran, med tillägget av AdaptersConfig
objekt.
Du kan köra följande exempelkod eller köra den direkt inom custom-queries-checks-blog.ipynb Jupyter anteckningsbok. Exempelanteckningsboken tillhandahåller också kod för att jämföra resultat mellan Amazon Textract Queries och Amazon Textract Custom Queries.
Skapa ett AdaptersConfig objekt med adapter-ID och adapterversion, och inkludera eventuellt de sidor du vill att adaptern ska tillämpas på:
Skapa en QueriesConfig
objekt med frågorna du tränade adaptern med och anropa Amazon Textract API. Observera att du även kan inkludera ytterligare frågor som adaptern inte har tränats på. Amazon Textract kommer automatiskt att använda Queries-funktionen för dessa frågor och inte Custom Queries, vilket ger dig flexibiliteten att endast använda Custom Queries där det behövs.
Slutligen tabellerar vi våra resultat för bättre läsbarhet:
Städa upp
Gör följande för att städa upp dina resurser:
- Välj på Amazon Textract-konsolen Anpassade frågor i navigeringsfönstret.
- Välj den adapter du vill ta bort.
- Välja Radera.
Adapterhantering
Du kan regelbundet förbättra dina adaptrar genom att skapa nya versioner av en tidigare genererad adapter. För att skapa en ny version av en adapter lägger du till nya exempeldokument till en befintlig adapter, etiketterar dokumenten och utför utbildning. Du kan samtidigt underhålla flera versioner av en adapter för användning i dina utvecklingspipelines. För att uppdatera dina adaptrar sömlöst, gör inte ändringar i eller ta bort dina Amazon enkel lagringstjänst (Amazon S3) hink där filerna som behövs för adaptergenerering sparas.
Bästa praxis
När du använder anpassade frågor på dina dokument, se Bästa metoder för anpassade frågor från Amazon Textract för ytterligare överväganden och bästa praxis.
Fördelar med anpassade frågor
Anpassade frågor erbjuder följande fördelar:
- Förbättrad dokumentförståelse – Genom sin förmåga att extrahera och normalisera data med hög noggrannhet, minskar Custom Queries beroendet av manuella granskningar och revisioner, och gör det möjligt för dig att bygga en mer tillförlitlig automatisering för dina intelligenta dokumentbearbetningsarbetsflöden.
- Snabbare tid att värdera – När du stöter på nya dokumenttyper där du behöver högre noggrannhet kan du använda Custom Queries för att generera en adapter på ett självbetjäningssätt inom några timmar. Du behöver inte vänta på en förtränad modelluppdatering när du stöter på nya dokumenttyper eller varianter av befintliga i ditt arbetsflöde. Du har fullständig kontroll över din pipeline och behöver inte vara beroende av Amazon Textract för att stödja dina nya dokumenttyper.
- Dataintegritet – Custom Queries behåller eller använder inte data som används för att generera adaptrar för att förbättra våra allmänna förtränade modeller tillgängliga för alla kunder. Adaptern är begränsad till kundens konto eller andra konton som uttryckligen har angetts av kunden, vilket säkerställer att endast sådana konton kan komma åt de förbättringar som gjorts med hjälp av kundens data.
- Convenience –Custom Queries ger en helt hanterad slutledningsupplevelse som liknar Queries. Adapterutbildningen är gratis och du betalar endast för slutledning. Custom Queries sparar dig omkostnader och utgifter för utbildning och drift av anpassade modeller.
Slutsats
I det här inlägget diskuterade vi fördelarna med anpassade frågor, visade hur anpassade frågor exakt kan extrahera data från kontroller och delade bästa praxis för att effektivt använda den här funktionen. På bara några timmar kan du skapa en adapter med hjälp av konsolen och använda den i AnalyzeDocument API för dina dataextraktionsbehov. För mer information, se Anpassade frågor.
Om författarna
Shibin Michaelraj är en senior produktchef med Amazon Textract-teamet. Han är fokuserad på att bygga AI/ML-baserade produkter för AWS-kunder. Han är glad att hjälpa kunder att lösa sina komplexa affärsutmaningar genom att utnyttja AI- och ML-tekniker. På fritiden tycker han om att springa, lyssna på podcaster och förfina sina amatörtenniskunskaper.
Keith Mascarenhas är Sr. Solutions Architect med Amazon Textracts serviceteam. Han brinner för att lösa affärsproblem i stor skala med hjälp av maskininlärning, och hjälper för närvarande våra globala kunder att automatisera sin dokumentbehandling för att uppnå snabbare tid till marknaden med minskade driftskostnader.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/customize-amazon-textract-with-business-specific-documents-using-custom-queries/
- : har
- :är
- :inte
- :var
- $UPP
- 1
- 10
- 100
- 17
- 36
- 7
- a
- förmåga
- Om Oss
- accelerera
- tillgång
- Konto
- konton
- noggrannhet
- exakt
- Uppnå
- anpassning
- lägga till
- Dessutom
- Annat
- adress
- adresser
- mot
- AI
- Alla
- tillåter
- längs
- också
- amatör-
- amason
- amazontext
- Amazon Web Services
- mängd
- an
- analysera
- och
- svar
- api
- tillämplig
- tillämpas
- lämpligt
- ÄR
- AS
- bedöma
- At
- revisioner
- bil
- automatisera
- Automat
- automatiskt
- Automation
- tillgänglig
- AWS
- Bank
- baserat
- grund
- BE
- varit
- börja
- fördel
- Fördelarna
- BÄST
- bästa praxis
- Bättre
- mellan
- Box
- SLUTRESULTAT
- Byggnad
- företag
- men
- by
- Ring
- Samtal
- KAN
- kapacitet
- noggrann
- Vid
- utmanar
- utmaningar
- utmanande
- Förändringar
- ta
- Kontroller
- val
- Välja
- välja
- rena
- koda
- kollektivt
- jämföra
- fullborda
- Avslutade
- komplex
- komponent
- komponenter
- överväganden
- Konsol
- konstruera
- fortsätta
- kontrakt
- kontroll
- Motsvarande
- Pris
- Kostar
- land
- skapa
- skapas
- Skapa
- kurerad
- För närvarande
- beställnings
- kund
- Kunder
- anpassning
- skräddarsy
- datum
- datauppsättningar
- Datum
- djup
- djupt lärande
- Examen
- demo
- beroende
- beskrivning
- betecknad
- detaljer
- Utveckling
- olika
- direkt
- diskutera
- diskuteras
- flera
- do
- dokumentera
- dokument
- gör
- Dollar
- inte
- utkast
- ritning
- grund
- varaktighet
- under
- e
- varje
- lätt
- effektivt
- antingen
- inbäddade
- anställd
- möjliggöra
- möjliggör
- möjliggör
- förbättra
- säkerställa
- säkerställa
- in
- Miljö
- fel
- väsentlig
- utvärdera
- utvärdering
- undersöka
- Granskning
- exciterade
- befintliga
- kostnader
- erfarenhet
- expertis
- uttryckligen
- utforska
- extrahera
- extraktion
- extrakt
- f1
- snabbare
- Leverans
- Funktioner
- få
- Fält
- Filer
- finansiella
- finansiell institution
- fem
- Flexibilitet
- fokuserade
- efter
- För
- format
- Fri
- från
- fullständigt
- Allmänt
- generera
- genereras
- generera
- generering
- GitHub
- större
- Har
- har
- he
- hjälpa
- hjälpa
- hjälper
- Hög
- högnivå
- högre
- hans
- ÖPPETTIDER
- Hur ser din drömresa ut
- Men
- html
- http
- HTTPS
- humant
- ID
- identifierare
- identifiera
- if
- bild
- importera
- med Esport
- förbättra
- förbättringar
- in
- innefattar
- ingår
- innefattar
- införlivande
- Ökar
- informationen
- Infrastruktur
- inledande
- initiera
- ingång
- installera
- Institution
- integrera
- Intelligent
- Intelligent dokumentbehandling
- ingripande
- in
- Invest
- åberopas
- IT
- DESS
- jpg
- bara
- Nyckel
- etikett
- märkning
- språk
- inlärning
- utlåning
- hävstångs
- Bibliotek
- tycka om
- Begränsad
- linje
- Lista
- läge
- lägre
- Maskinen
- maskininlärning
- gjord
- bibehålla
- göra
- förvaltade
- ledning
- chef
- sätt
- manuell
- manuellt
- marknad
- Möt
- Memo
- metriska
- Metrics
- minimum
- saknas
- ML
- modell
- modeller
- mer
- multipel
- namn
- Natural
- Natur
- navigerande
- Navigering
- Behöver
- behövs
- behov
- Nya
- Nästa
- anteckningsbok
- nu
- antal
- nummer
- objektet
- of
- Erbjudanden
- Ofta
- on
- ettor
- endast
- drift
- operativa
- Alternativet
- or
- organisationer
- Övriga
- vår
- produktion
- över
- egen
- sida
- sidor
- panelen
- parameter
- passera
- Förbi
- brinner
- Betala
- betalning
- Utföra
- prestanda
- utför
- personlig
- fas
- bitar
- rörledning
- placering
- plato
- Platon Data Intelligence
- PlatonData
- kontakt
- Podcasts
- Inlägg
- praxis
- Precision
- tidigare
- primär
- problem
- process
- processer
- bearbetning
- Produkt
- produktchef
- Produktion
- Produkter
- förutsatt
- ger
- tillhandahålla
- sökfrågor
- frågor
- verkliga världen
- känner igen
- känna igen
- rekommenderar
- Minskad
- minskar
- hänvisa
- raffinering
- regelbundet
- relevanta
- pålitlig
- tillit
- representativ
- begära
- Resurser
- respons
- svar
- Resultat
- behålla
- översyn
- Granskad
- Omdömen
- routing
- Körning
- rinnande
- sparade
- Skala
- scenario
- göra
- sömlöst
- §
- se
- Val
- Självbetjäning
- service
- Tjänster
- in
- Dela
- delas
- skall
- show
- visade
- namnteckning
- liknande
- Enkelt
- samtidigt
- Storlek
- färdigheter
- Lösningar
- LÖSA
- Lösa
- specifik
- delas
- Starta
- uttalanden
- Steg
- Steg
- stimulans
- stimulanskontroller
- förvaring
- strukturer
- Framgångsrikt
- sådana
- stödja
- uppgift
- grupp
- Tekniken
- villkor
- testa
- Testning
- text
- än
- den där
- Smakämnen
- deras
- Dem
- vari
- Dessa
- detta
- tröskelvärde
- Genom
- tid
- till
- verktyg
- Tåg
- tränad
- Utbildning
- TRP
- trimma
- handledning
- Typ
- typer
- underliggande
- unika
- Uppdatering
- uppdaterad
- Uppdateringar
- användning
- användningsfall
- användningar
- med hjälp av
- utnyttjas
- Använda
- godkännande
- mängd
- varierande
- Verifiering
- version
- versioner
- via
- vänta
- genomgång
- vill
- vill
- Sätt..
- we
- webb
- webbservice
- Vad
- Vad är
- när
- som
- VEM
- wikipedia
- kommer
- med
- inom
- utan
- ord
- arbetsflöde
- arbetsflöden
- inom hela sverige
- Fel
- Om er
- Din
- zephyrnet
- Postnummer