Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon webbtjänster

Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon webbtjänster

Dataklassificering, extrahering och analys kan vara utmanande för organisationer som hanterar mängder av dokument. Traditionella dokumentbehandlingslösningar är manuella, dyra, felbenägna och svåra att skala. AWS intelligent dokumentbehandling (IDP), med AI-tjänster som t.ex amazontext, låter dig dra fördel av branschledande maskininlärningsteknik (ML) för att snabbt och korrekt bearbeta data från alla skannade dokument eller bilder. Generativ artificiell intelligens (generativ AI) kompletterar Amazon Textract för att ytterligare automatisera arbetsflöden för dokumentbearbetning. Funktioner som normalisering av nyckelfält och sammanfattning av indata stöder snabbare cykler för hantering av dokumentprocessarbetsflöden, samtidigt som risken för fel minskar.

Generativ AI drivs av stora ML-modeller som kallas grundmodeller (FM). FM:er förändrar hur du kan lösa traditionellt komplexa arbetsbelastningar för dokumentbehandling. Förutom befintliga möjligheter måste företag sammanfatta specifika kategorier av information, inklusive debet- och kreditdata från dokument som finansiella rapporter och kontoutdrag. FM:er gör det lättare att generera sådana insikter från den extraherade datan. För att optimera tiden för mänsklig granskning och för att förbättra de anställdas produktivitet kan misstag som saknade siffror i telefonnummer, saknade dokument eller adresser utan gatunummer flaggas på ett automatiskt sätt. I det aktuella scenariot måste du avsätta resurser för att utföra sådana uppgifter med hjälp av mänsklig granskning och komplexa skript. Detta tillvägagångssätt är tråkigt och dyrt. FM:er kan hjälpa till att slutföra dessa uppgifter snabbare, med färre resurser, och omvandla olika inmatningsformat till en standardmall som kan bearbetas vidare. På AWS erbjuder vi tjänster som t.ex Amazonas berggrund, det enklaste sättet att bygga och skala generativa AI-applikationer med FM. Amazon Bedrock är en helt hanterad tjänst som gör FM:er från ledande AI-startups och Amazon tillgängliga via ett API, så att du kan hitta den modell som bäst passar dina krav. Vi erbjuder också Amazon SageMaker JumpStart, vilket gör att ML-utövare kan välja från ett brett urval av öppen källkods-FM. ML-utövare kan distribuera FM till dedikerade Amazon SageMaker instanser från en nätverksisolerad miljö och anpassa modeller med SageMaker för modellträning och implementering.

Ricoh erbjuder arbetsplatslösningar och digitala transformationstjänster utformade för att hjälpa kunder att hantera och optimera informationsflödet över sina verksamheter. Ashok Shenoy, VP för Portfolio Solution Development, säger: "Vi lägger till generativ AI till våra IDP-lösningar för att hjälpa våra kunder att få sitt arbete gjort snabbare och mer exakt genom att använda nya funktioner som Q&A, summering och standardiserade utdata. AWS tillåter oss att dra fördel av generativ AI samtidigt som vi håller var och en av våra kunders data åtskilda och säkra.”

I det här inlägget delar vi hur du förbättrar din IDP-lösning på AWS med generativ AI.

Förbättring av IDP-pipeline

I det här avsnittet granskar vi hur den traditionella IDP-pipelinen kan utökas med FMs och går igenom ett exempel på användningsfall med Amazon Textract med FMs.

AWS IDP består av tre steg: klassificering, extraktion och anrikning. För mer information om varje steg, se Intelligent dokumentbehandling med AWS AI-tjänster: Del 1 och del 2. I klassificeringsstadiet kan FM:er nu klassificera dokument utan ytterligare utbildning. Det innebär att dokument kan kategoriseras även om modellen inte har sett liknande exempel tidigare. FMs i extraktionsstadiet normaliserar datumfält och verifierar adresser och telefonnummer, samtidigt som de säkerställer konsekvent formatering. FMs i anrikningsstadiet tillåter slutledning, logiska resonemang och sammanfattningar. När du använder FMs i varje IDP-steg kommer ditt arbetsflöde att bli mer strömlinjeformat och prestandan förbättras. Följande diagram illustrerar IDP-pipeline med generativ AI.

Intelligent dokumentbehandlingspipeline med generativ AI

Utvinningsstadiet av IDP-rörledningen

När FM:er inte direkt kan bearbeta dokument i sina ursprungliga format (som PDF, img, jpeg och tiff) som indata, behövs en mekanism för att konvertera dokument till text. För att extrahera texten från dokumentet innan du skickar den till FM:erna kan du använda Amazon Textract. Med Amazon Textract kan du extrahera rader och ord och skicka dem till nedströms FMs. Följande arkitektur använder Amazon Textract för exakt textextraktion från alla typer av dokument innan det skickas till FM:er för vidare bearbetning.

Textract Tar in dokumentdata till grundmodellerna

Vanligtvis består dokument av strukturerad och semistrukturerad information. Amazon Textract kan användas för att extrahera råtext och data från tabeller och formulär. Relationen mellan data i tabeller och formulär spelar en avgörande roll för att automatisera affärsprocesser. Vissa typer av information får inte behandlas av FM:er. Som ett resultat kan vi välja att antingen lagra denna information i en nedströmsbutik eller skicka den till FM:er. Följande figur är ett exempel på hur Amazon Textract kan extrahera strukturerad och semistrukturerad information från ett dokument, förutom textrader som behöver bearbetas av FM:er.

Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Använder AWS serverlösa tjänster för att sammanfatta med FMs

IDP-pipelinen som vi illustrerat tidigare kan sömlöst automatiseras med hjälp av AWS-serverlösa tjänster. Mycket ostrukturerade dokument är vanliga i stora företag. Dessa dokument kan sträcka sig från Securities and Exchange Commission (SEC) dokument inom bankbranschen till täckningsdokument inom sjukförsäkringsbranschen. Med utvecklingen av generativ AI på AWS letar människor i dessa branscher efter sätt att få en sammanfattning från dessa dokument på ett automatiserat och kostnadseffektivt sätt. Serverlösa tjänster hjälper till att tillhandahålla mekanismen för att snabbt bygga en lösning för IDP. Tjänster som t.ex AWS Lambda, AWS stegfunktioneroch Amazon EventBridge kan hjälpa till att bygga dokumentbearbetningspipelinen med integrering av FM, som visas i följande diagram.

End-to-end dokumentbehandling med Amazon Textract och Generative AI

Smakämnen exempel på ansökan som används i den föregående arkitekturen är drivs av händelser. En händelse definieras som en förändring i tillstånd som nyligen har inträffat. Till exempel när ett objekt laddas upp till en Amazon enkel lagringstjänst (Amazon S3) bucket, Amazon S3 sänder ut en Object Created-händelse. Detta händelsemeddelande från Amazon S3 kan utlösa en Lambda-funktion eller ett arbetsflöde för stegfunktioner. Denna typ av arkitektur kallas en händelsedriven arkitektur. I det här inlägget använder vår exempelapplikation en händelsedriven arkitektur för att bearbeta ett provdokument för medicinsk utskrivning och sammanfatta detaljerna i dokumentet. Flödet fungerar enligt följande:

  1. När ett dokument laddas upp till en S3-bucket utlöser Amazon S3 en Object Created-händelse.
  2. EventBridge standardhändelsebussen sprider händelsen till stegfunktioner baserat på en EventBridge-regel.
  3. Tillståndsmaskinens arbetsflöde bearbetar dokumentet, med början i Amazon Textract.
  4. En Lambda-funktion transformerar de analyserade data för nästa steg.
  5. Statsmaskinen anropar a SageMaker slutpunkt, som är värd för FM med hjälp av direkt AWS SDK-integration.
  6. En sammanfattande S3-destinationshink tar emot det sammanfattande svaret som samlats in från FM.

Vi använde exempelapplikationen med en flan-t5 Hugging face modell för att sammanfatta följande exempel på patientutskrivningssammanfattning med hjälp av arbetsflödet Step Functions.

sammanfattning av patientutskrivning

Arbetsflödet Step Functions använder AWS SDK-integration att kalla Amazon Textract Analysera dokument och SageMaker runtime InvokeEndpoint API:er, som visas i följande figur.

arbetsflöde

Det här arbetsflödet resulterar i ett sammanfattande JSON-objekt som lagras i en destinationsbucket. JSON-objektet ser ut som följer:

{ "summary": [ "John Doe is a 35-year old male who has been experiencing stomach problems for two months. He has been taking antibiotics for the last two weeks, but has not been able to eat much. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has also noticed a change in his stool color, which is now darker. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of fatigue, and has been unable to work for the last two weeks. He has also been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help." ], "forms": [ { "key": "Ph: ", "value": "(888)-(999)-(0000) " }, { "key": "Fax: ", "value": "(888)-(999)-(1111) " }, { "key": "Patient Name: ", "value": "John Doe " }, { "key": "Patient ID: ", "value": "NARH-36640 " }, { "key": "Gender: ", "value": "Male " }, { "key": "Attending Physician: ", "value": "Mateo Jackson, PhD " }, { "key": "Admit Date: ", "value": "07-Sep-2020 " }, { "key": "Discharge Date: ", "value": "08-Sep-2020 " }, { "key": "Discharge Disposition: ", "value": "Home with Support Services " }, { "key": "Pre-existing / Developed Conditions Impacting Hospital Stay: ", "value": "35 yo M c/o stomach problems since 2 months. Patient reports epigastric abdominal pain non- radiating. Pain is described as gnawing and burning, intermittent lasting 1-2 hours, and gotten progressively worse. Antacids used to alleviate pain but not anymore; nothing exacerbates pain. Pain unrelated to daytime or to meals. Patient denies constipation or diarrhea. Patient denies blood in stool but have noticed them darker. Patient also reports nausea. Denies recent illness or fever. He also reports fatigue for 2 weeks and bloating after eating. ROS: Negative except for above findings Meds: Motrin once/week. Tums previously. PMHx: Back pain and muscle spasms. No Hx of surgery. NKDA. FHx: Uncle has a bleeding ulcer. Social Hx: Smokes since 15 yo, 1/2-1 PPD. No recent EtOH use. Denies illicit drug use. Works on high elevation construction. Fast food diet. Exercises 3-4 times/week but stopped 2 weeks ago. " }, { "key": "Summary: ", "value": "some activity restrictions suggested, full course of antibiotics, check back with physican in case of relapse, strict diet " } ] }

Att generera dessa sammanfattningar med hjälp av IDP med serverlös implementering i stor skala hjälper organisationer att få meningsfull, koncis och presentabel data på ett kostnadseffektivt sätt. Step Functions begränsar inte metoden för att behandla dokument till ett dokument i taget. Dess distribuerad karta funktionen kan sammanfatta ett stort antal dokument på ett schema.

Smakämnen exempel på ansökan använder a flan-t5 Hugging face modell; du kan dock använda en valfri FM-slutpunkt. Att träna och köra modellen ligger utanför tillämpningsområdet för exempelapplikationen. Följ instruktionerna i GitHub-förvaret för att distribuera en exempelapplikation. Den föregående arkitekturen är en vägledning om hur du kan orkestrera ett IDP-arbetsflöde med hjälp av Step Functions. Referera till IDP Generativ AI workshop för detaljerade instruktioner om hur man bygger en applikation med AWS AI-tjänster och FM:er.

Ställ in lösningen

Följ stegen i README fil för att ställa in lösningsarkitekturen (förutom SageMaker-slutpunkterna). När du har din egen SageMaker-ändpunkt tillgänglig kan du skicka ändpunktsnamnet som en parameter till mallen.

Städa upp

För att spara kostnader, ta bort resurserna du distribuerade som en del av självstudien:

  1. Följ stegen i rensningsavsnittet i README fil.
  2. Ta bort allt innehåll från din S3-hink och ta sedan bort hinken via Amazon S3-konsolen.
  3. Ta bort alla SageMaker-slutpunkter som du kan ha skapat via SageMaker-konsolen.

Slutsats

Generativ AI förändrar hur du kan bearbeta dokument med IDP för att få insikter. AWS AI-tjänster som Amazon Textract tillsammans med AWS FMs kan hjälpa till att bearbeta alla typer av dokument korrekt. För mer information om att arbeta med generativ AI på AWS, se Tillkännager nya verktyg för att bygga med generativ AI på AWS.


Om författarna

Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Sonali Sahu leder intelligent dokumentbehandling med AI/ML-serviceteamet i AWS. Hon är en författare, tankeledare och passionerad teknolog. Hennes kärnfokus är AI och ML, och hon talar ofta på AI- och ML-konferenser och möten runt om i världen. Hon har både bredd och djup erfarenhet inom teknik och teknikbranschen, med branschexpertis inom sjukvård, finanssektor och försäkring.

Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Ashish Lal är en Senior Product Marketing Manager som leder produktmarknadsföring för AI-tjänster på AWS. Han har 9 års erfarenhet av marknadsföring och har lett produktmarknadsföringssatsningen för intelligent dokumentbehandling. Han tog sin magisterexamen i företagsekonomi vid University of Washington.

Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Mrnal Daftari är en Enterprise Senior Solutions Architect på Amazon Web Services. Han är baserad i Boston, MA. Han är en molnentusiast och brinner mycket för att hitta lösningar för kunder som är enkla och adresserar deras affärsresultat. Han älskar att arbeta med molnteknik, tillhandahålla enkla, skalbara lösningar som driver positiva affärsresultat, strategi för molnadoption och design av innovativa lösningar och driver operativ excellens.

Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Dhiraj Mahapatro är en Principal Serverless Specialist Solutions Architect på AWS. Han är specialiserad på att hjälpa finansiella företagstjänster att anta serverlösa och händelsedrivna arkitekturer för att modernisera sina applikationer och påskynda innovationstakten. På senare tid har han arbetat med att föra containerarbetsbelastningar och praktisk användning av generativ AI närmare serverlös och EDA för kunder inom finansbranschen.

Förbättra AWS intelligent dokumentbehandling med generativ AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Jacob Hauskens är en främsta AI-specialist med över 15 års strategisk affärsutveckling och erfarenhet av partnerskap. Under de senaste 7 åren har han lett skapandet och implementeringen av go-to-market-strategier för nya AI-drivna B2B-tjänster. På senare tid har han hjälpt ISV:er att öka sina intäkter genom att lägga till generativ AI till intelligenta dokumentbearbetningsarbetsflöden.

Tidsstämpel:

Mer från AWS maskininlärning