Izboljšanje inteligentne obdelave dokumentov AWS z generativnim AI | Spletne storitve Amazon

Izboljšanje inteligentne obdelave dokumentov AWS z generativnim AI | Spletne storitve Amazon

Klasifikacija podatkov, ekstrakcija in analiza so lahko izziv za organizacije, ki se ukvarjajo z množico dokumentov. Tradicionalne rešitve za obdelavo dokumentov so ročne, drage, nagnjene k napakam in jih je težko prilagoditi. AWS inteligentna obdelava dokumentov (IDP), s storitvami AI, kot npr Amazonovo besedilo, vam omogoča, da izkoristite vodilno tehnologijo strojnega učenja (ML) za hitro in natančno obdelavo podatkov iz katerega koli skeniranega dokumenta ali slike. Generativna umetna inteligenca (generativni AI) dopolnjuje Amazon Texttract za nadaljnjo avtomatizacijo delovnih tokov obdelave dokumentov. Funkcije, kot sta normalizacija ključnih polj in povzemanje vhodnih podatkov, podpirajo hitrejše cikle za upravljanje delovnih procesov dokumentov, hkrati pa zmanjšujejo možnost napak.

Generativno umetno inteligenco poganjajo veliki modeli ML, imenovani temeljni modeli (FM). FM spreminjajo način reševanja tradicionalno zapletenih delovnih obremenitev obdelave dokumentov. Poleg obstoječih zmogljivosti morajo podjetja povzeti posebne kategorije informacij, vključno s podatki o bremenitvah in kreditih iz dokumentov, kot so finančna poročila in bančni izpiski. FM omogoča lažje ustvarjanje takšnih vpogledov iz ekstrahiranih podatkov. Za optimizacijo časa, porabljenega za človeški pregled, in izboljšanje produktivnosti zaposlenih je mogoče napake, kot so manjkajoče števke v telefonskih številkah, manjkajoči dokumenti ali naslovi brez uličnih številk, samodejno označiti. V trenutnem scenariju morate nameniti vire za izvajanje takšnih nalog z uporabo človeškega pregleda in zapletenih skriptov. Ta pristop je dolgočasen in drag. FM-ji lahko pomagajo pri hitrejšem dokončanju teh nalog z manj sredstvi in ​​spreminjanju različnih formatov vnosa v standardno predlogo, ki jo je mogoče nadalje obdelati. Pri AWS ponujamo storitve, kot so npr Amazon Bedrock, najlažji način za izdelavo in povečanje generativnih aplikacij AI s FM-ji. Amazon Bedrock je v celoti upravljana storitev, ki daje FM-je vodilnih zagonskih podjetij z umetno inteligenco in Amazona na voljo prek API-ja, tako da lahko najdete model, ki najbolje ustreza vašim zahtevam. Ponujamo tudi Amazon SageMaker JumpStart, ki izvajalcem strojnega jezika omogoča izbiro med široko izbiro odprtokodnih FM-jev. Strokovnjaki ML lahko uvedejo FM v namenske Amazon SageMaker primerke iz omrežno izoliranega okolja in prilagodite modele z uporabo SageMakerja za usposabljanje in uvajanje modelov.

Ricoh ponuja rešitve za delovna mesta in storitve digitalne transformacije, zasnovane za pomoč strankam pri upravljanju in optimizaciji pretoka informacij v njihovih podjetjih. Ashok Shenoy, podpredsednik oddelka za razvoj portfeljskih rešitev, pravi: »Našim rešitvam IDP dodajamo generativno umetno inteligenco, da našim strankam pomagamo hitreje in natančneje opraviti delo z uporabo novih zmogljivosti, kot so vprašanja in odgovori, povzemanje in standardizirani rezultati. AWS nam omogoča, da izkoristimo generativno umetno inteligenco, hkrati pa ohranjamo podatke vsake naše stranke ločene in varne.«

V tej objavi delimo, kako izboljšati svojo rešitev IDP na AWS z generativnim AI.

Izboljšanje cevovoda IDP

V tem razdelku pregledamo, kako je mogoče tradicionalni cevovod IDP razširiti s FM-ji, in se sprehodimo skozi primer uporabe z uporabo Amazon Texttract s FM-ji.

AWS IDP je sestavljen iz treh stopenj: klasifikacije, ekstrakcije in obogatitve. Za več podrobnosti o vsaki stopnji glejte Inteligentna obdelava dokumentov s storitvami AI AWS: 1. del in Del 2. V fazi razvrščanja lahko FM zdaj razvršča dokumente brez dodatnega usposabljanja. To pomeni, da je dokumente mogoče kategorizirati, tudi če model še ni videl podobnih primerov. FM-ji v fazi ekstrakcije normalizirajo datumska polja ter preverijo naslove in telefonske številke, hkrati pa zagotavljajo dosledno oblikovanje. FM na stopnji obogatitve omogočajo sklepanje, logično sklepanje in povzemanje. Ko uporabljate FM na vsaki stopnji IDP, bo vaš potek dela bolj poenostavljen in učinkovitost se bo izboljšala. Naslednji diagram prikazuje cevovod IDP z generativnim AI.

Inteligentni cevovod za obdelavo dokumentov z generativnim AI

Faza ekstrakcije cevovoda IDP

Kadar FM-ji ne morejo neposredno obdelati dokumentov v svojih izvornih formatih (kot so PDF-ji, img, jpeg in tiff) kot vhod, je potreben mehanizem za pretvorbo dokumentov v besedilo. Če želite izvleči besedilo iz dokumenta, preden ga pošljete na FM, lahko uporabite Amazon Texttract. Z Amazon Texttract lahko izvlečete vrstice in besede ter jih posredujete nižjim FM-jem. Naslednja arhitektura uporablja Amazon Texttract za natančno ekstrakcijo besedila iz katere koli vrste dokumenta, preden ga pošlje FM-ju v nadaljnjo obdelavo.

Izvleček besedila Vnese podatke dokumenta v temeljne modele

Običajno so dokumenti sestavljeni iz strukturiranih in polstrukturiranih informacij. Amazon Texttract se lahko uporablja za pridobivanje surovega besedila in podatkov iz tabel in obrazcev. Razmerje med podatki v tabelah in obrazcih igra ključno vlogo pri avtomatizaciji poslovnih procesov. FM-ji morda ne bodo obdelovali določenih vrst informacij. Posledično se lahko odločimo, ali bomo te podatke shranili v shrambo na nižji stopnji ali jih poslali FM-jem. Naslednja slika je primer, kako lahko Amazon Texttract ekstrahira strukturirane in polstrukturirane informacije iz dokumenta poleg vrstic besedila, ki jih morajo obdelati FM-ji.

Enhancing AWS intelligent document processing with generative AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Uporaba brezstrežniških storitev AWS za povzetek s FM-ji

Cevovod IDP, ki smo ga ilustrirali prej, je mogoče nemoteno avtomatizirati z uporabo brezstrežniških storitev AWS. Zelo nestrukturirani dokumenti so pogosti v velikih podjetjih. Ti dokumenti lahko obsegajo dokumente Komisije za vrednostne papirje in borzo (SEC) v bančnem sektorju do dokumentov o kritju v sektorju zdravstvenega zavarovanja. Z razvojem generativne umetne inteligence v AWS ljudje v teh panogah iščejo načine, kako pridobiti povzetek iz teh dokumentov na avtomatiziran in stroškovno učinkovit način. Brezstrežniške storitve pomagajo zagotoviti mehanizem za hitro izdelavo rešitve za IDP. Storitve kot npr AWS Lambda, Korak funkcije AWSin Amazon EventBridge lahko pomaga zgraditi cevovod za obdelavo dokumentov z integracijo FM-jev, kot je prikazano v naslednjem diagramu.

Obdelava dokumentov od konca do konca z Amazon Texttract in Generative AI

O uporaba vzorca uporabljen v prejšnji arhitekturi je poganjajo dogodki. dogodek je opredeljena kot sprememba stanja, ki se je zgodila pred kratkim. Na primer, ko se predmet naloži v Preprosta storitev shranjevanja Amazon (Amazon S3), Amazon S3 odda dogodek Object Created. To obvestilo o dogodku iz Amazona S3 lahko sproži funkcijo Lambda ali potek dela Step Functions. To vrsto arhitekture imenujemo an arhitektura, ki temelji na dogodkih. V tej objavi naša vzorčna aplikacija uporablja arhitekturo, ki temelji na dogodkih, za obdelavo vzorčnega odpustnega dokumenta in povzemanje podrobnosti dokumenta. Tok deluje na naslednji način:

  1. Ko je dokument naložen v vedro S3, Amazon S3 sproži dogodek Object Created.
  2. Privzeto vodilo dogodkov EventBridge razširja dogodek v funkcije korakov na podlagi pravila EventBridge.
  3. Potek dela stroja stanja obdela dokument, začenši z Amazon Texttract.
  4. Lambda funkcija transformira analizirane podatke za naslednji korak.
  5. Državni stroj prikliče a Končna točka SageMaker, ki gosti FM z uporabo neposredne integracije AWS SDK.
  6. Ciljno vedro povzetka S3 prejme povzetek odgovora, zbranega od FM.

Uporabili smo vzorčno aplikacijo z a flan-t5 Model objemajočega obraza za povzetek naslednjega vzorca povzetka odpusta pacienta s potekom dela Funkcije korakov.

povzetek odpustnice bolnika

Potek dela Step Functions uporablja Integracija AWS SDK za klic Amazon Texttract AnalyzeDocument in izvajalnega okolja SageMaker InvokeEndpoint API-ji, kot je prikazano na naslednji sliki.

potek dela

Rezultat tega poteka dela je povzetek predmeta JSON, ki je shranjen v ciljnem vedru. Objekt JSON izgleda takole:

{ "summary": [ "John Doe is a 35-year old male who has been experiencing stomach problems for two months. He has been taking antibiotics for the last two weeks, but has not been able to eat much. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has also noticed a change in his stool color, which is now darker. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of fatigue, and has been unable to work for the last two weeks. He has also been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help. He has been experiencing a lot of abdominal pain, bloating, and fatigue. He has been taking antacids for the last two weeks, but they no longer help." ], "forms": [ { "key": "Ph: ", "value": "(888)-(999)-(0000) " }, { "key": "Fax: ", "value": "(888)-(999)-(1111) " }, { "key": "Patient Name: ", "value": "John Doe " }, { "key": "Patient ID: ", "value": "NARH-36640 " }, { "key": "Gender: ", "value": "Male " }, { "key": "Attending Physician: ", "value": "Mateo Jackson, PhD " }, { "key": "Admit Date: ", "value": "07-Sep-2020 " }, { "key": "Discharge Date: ", "value": "08-Sep-2020 " }, { "key": "Discharge Disposition: ", "value": "Home with Support Services " }, { "key": "Pre-existing / Developed Conditions Impacting Hospital Stay: ", "value": "35 yo M c/o stomach problems since 2 months. Patient reports epigastric abdominal pain non- radiating. Pain is described as gnawing and burning, intermittent lasting 1-2 hours, and gotten progressively worse. Antacids used to alleviate pain but not anymore; nothing exacerbates pain. Pain unrelated to daytime or to meals. Patient denies constipation or diarrhea. Patient denies blood in stool but have noticed them darker. Patient also reports nausea. Denies recent illness or fever. He also reports fatigue for 2 weeks and bloating after eating. ROS: Negative except for above findings Meds: Motrin once/week. Tums previously. PMHx: Back pain and muscle spasms. No Hx of surgery. NKDA. FHx: Uncle has a bleeding ulcer. Social Hx: Smokes since 15 yo, 1/2-1 PPD. No recent EtOH use. Denies illicit drug use. Works on high elevation construction. Fast food diet. Exercises 3-4 times/week but stopped 2 weeks ago. " }, { "key": "Summary: ", "value": "some activity restrictions suggested, full course of antibiotics, check back with physican in case of relapse, strict diet " } ] }

Ustvarjanje teh povzetkov z uporabo IDP z implementacijo brez strežnika v velikem obsegu pomaga organizacijam pridobiti smiselne, jedrnate in predstavljive podatke na stroškovno učinkovit način. Step Functions ne omejuje metode obdelave dokumentov na en dokument naenkrat. Njegovo porazdeljen zemljevid funkcija lahko povzame veliko število dokumentov na urniku.

O uporaba vzorca uporablja a flan-t5 Model objemajočega obraza; lahko pa uporabite končno točko FM po svoji izbiri. Usposabljanje in izvajanje modela je izven obsega vzorčne aplikacije. Sledite navodilom v repozitoriju GitHub za uvedbo vzorčne aplikacije. Prejšnja arhitektura je vodilo o tem, kako lahko orkestrirate potek dela IDP z uporabo funkcij korakov. Glejte na IDP Generative AI delavnica za podrobna navodila o izdelavi aplikacije s storitvami AWS AI in FM.

Nastavite rešitev

Sledite korakom v README datoteko za nastavitev arhitekture rešitve (razen za končne točke SageMaker). Ko imate na voljo lastno končno točko SageMaker, lahko posredujete ime končne točke kot parameter predlogi.

Čiščenje

Če želite prihraniti stroške, izbrišite vire, ki ste jih uvedli kot del vadnice:

  1. Sledite korakom v razdelku za čiščenje v README Datoteka.
  2. Izbrišite vso vsebino iz vedra S3 in nato vedro izbrišite prek konzole Amazon S3.
  3. Izbrišite vse končne točke SageMaker, ki ste jih morda ustvarili prek konzole SageMaker.

zaključek

Generativna umetna inteligenca spreminja način obdelave dokumentov z IDP za pridobivanje vpogledov. Storitve AI AWS, kot je Amazon Texttract skupaj z AWS FMs, lahko pomagajo pri natančni obdelavi vseh vrst dokumentov. Za več informacij o delu z generativnim AI na AWS glejte Napovedujemo nova orodja za gradnjo z Generative AI na AWS.


O avtorjih

Enhancing AWS intelligent document processing with generative AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Sonali Sahu vodi inteligentno obdelavo dokumentov z ekipo storitev AI/ML v AWS. Je avtorica, vodja misli in strastna tehnologinja. Njeno osrednje področje osredotočanja je AI in ML in pogosto govori na konferencah in srečanjih AI in ML po vsem svetu. Ima širino in globino izkušenj s tehnologijo in tehnološko industrijo, s strokovnim znanjem v zdravstveni oskrbi, finančnem sektorju in zavarovalništvu.

Enhancing AWS intelligent document processing with generative AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Ashish Lal je višji vodja trženja izdelkov, ki vodi trženje izdelkov za storitve umetne inteligence pri AWS. Ima 9 let izkušenj s trženjem in je vodil prizadevanja za trženje izdelkov za inteligentno obdelavo dokumentov. Magistriral je iz poslovne administracije na Univerzi v Washingtonu.

Enhancing AWS intelligent document processing with generative AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Mrunal Daftari je višji arhitekt za poslovne rešitve pri Amazon Web Services. Sedež ima v Bostonu, MA. Je navdušenec nad oblaki in zelo navdušen nad iskanjem rešitev za stranke, ki so preproste in dosegajo njihove poslovne rezultate. Rad dela s tehnologijami v oblaku, zagotavlja preproste, razširljive rešitve, ki vodijo k pozitivnim poslovnim rezultatom, strategijo sprejemanja v oblaku ter oblikuje inovativne rešitve in spodbuja operativno odličnost.

Enhancing AWS intelligent document processing with generative AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Dhiraj Mahapatro je glavni arhitekt specializiranih rešitev brez strežnikov pri AWS. Specializiran je za pomoč podjetniškim finančnim storitvam, da sprejmejo brezstrežniške in na dogodke vodene arhitekture, da posodobijo svoje aplikacije in pospešijo svojo hitrost inovacij. Pred kratkim si prizadeva približati delovne obremenitve vsebnikov in praktično uporabo generativne umetne inteligence brezstrežniškemu in EDA za stranke v industriji finančnih storitev.

Enhancing AWS intelligent document processing with generative AI | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Jakob Hauskens je glavni strokovnjak za umetno inteligenco z več kot 15-letnimi izkušnjami na področju strateškega poslovnega razvoja in partnerstev. Zadnjih 7 let je vodil ustvarjanje in implementacijo tržnih strategij za nove B2B storitve, ki jih poganja AI. V zadnjem času pomaga neodvisnim ponudnikom programske opreme povečati njihove prihodke z dodajanjem generativne umetne inteligence v delovne poteke inteligentne obdelave dokumentov.

Časovni žig:

Več od Strojno učenje AWS