Esittelyssä yksivaiheinen luokittelu ja kokonaisuuden tunnistaminen Amazon Comprehendin avulla älykkääseen asiakirjojen käsittelyyn

Julkaissut Platon

seuraajia: 0

”Älykkäät asiakirjankäsittelyratkaisut (IDP) poimivat dataa suuren volyymin ja toistuvien dokumenttien käsittelytehtävien automatisoimiseksi sekä analysointia ja näkemystä varten. IDP käyttää luonnollisen kielen teknologioita ja tietokonenäköä poimimaan dataa strukturoidusta ja jäsentämättömästä sisällöstä, erityisesti asiakirjoista, automaation ja lisäyksen tukemiseksi. – Gartner

Amazonin älykkään dokumenttien käsittelyn (IDP) tavoitteena on automatisoida suurten dokumenttimäärien käsittely koneoppimisen (ML) avulla tuottavuuden lisäämiseksi, työvoimakustannusten vähentämiseksi ja saumattoman käyttökokemuksen tarjoamiseksi. Asiakkaat käyttävät paljon aikaa ja vaivaa asiakirjojen tunnistamiseen ja kriittisen tiedon poimimiseen eri käyttötapauksia varten. Tänään, Amazonin käsitys tukee tavallisten tekstiasiakirjojen luokittelua, mikä edellyttää dokumenttien esikäsittelyä puolirakenteisissa muodoissa (skannattu, digitaalinen PDF tai kuvat, kuten PNG, JPG, TIFF) ja käytä sitten pelkkää tekstiä johtopäätöksen tekemiseen mukautettu luokitus malli. Samoin varten mukautetun kokonaisuuden tunnistus reaaliajassa esikäsittely tekstin purkamiseksi vaaditaan puolistrukturoiduille asiakirjoille, kuten PDF- ja kuvatiedostoille. Tämä kaksivaiheinen prosessi tuo monimutkaisia asiakirjojen käsittelyn työnkulkuja.

Viime vuonna me ilmoitti tuesta alkuperäisille asiakirjamuodoille mukautetun nimetyn entiteettitunnistuksen (NER) kanssa asynkroniset työt. Tänään meillä on ilo julkistaa yksivaiheinen asiakirjojen luokittelu ja NER:n reaaliaikainen analyysi natiivimuodoissa (PDF, TIFF, JPG, PNG) oleville puolistrukturoiduille asiakirjoille Amazon Comprehendin avulla. Ilmoitamme erityisesti seuraavista ominaisuuksista:

Tuki alkuperäisissä muodoissa oleville asiakirjoille mukautetun luokituksen reaaliaikaista analysointia ja asynkronisia töitä varten
Tuki alkuperäisissä muodoissa oleville asiakirjoille mukautetun entiteetin tunnistusta varten reaaliaikaisesti

Tämän uuden julkaisun myötä Amazon Comprehend mukautettu luokittelu ja mukautetun kokonaisuuden tunnistus (NER) tukee PDF-, TIFF-, PNG- ja JPEG-muotoisia asiakirjoja suoraan ilman, että niistä tarvitsee poimia UTF8-koodattua pelkkää tekstiä. Seuraavassa kuvassa verrataan edellistä prosessia uuteen menettelyyn ja tukeen.

Tämä ominaisuus yksinkertaistaa asiakirjojen käsittelyn työnkulkuja eliminoimalla kaikki esikäsittelyvaiheet, joita tarvitaan pelkän tekstin poimimiseen asiakirjoista, ja vähentää niiden käsittelyyn kuluvaa kokonaisaikaa.

Tässä viestissä keskustelemme korkean tason IDP-työnkulkuratkaisun suunnittelusta, muutamasta teollisuuden käyttötapauksesta, Amazon Comprehendin uusista ominaisuuksista ja niiden käytöstä.

Katsaus ratkaisuun

Aloitetaan tutkimalla yleinen käyttötapaus vakuutusalalla. Tyypillinen vakuutuskorvausprosessi sisältää korvauspaketin, joka voi sisältää useita asiakirjoja. Kun vakuutushakemus jätetään, se sisältää asiakirjoja, kuten vakuutuskorvauslomakkeen, tapahtumaraportit, henkilöllisyystodistukset ja kolmannen osapuolen korvausasiakirjat. Vakuutuskorvauksen käsittelyyn ja ratkaisemiseen tarvittavien asiakirjojen määrä voi olla jopa satoja ja jopa tuhansia sivuja riippuen korvausvaatimuksen tyypistä ja asiaan liittyvistä liiketoimintaprosesseista. Vakuutuskorvausten edustajat ja tuomarit käyttävät tyypillisesti satoja tunteja manuaalisesti seulomaan, lajittelemaan ja poimimaan tietoja sadoista tai jopa tuhansista korvaushakemuksista.

Kuten vakuutusalan käyttötapauksessa, myös maksuala käsittelee suuria määriä puolistrukturoituja asiakirjoja rajat ylittäviin maksusopimuksiin, laskuihin ja valuuttatiliotteisiin. Yrityskäyttäjät käyttävät suurimman osan ajastaan manuaalisiin toimintoihin, kuten tarvittavien tietojen tunnistamiseen, järjestämiseen, validointiin, poimimiseen ja siirtämiseen loppupään sovelluksiin. Tämä manuaalinen prosessi on työläs, toistuva, virhealtis, kallis ja vaikea skaalata. Muita samankaltaisia haasteita kohtaavia toimialoja ovat asuntolainat ja luotonanto, terveydenhuolto ja biotieteet, laki-, kirjanpito- ja verohallinto. Yrityksille on äärimmäisen tärkeää käsitellä näin suuret asiakirjamäärät oikea-aikaisesti korkealla tarkkuudella ja nimellisellä manuaalisella vaivalla.

Amazon Comprehend tarjoaa keskeiset ominaisuudet asiakirjojen luokittelun ja tiedon poimimisen automatisoimiseksi suuresta määrästä asiakirjoja suurella tarkkuudella skaalautuvalla ja kustannustehokkaalla tavalla. Seuraava kaavio näyttää IDP:n loogisen työnkulun Amazon Comprehendin kanssa. Työnkulun ytimen muodostavat asiakirjojen luokittelu ja tietojen poimiminen NER:n avulla Amazon Comprehendin mukautettujen mallien kanssa. Kaavio osoittaa myös, kuinka mukautettuja malleja voidaan jatkuvasti parantaa tarkkuuden lisäämiseksi asiakirjojen ja liiketoimintaprosessien kehittyessä.

Mukautettu asiakirjaluokitus

Amazon Comprehend mukautetun luokituksen avulla voit järjestää asiakirjasi ennalta määritettyihin luokkiin (luokkiin). Korkealla tasolla seuraavat vaiheet mukautetun asiakirjaluokittelun määrittämiseksi ja asiakirjojen luokittelun suorittamiseksi:

Valmistele harjoitustiedot mukautetun asiakirjan luokittelijan kouluttamiseksi.
Kouluta asiakasasiakirjan luokitin koulutustiedoilla.
Kun malli on koulutettu, ota valinnaisesti käyttöön reaaliaikainen päätepiste.
Suorita asiakirjan luokittelu joko asynkronisella työllä tai reaaliajassa päätepisteen avulla.

Vaiheet 1 ja 2 tehdään yleensä IDP-projektin alussa sen jälkeen, kun liiketoimintaprosessiin liittyvät asiakirjaluokat on tunnistettu. Mukautettua luokitinmallia voidaan sitten ajoittain kouluttaa uudelleen tarkkuuden parantamiseksi ja uusien asiakirjaluokkien käyttöönottamiseksi. Voit kouluttaa mukautetun luokitusmallin joko moniluokkainen tila or monimerkkitila. Koulutus voidaan suorittaa jokaiselle kahdella tavalla: käyttämällä CSV-tiedostoa tai käyttämällä lisättyä luettelotiedostoa. Viitata Harjoitustietojen valmistelu saadaksesi lisätietoja mukautetun luokitusmallin koulutuksesta. Kun mukautettu luokitinmalli on koulutettu, asiakirja voidaan luokitella joko käyttämällä reaaliaikainen analyysi tai asynkroninen työ. Reaaliaikainen analyysi edellyttää käyttöön otettava päätepiste koulutetun mallin kanssa ja sopii parhaiten pienille asiakirjoille käyttötapauksesta riippuen. Useille asiakirjoille asynkroninen luokitustyö sopii parhaiten.

Kouluta mukautettu asiakirjaluokitusmalli

Uuden ominaisuuden esittelemiseksi koulutimme räätälöidyn luokittelumallin monitarratilassa, joka voi luokitella vakuutusasiakirjat johonkin seitsemästä eri luokasta. Luokat ovat INSURANCE_ID, PASSPORT, LICENSE, INVOICE_RECEIPT, MEDICAL_TRANSCRIPTION, DISCHARGE_SUMMARYja CMS1500. Haluamme luokitella esimerkkiasiakirjat alkuperäisessä PDF-, PNG- ja JPEG-muodossa, jotka on tallennettu Amazonin yksinkertainen tallennuspalvelu (Amazon S3) kauha, luokitusmallilla. Aloita asynkroninen luokitustyö suorittamalla seuraavat vaiheet:

Valitse Amazon Comprehend -konsolista Analyysi työpaikkoja navigointipaneelissa.
Valita Luo työpaikka.
varten Nimi, anna luokitustyöllesi nimi.
varten Analyysityyppi¸ valitse Mukautettu luokitus.
varten Luokittelumalli, valitse sopiva koulutettu luokitusmalli.
varten Versio, valitse sopiva malliversio.

In Syöttötiedot -osiossa annamme asiakirjamme säilytyspaikan.

varten Syöttömuoto, valitse Yksi asiakirja per tiedosto.
varten Asiakirjan lukutila¸ valitse Pakota asiakirjan lukutoiminto.
varten Asiakirjan lukutoiminto, valitse Textact tunnistaa asiakirjan tekstiä.

Tämä mahdollistaa Amazon Comprehendin käytön Amazonin teksti DetectDocumentText API lukemaan asiakirjat ennen luokituksen suorittamista. The DetectDocumentText API auttaa poimimaan rivejä ja sanoja tekstistä asiakirjoista. Voit myös valita Tekstin analysointiasiakirja varten Asiakirjan lukutoiminto, jolloin Amazon Comprehend käyttää Amazon Textractia Analysoi asiakirja API lukea asiakirjoja. Kanssa AnalyzeDocument API, voit halutessasi purkaa taulukot, Lomakkeet, tai molemmat. The Asiakirjan lukutila vaihtoehdon avulla Amazon Comprehend voi poimia tekstin asiakirjoista kulissien takana, mikä auttaa vähentämään asiakirjan käsittelyn työnkulussamme vaadittavaa tekstin poimimista asiakirjasta.

Amazon Comprehend mukautettu luokitin voi myös käsitellä JSON-vastauksia, jotka on luotu DetectDocumentText ja AnalyzeDocument API:t ilman muutoksia tai esikäsittelyä. Tämä on hyödyllistä olemassa olevissa työnkuluissa, joissa Amazon Textract on jo mukana poimimassa tekstiä asiakirjoista. Tässä tapauksessa Amazon Textractin JSON-tulostus voidaan syöttää suoraan Amazon Comprehend -dokumenttien luokittelusovellusliittymiin.

In Lähtötiedot osa, varten S3 sijainti, määritä Amazon S3 -sijainti, johon haluat asynkronisen työn kirjoittavan päättelyn tulokset.
Jätä loput vaihtoehdot oletusarvoiksi.
Valita Luo työpaikka aloittaaksesi työn.

Voit tarkastella tehtävän tilaa osoitteessa Analyysi työpaikkoja sivu.

Kun työ on valmis, voimme tarkastella analyysityön tulostetta, joka on tallennettu työn määrityksen aikana annettuun Amazon S3 -sijaintiin. Yksisivuisen PDF-näytteen CMS1500-asiakirjamme luokittelutulos on seuraava. Tulos on JSON lines -muodossa oleva tiedosto, joka on muotoiltu luettavuuden parantamiseksi.

{
  "Classes": [
    { "Name": "CMS1500", "Score": 0.9998 },
    { "Name": "DISCHARGE_SUMMARY", "Score": 0.0001 },
    { "Name": "INSURANCE_ID", "Score": 0 },
    { "Name": "PASSPORT", "Score": 0 },
    { "Name": "LICENSE", "Score": 0 },
    { "Name": "INVOICE_RECEIPT", "Score": 0 },
    { "Name": "MEDICAL_TRANSCRIPTION", "Score": 0 }
  ],
  "DocumentMetadata": {
    "PageNumber": 1,
    "Pages": 1
  },
  "DocumentType": "NativePDFScanned",
  "File": "sample-cms1500.pdf",
  "Version": "2022-08-30"
}

Edellinen esimerkki on yksisivuinen PDF-dokumentti; mukautettu luokittelu voi kuitenkin käsitellä myös monisivuisia PDF-dokumentteja. Monisivuisten asiakirjojen tapauksessa tulos sisältää useita JSON-rivejä, joissa jokainen rivi on asiakirjan kunkin sivun luokittelutulos. Seuraava on esimerkki monisivuisesta luokittelutulosteesta:

{"Classes": [{"Name": "CMS1500", "Score": 0.4718}, {"Name": "MEDICAL_TRANSCRIPTION", "Score": 0.0841}, {"Name": "PASSPORT", "Score": 0.0722}], "DocumentMetadata": {"PageNumber": 1, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 2, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 3, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

{"Classes": [{"Name": "DISCHARGE_SUMMARY", "Score": 0.9998}, {"Name": "CMS1500", "Score": 0.0001}, {"Name": "INVOICE_RECEIPT", "Score": 0.0}], "DocumentMetadata": {"PageNumber": 4, "Pages": 4}, "DocumentType": "NativePDFScanned", "File": "sample-document.pdf", "Version": "2022-08-30"}

Mukautetun entiteetin tunnistus

Amazon Comprehend mukautetun entiteettitunnistimen avulla voit analysoida asiakirjoja ja poimia kokonaisuuksia, kuten tuotekoodeja tai yrityskohtaisia kokonaisuuksia, jotka sopivat sinun tarpeisiisi. Korkealla tasolla seuraavat vaiheet mukautetun entiteetin tunnistimen määrittämiseksi ja kokonaisuuden havaitsemiseksi:

Valmistele harjoitustiedot mukautetun entiteetin tunnistimen kouluttamiseksi.
Kouluta mukautetun entiteetin tunnistus harjoitustiedoilla.
Kun malli on koulutettu, ota valinnaisesti käyttöön reaaliaikainen päätepiste.
Suorita entiteetin tunnistus joko asynkronisella työllä tai reaaliajassa päätepisteen avulla.

Mukautettua entiteetin tunnistusmallia voidaan ajoittain kouluttaa uudelleen tarkkuuden parantamiseksi ja uusien entiteettityyppien käyttöönottamiseksi. Voit kouluttaa mukautetun entiteetin tunnistusmallin kummalla tahansa kokonaisuusluettelot or merkinnät. Molemmissa tapauksissa Amazon Comprehend oppii dokumenttien tyypeistä ja kontekstista, jossa entiteetit esiintyvät, rakentaakseen kokonaisuuden tunnistusmallin, joka voi yleistää havaitakseen uusia kokonaisuuksia. Viitata Harjoitustietojen valmistelu saadaksesi lisätietoja harjoitustietojen valmistelusta mukautetun entiteettitunnistimen käyttöön.

Kun mukautettu entiteetin tunnistusmalli on koulutettu, entiteetin tunnistus voidaan tehdä joko käyttämällä reaaliaikainen analyysi tai asynkroninen työ. Reaaliaikainen analyysi edellyttää käyttöön otettava päätepiste koulutetun mallin kanssa ja sopii parhaiten pienille asiakirjoille käyttötapauksesta riippuen. Useille asiakirjoille asynkroninen luokitustyö sopii parhaiten.

Kouluta mukautettu kokonaisuuden tunnistusmalli

Havainnollistaaksemme entiteetin havaitsemista reaaliajassa koulutimme mukautetun entiteetin tunnistusmallin vakuutusasiakirjoilla ja laajennetuilla luettelotiedostoilla mukautettujen huomautusten avulla ja otimme käyttöön päätepisteen koulutetun mallin avulla. Entiteettityypit ovat Law Firm, Law Office Address, Insurance Company, Insurance Company Address, Policy Holder Name, Beneficiary Name, Policy Number, Payout, Required Actionja Sender. Haluamme havaita entiteetit natiivi PDF-, PNG- ja JPEG-muotoisista esimerkkiasiakirjoista, jotka on tallennettu S3-ämpäriin, käyttämällä tunnistusmallia.

Huomaa, että voit käyttää mukautettua entiteetin tunnistusmallia, joka on koulutettu PDF-dokumenttien kanssa, poimimaan mukautettuja entiteettejä PDF-, TIFF-, kuva-, Word- ja pelkkää tekstiä sisältävistä asiakirjoista. Jos mallisi on koulutettu tekstidokumenttien ja entiteettiluettelon avulla, voit käyttää vain pelkkää tekstiä sisältäviä asiakirjoja kokonaisuuksien purkamiseen.

Meidän on tunnistettava entiteetit malliasiakirjasta missä tahansa alkuperäisessä PDF-, PNG- ja JPEG-muodossa käyttämällä tunnistusmallia. Aloita synkronisen entiteetin tunnistustyö suorittamalla seuraavat vaiheet:

Valitse Amazon Comprehend -konsolista Reaaliaikainen analyysi navigointipaneelissa.
Alle Analyysityyppivalitse Mittatilaus.
varten Mukautetun entiteetin tunnistus, valitse mukautetun mallin tyyppi.
varten päätepiste, valitse reaaliaikainen päätepiste, jonka loit entiteetin tunnistusmallillesi.
valita Lataa tiedosto Ja valitse Valitse tiedosto ladataksesi PDF- tai kuvatiedoston päätelmiä varten.
Laajenna Edistynyt asiakirjan syöttö osio ja varten Asiakirjan lukutila, valitse Palvelun oletusarvo.
varten Asiakirjan lukutoiminto, valitse Textact tunnistaa asiakirjan tekstiä.
Valita Analysoida analysoida asiakirjaa reaaliajassa.

Hyväksytyt yhteisöt on lueteltu kohdassa Insights osio. Jokainen entiteetti sisältää entiteetin arvon (tekstin), koulutusprosessin aikana määrittämäsi entiteettityypin ja vastaavan luottamuspisteen.

Saat lisätietoja ja täydellisen esittelyn mukautetun entiteetin tunnistusmallin kouluttamisesta ja sen käyttämisestä asynkronisen päättelyn suorittamiseen asynkronisten analyysitöiden avulla: Pura mukautettuja kokonaisuuksia asiakirjoista niiden alkuperäisessä muodossa Amazon Comprehendin avulla.

Yhteenveto

Tämä viesti osoitti, kuinka voit luokitella ja luokitella puolistrukturoidut asiakirjat niiden alkuperäisessä muodossa ja havaita niistä yrityskohtaisia kokonaisuuksia Amazon Comprehendin avulla. Voit käyttää reaaliaikaisia sovellusliittymiä alhaisen viiveen käyttötapauksiin tai käyttää asynkronisia analyysitöitä asiakirjojen joukkokäsittelyyn.

Seuraavana askeleena kehotamme sinua vierailemaan Amazon Comprehendissä GitHub-arkisto täydellisiä koodinäytteitä kokeillaksesi näitä uusia ominaisuuksia. Voit myös vierailla Amazon Comprehend -kehittäjäopas ja Amazon Comprehend -kehittäjäresurssit videoita, opetusohjelmia, blogeja ja paljon muuta varten.

Tietoja kirjoittajista

Wrick Talukdar on vanhempi arkkitehti Amazon Comprehend Service -tiimissä. Hän työskentelee AWS-asiakkaiden kanssa auttaakseen heitä ottamaan käyttöön koneoppimisen laajassa mittakaavassa. Työn ulkopuolella hän pitää lukemisesta ja valokuvaamisesta.

Anjan Biswas on vanhempi AI-palveluratkaisuarkkitehti, joka keskittyy tekoälyyn/ML:ään ja data-analyyseihin. Anjan on osa maailmanlaajuista tekoälypalvelutiimiä ja työskentelee asiakkaiden kanssa auttaakseen heitä ymmärtämään ja kehittämään ratkaisuja tekoälyn ja ML:n liiketoimintaongelmiin. Anjanilla on yli 14 vuoden kokemus työskentelystä maailmanlaajuisten toimitusketju-, valmistus- ja vähittäismyyntiorganisaatioiden kanssa, ja hän auttaa aktiivisesti asiakkaita pääsemään alkuun ja skaalaamaan AWS AI -palveluita.

Godwin Sahayaraj Vincent on AWS:n Enterprise Solutions -arkkitehti, joka on intohimoinen koneoppimiseen ja opastaa asiakkaita AWS-työkuormien ja -arkkitehtuurien suunnittelussa, käyttöönotossa ja hallinnassa. Vapaa-ajallaan hän pelaa mielellään krikettiä ystäviensä kanssa ja tennistä kolmen lapsensa kanssa.

Aikaleima: Joulukuu 2, 2022Joulukuu 2, 2022

Lisää aiheesta AWS-koneoppiminen

Amazon SageMaker Feature Store tukee nyt tilien välistä jakamista, etsintää ja pääsyä | Amazon Web Services

Lähde klusteri:

AWS-koneoppiminen

Lähdesolmu: 1947390

Aikaleima: Helmikuu 13, 2024

AWS hienosäätää suurta kielimallia (LLM) luokitellakseen myrkyllisen puheen suurelle peliyhtiölle | Amazon Web Services

AWS-koneoppiminen

Lähdesolmu: 1822975

Aikaleima: Huhtikuu 7, 2023

Esittelyssä yksivaiheinen luokittelu ja kokonaisuuden tunnistaminen Amazon Comprehendin avulla älykkään asiakirjojen käsittelyn takaamiseksi

Julkaissut Platon

Katsaus ratkaisuun

Mukautettu asiakirjaluokitus

Kouluta mukautettu asiakirjaluokitusmalli

Mukautetun entiteetin tunnistus

Kouluta mukautettu kokonaisuuden tunnistusmalli

Yhteenveto

Tietoja kirjoittajista

Lisää aiheesta AWS-koneoppiminen

AWS-kiihdyttimien startup-yritykset käyttävät tekoälyä ja ML:ää ratkaistakseen kriittisiä asiakashaasteita

Käytä tietokonenäköä maatalouden sadon mittaamiseen Amazon Rekognitionin mukautetuilla tarroilla

Helppo ja tarkka ennustaminen AutoGluon-TimeSeriesin avulla

Rakenna sähköpostiroskapostin tunnistin Amazon SageMakerin avulla Amazon Web Services

Metaanin päästöpistelähteiden havaitseminen ja suurtaajuinen seuranta käyttämällä Amazon SageMakerin geospatiaalisia ominaisuuksia | Amazon Web Services

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili