Amazon Comprehend Document Classifier Adds Layout Support For Higher Accuracy

Ponovno objavil Platon

Spremljevalci: 0

Sposobnost učinkovite obdelave in obdelave ogromnih količin dokumentov je postala bistvena za podjetja v sodobnem svetu. Zaradi nenehnega dotoka informacij, s katerimi se ukvarjajo vsa podjetja, ročno razvrščanje dokumentov ni več izvedljiva možnost. Modeli klasifikacije dokumentov lahko avtomatizirajo postopek in pomagajo organizacijam prihraniti čas in vire. Tradicionalne tehnike kategorizacije, kot sta ročna obdelava in iskanje na podlagi ključnih besed, postajajo manj učinkovite in zamudnejše, ko se obseg dokumentov povečuje. Ta neučinkovitost povzroča manjšo produktivnost in višje stroške poslovanja. Poleg tega lahko prepreči dostopnost ključnih informacij, ko so potrebne, kar lahko privede do slabe uporabniške izkušnje in vpliva na odločanje. Na AWS re:Invent 2022, Amazonsko razumevanje, storitev za obdelavo naravnega jezika (NLP), ki uporablja strojno učenje (ML) za odkrivanje vpogledov iz besedila, začela podpora za izvorne vrste dokumentov. Ta nova funkcija vam je dala možnost razvrščanja dokumentov v izvorne formate (PDF, TIFF, JPG, PNG, DOCX) z uporabo Amazon Comprehend.

Danes z veseljem sporočamo, da Amazon Comprehend zdaj podpira usposabljanje za model klasifikacije po meri z dokumenti, kot so PDF, Word in slikovni formati. Zdaj lahko trenirate prilagojene modele klasifikacije dokumentov na izvornih dokumentih, ki poleg besedila podpirajo tudi postavitev, s čimer povečate natančnost rezultatov.

V tej objavi nudimo pregled, kako lahko začnete z usposabljanjem modela klasifikacije dokumentov po meri Amazon Comprehend.

Pregled

Zmožnost razumevanja relativne postavitve predmetov v določenem prostoru se imenuje zavest o postavitvi. V tem primeru pomaga modelu razumeti, kako so glave, podnaslovi, tabele in grafike povezani med seboj znotraj dokumenta. Model lahko učinkoviteje kategorizira dokument na podlagi njegove vsebine, če se zaveda strukture in postavitve besedila.

Amazon Comprehend document classifier adds layout support for higher accuracy PlatoBlockchain Data Intelligence. Vertical Search. Ai.

V tem prispevku se sprehodimo skozi vključene korake priprave podatkov, prikažemo postopek usposabljanja modela in razpravljamo o prednostih uporabe novega modela klasifikacije dokumentov po meri v Amazon Comprehend. Najboljša praksa je, da razmislite o naslednjih točkah, preden začnete učiti model klasifikacije dokumentov po meri.

Ocenite svoje potrebe po klasifikaciji dokumentov

Identificirajte različne vrste dokumentov, ki jih boste morda morali razvrstiti, skupaj z različnimi razredi ali kategorijami, ki podpirajo vaš primer uporabe. Določite ustrezno klasifikacijsko strukturo ali taksonomijo po oceni količine in vrst dokumentov, ki jih je treba kategorizirati. Vrste dokumentov se lahko razlikujejo od PDF, Word, slik itd. Prepričajte se, da imate pooblaščen dostop do raznolikega nabora označenih dokumentov prek sistema za upravljanje dokumentov ali drugih mehanizmov za shranjevanje.

Pripravite svoje podatke

Prepričajte se, da datoteke dokumentov, ki jih nameravate uporabiti za usposabljanje modelov, niso šifrirane ali zaklenjene – na primer, poskrbite, da vaše datoteke PDF niso šifrirane in zaklenjene z geslom. Takšne datoteke morate dešifrirati, preden jih lahko uporabite za namene usposabljanja. Označite vzorec svojih dokumentov z ustreznimi kategorijami ali oznakami (razredi). Ugotovite, ali je razvrstitev z eno samo oznako (večrazredni način) Ali razvrstitev z več oznakami je primeren za vaš primer uporabe. Večrazredni način z vsakim dokumentom poveže samo en razred, medtem ko način z več oznakami z dokumentom poveže enega ali več razredov.

Razmislite o oceni modela

Uporabite označeni nabor podatkov za usposabljanje modela, da se lahko nauči natančno razvrščati nove dokumente in oceniti, kako deluje na novo usposobljena različica modela z razumevanjem meritev modela. Če želite razumeti meritve, ki jih nudi usposabljanje po modelu Amazon Comprehend, glejte Meritve klasifikatorja po meri. Po končanem procesu usposabljanja lahko začnete asinhrono ali v realnem času razvrščati dokumente. V naslednjih razdelkih si bomo ogledali, kako usposobiti model klasifikacije po meri.

Pripravite podatke o usposabljanju

Preden usposobimo naš model klasifikacije po meri, moramo pripraviti podatke za usposabljanje. Podatki o usposabljanju so sestavljeni iz nabora označenih dokumentov, ki so lahko vnaprej identificirani dokumenti iz repozitorija dokumentov, do katerega že imate dostop. Za naš primer smo usposobili model klasifikacije po meri z nekaj različnimi vrstami dokumentov, ki jih običajno najdemo v postopku odločanja o zahtevkih za zdravstveno zavarovanje: povzetek odpustnice bolnika, računi, potrdila itd. Pripraviti moramo tudi datoteko z opombami v formatu CSV. Sledi primer podatkov CSV datoteke z opombami, potrebnih za usposabljanje:

 discharge_summary,summary-1.pdf,1 discharge_summary,summary-2.pdf,1 invoice,invoice-1.pdf,1 invoice,invoice-1.pdf,2 invoice,invoice-2.pdf,1

Datoteka CSV z opombami mora vsebovati tri stolpce. Prvi stolpec vsebuje želeni razred (oznako) za dokument, drugi stolpec je ime dokumenta (ime datoteke), zadnji stolpec pa je številka strani dokumenta, ki ga želite vključiti v nabor podatkov o usposabljanju. Ker proces usposabljanja podpira izvorne večstranske datoteke PDF in DOCX, morate določiti številko strani, če je dokument večstranski dokument. Če želite vključiti vse strani večstranskega dokumenta v nabor podatkov za usposabljanje, morate vsako stran podati kot ločeno vrstico v datoteki z opombami CSV. Na primer, v prejšnji datoteki z opombami invoice-1.pdf je dvostranski dokument in obe strani želimo vključiti v nabor klasifikacijskih podatkov. Ker so datoteke, kot so PDF, PNG in TIFF, slikovne oblike, mora biti vrednost številke strani (tretji stolpec) vedno enaka 1. Če vaš nabor podatkov vsebuje datoteke TIF z več okvirji (več strani), jih morate razdeliti v ločene datoteke TIF v da bi jih uporabili v procesu usposabljanja.

Pripravili smo datoteko z opombami, imenovano test.csv z ustreznimi podatki za usposabljanje modela klasifikacije po meri. Za vsak vzorčni dokument datoteka CSV vsebuje razred, ki mu dokument pripada, lokacijo dokumenta Preprosta storitev shranjevanja Amazon (Amazon S3), kot npr path/to/prefix/document.pdfin številko strani (če obstaja). Ker je večina naših dokumentov bodisi enostranskih datotek DOCX, PDF ali datotek TIF, JPG ali PNG, je dodeljena številka strani 1. Ker so naši komentarji CSV in vzorčni dokumenti vsi pod isto predpono Amazon S3, ne v drugem stolpcu ni treba izrecno določiti predpone. Za vsak razred pripravimo tudi vsaj 10 vzorcev dokumentov ali več, za usposabljanje modela pa smo uporabili mešanico datotek JPG, PNG, DOCX, PDF in TIF. Upoštevajte, da je za usposabljanje modela običajno priporočljivo imeti raznolik niz vzorčnih dokumentov, da se izognete pretiranemu opremljanju modela, kar vpliva na njegovo sposobnost prepoznavanja novih dokumentov. Priporočljivo je tudi, da je število vzorcev na razred uravnoteženo, čeprav ni nujno, da je število vzorcev na razred enako. Nato naložimo test.csv datoteko z opombami in vse dokumente v Amazon S3. Naslednja slika prikazuje del naše datoteke CSV z opombami.

Amazon Comprehend document classifier adds layout support for higher accuracy PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Usposobite model klasifikacije po meri

Zdaj, ko imamo pripravljeno datoteko z opombami in vse naše vzorčne dokumente, smo nastavili model klasifikacije po meri in ga usposobili. Preden začnete nastavljati usposabljanje za model klasifikacije po meri, se prepričajte, da CSV z opombami in vzorčni dokumenti obstajajo na lokaciji Amazon S3.

Na konzoli Amazon Comprehend izberite Razvrstitev po meri v podoknu za krmarjenje.
Izberite Ustvari nov model.
za Ime modela, vnesite edinstveno ime.
za Ime različice, vnesite edinstveno ime različice.
za Vrsta modela usposabljanjatako, da izberete Domači dokumenti.

To pove Amazon Comprehend, da nameravate uporabiti izvorne vrste dokumentov za usposabljanje modela namesto serializiranega besedila.

za Način klasifikatorjatako, da izberete Uporaba načina z eno oznako.

Ta način pove klasifikatorju, da nameravamo razvrstiti dokumente v en razred. Če morate usposobiti model z načinom z več oznakami, kar pomeni, da lahko dokument pripada enemu ali več kot enemu razredu, morate ustrezno nastaviti datoteko z opombami, tako da v CSV z opombami določite razrede dokumenta, ločene s posebnim znakom. mapa. V tem primeru bi izbrali Uporaba načina z več oznakami možnost.

za Lokacija opombe na S3, vnesite pot do datoteke CSV z opombami.
za Lokacija podatkov o usposabljanju na S3, vnesite lokacijo Amazon S3, kjer so vaši dokumenti.
Vse druge možnosti v tem razdelku pustite privzete.
v Izhodni podatki razdelku določite lokacijo Amazon S3 za svoj rezultat.

To ni obvezno, vendar je dobra praksa, da zagotovite izhodno lokacijo, ker bo Amazon Comprehend na tej lokaciji ustvaril meritve ocenjevanja usposabljanja po modelu. Ti podatki so uporabni za ocenjevanje zmogljivosti modela, ponavljanje in izboljšanje natančnosti vašega modela.

v Vloga IAM izberite ustrezen razdelek AWS upravljanje identitete in dostopa (IAM), ki omogoča Amazon Comprehend dostop do lokacije Amazon S3 ter pisanje in branje z nje.
Izberite ustvarjanje za začetek usposabljanja modela.

Učenje modela lahko traja nekaj minut, odvisno od števila razredov in velikosti nabora podatkov. Stanje vadbe si lahko ogledate na Razvrstitev po meri strani. Proces usposabljanja bo prikazal a Predloženo stanje takoj po začetku procesa usposabljanja in se bo spremenilo v usposabljanje stanje, ko se začne proces usposabljanja. Ko je vaš model usposobljen, Stanje različice se bo spremenila v Usposobljeni. Če Amazon Comprehend najde nedoslednosti v vaših podatkih o vadbi, bo prikazano stanje V zmoti skupaj z opozorilom, ki prikazuje ustrezno sporočilo o napaki, tako da lahko izvedete korektivne ukrepe in znova zaženete proces usposabljanja s popravljenimi podatki.

Amazon Comprehend document classifier adds layout support for higher accuracy PlatoBlockchain Data Intelligence. Vertical Search. Ai.

V tej objavi smo prikazali korake za usposabljanje modela klasifikatorja po meri s konzolo Amazon Comprehend. Uporabite lahko tudi AWS SDK v katerem koli jeziku (npr. Boto3 za Python) ali Vmesnik ukazne vrstice AWS (AWS CLI), da začnete usposabljanje za model klasifikacije po meri. S SDK ali AWS CLI lahko uporabite CreateDocumentClassifier API za začetek usposabljanja modela in nato uporabo OpišiteDocumentClassifier API za preverjanje statusa modela.

Ko je model usposobljen, lahko izvedete eno od obeh analiza v realnem času or opravila asinhrone (paketne) analize na novih dokumentih. Če želite izvajati klasifikacijo dokumentov v realnem času, morate uvesti končno točko storitve Amazon Comprehend v realnem času z usposobljenim modelom klasifikacije po meri. Končne točke v realnem času so najbolj primerne za primere uporabe, ki zahtevajo rezultate sklepanja v realnem času z nizko zakasnitvijo, medtem ko je za razvrščanje velikega nabora dokumentov primernejša naloga asinhrone analize. Če želite izvedeti, kako lahko izvedete asinhroni sklep o novih dokumentih z uporabo usposobljenega modela klasifikacije, glejte Predstavljamo klasifikacijo v enem koraku in prepoznavanje entitet z Amazon Comprehend za inteligentno obdelavo dokumentov.

Prednosti modela klasifikacije po meri, ki upošteva postavitev

Novi model klasifikatorja ponuja številne izboljšave. Ni le lažje usposobiti nov model, ampak lahko usposobite nov model tudi s samo nekaj vzorci za vsak razred. Poleg tega vam ni več treba ekstrahirati serializiranega navadnega besedila iz skeniranih ali digitalnih dokumentov, kot so slike ali PDF-ji, da bi pripravili nabor podatkov za usposabljanje. Sledi nekaj dodatnih omembe vrednih izboljšav, ki jih lahko pričakujete od novega modela klasifikacije:

Izboljšana natančnost – Model zdaj upošteva postavitev in strukturo dokumentov, kar vodi k boljšemu razumevanju strukture in vsebine dokumentov. To pomaga razlikovati med dokumenti s podobnim besedilom, vendar različnimi postavitvami ali strukturami, kar ima za posledico večjo natančnost klasifikacije.
Robustnost – Model zdaj obravnava različice strukture in oblikovanja dokumenta. Zaradi tega je bolj primeren za razvrščanje dokumentov iz različnih virov z različnimi postavitvami ali slogi oblikovanja, kar je pogost izziv pri opravilih razvrščanja dokumentov v resničnem svetu. Izvorno je združljiv z več vrstami dokumentov, zaradi česar je vsestranski in uporaben v različnih panogah in primerih uporabe.
Zmanjšano ročno posredovanje – Večja natančnost vodi do manjšega ročnega posredovanja v procesu razvrščanja. To lahko prihrani čas in vire ter poveča operativno učinkovitost delovne obremenitve obdelave dokumentov.

zaključek

Novi model klasifikacije dokumentov Amazon Comprehend, ki vključuje zavedanje o postavitvi, spreminja igro za podjetja, ki se ukvarjajo z velikimi količinami dokumentov. Z razumevanjem strukture in postavitve dokumentov ta model ponuja izboljšano natančnost in učinkovitost klasifikacije. Implementacija robustne in natančne rešitve za klasifikacijo dokumentov z uporabo modela, ki upošteva postavitev, lahko vašemu podjetju pomaga prihraniti čas, zmanjšati operativne stroške in izboljšati procese odločanja.

Kot naslednji korak vam priporočamo, da preizkusite novi model klasifikacije po meri Amazon Comprehend prek Konzola Amazon Comprehend. Priporočamo tudi, da si ponovno ogledate naša obvestila o izboljšavah modela klasifikacije po meri lani in obisk GitHub repozitorij za vzorce kod.

O avtorjih

Anjan Biswas je višji arhitekt rešitev za storitve AI s poudarkom na AI/ML in podatkovni analitiki. Anjan je del svetovne ekipe za storitve AI in sodeluje s strankami, da bi jim pomagal razumeti in razviti rešitve za poslovne težave z AI in ML. Anjan ima več kot 14 let izkušenj pri delu z globalno dobavno verigo, proizvodnjo in maloprodajnimi organizacijami ter strankam dejavno pomaga pri začetku in širitvi storitev umetne inteligence AWS.

Godwin Sahayaraj Vincent je arhitekt za podjetniške rešitve pri AWS, ki se navdušuje nad strojnim učenjem in zagotavlja smernice strankam za načrtovanje, uvajanje in upravljanje njihovih delovnih obremenitev in arhitektur AWS. V prostem času rad igra kriket s prijatelji in tenis s tremi otroki.

Wrick Talukdar je višji arhitekt pri skupini Amazon Comprehend Service. Sodeluje s strankami AWS, da bi jim pomagal sprejeti strojno učenje v velikem obsegu. Poleg dela se ukvarja z branjem in fotografijo.