Stroškovno učinkovita klasifikacija dokumentov z uporabo modela Amazon Titan Multimodal Embeddings

Ponovno objavil Platon

Spremljevalci: 0

Organizacije v različnih panogah želijo kategorizirati in pridobiti vpoglede iz velikih količin dokumentov različnih formatov. Ročna obdelava teh dokumentov za razvrščanje in ekstrahiranje informacij je še vedno draga, nagnjena k napakam in jo je težko prilagoditi. Napredek v generativna umetna inteligenca (AI) so privedle do rešitev za inteligentno obdelavo dokumentov (IDP), ki lahko avtomatizirajo klasifikacijo dokumentov in ustvarijo stroškovno učinkovito klasifikacijsko plast, ki lahko obravnava različne, nestrukturirane dokumente podjetja.

Kategorizacija dokumentov je pomemben prvi korak v sistemih IDP. Pomaga vam določiti naslednji niz dejanj, ki jih morate izvesti glede na vrsto dokumenta. Na primer, med postopkom odločanja o zahtevkih skupina za obračunavanje obveznosti prejme račun, medtem ko oddelek za zahtevke upravlja pogodbene ali politične dokumente. Tradicionalni motorji pravil ali klasifikacija, ki temelji na ML, lahko razvrstijo dokumente, vendar pogosto dosežejo omejitev glede vrst formatov dokumentov in podporo za dinamično dodajanje novih razredov dokumentov. Za več informacij glejte Klasifikator dokumentov Amazon Comprehend doda podporo za postavitev za večjo natančnost.

V tej objavi razpravljamo o klasifikaciji dokumentov z uporabo Model Amazon Titan Multimodal Embeddings za razvrščanje vseh vrst dokumentov brez potrebe po usposabljanju.

Multimodalne vgradnje Amazon Titan

Amazon je pred kratkim predstavil Multimodalne vgradnje Titan in Amazon Bedrock. Ta model lahko ustvari vdelave za slike in besedilo, kar omogoča ustvarjanje vdelav dokumentov za uporabo v novih potekih dela za klasifikacijo dokumentov.

Ustvari optimizirane vektorske predstavitve dokumentov, skeniranih kot slike. S kodiranjem vizualnih in besedilnih komponent v poenotene numerične vektorje, ki zajemajo semantični pomen, omogoča hitro indeksiranje, zmogljivo kontekstualno iskanje in natančno klasifikacijo dokumentov.

Ko se v poslovnih potekih dela pojavijo nove predloge in vrste dokumentov, lahko preprosto pokličete Amazon Bedrock API da jih dinamično vektorizirajo in dodajo svojim sistemom IDP za hitro izboljšanje zmogljivosti klasifikacije dokumentov.

Pregled rešitev

Oglejmo si naslednjo rešitev za klasifikacijo dokumentov z modelom Amazon Titan Multimodal Embeddings. Za optimalno delovanje bi morali rešitev prilagoditi svojemu specifičnemu primeru uporabe in obstoječi nastavitvi cevovoda IDP.

Ta rešitev razvršča dokumente s semantičnim iskanjem z vdelavo vektorjev tako, da ujema vhodni dokument z že indeksirano galerijo dokumentov. Uporabljamo naslednje ključne komponente:

Vdelave - Vdelave so numerične predstavitve predmetov iz resničnega sveta, ki jih sistemi strojnega učenja (ML) in AI uporabljajo za razumevanje kompleksnih domen znanja, kot jih razumejo ljudje.
Vektorske baze podatkov - Vektorske baze podatkov se uporabljajo za shranjevanje vdelav. Vektorske baze podatkov učinkovito indeksirajo in organizirajo vdelave, kar omogoča hitro iskanje podobnih vektorjev na podlagi metrike razdalje, kot sta evklidska razdalja ali kosinusna podobnost.
Semantično iskanje – Semantično iskanje deluje tako, da upošteva kontekst in pomen vhodne poizvedbe ter njeno ustreznost za iskano vsebino. Vektorske vdelave so učinkovit način za zajemanje in ohranjanje kontekstualnega pomena besedila in slik. V naši rešitvi se, ko želi aplikacija izvesti semantično iskanje, iskalni dokument najprej pretvori v vdelavo. Vektorska baza podatkov z ustrezno vsebino se nato poizveduje, da se najdejo najbolj podobne vdelave.

V procesu označevanja se vzorčni nabor poslovnih dokumentov, kot so računi, bančni izpiski ali recepti, pretvori v vdelave z uporabo modela Amazon Titan Multimodal Embeddings in shrani v vektorsko bazo podatkov glede na vnaprej določene oznake. Model Amazon Titan Multimodal Embedding je bil usposobljen z uporabo evklidskega algoritma L2, zato mora za najboljše rezultate uporabljena vektorska zbirka podatkov podpirati ta algoritem.

Naslednji diagram arhitekture prikazuje, kako lahko uporabite model Amazon Titan Multimodal Embeddings z dokumenti v Preprosta storitev shranjevanja Amazon (Amazon S3) vedro za ustvarjanje galerije slik.

Potek dela je sestavljen iz naslednjih korakov:

Uporabnik ali aplikacija naloži vzorčno sliko dokumenta z metapodatki klasifikacije v galerijo slik dokumenta. Za razvrščanje galerijskih slik je mogoče uporabiti predpono S3 ali metapodatke predmeta S3.
Dogodek obvestila predmeta Amazon S3 prikliče vdelavo AWS Lambda Funkcija.
Funkcija Lambda prebere sliko dokumenta in sliko prevede v vdelave s klicem Amazon Bedrock in uporabo modela Amazon Titan Multimodal Embeddings.
Vdelane slike so skupaj s klasifikacijo dokumentov shranjene v vektorski bazi podatkov.

Ko je treba nov dokument razvrstiti, se za pretvorbo dokumenta poizvedbe v vdelavo uporabi isti model vdelave. Nato se v vektorski bazi podatkov izvede iskanje semantične podobnosti z uporabo vdelave poizvedbe. Oznaka, pridobljena glede na najvišje ujemanje vdelave, bo klasifikacijska oznaka za dokument poizvedbe.

Naslednji diagram arhitekture prikazuje, kako uporabiti model Amazon Titan Multimodal Embeddings z dokumenti v vedru S3 za klasifikacijo slik.

Potek dela je sestavljen iz naslednjih korakov:

Dokumenti, ki zahtevajo klasifikacijo, se naložijo v vhodno vedro S3.
Funkcija klasifikacije Lambda prejme obvestilo o objektu Amazon S3.
Funkcija Lambda prevede sliko v vdelavo s klicem API-ja Amazon Bedrock.
V vektorski bazi podatkov se išče ujemajoči se dokument s semantičnim iskanjem. Klasifikacija ujemajočega se dokumenta se uporablja za klasifikacijo vhodnega dokumenta.
Vhodni dokument se premakne v ciljni imenik S3 ali predpono z uporabo klasifikacije, pridobljene iz iskanja v vektorski bazi podatkov.

Da bi vam pomagali preizkusiti rešitev z lastnimi dokumenti, smo ustvarili primer zvezka Python Jupyter, ki je na voljo na GitHub.

Predpogoji

Za zagon prenosnika potrebujete AWS račun z ustreznim AWS upravljanje identitete in dostopa (IAM) dovoljenja za klic Amazon Bedrock. Poleg tega na Dostop do modela strani konzole Amazon Bedrock, se prepričajte, da je dostop odobren za model Amazon Titan Multimodal Embeddings.

Izvajanje

V naslednjih korakih zamenjajte vsak nadomestni znak za vnos uporabnika s svojimi informacijami:

Ustvari vektorsko bazo podatkov. V tej rešitvi uporabljamo bazo podatkov FAISS v pomnilniku, lahko pa uporabite alternativno vektorsko bazo podatkov. Privzeta velikost dimenzije Amazon Titan je 1024.

index = faiss.IndexFlatL2(1024)
indexIDMap = faiss.IndexIDMap(index)

Ko je vektorska zbirka podatkov ustvarjena, oštevilčite vzorčne dokumente, ustvarite vdelave vsakega in jih shranite v vektorsko bazo podatkov

Preizkusite s svojimi dokumenti. Zamenjajte mape v naslednji kodi s svojimi mapami, ki vsebujejo znane vrste dokumentov:

DOC_CLASSES: list[str] = ["Closing Disclosure", "Invoices", "Social Security Card", "W4", "Bank Statement"]

getDocumentsandIndex("sampleGallery/ClosingDisclosure", DOC_CLASSES.index("Closing Disclosure"))
getDocumentsandIndex("sampleGallery/Invoices", DOC_CLASSES.index("Invoices"))
getDocumentsandIndex("sampleGallery/SSCards", DOC_CLASSES.index("Social Security Card"))
getDocumentsandIndex("sampleGallery/W4", DOC_CLASSES.index("W4"))
getDocumentsandIndex("sampleGallery/BankStatements", DOC_CLASSES.index("Bank Statement"))

Z uporabo knjižnice Boto3 pokličite Amazon Bedrock. Spremenljivka inputImageB64 je base64 kodirana niz bajtov, ki predstavlja vaš dokument. Odgovor podjetja Amazon Bedrock vsebuje vdelave.

bedrock = boto3.client(
service_name='bedrock-runtime',
region_name='Region’
)

request_body = {}
request_body["inputText"] = None # not using any text
request_body["inputImage"] = inputImageB64
body = json.dumps(request_body)
response = bedrock.invoke_model(
body=body, 
modelId="amazon.titan-embed-image-v1", 
accept="application/json", 
contentType="application/json")
response_body = json.loads(response.get("body").read())

V vektorsko bazo podatkov dodajte vdelave z ID-jem razreda, ki predstavlja znano vrsto dokumenta:

indexIDMap.add_with_ids(embeddings, classID)

Z vektorsko bazo podatkov, ki je napolnjena s slikami (ki predstavljajo našo galerijo), lahko odkrijete podobnosti z novimi dokumenti. Na primer, naslednja sintaksa je uporabljena za iskanje. K=1 pove FAISS-u, naj vrne 1 najboljše ujemanje.

indexIDMap.search(embeddings, k=1)

Poleg tega je vrnjena tudi evklidska razdalja L2 med sliko na roki in najdeno sliko. Če se slika natančno ujema, bi bila ta vrednost 0. Večja kot je ta vrednost, bolj sta si sliki narazen podobni.

Dodatni premisleki

V tem razdelku razpravljamo o dodatnih premislekih za učinkovito uporabo rešitve. To vključuje zasebnost podatkov, varnost, integracijo z obstoječimi sistemi in ocene stroškov.

Zasebnost in varnost podatkov

AWS model deljene odgovornosti velja za Varstvo podatkov v Amazon Bedrock. Kot je opisano v tem modelu, je AWS odgovoren za zaščito globalne infrastrukture, ki poganja celoten oblak AWS. Stranke so odgovorne za ohranjanje nadzora nad svojo vsebino, ki gostuje v tej infrastrukturi. Kot stranka ste odgovorni za varnostno konfiguracijo in naloge upravljanja za storitve AWS, ki jih uporabljate.

Varstvo podatkov v Amazon Bedrock

Amazon Bedrock se izogiba uporabi pozivov in nadaljevanj strank za usposabljanje modelov AWS ali njihovo deljenje s tretjimi osebami. Amazon Bedrock ne shranjuje ali beleži podatkov o strankah v svojih dnevnikih storitev. Ponudniki modelov nimajo dostopa do dnevnikov Amazon Bedrock ali dostopa do pozivov in nadaljevanj strank. Posledično se slike, ki se uporabljajo za generiranje vdelav prek modela Amazon Titan Multimodal Embeddings, ne shranijo ali uporabijo v učnih modelih AWS ali zunanji distribuciji. Poleg tega so drugi podatki o uporabi, kot so časovni žigi in evidentirani ID-ji računov, izključeni iz usposabljanja modela.

Integracija z obstoječimi sistemi

Model Amazon Titan Multimodal Embeddings je bil podvržen usposabljanju z evklidskim algoritmom L2, zato bi morala biti uporabljena vektorska zbirka podatkov združljiva s tem algoritmom.

Ocena stroškov

V času pisanja te objave, kot navaja Cene Amazon Bedrock za model Amazon Titan Multimodal Embeddings so naslednji ocenjeni stroški z uporabo cen na zahtevo za to rešitev:

Enkratni stroški indeksiranja – 0.06 USD za en sam zagon indeksiranja, ob predpostavki galerije s 1,000 slikami
Stroški razvrstitve – 6 USD za 100,000 vhodnih slik na mesec

Čiščenje

Da se izognete prihodnjim stroškom, izbrišite vire, ki ste jih ustvarili, kot je Primerek prenosnega računalnika Amazon SageMaker, ko ni v uporabi.

zaključek

V tej objavi smo raziskali, kako lahko uporabite model Amazon Titan Multimodal Embeddings za izdelavo poceni rešitve za klasifikacijo dokumentov v delovnem toku IDP. Pokazali smo, kako ustvariti galerijo slik znanih dokumentov in izvesti iskanje podobnosti z novimi dokumenti, da jih razvrstimo. Razpravljali smo tudi o prednostih uporabe multimodalnih vdelav slik za klasifikacijo dokumentov, vključno z njihovo zmožnostjo obravnavanja različnih vrst dokumentov, razširljivostjo in nizko zakasnitvijo.

Ko se v poslovnih potekih dela pojavljajo nove predloge in vrste dokumentov, lahko razvijalci prikličejo API Amazon Bedrock, da jih dinamično vektorizirajo in dodajo svojim sistemom IDP za hitro izboljšanje zmogljivosti klasifikacije dokumentov. To ustvari poceni, neskončno razširljivo klasifikacijsko plast, ki lahko obravnava tudi najbolj raznolike, nestrukturirane poslovne dokumente.

Na splošno ta objava ponuja načrt za izdelavo poceni rešitve za klasifikacijo dokumentov v delovnem toku IDP z uporabo Amazon Titan Multimodal Embeddings.

Kot naslednji korak preverite Kaj je Amazon Bedrock da začnete uporabljati storitev. In sledite Amazon Bedrock na blogu strojnega učenja AWS da ostanete na tekočem z novimi zmogljivostmi in primeri uporabe za Amazon Bedrock.

O avtorjih

Sumit Bhati je višji vodja rešitev za stranke pri AWS, specializiran za pospešitev potovanja v oblak za poslovne stranke. Sumit je namenjen pomoči strankam v vseh fazah njihovega sprejemanja oblaka, od pospeševanja migracij do posodobitve delovnih obremenitev in omogočanja integracije inovativnih praks.

Cost-effective document classification using the Amazon Titan Multimodal Embeddings Model | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. David Girling je višji arhitekt rešitev AI/ML z več kot 20-letnimi izkušnjami pri oblikovanju, vodenju in razvoju podjetniških sistemov. David je del strokovne ekipe, ki se osredotoča na pomoč strankam pri učenju, inovacijah in uporabi teh zelo zmogljivih storitev z njihovimi podatki za njihove primere uporabe.

Ravi Avula je višji arhitekt rešitev v AWS, ki se osredotoča na podjetniško arhitekturo. Ravi ima 20 let izkušenj s programskim inženiringom in je imel več vodilnih vlog na področju programskega inženiringa in programske arhitekture v plačilni industriji.

Cost-effective document classification using the Amazon Titan Multimodal Embeddings Model | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. George Belsian je višji arhitekt aplikacij v oblaku pri AWS. Strastno želi pomagati strankam pri pospeševanju njihove posodobitve in sprejemanja oblaka. V svoji trenutni vlogi George sodeluje z ekipami strank pri oblikovanju strategije, arhitekturi in razvoju inovativnih, razširljivih rešitev.