Toimialojen organisaatiot haluavat luokitella ja poimia oivalluksia suurista määristä erimuotoisia asiakirjoja. Näiden asiakirjojen manuaalinen käsittely tietojen luokittelemiseksi ja poimimiseksi on edelleen kallista, virhealtista ja vaikeasti skaalautuvaa. Edistyy sisään generatiivinen tekoäly (AI) ovat synnyttäneet älykkäitä asiakirjankäsittelyratkaisuja (IDP), jotka voivat automatisoida asiakirjojen luokittelun ja luoda kustannustehokkaan luokituskerroksen, joka pystyy käsittelemään erilaisia, jäsentelemättömiä yritysasiakirjoja.
Asiakirjojen luokittelu on tärkeä ensimmäinen askel IDP-järjestelmissä. Se auttaa sinua määrittämään seuraavat toimet asiakirjan tyypin mukaan. Esimerkiksi vahingonkorvausprosessin aikana ostovelattiimi vastaanottaa laskun, kun taas korvausosasto hoitaa sopimus- tai vakuutusasiakirjat. Perinteiset sääntömoottorit tai ML-pohjainen luokittelu voivat luokitella asiakirjat, mutta usein saavuttavat rajan asiakirjamuotojen tyypeille ja tuelle uusien asiakirjaluokkien dynaamiselle lisäämiselle. Katso lisätietoja Amazon Comprehend -dokumenttien luokitin lisää asettelutuen tarkkuuden parantamiseksi.
Tässä viestissä käsittelemme asiakirjojen luokittelua käyttämällä Amazon Titan Multimodal Embeddings -malli Luokitella asiakirjatyyppejä ilman koulutusta.
Amazon Titan -multimodaaliset upotukset
Amazon esitteli äskettäin Titan Multimodaaliset upotukset in Amazonin kallioperä. Tämä malli voi luoda upotuksia kuville ja tekstille, mikä mahdollistaa dokumenttien upotusten luomisen uusissa dokumenttien luokittelutyönkuluissa.
Se luo optimoidut vektoriesitykset kuvina skannatuista asiakirjoista. Koodaamalla sekä visuaaliset että tekstikomponentit yhtenäisiksi numeerisiksi vektoreiksi, jotka kapseloivat semanttisen merkityksen, se mahdollistaa nopean indeksoinnin, tehokkaan kontekstuaalisen haun ja asiakirjojen tarkan luokittelun.
Kun liiketoiminnan työnkulkuihin ilmaantuu uusia asiakirjamalleja ja -tyyppejä, voit yksinkertaisesti kutsua Amazon Bedrock API dynaamisesti vektorisoida ne ja liittää IDP-järjestelmiinsä parantaakseen nopeasti asiakirjojen luokitteluominaisuuksia.
Ratkaisun yleiskatsaus
Tarkastellaan seuraavaa dokumenttien luokitteluratkaisua Amazon Titan Multimodal Embeddings -mallilla. Optimaalisen suorituskyvyn saavuttamiseksi sinun tulee mukauttaa ratkaisu käyttötapauksiisi ja olemassa olevaan IDP-putkiston kokoonpanoon.
Tämä ratkaisu luokittelee asiakirjat käyttämällä vektori upotettua semanttista hakua yhdistämällä syöttöasiakirja jo indeksoituun dokumenttigalleriaan. Käytämme seuraavia avainkomponentteja:
- upotukset - upotukset ovat numeerisia esityksiä reaalimaailman objekteista, joita koneoppiminen (ML) ja tekoälyjärjestelmät käyttävät ymmärtääkseen monimutkaisia tietoalueita ihmisten tavoin.
- Vektoritietokannat - Vektoritietokannat käytetään upotusten tallentamiseen. Vektoritietokannat indeksoivat ja järjestävät upotukset tehokkaasti, mikä mahdollistaa samankaltaisten vektorien nopean haun etäisyysmittareiden, kuten euklidisen etäisyyden tai kosinin samankaltaisuuden, perusteella.
- Semanttinen haku – Semanttinen haku toimii ottamalla huomioon syöttökyselyn kontekstin ja merkityksen sekä sen osuvuuden haettuun sisältöön. Vektori upotukset ovat tehokas tapa vangita ja säilyttää tekstin ja kuvien kontekstuaalinen merkitys. Ratkaisussamme, kun sovellus haluaa tehdä semanttisen haun, hakudokumentti muunnetaan ensin upotukseksi. Asianmukaista sisältöä sisältävästä vektoritietokannasta kysytään sitten samankaltaisimpien upotusten löytämiseksi.
Merkintäprosessissa näytesarja yritysasiakirjoja, kuten laskuja, tiliotteita tai reseptejä, muunnetaan upotuksiksi Amazon Titan Multimodal Embeddings -mallin avulla ja tallennetaan vektoritietokantaan ennalta määritettyjä tarroja vastaan. Amazon Titan Multimodal Embedding -mallia opetettiin käyttämällä Euklidean L2-algoritmia, ja siksi parhaan tuloksen saavuttamiseksi käytetyn vektoritietokannan tulisi tukea tätä algoritmia.
Seuraava arkkitehtuurikaavio havainnollistaa, kuinka voit käyttää Amazon Titan Multimodal Embeddings -mallia asiakirjojen kanssa Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ämpäri kuvagallerian luomiseen.
Työnkulku koostuu seuraavista vaiheista:
- Käyttäjä tai sovellus lataa mallidokumentin kuvan luokituksen metatiedot sisältävän asiakirjan kuvagalleriaan. S3-etuliitettä tai S3-objektin metatietoja voidaan käyttää galleriakuvien luokittelemiseen.
- Amazon S3 -objektin ilmoitustapahtuma kutsuu upotuksen AWS Lambda toiminto.
- Lambda-toiminto lukee asiakirjan kuvan ja kääntää kuvan upotuksiksi kutsumalla Amazon Bedrockia ja käyttämällä Amazon Titan Multimodal Embeddings -mallia.
- Kuvan upotukset sekä asiakirjojen luokittelu tallennetaan vektoritietokantaan.
Kun uusi dokumentti tarvitsee luokittelua, samaa upotusmallia käytetään kyselydokumentin muuntamiseen upotukseksi. Sitten vektoritietokannasta suoritetaan semanttinen samankaltaisuushaku käyttämällä kyselyn upottamista. Ylimmän upotusosumaa vastaan haettu tarra on kyselyasiakirjan luokitustunniste.
Seuraava arkkitehtuurikaavio havainnollistaa, kuinka Amazon Titan Multimodal Embeddings -mallia käytetään S3-säihön asiakirjojen kanssa kuvien luokitteluun.
Työnkulku koostuu seuraavista vaiheista:
- Luokittelua vaativat asiakirjat ladataan S3-syötteeseen.
- Luokittelu Lambda-toiminto vastaanottaa Amazon S3 -objektiilmoituksen.
- Lambda-toiminto kääntää kuvan upotukseksi kutsumalla Amazon Bedrock API:ta.
- Vektoritietokannasta etsitään vastaava dokumentti semanttisella haulla. Vastaavan asiakirjan luokittelua käytetään syöttöasiakirjan luokitteluun.
- Syötedokumentti siirretään kohde-S3-hakemistoon tai -etuliitteelle käyttämällä vektoritietokannan hausta haettua luokittelua.
Jotta voit testata ratkaisua omilla asiakirjoillasi, olemme luoneet esimerkki Python Jupyter -muistikirjan, joka on saatavilla osoitteessa GitHub.
Edellytykset
Muistikirjan käyttämiseksi tarvitset AWS-tili sopivalla AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) -oikeudet soittaa Amazon Bedrockille. Lisäksi osoitteessa Mallin käyttöoikeus Amazon Bedrock -konsolin sivulla, varmista, että Amazon Titan Multimodal Embeddings -mallille on myönnetty pääsy.
Täytäntöönpano
Korvaa kukin käyttäjän syöttämä paikkamerkki seuraavissa vaiheissa omilla tiedoillasi:
- Luo vektoritietokanta. Tässä ratkaisussa käytämme muistissa olevaa FAISS-tietokantaa, mutta voit käyttää vaihtoehtoista vektoritietokantaa. Amazon Titanin oletusmittakoko on 1024.
- Kun vektoritietokanta on luotu, luettele esimerkkiasiakirjat, luo jokaisesta upotukset ja tallenna ne vektoritietokantaan
- Testaa asiakirjoillasi. Korvaa seuraavan koodin kansiot omilla kansioillasi, jotka sisältävät tunnettuja asiakirjatyyppejä:
- Soita Amazon Bedrockiin Boto3-kirjaston avulla. Muuttuja
inputImageB64
on base64-koodattu tavutaulukko, joka edustaa asiakirjaasi. Amazon Bedrockin vastaus sisältää upotukset.
- Lisää upotukset vektoritietokantaan luokkatunnuksella, joka edustaa tunnettua asiakirjatyyppiä:
- Kun vektoritietokanta on täynnä kuvia (jotka edustavat galleriaamme), voit löytää yhtäläisyyksiä uusien asiakirjojen kanssa. Esimerkiksi seuraava on haussa käytetty syntaksi. K=1 käskee FAISSia palauttamaan 1 parhaan ottelun.
Lisäksi palautetaan myös käsillä olevan kuvan ja löydetyn kuvan välinen euklidinen L2-etäisyys. Jos kuva vastaa tarkasti, tämä arvo on 0. Mitä suurempi tämä arvo on, sitä kauempana kuvat ovat samankaltaisia.
Muita näkökohtia
Tässä osiossa käsittelemme lisänäkökohtia ratkaisun tehokkaaseen käyttöön. Tämä sisältää tietosuojan, turvallisuuden, integroinnin olemassa oleviin järjestelmiin ja kustannusarviot.
Tietosuoja ja tietoturva
AWS jaetun vastuun malli pätee tietosuoja Amazon Bedrockissa. Kuten tässä mallissa on kuvattu, AWS on vastuussa maailmanlaajuisen infrastruktuurin suojaamisesta, joka käyttää koko AWS-pilviä. Asiakkaat ovat vastuussa tässä infrastruktuurissa isännöidyn sisällön hallinnasta. Asiakkaana olet vastuussa käyttämiesi AWS-palveluiden suojausmäärityksistä ja hallintatehtävistä.
Tietosuoja Amazon Bedrockissa
Amazon Bedrock välttää käyttämästä asiakaskehotteita ja jatkoja AWS-mallien kouluttamiseen tai jakamiseen kolmansien osapuolten kanssa. Amazon Bedrock ei tallenna tai kirjaa asiakastietoja palvelulokiinsa. Mallintarjoajilla ei ole pääsyä Amazon Bedrockin lokeihin tai asiakaskehotteisiin ja -jatkoihin. Tästä johtuen Amazon Titan Multimodal Embeddings -mallin avulla upotusten luomiseen käytettyjä kuvia ei tallenneta tai käytetä AWS-mallien koulutuksessa tai ulkoisessa jakelussa. Lisäksi muut käyttötiedot, kuten aikaleimat ja kirjatut tilitunnukset, jätetään mallikoulutuksen ulkopuolelle.
Integrointi olemassa oleviin järjestelmiin
Amazon Titan Multimodal Embeddings -malli käytiin läpi euklidelaisen L2-algoritmin kanssa, joten käytettävän vektoritietokannan pitäisi olla yhteensopiva tämän algoritmin kanssa.
Kustannusarvio
Tätä viestiä kirjoitettaessa, kuten Amazonin kallioperän hinnoittelu Amazon Titan Multimodal Embeddings -mallille seuraavat arvioidut kustannukset käyttämällä tämän ratkaisun on-demand-hinnoittelua:
- Kertaluonteinen indeksointikustannus – 0.06 dollaria yhdestä indeksoinnista, olettaen 1,000 XNUMX kuvagallerian
- Luokittelukustannukset – 6 dollaria 100,000 XNUMX syötekuvasta kuukaudessa
Puhdistaa
Vältä tulevia maksuja poistamalla luomasi resurssit, kuten Amazon SageMaker -kannettavan instanssi, kun se ei ole käytössä.
Yhteenveto
Tässä viestissä tutkimme, kuinka voit käyttää Amazon Titan Multimodal Embeddings -mallia rakentaaksesi edullisen ratkaisun asiakirjojen luokitteluun IDP-työnkulussa. Esitimme, kuinka luodaan kuvagalleria tunnetuista asiakirjoista ja tehdä samankaltaisuushakuja uusien asiakirjojen kanssa niiden luokittelemiseksi. Keskustelimme myös multimodaalisten kuva upotusten käytön eduista asiakirjojen luokittelussa, mukaan lukien niiden kyky käsitellä erilaisia asiakirjatyyppejä, skaalautuvuus ja alhainen latenssi.
Kun liiketoiminnan työnkulkuihin ilmaantuu uusia asiakirjamalleja ja -tyyppejä, kehittäjät voivat käyttää Amazon Bedrock API:ta vektorisoidakseen ne dynaamisesti ja liittääkseen IDP-järjestelmiinsä dokumenttien luokitteluominaisuuksien nopeaan parantamiseen. Tämä luo edullisen, äärettömästi skaalautuvan luokituskerroksen, joka pystyy käsittelemään mitä monipuolisimpiakin, jäsentämättömimpiä yritysasiakirjoja.
Kaiken kaikkiaan tämä viesti tarjoaa etenemissuunnitelman edullisen ratkaisun rakentamiseen asiakirjojen luokitteluun IDP-työnkulussa Amazon Titan Multimodal Embeddingsin avulla.
Tarkista seuraavat vaiheet Mikä on Amazon Bedrock aloittaaksesi palvelun käytön. Ja seuraa Amazon Bedrock AWS-koneoppimisblogissa pysyäksesi ajan tasalla Amazon Bedrockin uusista ominaisuuksista ja käyttötapauksista.
Tietoja Tekijät
Sumit Bhati on AWS:n Senior Customer Solutions Manager, joka on erikoistunut yritysasiakkaiden pilvimatkan nopeuttamiseen. Sumit on omistautunut auttamaan asiakkaita heidän pilvipalveluiden käyttöönoton kaikissa vaiheissa siirtymisen nopeuttamisesta työkuormien modernisointiin ja innovatiivisten käytäntöjen integroinnin helpottamiseen.
David Girling on vanhempi AI/ML Solutions -arkkitehti, jolla on yli 20 vuoden kokemus yritysjärjestelmien suunnittelusta, johtamisesta ja kehittämisestä. David on osa asiantuntijatiimiä, joka keskittyy auttamaan asiakkaita oppimaan, innovoimaan ja hyödyntämään näitä erittäin päteviä palveluita datansa avulla käyttötapauksiinsa.
Ravi Avula on AWS:n vanhempi ratkaisuarkkitehti, joka keskittyy yritysarkkitehtuuriin. Ravilla on 20 vuoden kokemus ohjelmistosuunnittelusta ja hän on toiminut useissa johtotehtävissä ohjelmistosuunnittelussa ja ohjelmistoarkkitehtuurissa maksualalla.
George Belsian on AWS:n vanhempi pilvisovellusarkkitehti. Hän haluaa intohimoisesti auttaa asiakkaita nopeuttamaan modernisointia ja pilvipalveluiden käyttöönottoa. Nykyisessä roolissaan George työskentelee asiakastiimien kanssa strategioiden, arkkitehtien ja innovatiivisten, skaalautuvien ratkaisujen kehittämiseksi.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/cost-effective-document-classification-using-the-amazon-titan-multimodal-embeddings-model/
- :on
- :On
- :ei
- $ YLÖS
- 000
- 06
- 1
- 100
- 14
- 19
- 20
- 20 vuotta
- 7
- 8
- a
- kyky
- Meistä
- kiihdyttää
- kiihtyvä
- pääsy
- Tili
- Tilit
- velat
- tarkka
- poikki
- toimet
- Lisäksi
- lisä-
- Lisäksi
- Lisää
- Hyväksyminen
- ennakot
- vastaan
- AI
- AI-järjestelmät
- AI / ML
- algoritmi
- Kaikki
- pitkin
- rinnalla
- jo
- Myös
- vaihtoehto
- Amazon
- Amazon Web Services
- an
- ja
- Kaikki
- erilleen
- api
- Hakemus
- sovelletaan
- sopiva
- arkkitehtuuri
- OVAT
- Ryhmä
- keinotekoinen
- tekoäly
- AS
- avustaminen
- At
- automatisoida
- saatavissa
- välttää
- välttelee
- AWS
- AWS-koneoppiminen
- Pankki
- perustua
- BE
- ovat
- Hyödyt
- PARAS
- välillä
- elin
- sekä
- rakentaa
- Rakentaminen
- liiketoiminta
- mutta
- by
- soittaa
- soittamalla
- CAN
- kyvyt
- kykenee
- kaapata
- kortti
- tapaus
- tapauksissa
- luokitella
- maksut
- tarkastaa
- vaatimukset
- luokka
- luokat
- luokittelu
- luokitella
- luokitella
- sulkeminen
- pilvi
- pilvien hyväksyminen
- koodi
- yhteensopiva
- monimutkainen
- osat
- ymmärtää
- Konfigurointi
- näkökohdat
- ottaen huomioon
- muodostuu
- Console
- sisältää
- sisältää
- pitoisuus
- tausta
- asiayhteyteen
- sopimus
- ohjaus
- muuntaa
- muunnetaan
- Hinta
- kustannustehokas
- kustannukset
- voisi
- luoda
- luotu
- luo
- Luominen
- luominen
- Nykyinen
- asiakas
- asiakastiedot
- Asiakasratkaisut
- Asiakkaat
- räätälöidä
- tiedot
- Tietosuoja
- tietokanta
- tietokannat
- Päivämäärä
- David
- omistautunut
- oletusarvo
- osoittivat
- osasto
- Riippuen
- on kuvattu
- suunnittelu
- Määrittää
- kehittää
- kehittäjille
- kehittämällä
- kaavio
- eri
- vaikea
- Ulottuvuus
- hakemisto
- ilmitulo
- pohtia
- keskusteltiin
- etäisyys
- jakelu
- useat
- do
- asiakirja
- asiakirjat
- ei
- verkkotunnuksia
- Dont
- aikana
- dynaaminen
- dynaamisesti
- kukin
- Tehokas
- tehokkaasti
- tehokkaasti
- upottamisen
- ilmaantua
- Työllisiä
- mahdollistaa
- mahdollistaa
- koodattu
- koodaus
- Tekniikka
- Moottorit
- parantaa
- yritys
- virhe
- arvioidaan
- arviot
- Jopa
- tapahtuma
- Joka
- tarkka
- tutkia
- esimerkki
- ulkopuolelle
- olemassa
- kallis
- experience
- tutkitaan
- ulkoinen
- uute
- helpottaminen
- FAST
- Löytää
- Etunimi
- keskittyy
- tarkennus
- seurata
- jälkeen
- varten
- löytyi
- alkaen
- toiminto
- edelleen
- tulevaisuutta
- Galleria
- synnyttää
- tuottaa
- Yrjö
- tietty
- Global
- myönnetty
- käsi
- kahva
- Käsittely
- Olla
- he
- sankari
- auttaa
- auttaa
- auttaa
- Korkea
- korkeampi
- erittäin
- hänen
- isännöi
- Miten
- Miten
- HTML
- HTTPS
- Ihmiset
- ID
- Identiteetti
- ids
- if
- havainnollistaa
- kuva
- Kuvaluokitus
- kuvien
- tärkeä
- in
- sisältää
- Mukaan lukien
- indeksi
- indeksoitu
- teollisuuden
- teollisuus
- äärettömän
- tiedot
- Infrastruktuuri
- innovoida
- innovatiivinen
- panos
- oivalluksia
- integraatio
- Älykkyys
- Älykäs
- Älykäs asiakirjojen käsittely
- tulee
- käyttöön
- lasku
- laskut
- vedotaan
- IT
- SEN
- matka
- jpg
- json
- Pitää
- avain
- tuntemus
- tunnettu
- l2
- Merkki
- merkinnät
- tarrat
- suurempi
- Viive
- kerros
- Layout
- Johto
- johtava
- OPPIA
- oppiminen
- Kirjasto
- pitää
- RAJOITA
- log
- kirjattu
- Matala
- kone
- koneoppiminen
- ylläpitäminen
- tehdä
- johto
- johtaja
- hallinnoi
- käsin
- ottelu
- matching
- merkitys
- Metadata
- Metrics
- ML
- malli
- mallit
- modernisointi
- nykyaikaistaminen
- lisää
- eniten
- siirretty
- Tarve
- tarpeet
- Uusi
- seuraava
- Ei eristetty
- muistikirja
- ilmoituksen
- objekti
- esineet
- of
- usein
- on
- Tarpeen vaatiessa
- optimaalinen
- optimoitu
- or
- Muut
- meidän
- ulos
- yli
- oma
- osa
- osapuolet
- intohimoinen
- maksut
- varten
- Suorittaa
- suorituskyky
- suoritettu
- Oikeudet
- vaihe
- putki
- placeholder
- Platon
- Platonin tietotieto
- PlatonData
- politiikka
- asutuilla
- Kirje
- voimakas
- käytännöt
- ennalta
- hinnoittelu
- yksityisyys
- prosessi
- käsittely
- ohjeita
- suojella
- suojaus
- tarjoajat
- tarjoaa
- Python
- kysymys
- nopea
- nopeasti
- tavoittaa
- todellinen maailma
- vastaanottaa
- äskettäin
- Merkitys
- merkityksellinen
- jäännökset
- korvata
- edustavat
- edustaa
- edellyttää
- Esittelymateriaalit
- vastaus
- vastuu
- vastuullinen
- johtua
- tulokset
- säilyttää
- haku
- palata
- Nousta
- roadmap
- Rooli
- roolit
- Sääntö
- ajaa
- toimii
- sagemaker
- sama
- näyte
- skaalautuvuus
- skaalautuva
- Asteikko
- Haku
- haut
- Osa
- turvallisuus
- nähdä
- semanttinen
- vanhempi
- palvelu
- Palvelut
- setti
- setup
- useat
- Jaa:
- shouldnt
- samankaltainen
- yhtäläisyyksiä
- Yksinkertainen
- yksinkertaisesti
- single
- Koko
- So
- sosiaalinen
- Tuotteemme
- ohjelmistotuotanto
- ratkaisu
- Ratkaisumme
- asiantuntija
- erikoistunut
- erityinen
- Alkaa
- Lausunto
- lausuntoja
- Vaihe
- Askeleet
- Levytila
- verkkokaupasta
- tallennettu
- niin
- tuki
- varma
- syntaksi
- järjestelmät
- ottaa
- Kohde
- tehtävät
- joukkue-
- tiimit
- kertoo
- malleja
- testi
- teksti
- teksti-
- että
- -
- heidän
- Niitä
- sitten
- siksi
- Nämä
- kolmas
- kolmannet osapuolet
- tätä
- ne
- Kautta
- aika
- Titaani
- että
- ylin
- perinteinen
- Juna
- koulutettu
- koulutus
- tyyppi
- tyypit
- paljastaa
- ymmärtää
- koki
- yhdistynyt
- jäsentymätön
- ladattu
- Käyttö
- käyttää
- käyttölaukku
- käytetty
- käyttäjä
- käyttämällä
- käyttää
- arvo
- muuttuja
- visuaalinen
- volyymit
- haluta
- haluaa
- oli
- Tapa..
- we
- verkko
- verkkopalvelut
- kun
- taas
- joka
- tulee
- with
- ilman
- työnkulku
- työnkulkuja
- työskentely
- toimii
- olisi
- kirjoittaminen
- vuotta
- Voit
- Sinun
- zephyrnet