Ettevõtetel on juurdepääs tohututele andmetele, millest suurt osa on raske avastada, kuna andmed on struktureerimata. Tavapärased analüüsimeetodid struktureerimata andmed kasutage märksõna või sünonüümi sobitamist. Need ei hõlma dokumendi täielikku konteksti, muutes need struktureerimata andmetega töötlemisel vähem tõhusaks.
Seevastu teksti manustamine kasutab masinõpe (ML) võime tabada struktureerimata andmete tähendust. Manused genereerivad esituskeele mudelid, mis tõlgivad teksti numbrilisteks vektoriteks ja kodeerivad dokumenti kontekstuaalse teabe. See võimaldab selliseid rakendusi nagu semantiline otsing, Täiustatud põlvkonna otsimine (RAG), teemade modelleerimine ja teksti klassifitseerimine.
Näiteks finantsteenuste sektoris hõlmavad rakendused tulude aruannetest ülevaate hankimist, finantsaruannetest teabe otsimist ning finantsuudistes leitud aktsiate ja turgude arvamuste analüüsimist. Teksti manustamine võimaldab valdkonna professionaalidel dokumentidest teadmisi hankida, vigu minimeerida ja jõudlust suurendada.
Selles postituses tutvustame rakendust, mis saab Cohere'i abil otsida ja teha päringuid finantsuudiste kohta erinevates keeltes. Kodulehele ja Reastada ümber mudelid koos Amazonase aluspõhi.
Cohere'i mitmekeelne manustamismudel
Cohere on juhtiv ettevõtete tehisintellekti platvorm, mis loob maailmatasemel suuri keelemudeleid (LLM) ja LLM-põhiseid lahendusi, mis võimaldavad arvutitel tekstis otsida, tähendust tabada ja vestelda. Need pakuvad kasutusmugavust ning tugevaid turva- ja privaatsuskontrolli.
Cohere'i mitmekeelne manustamismudel genereerib dokumentide vektoresitusi enam kui 100 keeles ja on saadaval Amazon Bedrockis. See võimaldab AWS-i klientidel seda API-na juurde pääseda, mis välistab vajaduse hallata aluseks olevat infrastruktuuri ja tagab tundliku teabe turvalise haldamise ja kaitstuse.
Mitmekeelne mudel rühmitab sarnase tähendusega teksti, määrates neile semantilises vektorruumis üksteisele lähedased positsioonid. Mitmekeelse manustamismudeliga saavad arendajad töödelda teksti mitmes keeles, ilma et oleks vaja vahetada erinevate mudelite vahel, nagu on näidatud järgmisel joonisel. See muudab töötlemise tõhusamaks ja parandab mitmekeelsete rakenduste jõudlust.
Järgmised on mõned Cohere'i manustamismudeli esiletõstmised.
- Keskenduge dokumendi kvaliteedile - Tüüpilisi manustamismudeleid õpetatakse mõõtma dokumentide sarnasust, kuid Cohere'i mudel mõõdab ka dokumendi kvaliteeti
- RAG-rakenduste jaoks parem otsimine - RAG-rakendused nõuavad head otsingusüsteemi, millega Cohere'i manustamismudel on suurepärane
- Tasuv andmete tihendamine - Cohere kasutab spetsiaalset tihendusteadlikku koolitusmeetodit, mille tulemuseks on teie vektorandmebaasi kulude oluline kokkuhoid
Kasutage teksti manustamiseks juhtumeid
Teksti manustamine muudab struktureerimata andmed struktureeritud vormiks. See võimaldab teil kõiki neid dokumente objektiivselt võrrelda, lahkama ja neist järeldusi teha. Järgmised on näited kasutusjuhtudest, mida Cohere'i manustamismudel võimaldab.
- Semantiline otsing – Võimaldab võimsaid otsingurakendusi koos vektorandmebaasiga, millel on otsingufraasi tähenduse põhjal suurepärane asjakohasus
- Suurema süsteemi otsingumootor – Otsib ja hangib RAG-süsteemide jaoks kõige asjakohasema teabe ühendatud ettevõtte andmeallikatest
- Teksti liigitus – Toetab kavatsuste tuvastamist, sentimentide analüüsi ja täiustatud dokumendianalüüsi
- Teema modelleerimine – Muudab dokumentide kogu eraldiseisvateks klastriteks, et avastada esilekerkivaid teemasid
Täiustatud otsingusüsteemid koos Rerankiga
Kuidas juurutada kaasaegseid semantilise otsingu võimalusi ettevõtetes, kus tavapärased märksõnaotsingusüsteemid on juba olemas? Selliste süsteemide puhul, mis on olnud osa ettevõtte infoarhitektuurist pikka aega, ei ole täielik üleminek manustamispõhisele lähenemisele paljudel juhtudel lihtsalt teostatav.
Cohere'i ümberpaigutamise lõpp-punkt on loodud selle lõhe ületamiseks. See toimib otsinguvoo teise etapina, et pakkuda asjakohaste dokumentide järjestust kasutaja päringu järgi. Ettevõtted saavad esimese etapi otsimiseks säilitada olemasoleva märksõnasüsteemi (või isegi semantilise) süsteemi ja tõsta otsingutulemuste kvaliteeti teise etapi ümberpaigutamise lõpp-punkti abil.
Rerank pakub kiiret ja lihtsat valikut otsingutulemuste parandamiseks, lisades semantilise otsingutehnoloogia kasutaja virnasse ühe koodireaga. Lõpp-punktiga on kaasas ka mitmekeelne tugi. Järgmine joonis illustreerib otsingu ja ümberpaigutamise töövoogu.
Lahenduse ülevaade
Finantsanalüütikud peavad kursis püsimiseks seedima palju sisu, näiteks finantsväljaandeid ja uudiseid. Vastavalt Finantsprofessionaalide ühendus (AFP), kulutavad finantsanalüütikud lisandväärtuse analüüsi asemel 75% oma ajast andmete kogumisele või protsessi haldamisele. Küsimusele vastuse leidmine erinevatest allikatest ja dokumentidest on aeganõudev ja tüütu töö. Cohere'i manustamismudel aitab analüütikutel kiiresti otsida arvukate artiklite pealkirjade hulgast mitmes keeles, et leida ja järjestada artikleid, mis on konkreetse päringu jaoks kõige asjakohasemad, säästes sellega tohutult aega ja vaeva.
Järgmises kasutusjuhtumi näites näitame, kuidas Cohere’i embedi mudel otsib ja teeb päringuid finantsuudistest erinevates keeltes ühes ainulaadses torujuhtmes. Seejärel demonstreerime, kuidas uuesti asetuse lisamine manustuste otsingusse (või selle lisamine pärandleksikaalsesse otsingusse) võib tulemusi veelgi parandada.
Tugimärkmik on saadaval aadressil GitHub.
Järgmine diagramm illustreerib rakenduse töövoogu.
Lubage juurdepääs mudelile Amazon Bedrocki kaudu
Amazon Bedrocki kasutajad peavad taotlema juurdepääsu mudelitele, et need kasutamiseks kättesaadavad oleksid. Lisamudelitele juurdepääsu taotlemiseks valige Juurdepääs mudelile Amazoni aluspõhja navigeerimispaan lohutada. Lisateabe saamiseks vt Juurdepääs mudelile. Selle ülevaate jaoks peate taotlema juurdepääsu Cohere Embed Multilingual mudelile.
Installige paketid ja importige mooduleid
Esmalt installime vajalikud paketid ja impordime moodulid, mida selles näites kasutame:
Impordi dokumente
Kasutame andmestikku (MultiFIN), mis sisaldab reaalsete artiklite pealkirjade loendit, mis hõlmab 15 keelt (inglise, türgi, taani, hispaania, poola, kreeka, soome, heebrea, jaapani, ungari, norra, vene, itaalia, islandi ja rootsi keel ). See on avatud lähtekoodiga andmestik, mis on kureeritud loomuliku finantskeele töötlemiseks (NLP) ja on saadaval aadressil a GitHubi hoidla.
Meie puhul oleme loonud CSV-faili MultiFINi andmetega ja veeru tõlgetega. Me ei kasuta seda veergu mudeli söötmiseks; kasutame seda tulemuste printimisel nende jaoks, kes ei räägi taani või hispaania keelt. Osutame andmeraami loomiseks sellele CSV-le:
Valige päringutavate dokumentide loend
MultiFINis on üle 6,000 kirje 15 erinevas keeles. Näidiskasutusjuhtumi puhul keskendume kolmele keelele: inglise, hispaania ja taani. Samuti sorteerime päised pikkuse järgi ja valime välja kõige pikemad.
Kuna valime kõige pikemad artiklid, tagame, et pikkus ei ole tingitud korduvatest järjestustest. Järgmine kood näitab näidet, kus see nii on. Me puhastame selle ära.
df['text'].iloc[2215]
Meie dokumentide loend on hästi jaotatud kolmes keeles:
Järgmine on meie andmestiku pikim artikli päis:
Manusta ja indekseeri dokumente
Nüüd tahame oma dokumendid manustada ja manuseid salvestada. Manused on väga suured vektorid, mis kapseldavad meie dokumendi semantilist tähendust. Eelkõige kasutame Cohere'i embed-multilingual-v3.0 mudelit, mis loob 1,024 mõõtmega manuseid.
Kui päring on edastatud, manustame ka päringu ja kasutame hnswlib teeki lähimate naabrite leidmiseks.
Cohere'i kliendi loomiseks, dokumentide manustamiseks ja otsinguindeksi loomiseks kulub vaid paar koodirida. Jälgime ka dokumendi keelt ja tõlget, et tulemuste kuvamist rikastada.
Looge otsingusüsteem
Järgmisena loome funktsiooni, mis võtab päringu sisendiks, manustab selle ja leiab neli sellega tihedamalt seotud päist:
Küsige otsingusüsteemist
Uurime, mida meie süsteem paari erineva päringuga teeb. Alustame inglise keelest:
Tulemused on järgmised:
Pange tähele järgmist.
- Esitame seotud, kuid veidi teistsuguseid küsimusi ja mudel on piisavalt nüansirikas, et esitada kõige asjakohasemad tulemused üleval.
- Meie mudel ei teosta märksõnapõhist otsingut, vaid semantilist otsingut. Isegi kui kasutame termini „AI” asemel terminit „andmeteadus”, suudab meie mudel aru saada, mida küsitakse, ja tagastab ülaosas kõige asjakohasema tulemuse.
Kuidas oleks taanikeelse päringuga? Vaatame järgmist päringut:
Eelmises näites tähistab ingliskeelne akronüüm "PP&E" sõnadest "vara, tehas ja varustus" ning meie mudel suutis selle meie päringuga ühendada.
Sel juhul on kõik tagastatud tulemused taanikeelsed, kuid mudel võib tagastada dokumendi ka muus keeles kui päring, kui selle semantiline tähendus on lähemal. Meil on täielik paindlikkus ja mõne koodirea abil saame täpsustada, kas mudel peaks vaatama ainult päringu keeles olevaid dokumente või kõiki dokumente.
Parandage tulemusi Cohere Rerankiga
Manused on väga võimsad. Nüüd aga uurime, kuidas oma tulemusi veelgi täpsustada Cohere'i Reranki lõpp-punktiga, mis on koolitatud hindama dokumentide asjakohasust päringuga.
Teine Reranki eelis on see, et see võib töötada pärandmärksõna otsingumootori peal. Te ei pea kasutama vektorandmebaasi ega tegema oma infrastruktuuris drastilisi muudatusi ja selleks kulub vaid paar koodirida. Rerank on saadaval Amazon SageMaker.
Proovime uut päringut. Kasutame seekord SageMakerit:
Sel juhul suutis semantiline otsing leida meie vastuse ja kuvada selle tulemustes, kuid see pole ülaosas. Kui aga edastame päringu uuesti oma Reranki lõpp-punktile koos hangitud dokumentide loendiga, suudab Rerank kuvada ülaosas kõige asjakohasema dokumendi.
Esiteks loome kliendi ja reranki lõpp-punkti:
Kui edastame dokumendid Rerankile, suudab mudel täpselt valida kõige asjakohasema:
Järeldus
See postitus esitas ülevaate Cohere'i mitmekeelse manustamismudeli kasutamisest Amazon Bedrockis finantsteenuste valdkonnas. Eelkõige demonstreerisime näidet mitmekeelsest finantsartiklite otsingurakendusest. Nägime, kuidas manustamismudel võimaldab tõhusat ja täpset teabe leidmist, tõstes seeläbi analüütiku tootlikkust ja väljundkvaliteeti.
Cohere'i mitmekeelne manustamismudel toetab enam kui 100 keelt. See eemaldab keerukuse selliste rakenduste loomisel, mis nõuavad tööd erinevates keeltes dokumentide korpusega. The Cohere Embed mudel on koolitatud tulemuste saavutamiseks reaalsetes rakendustes. See käsitleb mürarikkaid andmeid sisenditena, kohandub keeruliste RAG-süsteemidega ja tagab oma tihendusteadliku treeningmeetodi kulutõhususe.
Alustage ehitamist Cohere'i mitmekeelse manustamismudeliga Amazon Bedrockis juba täna.
Autoritest
James Yi on AI/ML-i partnerlahenduste vanemarhitekt ettevõttes Amazon Web Services Technology Partners COE Tech meeskonnas. Ta on kirglik koostöösse ettevõtete klientide ja partneritega, et kavandada, juurutada ja skaleerida AI/ML-rakendusi, et saada äriväärtust. Väljaspool tööd meeldib talle jalgpalli mängida, reisida ja perega aega veeta.
Gonzalo Betegon on lahenduste arhitekt ettevõttes Cohere, mis pakub tipptasemel loomuliku keele töötlemise tehnoloogiat. Ta aitab organisatsioonidel täita oma ärivajadusi suurte keelemudelite juurutamise kaudu.
Meor Amer on arendaja advokaat ettevõttes Cohere, mis pakub tipptasemel loomuliku keele töötlemise (NLP) tehnoloogiat. Ta aitab arendajatel luua tipptasemel rakendusi Cohere’i suurte keelemudelite (LLM) abil.
- SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
- PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
- PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
- PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
- PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
- Allikas: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :on
- :on
- :mitte
- : kus
- $ UP
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- Võimalik
- MEIST
- juurdepääs
- Vastavalt
- konto
- täpne
- täpselt
- Saavutada
- üle
- õigusaktid
- kohaneb
- lisades
- Täiendavad lisad
- aadress
- edasijõudnud
- ADEelis
- advokaat
- AFP
- jälle
- vastu
- AI
- AI platvorm
- AI / ML
- Materjal: BPA ja flataatide vaba plastik
- võimaldama
- võimaldab
- mööda
- juba
- Ka
- Amazon
- Amazon Web Services
- summa
- summad
- an
- analüüs
- analüütik
- Analüütikud
- analüüsides
- ja
- vastus
- API
- taotlus
- rakendused
- lähenemine
- lähenemisviisid
- arhitektuur
- OLEME
- artikkel
- kaubad
- AS
- küsib
- At
- suurendatud
- saadaval
- AWS
- põhineb
- sest
- olnud
- on
- Parem
- vahel
- Plokid
- suurendada
- võimendamine
- Brexit
- BRIDGE
- ehitama
- Ehitus
- Ehitab
- äri
- Ettevõtte juhid
- ettevõtted
- kuid
- by
- CAN
- võimeid
- lüüa
- juhul
- juhtudel
- lagi
- CFO-d
- väljakutse
- väljakutseid
- muutma
- Vaidluste lahendamine
- Vali
- klassifikatsioon
- puhastama
- klient
- lähedal
- lähedalt
- lähemale
- CO
- kood
- kogumine
- Veerg
- tuleb
- Ettevõtted
- Ettevõtte omad
- võrdlema
- täitma
- keeruline
- keerukus
- arvutid
- mures
- Võta meiega ühendust
- seotud
- sisu
- kontekst
- kontekstuaalne
- kontrast
- kontrolli
- tavaline
- Korporatiivne
- Maksma
- kulude kokkuhoid
- võiks
- Paar
- seotud
- kattes
- Covid-19
- looma
- loodud
- loob
- krediit
- kriis
- kriteeriumid
- kureeritud
- Praegune
- Kliendid
- viimase peal
- Küberturvalisus
- taani
- danske
- andmed
- andmeteadus
- andmebaas
- de
- tähtaeg
- tegelema
- pühendunud
- kohta
- tarnima
- tulemusi pakkuda
- annab
- näitama
- Näidatud
- juurutada
- kasutuselevõtu
- hoiused
- kõrvalekalle
- Disain
- kavandatud
- arendaja
- Arendajad
- & Tarkvaraarendus
- erinev
- raske
- Digest
- mõõdud
- avastama
- avastus
- Ekraan
- eristatav
- jagatud
- jaotus
- do
- dokument
- dokumendid
- ei
- domeen
- Ära
- alla
- ajam
- kaks
- e
- iga
- Varajane
- Töötasu
- leevendada
- kasutusmugavus
- majandus
- Tõhus
- tõhus
- jõupingutusi
- el
- kõrvaldab
- teine
- Embed
- kinnistamine
- smirgel
- Heitkoguste
- Töötaja
- võimaldama
- võimaldab
- lõpp
- Lõpp-punkt
- tegevus
- Mootor
- Inglise
- tohutu
- piisavalt
- rikastab
- tagama
- tagab
- ettevõte
- ettevõtete
- keskkond
- seadmed
- vead
- ESG
- looma
- Isegi
- näide
- suurepärane
- olemasolevate
- kogenud
- uurima
- väljavõte
- juga
- pere
- KIIRE
- teostatav
- vähe
- Joonis
- fail
- finants-
- rahalise uudised
- finantsteenused
- leidma
- leidmine
- leiab
- soome
- viis
- Paindlikkus
- voog
- Keskenduma
- järgima
- Järel
- järgneb
- eest
- vorm
- avastatud
- neli
- Frist
- Alates
- täis
- funktsioon
- edasi
- lõhe
- GAS
- kogumine
- SKP
- loodud
- genereerib
- Globaalne
- Maailma majandus
- Go
- Eesmärgid
- läheb
- hea
- kreeka
- Grupi omad
- suunata
- Varred
- Olema
- he
- päised
- Pealkirjad
- heebrea keel
- aitama
- aitab
- rõhutab
- tema
- Tulemus
- Kuidas
- Kuidas
- aga
- HTML
- HTTPS
- ungari
- i
- if
- illustreerib
- rakendamisel
- import
- parandama
- parandab
- Paranemist
- in
- sisaldama
- Suurendama
- indeks
- tööstus
- info
- info
- teavitatakse
- Infrastruktuur
- sisend
- sisendite
- teadmisi
- paigaldama
- selle asemel
- integreerima
- integratsioon
- tahtlus
- sisse
- kehtestama
- sisse
- IP
- IT
- itaalia
- ITS
- Jaanuar
- jaapani
- Tööturg
- jpg
- lihtsalt
- hoidma
- maastik
- KEEL
- keel
- Keeled
- suur
- suurem
- suurim
- LAS
- viimane
- hiljemalt
- juhid
- juhtivate
- liising
- Pärand
- Seadusandlik
- õigusakti ettepaneku
- Pikkus
- vähem
- Raamatukogu
- nagu
- joon
- liinid
- nimekiri
- Loetletud
- Laenud
- Pikk
- kaua aega
- Vaata
- a
- Partii
- põhiline
- tegema
- TEEB
- Tegemine
- mees
- juhtima
- juhitud
- juhtimine
- palju
- kaart
- Märts
- Turg
- turuväärtus
- turud
- suur
- sobitamine
- tähendus
- tähendused
- mõõtma
- meetmed
- Meedia
- Vastama
- koosolekul
- pelk
- meetod
- ränne
- ML
- viis
- mudel
- modelleerimine
- mudelid
- Kaasaegne
- Moodulid
- rohkem
- tõhusam
- kõige
- palju
- mitmekordne
- nimi
- Natural
- Natural Language Processing
- NAVIGATSIOON
- vajalik
- Vajadus
- vajadustele
- naabrid
- Uus
- uudised
- järgmine
- nlp
- ei
- norra
- märkmik
- nüüd
- arvukad
- NY
- UUS
- NYT
- objektiivselt
- of
- on
- ONE
- ones
- ainult
- rünnak
- avatud
- avatud lähtekoodiga
- valik
- or
- et
- organisatsioonid
- originaal
- OS
- Muu
- meie
- väljund
- väljaspool
- üle
- pakend
- pakette
- pandas
- pane
- osa
- eriline
- partner
- partnerid
- sooritama
- Vastu võetud
- kirglik
- makse
- Palgaarvestus
- kohta
- täitma
- jõudlus
- valima
- korjamine
- torujuhe
- kava
- inimesele
- Platon
- Platoni andmete intelligentsus
- PlatoData
- mängimine
- podcast
- Punkt
- poola
- positsioone
- post
- potentsiaal
- võimas
- eelnev
- esitada
- esitatud
- Peamine
- trükk
- privaatsus
- protsess
- töötlemine
- tootlikkus
- spetsialistid
- Edu
- kinnisvara
- ettepanek
- kaitstud
- anda
- tarnija
- annab
- väljaanded
- eesmärk
- PWC
- kvaliteet
- päringud
- küsimus
- Küsimused
- kiiresti
- R
- tõstma
- auaste
- Edetabel
- RE
- valmis
- päris maailm
- tunnustamine
- andmed
- vähendama
- viide
- filtreeri
- reform
- piirkond
- seotud
- asjakohasus
- asjakohane
- jääma
- jäänused
- eemaldab
- uuesti avada
- korduv
- asendama
- Aruandlus
- Aruanded
- taotleda
- nõudma
- kaasa
- tulemuseks
- Tulemused
- säilitama
- tagasipöördumine
- tagasi
- vene
- s
- salveitegija
- säästmine
- Hoiused
- nägin
- Skaala
- teadus
- skoor
- Otsing
- otsingumootor
- otsingud
- otsimine
- SEC
- Teine
- kindlalt
- turvalisus
- vaata
- väljavalitud
- vanem
- tundlik
- tunne
- Teenused
- istung
- aktsionär
- peaks
- presentatsioon
- Näitused
- sarnane
- ühekordne
- Saidid
- veidi erinev
- Aeglaselt
- jalgpall
- Lahendused
- mõned
- allikas
- Allikad
- Ruum
- hispaania
- rääkima
- eriline
- kulutama
- Kulutused
- Kestab
- Personal
- Stage
- standard
- seisab
- algus
- Käivitus
- avaldused
- jääma
- varu
- aktsiaturg
- varud
- salvestada
- lihtne
- Strateegia
- tugev
- struktureeritud
- mahukas
- selline
- toetama
- Toetatud
- Toetamine
- Toetab
- Pind
- Uuring
- Jätkusuutlikkus
- jätkusuutlik
- Säästev areng
- rootsi
- Lüliti
- Sünonüüm
- süsteem
- süsteemid
- võtab
- eesmärgid
- maks
- meeskond
- tech
- Tehnoloogia
- termin
- tekst
- Teksti liigitus
- kui
- et
- .
- oma
- Neile
- SIIS
- Seal.
- sellega
- Need
- nad
- see
- need
- kolm
- Läbi
- aeg
- pealkirjad
- et
- täna
- ülemine
- teema
- Teemasid
- jälgida
- koolitatud
- koolitus
- tõlkima
- Tõlge
- Reisimine
- püüdma
- türgi
- Pöörake
- lülitub
- tüüpiline
- UN
- paljastama
- aluseks
- mõistma
- ainulaadne
- URL
- us
- kasutama
- kasutage juhtumit
- Kasutajad
- kasutusalad
- kasutamine
- väärtus
- sort
- väga
- läbikäiguks
- tahan
- oli
- Wave
- Tee..
- we
- web
- veebiteenused
- Hästi
- M
- millal
- kas
- mis
- WHO
- will
- koos
- ilma
- Töö
- töövoog
- töö
- maailm
- maailmaklass
- aastat
- veel
- sa
- Sinu
- sephyrnet