Podjetja imajo dostop do ogromnih količin podatkov, od katerih jih je veliko težko odkriti, ker so podatki nestrukturirani. Konvencionalni pristopi k analizi nestrukturirani podatki uporabite ujemanje ključnih besed ali sinonimov. Ne zajamejo celotnega konteksta dokumenta, zaradi česar so manj učinkoviti pri obravnavi nestrukturiranih podatkov.
Nasprotno pa vdelave besedila uporabljajo strojno učenje (ML) zmožnosti zajemanja pomena nestrukturiranih podatkov. Vdelave generirajo reprezentativni jezikovni modeli, ki prevajajo besedilo v numerične vektorje in kodirajo kontekstualne informacije v dokumentu. To omogoča aplikacije, kot so semantično iskanje, Povečana generacija pridobivanja (RAG), tematsko modeliranje in klasifikacija besedil.
Na primer, v industriji finančnih storitev aplikacije vključujejo pridobivanje vpogledov iz poročil o zaslužku, iskanje informacij iz računovodskih izkazov in analiziranje razpoloženja o delnicah in trgih v finančnih novicah. Vdelave besedila omogočajo strokovnjakom v industriji, da pridobijo vpoglede iz dokumentov, zmanjšajo napake in povečajo svojo učinkovitost.
V tej objavi predstavljamo aplikacijo, ki lahko išče in poizveduje po finančnih novicah v različnih jezikih z uporabo Coherejevega embed in Ponovno uvrstitev modeli z Amazon Bedrock.
Coherejev večjezični model vdelave
Cohere je vodilna podjetniška AI platforma, ki gradi velike jezikovne modele (LLM) svetovnega razreda in rešitve, ki jih poganja LLM, ki računalnikom omogočajo iskanje, zajemanje pomena in pogovor v besedilu. Zagotavljajo preprosto uporabo ter močan nadzor varnosti in zasebnosti.
Coherejev večjezični model vdelave ustvarja vektorske predstavitve dokumentov za več kot 100 jezikov in je na voljo na Amazon Bedrock. To strankam AWS omogoča dostop do njega kot API-ja, kar odpravlja potrebo po upravljanju osnovne infrastrukture in zagotavlja, da občutljive informacije ostanejo varno upravljane in zaščitene.
Večjezični model združuje besedila s podobnimi pomeni tako, da jim dodeli položaje, ki so blizu drug drugemu v semantičnem vektorskem prostoru. Z večjezičnim modelom vdelave lahko razvijalci obdelujejo besedilo v več jezikih, ne da bi morali preklapljati med različnimi modeli, kot je prikazano na naslednji sliki. To naredi obdelavo učinkovitejšo in izboljša delovanje večjezičnih aplikacij.
Sledi nekaj poudarkov Coherejevega modela vdelave:
- Osredotočite se na kakovost dokumenta – Tipični modeli vdelave so usposobljeni za merjenje podobnosti med dokumenti, vendar Coherejev model meri tudi kakovost dokumenta
- Boljše iskanje za aplikacije RAG – Aplikacije RAG zahtevajo dober sistem iskanja, v katerem se odlikuje vdelani model Cohere
- Stroškovno učinkovito stiskanje podatkov – Cohere uporablja posebno metodo usposabljanja, ki upošteva stiskanje, kar ima za posledico znatne prihranke stroškov za vašo vektorsko bazo podatkov
Primeri uporabe za vdelavo besedila
Vdelave besedila spremenijo nestrukturirane podatke v strukturirano obliko. To vam omogoča objektivno primerjavo, seciranje in pridobivanje vpogledov iz vseh teh dokumentov. Sledijo primeri primerov uporabe, ki jih omogoča model vdelave Cohere:
- Semantično iskanje – Omogoča zmogljive iskalne aplikacije v kombinaciji z vektorsko bazo podatkov z odlično ustreznostjo glede na pomen iskalne fraze
- Iskalnik za večji sistem – Najde in pridobi najpomembnejše informacije iz povezanih podatkovnih virov podjetja za sisteme RAG
- Razvrstitev besedila – Podpira prepoznavanje namena, analizo čustev in napredno analizo dokumentov
- Tema modeliranje – Spremeni zbirko dokumentov v ločene skupine, da odkrije nastajajoče teme in teme
Izboljšani iskalni sistemi s prerazvrščanjem
Kako v podjetjih, kjer so običajni sistemi iskanja po ključnih besedah že prisotni, uvesti sodobne semantične zmožnosti iskanja? Za takšne sisteme, ki so že dolgo del informacijske arhitekture podjetja, popoln prehod na pristop, ki temelji na vdelavah, v mnogih primerih preprosto ni izvedljiv.
Končna točka Cohere Rerank je zasnovan tako, da premosti to vrzel. Deluje kot druga stopnja iskalnega toka, ki zagotavlja razvrstitev ustreznih dokumentov glede na uporabnikovo poizvedbo. Podjetja lahko obdržijo obstoječi sistem ključnih besed (ali celo semantični) za iskanje na prvi stopnji in povečajo kakovost rezultatov iskanja s končno točko Rerank v drugi stopnji prerazvrščanja.
Rerank zagotavlja hitro in preprosto možnost za izboljšanje rezultatov iskanja z uvedbo tehnologije semantičnega iskanja v uporabnikov sklad z eno vrstico kode. Končna točka ima tudi večjezično podporo. Naslednja slika ponazarja potek dela pri pridobivanju in prerazvrščanju.
Pregled rešitev
Finančni analitiki morajo prebaviti veliko vsebine, kot so finančne publikacije in mediji, da ostanejo obveščeni. Glede na Združenje finančnih strokovnjakov (AFP), finančni analitiki porabijo 75 % svojega časa za zbiranje podatkov ali upravljanje procesa namesto za analizo dodane vrednosti. Iskanje odgovora na vprašanje v različnih virih in dokumentih je dolgotrajno in dolgočasno delo. Model vdelave Cohere pomaga analitikom pri hitrem iskanju po številnih naslovih člankov v več jezikih, da najdejo in razvrstijo članke, ki so najbolj relevantni za določeno poizvedbo, s čimer prihranijo ogromno časa in truda.
V naslednjem primeru uporabe prikazujemo, kako Coherejev model Embed išče in poizveduje po finančnih novicah v različnih jezikih v enem edinstvenem cevovodu. Nato pokažemo, kako lahko z dodajanjem prerazvrščanja v iskanje vdelav (ali dodajanjem v podedovano leksikalno iskanje) še izboljšate rezultate.
Podporni prenosnik je na voljo na GitHub.
Naslednji diagram prikazuje potek dela aplikacije.
Omogočite dostop do modela prek Amazon Bedrock
Uporabniki Amazon Bedrock morajo zahtevati dostop do modelov, da jih dajo na voljo za uporabo. Če želite zahtevati dostop do dodatnih modelov, izberite Dostop do modela navigacijsko podokno na Amazon Bedrock konzola. Za več informacij glejte Dostop do modela. Za to predstavitev morate zahtevati dostop do modela Cohere Embed Multilingual.
Namestite pakete in uvozite module
Najprej namestimo potrebne pakete in uvozimo module, ki jih bomo uporabili v tem primeru:
Uvoz dokumentov
Uporabljamo nabor podatkov (MultiFIN), ki vsebuje seznam naslovov člankov iz resničnega sveta, ki pokrivajo 15 jezikov (angleščina, turščina, danščina, španščina, poljščina, grščina, finščina, hebrejščina, japonščina, madžarščina, norveščina, ruščina, italijanščina, islandščina in švedščina ). To je odprtokodni nabor podatkov, kuriran za finančno obdelavo naravnega jezika (NLP) in je na voljo na a GitHub repozitorij.
V našem primeru smo ustvarili datoteko CSV s podatki MultiFIN in stolpec s prevodi. Tega stolpca ne uporabljamo za napajanje modela; uporabljamo ga, da nam pomaga slediti, ko tiskamo rezultate za tiste, ki ne govorijo dansko ali špansko. Kažemo na ta CSV, da ustvarimo naš podatkovni okvir:
Izberite seznam dokumentov za poizvedbo
MultiFIN ima več kot 6,000 zapisov v 15 različnih jezikih. Za naš primer uporabe se osredotočamo na tri jezike: angleščino, španščino in danščino. Glave razvrstimo tudi po dolžini in izberemo najdaljše.
Ker izbiramo najdaljše članke, zagotavljamo, da dolžina ni posledica ponavljajočih se zaporedij. Naslednja koda prikazuje primer, kjer je temu tako. To bomo počistili.
df['text'].iloc[2215]
Naš seznam dokumentov je lepo razdeljen v tri jezike:
Sledi najdaljša glava članka v našem naboru podatkov:
Vdelajte in indeksirajte dokumente
Zdaj želimo vdelati naše dokumente in shraniti vdelave. Vdelave so zelo veliki vektorji, ki zajemajo semantični pomen našega dokumenta. Zlasti uporabljamo Coherejev model embed-multilingual-v3.0, ki ustvarja vdelave s 1,024 dimenzijami.
Ko je poizvedba posredovana, poizvedbo tudi vdelamo in uporabimo knjižnico hnswlib za iskanje najbližjih sosedov.
Za vzpostavitev odjemalca Cohere, vdelavo dokumentov in ustvarjanje iskalnega indeksa potrebujete le nekaj vrstic kode. Za popestritev prikaza rezultatov spremljamo tudi jezik in prevod dokumenta.
Zgradite sistem za iskanje
Nato zgradimo funkcijo, ki vzame poizvedbo kot vhod, jo vdela in poišče štiri glave, ki so tesneje povezane z njo:
Izvedite poizvedbo v sistemu za iskanje
Raziščimo, kaj naš sistem počne z nekaj različnimi poizvedbami. Začnemo z angleščino:
Rezultati so naslednji:
Upoštevajte naslednje:
- Postavljamo sorodna, a nekoliko drugačna vprašanja, model pa je dovolj niansiran, da na vrhu prikaže najbolj ustrezne rezultate.
- Naš model ne izvaja iskanja na podlagi ključnih besed, temveč semantično iskanje. Tudi če uporabljamo izraz, kot je »podatkovna znanost« namesto »AI«, lahko naš model razume, kaj se zahteva, in na vrhu vrne najbolj relevanten rezultat.
Kaj pa vprašanje v danščini? Poglejmo naslednjo poizvedbo:
V prejšnjem primeru angleška kratica »PP&E« pomeni »premičnine, naprave in oprema« in naš model jo je lahko povezal z našo poizvedbo.
V tem primeru so vsi vrnjeni rezultati v danščini, vendar lahko model vrne dokument v jeziku, ki ni poizvedba, če je njegov semantični pomen bližji. Imamo popolno prilagodljivost in z nekaj vrsticami kode lahko določimo, ali naj model pogleda samo dokumente v jeziku poizvedbe ali naj pogleda vse dokumente.
Izboljšajte rezultate s Cohere Rerank
Vdelave so zelo močne. Vendar si bomo zdaj ogledali, kako naše rezultate še bolj izboljšati s Coherejevo končno točko Rerank, ki je bila usposobljena za ocenjevanje ustreznosti dokumentov glede na poizvedbo.
Druga prednost Rerank je, da lahko deluje poleg starejšega iskalnika ključnih besed. Ni vam treba preklopiti na vektorsko zbirko podatkov ali narediti drastičnih sprememb v vaši infrastrukturi, poleg tega potrebujete le nekaj vrstic kode. Ponovna uvrstitev je na voljo v Amazon SageMaker.
Poskusimo z novo poizvedbo. Tokrat uporabljamo SageMaker:
V tem primeru je semantično iskanje uspelo pridobiti naš odgovor in ga prikazati v rezultatih, vendar ni na vrhu. Ko pa poizvedbo znova posredujemo naši končni točki za prerazvrščanje s seznamom pridobljenih dokumentov, lahko za prerazvrščanje na vrhu prikaže najpomembnejši dokument.
Najprej ustvarimo odjemalca in končno točko Rerank:
Ko dokumente posredujemo prerazvrščanju, lahko model natančno izbere najbolj ustreznega:
zaključek
Ta objava je predstavila potek uporabe Coherejevega večjezičnega modela vdelave v Amazon Bedrock na področju finančnih storitev. Zlasti smo prikazali primer večjezične aplikacije za iskanje finančnih člankov. Videli smo, kako model vdelave omogoča učinkovito in natančno odkrivanje informacij ter s tem poveča produktivnost in kakovost izhoda analitika.
Coherejev večjezični model vdelave podpira več kot 100 jezikov. Odpravlja kompleksnost gradnje aplikacij, ki zahtevajo delo s korpusom dokumentov v različnih jezikih. The Cohere Embed model je usposobljen za zagotavljanje rezultatov v realnih aplikacijah. Kot vhodne podatke obravnava hrupne podatke, se prilagaja zapletenim sistemom RAG in zagotavlja stroškovno učinkovitost s svojo metodo usposabljanja, ki upošteva stiskanje.
Začnite graditi s Coherejevim večjezičnim modelom vdelave v Amazon Bedrock še danes.
O avtorjih
James Yi je višji arhitekt partnerskih rešitev za umetno inteligenco/ML v tehnični ekipi tehnoloških partnerjev COE pri Amazon Web Services. Navdušen je nad sodelovanjem s podjetniškimi strankami in partnerji pri načrtovanju, uvajanju in prilagajanju aplikacij AI/ML za pridobitev poslovne vrednosti. Zunaj dela uživa v igranju nogometa, potovanjih in preživljanju časa z družino.
Gonzalo Betegon je arhitekt rešitev pri Cohere, ponudniku najsodobnejše tehnologije za obdelavo naravnega jezika. Organizacijam pomaga pri reševanju njihovih poslovnih potreb z uporabo velikih jezikovnih modelov.
Meor Amer je zagovornik razvijalcev pri Cohere, ponudniku vrhunske tehnologije obdelave naravnega jezika (NLP). Razvijalcem pomaga graditi vrhunske aplikacije s Coherejevimi velikimi jezikovnimi modeli (LLM).
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :ima
- : je
- :ne
- :kje
- $GOR
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- Sposobna
- O meni
- dostop
- Po
- Račun
- natančna
- natančno
- Doseči
- čez
- aktov
- prilagaja
- dodajanje
- Dodatne
- Naslov
- napredno
- Prednost
- zagovornik
- STA
- spet
- proti
- AI
- AI platforma
- AI / ML
- vsi
- omogočajo
- omogoča
- skupaj
- že
- Prav tako
- Amazon
- Amazon Web Services
- znesek
- zneski
- an
- Analiza
- Analitik
- Analitiki
- analiziranje
- in
- odgovor
- API
- uporaba
- aplikacije
- pristop
- pristopi
- Arhitektura
- SE
- članek
- članki
- AS
- sprašuje
- At
- Povečana
- Na voljo
- AWS
- temeljijo
- ker
- bilo
- počutje
- Boljše
- med
- Bloki
- povečanje
- povečanje
- Brexit
- MOST
- izgradnjo
- Building
- Gradi
- poslovni
- Poslovni voditelji
- podjetja
- vendar
- by
- CAN
- Zmogljivosti
- zajemanje
- primeru
- primeri
- strop
- CFO
- izziv
- izzivi
- spremenite
- Spremembe
- Izberite
- Razvrstitev
- čiščenje
- stranke
- Zapri
- tesno
- bližje
- CO
- Koda
- zbirka
- Stolpec
- prihaja
- Podjetja
- Podjetja
- primerjate
- dokončanje
- kompleksna
- kompleksnost
- računalniki
- zaskrbljen
- Connect
- povezane
- vsebina
- ozadje
- kontekstualno
- kontrast
- Nadzor
- konvencionalne
- Corporate
- strošek
- prihranki pri stroških
- bi
- par
- skupaj
- kritje
- Covid-19
- ustvarjajo
- ustvaril
- ustvari
- kredit
- kriza
- Merila
- kurirano
- Trenutna
- Stranke, ki so
- vrhunsko
- Cybersecurity
- danski
- danske
- datum
- znanost o podatkih
- Baze podatkov
- de
- Rok
- deliti
- namenjen
- od
- poda
- zagotoviti rezultate
- daje
- izkazati
- Dokazano
- razporedi
- uvajanje
- vloge
- drift
- Oblikovanje
- zasnovan
- Razvojni
- Razvijalci
- Razvoj
- drugačen
- težko
- prebaviti
- dimenzije
- odkriti
- Odkritje
- zaslon
- izrazit
- porazdeljena
- distribucija
- do
- dokument
- Dokumenti
- ne
- domena
- dont
- navzdol
- pogon
- 2
- e
- vsak
- Zgodnje
- Plače
- enostavnost
- Enostavnost uporabe
- Gospodarstvo
- Učinkovito
- učinkovite
- prizadevanje
- el
- odpravlja
- ostalo
- Embed
- vdelava
- smirkovim
- Emisije
- Zaposlen
- omogočajo
- omogoča
- konec
- Končna točka
- sodelovanje
- Motor
- Angleščina
- ogromno
- dovolj
- obogatiti
- zagotovitev
- zagotavlja
- Podjetje
- podjetja
- okolje
- oprema
- napake
- ESG
- vzpostaviti
- Tudi
- Primer
- odlično
- obstoječih
- izkušen
- raziskuje
- ekstrakt
- Falls
- družina
- FAST
- izvedljivo
- Nekaj
- Slika
- file
- finančna
- finančne novice
- finančne storitve
- Najdi
- iskanje
- najdbe
- finnish
- pet
- prilagodljivost
- Pretok
- Osredotočite
- sledi
- po
- sledi
- za
- obrazec
- je pokazala,
- štiri
- Rok
- iz
- polno
- funkcija
- nadalje
- vrzel
- GAS
- zbiranje
- BDP
- ustvarila
- ustvarja
- Globalno
- Globalno gospodarstvo
- Go
- Cilji
- dogaja
- dobro
- grški
- Skupine
- vodi
- Ročaji
- Imajo
- he
- Glave
- Naslovi
- hebrejščina
- pomoč
- Pomaga
- Poudarki
- njegov
- hit
- Kako
- Kako
- Vendar
- HTML
- HTTPS
- Madžarski
- i
- if
- ponazarja
- izvajanja
- uvoz
- izboljšanje
- izboljšuje
- izboljšanju
- in
- vključujejo
- Povečajte
- Indeks
- Industrija
- info
- Podatki
- obvestila
- Infrastruktura
- vhod
- vhodi
- vpogledi
- namestitev
- Namesto
- integrirati
- integracija
- namen
- v
- uvesti
- Predstavljamo
- IP
- IT
- italijanski
- ITS
- januar
- Japonski
- Delovna mesta
- jpg
- samo
- Imejte
- Pokrajina
- JEZIK
- jezik
- jeziki
- velika
- večja
- Največji
- LAS
- Zadnja
- Zadnji
- Voditelji
- vodi
- leasing
- Legacy
- Zakonodajni
- zakonodajni predlog
- dolžina
- manj
- Knjižnica
- kot
- vrstica
- linije
- Seznam
- Navedeno
- Posojila
- Long
- dolgo časa
- Poglej
- jih
- Sklop
- Glavne
- Znamka
- IZDELA
- Izdelava
- moški
- upravljanje
- upravlja
- upravljanje
- več
- map
- marec
- Tržna
- Tržna vrednost
- Prisotnost
- ogromen
- ujemanje
- kar pomeni,
- pomene
- merjenje
- ukrepe
- mediji
- Srečati
- srečanja
- Mers
- Metoda
- migracije
- ML
- način
- Model
- modeliranje
- modeli
- sodobna
- Moduli
- več
- učinkovitejše
- Najbolj
- veliko
- več
- Ime
- naravna
- Obdelava Natural Language
- ostalo
- potrebno
- Nimate
- potrebe
- sosedi
- Novo
- novice
- Naslednja
- nlp
- št
- Norveški
- prenosnik
- zdaj
- številne
- NY
- NOVO
- NYT
- objektivno
- of
- on
- ONE
- tiste
- samo
- juriš
- odprite
- open source
- Možnost
- or
- Da
- organizacije
- izvirno
- OS
- Ostalo
- naši
- izhod
- zunaj
- več
- paket
- pakete
- pand
- podokno
- del
- zlasti
- partner
- partnerji
- mimo
- opravil
- strastno
- Plačilo
- Plače
- za
- Izvedite
- performance
- kramp
- nabiranje
- plinovod
- Načrt
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- igranje
- Podcast
- Točka
- poljski
- pozicije
- Prispevek
- potencial
- močan
- pred
- predstaviti
- predstavljeni
- , ravnateljica
- Tiskanje
- zasebnost
- Postopek
- obravnavati
- produktivnost
- strokovnjaki
- Napredek
- nepremičnine
- snubitev
- zaščiteni
- zagotavljajo
- Ponudnik
- zagotavlja
- publikacije
- Namen
- PWC
- kakovost
- poizvedbe
- vprašanje
- vprašanja
- hitro
- R
- dvigniti
- uvrstitev
- Lestvica
- RE
- pripravljen
- resnični svet
- Priznanje
- evidence
- zmanjša
- reference
- izboljšati
- Reforma
- okolica
- povezane
- ustreznost
- pomembno
- ostajajo
- ostanki
- odstrani
- ponovno odpre
- ponovi
- zamenjajte
- Poročanje
- Poročila
- zahteva
- zahteva
- povzroči
- rezultat
- Rezultati
- ohranijo
- vrnitev
- vrnitev
- russian
- s
- sagemaker
- shranjevanje
- Prihranki
- Videl
- Lestvica
- Znanost
- rezultat
- Iskalnik
- iskalnik
- iskanja
- iskanje
- SEC
- drugi
- Varno
- varnost
- glej
- izbran
- višji
- občutljiva
- sentiment
- Storitve
- Zasedanje
- delničarja
- shouldnt
- predstavitev
- Razstave
- Podoben
- sam
- Spletna mesta
- nekoliko drugačen
- Počasi
- Soccer
- rešitve
- nekaj
- vir
- Viri
- Vesolje
- španski
- govorijo
- posebna
- preživeti
- Poraba
- sveženj
- Osebje
- Stage
- standardna
- stojala
- Začetek
- Začetek
- Izjave
- bivanje
- zaloge
- borza
- Zaloge
- trgovina
- naravnost
- Strategija
- močna
- strukturirano
- precejšen
- taka
- podpora
- Podprti
- Podpora
- Podpira
- Površina
- Anketa
- Trajnostni razvoj
- trajnostno
- Trajnostni razvoj
- Švedski
- Preklop
- Sinonim
- sistem
- sistemi
- meni
- Cilji
- davek
- skupina
- tech
- Tehnologija
- Izraz
- besedilo
- Razvrstitev besedil
- kot
- da
- O
- njihove
- Njih
- POTEM
- Tukaj.
- s tem
- te
- jih
- ta
- tisti,
- 3
- skozi
- čas
- naslove
- do
- danes
- vrh
- temo
- Teme
- sledenje
- usposobljeni
- usposabljanje
- prevesti
- prevod
- Potovanje
- poskusite
- turški
- OBRAT
- zavoji
- tipičen
- UN
- odkrijte
- osnovni
- razumeli
- edinstven
- URL
- us
- uporaba
- primeru uporabe
- Uporabniki
- uporablja
- uporabo
- vrednost
- raznolikost
- zelo
- walkthrough
- želeli
- je
- Wave
- način..
- we
- web
- spletne storitve
- Dobro
- Kaj
- kdaj
- ali
- ki
- WHO
- bo
- z
- brez
- delo
- potek dela
- deluje
- svet
- svetovni razred
- let
- še
- Vi
- Vaša rutina za
- zefirnet