Întreprinderile au acces la cantități masive de date, multe dintre ele fiind greu de descoperit, deoarece datele sunt nestructurate. Abordări convenționale ale analizei date nestructurate utilizați potrivirea cuvintelor cheie sau a sinonimelor. Ele nu captează întregul context al unui document, ceea ce le face mai puțin eficiente în tratarea datelor nestructurate.
În schimb, înglobările de text folosesc masina de învățare (ML) capabilități de a capta semnificația datelor nestructurate. Înglobările sunt generate de modele de limbaj reprezentațional care traduc textul în vectori numerici și codifică informații contextuale într-un document. Acest lucru permite aplicații precum căutarea semantică, Recuperare Augmented Generation (RAG), modelarea subiectelor și clasificarea textului.
De exemplu, în industria serviciilor financiare, aplicațiile includ extragerea de informații din rapoartele de câștig, căutarea de informații din situațiile financiare și analiza sentimentului despre acțiuni și piețe găsite în știrile financiare. Încorporarea textului le permite profesioniștilor din industrie să extragă informații din documente, să minimizeze erorile și să le sporească performanța.
În această postare, prezentăm o aplicație care poate căuta și interoga în știri financiare în diferite limbi folosind Cohere. Embed și Reclasează modele cu Amazon Bedrock.
Modelul de încorporare multilingv al Cohere
Cohere este o platformă de inteligență artificială de top pentru întreprinderi care creează modele de limbă mari (LLM) de clasă mondială și soluții bazate pe LLM, care permit computerelor să caute, să capteze sens și să converseze în text. Acestea oferă ușurință în utilizare și controale puternice de securitate și confidențialitate.
Modelul de încorporare multilingv al Cohere generează reprezentări vectoriale ale documentelor pentru peste 100 de limbi și este disponibil pe Amazon Bedrock. Acest lucru permite clienților AWS să îl acceseze ca API, ceea ce elimină necesitatea de a gestiona infrastructura de bază și asigură că informațiile sensibile rămân gestionate și protejate în siguranță.
Modelul multilingv grupează texte cu semnificații similare, atribuindu-le poziții apropiate unele de altele într-un spațiu vectorial semantic. Cu un model de încorporare multilingv, dezvoltatorii pot procesa text în mai multe limbi fără a fi nevoie să comute între diferite modele, așa cum este ilustrat în figura următoare. Acest lucru face procesarea mai eficientă și îmbunătățește performanța aplicațiilor multilingve.
Următoarele sunt câteva dintre punctele importante ale modelului de încorporare Cohere:
- Concentrați-vă pe calitatea documentului – Modelele tipice de încorporare sunt antrenate pentru a măsura asemănarea între documente, dar modelul Cohere măsoară și calitatea documentului
- Recuperare mai bună pentru aplicațiile RAG – Aplicațiile RAG necesită un sistem de recuperare bun, la care excelează modelul de încorporare Cohere
- Comprimarea datelor rentabil – Cohere folosește o metodă de antrenament specială, conștientă de compresie, ceea ce duce la economii substanțiale de costuri pentru baza de date vectorială
Cazuri de utilizare pentru încorporarea textului
Încorporarea textului transformă datele nestructurate într-o formă structurată. Acest lucru vă permite să comparați în mod obiectiv, să disecați și să obțineți informații din toate aceste documente. Următoarele sunt exemple de cazuri de utilizare pe care modelul de încorporare Cohere le permite:
- Căutare semantică – Permite aplicații de căutare puternice atunci când sunt cuplate cu o bază de date vectorială, cu o relevanță excelentă bazată pe sensul expresiei de căutare
- Motor de căutare pentru un sistem mai mare – Găsește și preia cele mai relevante informații din sursele de date ale întreprinderii conectate pentru sistemele RAG
- Clasificarea textului – Sprijină recunoașterea intențiilor, analiza sentimentelor și analiza avansată a documentelor
- Modelarea subiectelor – Transformă o colecție de documente în grupuri distincte pentru a descoperi subiecte și teme emergente
Sisteme de căutare îmbunătățite cu Rerank
În întreprinderile în care sistemele convenționale de căutare a cuvintelor cheie sunt deja prezente, cum introduceți capabilitățile moderne de căutare semantică? Pentru astfel de sisteme care au făcut parte din arhitectura informațională a unei companii de mult timp, o migrare completă la o abordare bazată pe încorporare este, în multe cazuri, pur și simplu imposibilă.
Punctul final Rerank al lui Cohere este conceput pentru a reduce acest decalaj. Acționează ca a doua etapă a fluxului de căutare pentru a oferi o clasare a documentelor relevante în funcție de interogarea unui utilizator. Întreprinderile pot păstra un sistem de cuvinte cheie (sau chiar semantic) existent pentru prima etapă de regăsire și pot crește calitatea rezultatelor căutării cu punctul final Rerank în a doua etapă de reclasificare.
Rerank oferă o opțiune rapidă și simplă pentru îmbunătățirea rezultatelor căutării prin introducerea tehnologiei de căutare semantică în stiva unui utilizator cu o singură linie de cod. Punctul final vine și cu suport multilingv. Figura următoare ilustrează fluxul de lucru de regăsire și reclasificare.
Prezentare generală a soluțiilor
Analiștii financiari trebuie să digere o mulțime de conținut, cum ar fi publicațiile financiare și mass-media de știri, pentru a rămâne informați. In conformitate cu Asociația pentru Profesioniștii Financiari (AFP), analiștii financiari petrec 75% din timp culegând date sau administrând procesul în loc de analiză cu valoare adăugată. Găsirea răspunsului la o întrebare dintr-o varietate de surse și documente este o muncă obositoare și laborioasă. Modelul de încorporare Cohere îi ajută pe analiști să caute rapid în numeroase titluri de articole în mai multe limbi pentru a găsi și clasa articolele care sunt cele mai relevante pentru o anumită interogare, economisind o cantitate enormă de timp și efort.
În următorul exemplu de caz de utilizare, prezentăm modul în care modelul Cohere Embed caută și interogează știrile financiare în diferite limbi într-un canal unic. Apoi, demonstrăm cum adăugarea Rerank la regăsirea înglobărilor dvs. (sau adăugarea acesteia la o căutare lexicală moștenită) poate îmbunătăți și mai mult rezultatele.
Notebook-ul suport este disponibil pe GitHub.
Următoarea diagramă ilustrează fluxul de lucru al aplicației.
Activați accesul la model prin Amazon Bedrock
Utilizatorii Amazon Bedrock trebuie să solicite acces la modele pentru a le face disponibile pentru utilizare. Pentru a solicita acces la modele suplimentare, alegeți Acces model panoul de navigare de pe Amazon Bedrock consolă. Pentru mai multe informații, vedeți Acces model. Pentru această explicație, trebuie să solicitați acces la modelul Cohere Embed Multilingual.
Instalați pachete și importați module
Mai întâi, instalăm pachetele necesare și importăm modulele pe care le vom folosi în acest exemplu:
Importă documente
Folosim un set de date (MultiFIN) care conține o listă de titluri de articole din lumea reală care acoperă 15 limbi (engleză, turcă, daneză, spaniolă, poloneză, greacă, finlandeză, ebraică, japoneză, maghiară, norvegiană, rusă, italiană, islandeză și suedeză) ). Acesta este un set de date open source conceput pentru procesarea financiară a limbajului natural (NLP) și este disponibil pe a GitHub depozit.
În cazul nostru, am creat un fișier CSV cu datele MultiFIN, precum și o coloană cu traduceri. Nu folosim această coloană pentru a alimenta modelul; îl folosim pentru a ne ajuta să urmărim atunci când tipărim rezultatele pentru cei care nu vorbesc daneză sau spaniolă. Indicăm acel CSV pentru a ne crea cadrul de date:
Selectați o listă de documente de interogat
MultiFIN are peste 6,000 de înregistrări în 15 limbi diferite. Pentru exemplul nostru de utilizare, ne concentrăm pe trei limbi: engleză, spaniolă și daneză. De asemenea, sortăm anteturile după lungime și le alegem pe cele mai lungi.
Deoarece alegem cele mai lungi articole, ne asigurăm că lungimea nu se datorează secvențelor repetate. Următorul cod arată un exemplu în care acesta este cazul. Vom curăța asta.
df['text'].iloc[2215]
Lista noastră de documente este bine distribuită în cele trei limbi:
Următorul este cel mai lung antet al articolului din setul nostru de date:
Încorporați și indexați documente
Acum, vrem să ne încorporam documentele și să stocăm înglobările. Înglobările sunt vectori foarte mari care încapsulează semnificația semantică a documentului nostru. În special, folosim modelul Cohere embed-multilingual-v3.0, care creează înglobări cu 1,024 de dimensiuni.
Când o interogare este transmisă, încorporam și interogarea și folosim biblioteca hnswlib pentru a găsi cei mai apropiați vecini.
Este nevoie de doar câteva linii de cod pentru a stabili un client Cohere, pentru a încorpora documentele și pentru a crea indexul de căutare. De asemenea, urmărim limba și traducerea documentului pentru a îmbogăți afișarea rezultatelor.
Construiți un sistem de recuperare
Apoi, construim o funcție care preia o interogare ca intrare, o încorporează și găsește cele patru anteturi mai strâns legate de aceasta:
Interogați sistemul de recuperare
Să explorăm ce face sistemul nostru cu câteva interogări diferite. Începem cu engleza:
Rezultatele sunt următoarele:
Observați următoarele:
- Punem întrebări legate, dar ușor diferite, iar modelul este suficient de nuanțat pentru a prezenta cele mai relevante rezultate în partea de sus.
- Modelul nostru nu efectuează căutare bazată pe cuvinte cheie, ci căutare semantică. Chiar dacă folosim un termen precum „știința datelor” în loc de „AI”, modelul nostru este capabil să înțeleagă ce se cere și să returneze cel mai relevant rezultat în partea de sus.
Ce zici de o interogare în daneză? Să ne uităm la următoarea interogare:
În exemplul precedent, acronimul englez „PP&E” înseamnă „proprietate, fabrică și echipament”, iar modelul nostru a putut să-l conecteze la interogarea noastră.
În acest caz, toate rezultatele returnate sunt în daneză, dar modelul poate returna un document într-o altă limbă decât interogarea dacă semnificația sa semantică este mai apropiată. Avem o flexibilitate totală și, cu câteva linii de cod, putem specifica dacă modelul ar trebui să privească doar documentele în limba interogării sau dacă ar trebui să se uite la toate documentele.
Îmbunătățiți rezultatele cu Cohere Rerank
Înglobarile sunt foarte puternice. Cu toate acestea, acum vom analiza cum să ne rafinam și mai mult rezultatele cu punctul final Rerank al Cohere, care a fost antrenat pentru a evalua relevanța documentelor față de o interogare.
Un alt avantaj al Rerank este că poate funcționa pe deasupra unui motor de căutare de cuvinte cheie vechi. Nu trebuie să treceți la o bază de date vectorială sau să faceți modificări drastice infrastructurii dvs. și este nevoie doar de câteva linii de cod. Rerank este disponibil în Amazon SageMaker.
Să încercăm o nouă interogare. De data aceasta folosim SageMaker:
În acest caz, o căutare semantică a putut să ne regăsească răspunsul și să-l afișeze în rezultate, dar nu se află în partea de sus. Cu toate acestea, când trimitem din nou interogarea la punctul nostru final Rerank cu lista de documente preluată, Rerank poate afișa cel mai relevant document în partea de sus.
Mai întâi, creăm clientul și punctul final Rerank:
Când transmitem documentele către Rerank, modelul este capabil să-l aleagă pe cel mai relevant:
Concluzie
Această postare a prezentat o prezentare a utilizării modelului de încorporare multilingvă Cohere în Amazon Bedrock în domeniul serviciilor financiare. În special, am demonstrat un exemplu de aplicație de căutare a articolelor financiare multilingve. Am văzut cum modelul de încorporare permite descoperirea eficientă și precisă a informațiilor, sporind astfel productivitatea și calitatea rezultatelor unui analist.
Modelul de încorporare multilingv al Cohere acceptă peste 100 de limbi. Îndepărtează complexitatea construirii de aplicații care necesită lucrul cu un corpus de documente în diferite limbi. The Modelul Cohere Embed este instruit să ofere rezultate în aplicații din lumea reală. Gestionează datele zgomotoase ca intrări, se adaptează la sistemele RAG complexe și oferă eficiență din punct de vedere al costurilor datorită metodei de antrenament conștient de compresie.
Începeți să construiți cu modelul de încorporare multilingv Cohere în Amazon Bedrock astăzi.
Despre Autori
James Yi este un Senior AI/ML Partner Solutions Architect în echipa Technology Partners COE Tech din Amazon Web Services. Este pasionat de lucrul cu clienții și partenerii întreprinderii pentru a proiecta, implementa și scala aplicații AI/ML pentru a obține valoare de afaceri. În afara serviciului, îi place să joace fotbal, să călătorească și să petreacă timpul cu familia.
Gonzalo Betegon este arhitect de soluții la Cohere, un furnizor de tehnologie de ultimă oră de procesare a limbajului natural. El ajută organizațiile să își răspundă nevoilor de afaceri prin implementarea unor modele lingvistice mari.
Meor Amer este avocat pentru dezvoltatori la Cohere, un furnizor de tehnologie de ultimă oră de procesare a limbajului natural (NLP). El ajută dezvoltatorii să construiască aplicații de ultimă oră cu modelele de limbaj mari (LLM-uri) Cohere.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
- PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
- PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
- PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :are
- :este
- :nu
- :Unde
- $UP
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- Capabil
- Despre Noi
- acces
- Conform
- Cont
- precis
- precis
- Obține
- peste
- Acte
- se adaptează
- adăugare
- Suplimentar
- adresa
- avansat
- Avantaj
- avocat
- AFP
- din nou
- împotriva
- AI
- Platforma AI
- AI / ML
- TOATE
- permite
- permite
- de-a lungul
- deja
- de asemenea
- Amazon
- Amazon Web Services
- sumă
- Sume
- an
- analiză
- analist
- analiști
- analiza
- și
- răspunde
- api
- aplicație
- aplicatii
- abordare
- abordari
- arhitectură
- SUNT
- articol
- bunuri
- AS
- solicitând
- At
- augmented
- disponibil
- AWS
- bazat
- deoarece
- fost
- fiind
- Mai bine
- între
- Blocuri
- a stimula
- stimularea
- Brexit
- POD
- construi
- Clădire
- construiește
- afaceri
- Lideri de afaceri
- întreprinderi
- dar
- by
- CAN
- capacități
- captura
- caz
- cazuri
- tavan
- CFO
- contesta
- provocări
- Schimbare
- Modificări
- Alege
- clasificare
- curat
- client
- Închide
- îndeaproape
- mai aproape
- CO
- cod
- colectare
- Coloană
- vine
- Companii
- Compania
- comparaţie
- Completă
- complex
- complexitate
- Calculatoare
- îngrijorat
- Conectați
- legat
- conţinut
- context
- contextual
- contrast
- controale
- convențional
- Istoria
- A costat
- economii
- ar putea
- Cuplu
- cuplat
- acoperire
- Covid-19
- crea
- a creat
- creează
- credit
- criză
- Criteriile de
- curator
- Curent
- clienţii care
- ultima generație
- Securitate cibernetică
- danez
- danez
- de date
- știința datelor
- Baza de date
- de
- Termenul limită
- abuzive
- dedicat
- del
- livra
- oferi rezultate
- Oferă
- demonstra
- demonstrat
- implementa
- desfășurarea
- depozite
- deriva
- Amenajări
- proiectat
- Dezvoltator
- Dezvoltatorii
- Dezvoltare
- diferit
- dificil
- rezumat
- Dimensiuni
- descoperi
- descoperire
- Afişa
- distinct
- distribuite
- distribuire
- do
- document
- documente
- face
- domeniu
- Dont
- jos
- conduce
- două
- e
- fiecare
- Devreme
- Câștig
- uşura
- ușurință în utilizare
- economie
- Eficace
- eficient
- efort
- el
- elimină
- altfel
- încastra
- Încorporarea
- șmirghel
- Emisiile
- Angajat
- permite
- permite
- capăt
- Punct final
- angajament
- Motor
- Engleză
- enorm
- suficient de
- îmbogăți
- asigura
- asigură
- Afacere
- Companii
- Mediu inconjurator
- echipament
- Erori
- IT G
- stabili
- Chiar
- exemplu
- excelent
- existent
- cu experienţă
- explora
- extrage
- Falls
- familie
- FAST
- realizabil
- puțini
- Figura
- Fișier
- financiar
- știri financiare
- Servicii financiare
- Găsi
- descoperire
- descoperiri
- finlandeză
- cinci
- Flexibilitate
- debit
- Concentra
- urma
- următor
- urmează
- Pentru
- formă
- găsit
- patru
- Termen limita
- din
- Complet
- funcţie
- mai mult
- decalaj
- GAS
- culegere
- PIB-ul
- generată
- generează
- Caritate
- Economia globala
- Go
- Goluri
- merge
- bine
- greacă
- Grupului
- ghida
- Mânere
- Avea
- he
- anteturile
- Prima pagină
- evreiesc
- ajutor
- ajută
- highlights-uri
- lui
- Lovit
- Cum
- Cum Pentru a
- Totuși
- HTML
- HTTPS
- Maghiară
- i
- if
- ilustrează
- Punere în aplicare a
- import
- îmbunătăţi
- îmbunătăţeşte
- îmbunătățirea
- in
- include
- Crește
- index
- industrie
- info
- informații
- informat
- Infrastructură
- intrare
- intrări
- perspective
- instala
- in schimb
- integra
- integrare
- scop
- în
- introduce
- introducerea
- IP
- IT
- Italiană
- ESTE
- ianuarie
- Japonez
- Locuri de munca
- jpg
- doar
- A pastra
- peisaj
- LIMBA
- limbă
- Limbă
- mare
- mai mare
- cea mai mare
- LAS
- Nume
- Ultimele
- Liderii
- conducere
- de leasing
- Moştenire
- Legislativ
- propunere legislativă
- Lungime
- mai puțin
- Bibliotecă
- ca
- Linie
- linii
- Listă
- listat
- Credite
- Lung
- perioadă lungă de timp
- Uite
- lor
- Lot
- Principal
- face
- FACE
- Efectuarea
- om
- administra
- gestionate
- administrare
- multe
- Hartă
- Martie
- Piață
- valoare de piață
- pieţe
- masiv
- potrivire
- sens
- sensuri
- măsura
- măsuri
- Mass-media
- Întâlni
- Reuniunea
- Mers
- metodă
- migrațiune
- ML
- mod
- model
- modelare
- Modele
- Modern
- Module
- mai mult
- mai eficient
- cele mai multe
- mult
- multiplu
- nume
- Natural
- Procesarea limbajului natural
- Navigare
- necesar
- Nevoie
- nevoilor
- vecini
- Nou
- ştiri
- următor
- nlp
- Nu.
- norvegiană
- caiet
- acum
- numeroși
- NY
- NYE
- NYT
- obiectiv
- of
- on
- ONE
- cele
- afară
- atac violent
- deschide
- open-source
- Opțiune
- or
- comandă
- organizații
- original
- OS
- Altele
- al nostru
- producție
- exterior
- peste
- pachet
- ofertele
- panda
- pâine
- parte
- special
- partener
- parteneri
- trece
- Trecut
- pasionat
- plată
- stat de plată
- pentru
- Efectua
- performanță
- alege
- cules
- conducte
- plan
- platformă
- Plato
- Informații despre date Platon
- PlatoData
- joc
- Podcast
- Punct
- Poloneză
- poziţii
- Post
- potenţial
- puternic
- precedent
- prezenta
- prezentat
- Principal
- intimitate
- proces
- prelucrare
- productivitate
- profesioniști
- Progres
- proprietate
- propunere
- protejat
- furniza
- furnizorul
- furnizează
- Publicații
- scop
- PWC
- calitate
- interogări
- întrebare
- Întrebări
- repede
- R
- ridica
- rank
- Clasat
- RE
- gata
- lumea reală
- recunoaştere
- înregistrări
- reduce
- referință
- rafina
- reforma
- regiune
- legate de
- relevanţa
- rămâne
- rămășițe
- Îndepărtează
- redeschide
- repetat
- înlocui
- Raportarea
- Rapoarte
- solicita
- necesita
- rezultat
- rezultând
- REZULTATE
- reține
- reveni
- revenind
- Rusă
- s
- sagemaker
- economisire
- Economie
- văzut
- Scară
- Ştiinţă
- scor
- Caută
- motor de cautare
- Cautari
- căutare
- SEC
- Al doilea
- în siguranță,
- securitate
- vedea
- selectate
- senior
- sensibil
- sentiment
- Servicii
- sesiune
- acționar
- să
- prezenta
- Emisiuni
- asemănător
- singur
- Centre de cercetare
- ușor diferite
- Încet
- Fotbal
- soluţii
- unele
- Sursă
- Surse
- Spaţiu
- Spaniolă
- vorbi
- special
- petrece
- Cheltuire
- stivui
- Personal
- Etapă
- standard
- Standuri
- Începe
- Pornire
- Declarații
- şedere
- stoc
- bursa de valori
- Stocuri
- stoca
- simplu
- Strategie
- puternic
- structurat
- substanțial
- astfel de
- a sustine
- Suportat
- De sprijin
- Sprijină
- Suprafață
- Sondaj de opinie
- Durabilitate
- durabilă
- Dezvoltare Durabilă
- Suedeză
- Intrerupator
- Sinonim
- sistem
- sisteme
- ia
- obiective
- impozit
- echipă
- tech
- Tehnologia
- durată
- a) Sport and Nutrition Awareness Day in Manasia Around XNUMX people from the rural commune Manasia have participated in a sports and healthy nutrition oriented activity in one of the community’s sports ready yards. This activity was meant to gather, mainly, middle-aged people from a Romanian rural community and teach them about the benefits that sports have on both their mental and physical health and on how sporting activities can be used to bring people from a community closer together. Three trainers were made available for this event, so that the participants would get the best possible experience physically and so that they could have the best access possible to correct information and good sports/nutrition practices. b) Sports Awareness Day in Poiana Țapului A group of young participants have taken part in sporting activities meant to teach them about sporting conduct, fairplay, and safe physical activities. The day culminated with a football match.
- Clasificarea textului
- decât
- acea
- lor
- Lor
- apoi
- Acolo.
- astfel
- Acestea
- ei
- acest
- aceste
- trei
- Prin
- timp
- titluri
- la
- astăzi
- top
- subiect
- subiecte
- urmări
- dresat
- Pregătire
- Traduceți
- Traducere
- Traveling
- încerca
- Turcă
- ÎNTORCĂ
- se transformă
- tipic
- UN
- descoperi
- care stau la baza
- înţelege
- unic
- URL-ul
- us
- utilizare
- carcasa de utilizare
- utilizatorii
- utilizări
- folosind
- valoare
- varietate
- foarte
- walkthrough
- vrea
- a fost
- Val
- Cale..
- we
- web
- servicii web
- BINE
- Ce
- cand
- dacă
- care
- OMS
- voi
- cu
- fără
- Apartamente
- flux de lucru
- de lucru
- lume
- de clasă mondială
- ani
- încă
- Tu
- Ta
- zephyrnet