Le aziende hanno accesso a enormi quantità di dati, molti dei quali sono difficili da scoprire perché non sono strutturati. Approcci convenzionali all'analisi dati non strutturati utilizzare la corrispondenza di parole chiave o sinonimi. Non catturano l’intero contesto di un documento, rendendoli meno efficaci nella gestione dei dati non strutturati.
Al contrario, gli incorporamenti di testo utilizzano machine learning (ML) per acquisire il significato dei dati non strutturati. Gli incorporamenti sono generati da modelli linguistici rappresentazionali che traducono il testo in vettori numerici e codificano le informazioni contestuali in un documento. Ciò consente applicazioni come la ricerca semantica, Recupero generazione aumentata (RAG), modellazione degli argomenti e classificazione del testo.
Ad esempio, nel settore dei servizi finanziari, le applicazioni includono l’estrazione di approfondimenti dai rapporti sugli utili, la ricerca di informazioni dai rendiconti finanziari e l’analisi del sentiment su azioni e mercati trovato nelle notizie finanziarie. Gli incorporamenti di testo consentono ai professionisti del settore di estrarre informazioni dettagliate dai documenti, ridurre al minimo gli errori e aumentare le prestazioni.
In questo post, mostriamo un'applicazione in grado di cercare ed eseguire query su notizie finanziarie in diverse lingue utilizzando Cohere embed ed Riclassificare modelli con Roccia Amazzonica.
Il modello di incorporamento multilingue di Cohere
Cohere è una piattaforma di intelligenza artificiale aziendale leader che crea modelli linguistici di grandi dimensioni (LLM) di livello mondiale e soluzioni basate su LLM che consentono ai computer di cercare, acquisire significato e conversare tramite testo. Forniscono facilità d'uso e potenti controlli di sicurezza e privacy.
Il modello di incorporamento multilingue di Cohere genera rappresentazioni vettoriali di documenti per oltre 100 lingue ed è disponibile su Amazon Bedrock. Ciò consente ai clienti AWS di accedervi come API, eliminando la necessità di gestire l'infrastruttura sottostante e garantendo che le informazioni sensibili rimangano gestite e protette in modo sicuro.
Il modello multilingue raggruppa testi con significati simili assegnando loro posizioni vicine tra loro in uno spazio vettoriale semantico. Con un modello di incorporamento multilingue, gli sviluppatori possono elaborare testo in più lingue senza la necessità di passare da un modello all'altro, come illustrato nella figura seguente. Ciò rende l'elaborazione più efficiente e migliora le prestazioni per le applicazioni multilingue.
Di seguito sono riportati alcuni dei punti salienti del modello di incorporamento di Cohere:
- Concentrarsi sulla qualità dei documenti – I tipici modelli di incorporamento sono addestrati per misurare la somiglianza tra i documenti, ma il modello di Cohere misura anche la qualità dei documenti
- Migliore recupero per le applicazioni RAG – Le applicazioni RAG richiedono un buon sistema di recupero, in cui eccelle il modello di incorporamento di Cohere
- Compressione dei dati economicamente vantaggiosa – Cohere utilizza uno speciale metodo di formazione che riconosce la compressione, con conseguenti risparmi sostanziali sui costi per il tuo database vettoriale
Casi d'uso per l'incorporamento del testo
Gli incorporamenti di testo trasformano i dati non strutturati in un modulo strutturato. Ciò consente di confrontare, analizzare e ricavare informazioni oggettive da tutti questi documenti. Di seguito sono riportati esempi di casi d'uso consentiti dal modello di incorporamento di Cohere:
- Ricerca semantica – Abilita potenti applicazioni di ricerca se abbinato a un database vettoriale, con eccellente rilevanza in base al significato della frase di ricerca
- Motore di ricerca per un sistema più ampio – Trova e recupera le informazioni più rilevanti dalle origini dati aziendali connesse per i sistemi RAG
- Classificazione del testo – Supporta il riconoscimento delle intenzioni, l'analisi del sentiment e l'analisi avanzata dei documenti
- Modellazione di argomenti – Trasforma una raccolta di documenti in cluster distinti per scoprire argomenti e temi emergenti
Sistemi di ricerca avanzati con Rerank
Nelle aziende in cui sono già presenti sistemi di ricerca per parole chiave convenzionali, come introdurre le moderne funzionalità di ricerca semantica? Per questi sistemi che fanno parte da tempo dell’architettura informatica di un’azienda, in molti casi una migrazione completa verso un approccio basato sugli incorporamenti non è semplicemente fattibile.
Endpoint di riclassificazione di Cohere è pensato per colmare questo divario. Funziona come la seconda fase di un flusso di ricerca per fornire una classifica dei documenti rilevanti in base alla query di un utente. Le aziende possono mantenere un sistema di parole chiave esistente (o anche semantico) per il recupero della prima fase e migliorare la qualità dei risultati della ricerca con l'endpoint di riclassificazione nel riclassificazione della seconda fase.
Rerank fornisce un'opzione rapida e semplice per migliorare i risultati della ricerca introducendo la tecnologia di ricerca semantica nello stack di un utente con una singola riga di codice. L'endpoint viene fornito anche con il supporto multilingue. La figura seguente illustra il flusso di lavoro di recupero e riclassificazione.
Panoramica della soluzione
Gli analisti finanziari devono digerire molti contenuti, come pubblicazioni finanziarie e mezzi di informazione, per rimanere informati. Secondo il Associazione dei Professionisti Finanziari (AFP), gli analisti finanziari dedicano il 75% del loro tempo alla raccolta di dati o all'amministrazione del processo anziché all'analisi a valore aggiunto. Trovare la risposta a una domanda attraverso una varietà di fonti e documenti è un lavoro noioso e dispendioso in termini di tempo. Il modello di incorporamento Cohere aiuta gli analisti a cercare rapidamente tra numerosi titoli di articoli in più lingue per trovare e classificare gli articoli più rilevanti per una particolare query, risparmiando un'enorme quantità di tempo e fatica.
Nel seguente esempio di caso d'uso, mostriamo come il modello Embed di Cohere ricerca ed esegue query su notizie finanziarie in diverse lingue in un'unica pipeline. Quindi dimostreremo come aggiungere Rerank al recupero degli incorporamenti (o aggiungerlo a una ricerca lessicale legacy) può migliorare ulteriormente i risultati.
Il notebook di supporto è disponibile su GitHub.
Il diagramma seguente illustra il flusso di lavoro dell'applicazione.
Abilita l'accesso al modello tramite Amazon Bedrock
Gli utenti di Amazon Bedrock devono richiedere l'accesso ai modelli per renderli disponibili per l'uso. Per richiedere l'accesso a modelli aggiuntivi, scegli Accesso al modello il riquadro di navigazione su Amazon Bedrock consolle. Per ulteriori informazioni, vedere Accesso al modello. Per questa procedura dettagliata è necessario richiedere l'accesso al modello Cohere Embed Multilingual.
Installa pacchetti e importa moduli
Per prima cosa installiamo i pacchetti necessari e importiamo i moduli che utilizzeremo in questo esempio:
Documenti d'importazione
Utilizziamo un set di dati (MultiFIN) contenente un elenco di titoli di articoli del mondo reale che coprono 15 lingue (inglese, turco, danese, spagnolo, polacco, greco, finlandese, ebraico, giapponese, ungherese, norvegese, russo, italiano, islandese e svedese ). Si tratta di un set di dati open source curato per l'elaborazione del linguaggio naturale finanziario (NLP) ed è disponibile su a Repository GitHub.
Nel nostro caso, abbiamo creato un file CSV con i dati di MultiFIN e una colonna con le traduzioni. Non utilizziamo questa colonna per alimentare il modello; lo usiamo per aiutarci a seguire quando stampiamo i risultati per coloro che non parlano danese o spagnolo. Indichiamo quel CSV per creare il nostro dataframe:
Seleziona un elenco di documenti su cui interrogare
MultiFIN ha oltre 6,000 record in 15 lingue diverse. Per il nostro caso d'uso di esempio, ci concentriamo su tre lingue: inglese, spagnolo e danese. Ordiniamo anche le intestazioni per lunghezza e scegliamo quelle più lunghe.
Poiché selezioniamo gli articoli più lunghi, ci assicuriamo che la lunghezza non sia dovuta a sequenze ripetute. Il codice seguente mostra un esempio in cui ciò si verifica. Lo ripuliremo.
df['text'].iloc[2215]
Il nostro elenco di documenti è ben distribuito nelle tre lingue:
Quella che segue è l'intestazione dell'articolo più lunga nel nostro set di dati:
Incorpora e indicizza documenti
Ora vogliamo incorporare i nostri documenti e archiviare gli incorporamenti. Gli incorporamenti sono vettori molto grandi che incapsulano il significato semantico del nostro documento. In particolare, utilizziamo il modello embed-multilingual-v3.0 di Cohere, che crea incorporamenti con 1,024 dimensioni.
Quando viene passata una query, incorporiamo anche la query e utilizziamo la libreria hnswlib per trovare i vicini più vicini.
Sono necessarie solo poche righe di codice per stabilire un client Cohere, incorporare i documenti e creare l'indice di ricerca. Teniamo traccia anche della lingua e della traduzione del documento per arricchire la visualizzazione dei risultati.
Costruisci un sistema di recupero
Successivamente, creiamo una funzione che accetta una query come input, la incorpora e trova le quattro intestazioni più strettamente correlate ad essa:
Interroga il sistema di recupero
Esploriamo cosa fa il nostro sistema con un paio di query diverse. Iniziamo dall'inglese:
I risultati sono i seguenti:
Notare quanto segue:
- Stiamo ponendo domande correlate, ma leggermente diverse, e il modello è sufficientemente sfumato da presentare i risultati più rilevanti nella parte superiore.
- Il nostro modello non esegue una ricerca basata su parole chiave, ma una ricerca semantica. Anche se utilizziamo un termine come “scienza dei dati” invece di “AI”, il nostro modello è in grado di comprendere cosa viene chiesto e restituire il risultato più rilevante in alto.
Che ne dici di una query in danese? Diamo un'occhiata alla seguente query:
Nell'esempio precedente, l'acronimo inglese "PP&E" sta per "proprietà, impianti e attrezzature" e il nostro modello è riuscito a collegarlo alla nostra query.
In questo caso, tutti i risultati restituiti sono in danese, ma il modello può restituire un documento in una lingua diversa da quella della query se il suo significato semantico è più vicino. Abbiamo completa flessibilità e con poche righe di codice possiamo specificare se il modello deve esaminare solo i documenti nella lingua della query o se deve esaminare tutti i documenti.
Migliora i risultati con Cohere Rerank
Gli incorporamenti sono molto potenti. Tuttavia, ora vedremo come perfezionare ulteriormente i nostri risultati con l’endpoint Rerank di Cohere, che è stato addestrato per valutare la pertinenza dei documenti rispetto a una query.
Un altro vantaggio di Rerank è che può funzionare su un motore di ricerca per parole chiave legacy. Non è necessario passare a un database vettoriale o apportare modifiche drastiche alla tua infrastruttura e bastano solo poche righe di codice. La riclassificazione è disponibile in Amazon Sage Maker.
Proviamo una nuova query. Usiamo SageMaker questa volta:
In questo caso, una ricerca semantica è riuscita a recuperare la nostra risposta e a visualizzarla nei risultati, ma non è in cima. Tuttavia, quando passiamo nuovamente la query al nostro endpoint Rerank con l'elenco dei documenti recuperati, Rerank è in grado di far emergere il documento più rilevante in alto.
Per prima cosa creiamo il client e l'endpoint Rerank:
Quando passiamo i documenti a Rerank, il modello è in grado di scegliere con precisione quello più rilevante:
Conclusione
Questo post ha presentato una procedura dettagliata sull'utilizzo del modello di incorporamento multilingue di Cohere in Amazon Bedrock nel dominio dei servizi finanziari. In particolare, abbiamo dimostrato un esempio di un'applicazione di ricerca di articoli finanziari multilingue. Abbiamo visto come il modello di incorporamento consenta la scoperta efficiente e accurata delle informazioni, aumentando così la produttività e la qualità dell'output di un analista.
Il modello di incorporamento multilingue di Cohere supporta oltre 100 lingue. Elimina la complessità della creazione di applicazioni che richiedono l'utilizzo di un corpus di documenti in diverse lingue. IL Modello Incorpora Cohere è addestrato per fornire risultati in applicazioni reali. Gestisce dati rumorosi come input, si adatta a sistemi RAG complessi e offre efficienza in termini di costi grazie al suo metodo di addestramento in grado di riconoscere la compressione.
Inizia oggi stesso a creare con il modello di incorporamento multilingue di Cohere in Amazon Bedrock.
Informazioni sugli autori
Giacomo Yi è un Senior AI/ML Partner Solutions Architect nel team Technology Partners COE Tech presso Amazon Web Services. La sua passione è lavorare con clienti e partner aziendali per progettare, distribuire e scalare applicazioni AI/ML per ricavare valore aziendale. Al di fuori del lavoro, gli piace giocare a calcio, viaggiare e passare il tempo con la sua famiglia.
Gonzalo Betegon è un Solutions Architect presso Cohere, un fornitore di tecnologie all'avanguardia per l'elaborazione del linguaggio naturale. Aiuta le organizzazioni a soddisfare le proprie esigenze aziendali attraverso l'implementazione di modelli linguistici di grandi dimensioni.
Mio Amer è un sostenitore degli sviluppatori presso Cohere, un fornitore di tecnologia all'avanguardia per l'elaborazione del linguaggio naturale (NLP). Aiuta gli sviluppatori a creare applicazioni all'avanguardia con i Large Language Models (LLM) di Cohere.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :ha
- :È
- :non
- :Dove
- $ SU
- 000
- 1
- 10
- 100
- 11
- 13
- 15%
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- capace
- WRI
- accesso
- Secondo
- Il mio account
- preciso
- con precisione
- Raggiungere
- operanti in
- atti
- adatta
- l'aggiunta di
- aggiuntivo
- indirizzo
- Avanzate
- Vantaggio
- avvocato
- AFP
- ancora
- contro
- AI
- Piattaforma AI
- AI / ML
- Tutti
- consentire
- consente
- lungo
- già
- anche
- Amazon
- Amazon Web Services
- quantità
- importi
- an
- .
- analista
- Gli analisti
- l'analisi
- ed
- rispondere
- api
- Applicazioni
- applicazioni
- approccio
- approcci
- architettura
- SONO
- articolo
- news
- AS
- chiedendo
- At
- aumentata
- disponibile
- AWS
- basato
- perché
- stato
- essendo
- Meglio
- fra
- Blocchi
- Incremento
- potenziamento
- Brexit
- BRIDGE
- costruire
- Costruzione
- costruisce
- affari
- Dirigenti d'impresa
- aziende
- ma
- by
- Materiale
- funzionalità
- catturare
- Custodie
- casi
- soffitto
- CFO
- Challenge
- sfide
- il cambiamento
- Modifiche
- Scegli
- classificazione
- cavedano
- cliente
- Chiudi
- strettamente
- più vicino
- CO
- codice
- collezione
- Colonna
- viene
- Aziende
- Società
- confrontare
- completamento di una
- complesso
- complessità
- computer
- interessato
- Connettiti
- collegato
- contenuto
- contesto
- contestuale
- contrasto
- controlli
- convenzionale
- Aziende
- Costo
- risparmi
- potuto
- Coppia
- accoppiato
- copertura
- COVID-19
- creare
- creato
- crea
- credito
- crisi
- criteri
- a cura
- Corrente
- Clienti
- bordo tagliente
- Cybersecurity
- danese
- danese
- dati
- scienza dei dati
- Banca Dati
- de
- scadenza
- trattare
- dedicato
- del
- consegnare
- fornire risultati
- fornisce un monitoraggio
- dimostrare
- dimostrato
- schierare
- deployment
- depositi
- derivare
- Design
- progettato
- Costruttori
- sviluppatori
- Mercato
- diverso
- difficile
- digerire
- dimensioni
- scopri
- scoperta
- Dsiplay
- distinto
- distribuito
- distribuzione
- do
- documento
- documenti
- effettua
- dominio
- Dont
- giù
- guidare
- dovuto
- e
- ogni
- Presto
- Guadagni
- alleviare
- facilità d'uso
- economia
- Efficace
- efficiente
- sforzo
- el
- elimina
- altro
- incastrare
- incorporamento
- emergenti del mondo
- emissioni
- Dipendente
- enable
- Abilita
- fine
- endpoint
- Fidanzamento
- motore
- Inglese
- enorme
- abbastanza
- arricchire
- garantire
- assicura
- Impresa
- aziende
- Ambiente
- usate
- errori
- ESG
- stabilire
- Anche
- esempio
- eccellente
- esistente
- esperto
- esplora
- estratto
- cadute
- famiglia
- FAST
- fattibile
- pochi
- figura
- Compila il
- finanziario
- notizie finanziarie
- servizi finanziari
- Trovate
- ricerca
- trova
- finlandese
- cinque
- Flessibilità
- flusso
- Focus
- seguire
- i seguenti
- segue
- Nel
- modulo
- essere trovato
- quattro
- primo
- da
- pieno
- function
- ulteriormente
- divario
- GAS
- raccolta
- PIL
- generato
- genera
- globali
- Economia globale
- Go
- Obiettivi
- andando
- buono
- greco
- Gruppo
- guida
- Maniglie
- Avere
- he
- intestazioni
- Notizie
- ebraico
- Aiuto
- aiuta
- evidenzia
- il suo
- Colpire
- Come
- Tutorial
- Tuttavia
- HTML
- HTTPS
- Ungherese
- i
- if
- illustra
- Implementazione
- importare
- competenze
- migliora
- miglioramento
- in
- includere
- Aumento
- Index
- industria
- info
- informazioni
- informati
- Infrastruttura
- ingresso
- Ingressi
- intuizioni
- install
- invece
- integrare
- integrazione
- intento
- ai miglioramenti
- introdurre
- l'introduzione di
- IP
- IT
- italiano
- SUO
- Gennaio
- Giapponese
- Offerte di lavoro
- jpg
- ad appena
- mantenere
- paesaggio
- LUNGO
- Lingua
- Le Lingue
- grandi
- superiore, se assunto singolarmente.
- maggiore
- LAS
- Cognome
- con i più recenti
- capi
- principale
- di leasing
- Eredità
- Legislativo
- proposta legislativa
- Lunghezza
- meno
- Biblioteca
- piace
- linea
- Linee
- Lista
- elencati
- Prestiti e finanziamenti
- Lunghi
- a lungo
- Guarda
- dei
- lotto
- Principale
- make
- FA
- Fare
- uomo
- gestire
- gestito
- gestione
- molti
- carta geografica
- Marzo
- Rappresentanza
- valore di mercato
- Mercati
- massiccio
- corrispondenza
- significato
- significati
- misurare
- analisi
- Media
- Soddisfare
- incontro
- semplice
- metodo
- migrazione
- ML
- Moda
- modello
- modellismo
- modelli
- moderno
- moduli
- Scopri di più
- più efficiente
- maggior parte
- molti
- multiplo
- Nome
- Naturale
- Elaborazione del linguaggio naturale
- Navigazione
- necessaria
- Bisogno
- esigenze
- vicinato
- New
- notizie
- GENERAZIONE
- nlp
- no
- Norvegese
- taccuino
- adesso
- numerose
- NY
- NYE
- ORA
- oggettivamente
- of
- on
- ONE
- quelli
- esclusivamente
- assalto furioso
- aprire
- open source
- Opzione
- or
- minimo
- organizzazioni
- i
- OS
- Altro
- nostro
- produzione
- al di fuori
- ancora
- pacchetto
- Packages
- panda
- vetro
- parte
- particolare
- partner
- partner
- passare
- Passato
- appassionato
- Pagamento
- Libro paga
- per
- Eseguire
- performance
- scegliere
- raccolta
- conduttura
- piano
- piattaforma
- Platone
- Platone Data Intelligence
- PlatoneDati
- gioco
- Podcast
- punto
- Polacco
- posizioni
- Post
- potenziale
- potente
- precedente
- presenti
- presentata
- Direttore
- Stampa
- Privacy
- processi
- lavorazione
- della produttività
- Scelto dai professionisti
- Progressi
- proprietà
- proposta
- protetta
- fornire
- fornitore
- fornisce
- pubblicazioni
- scopo
- PWC
- qualità
- query
- domanda
- Domande
- rapidamente
- R
- aumentare
- classifica
- Posizione
- RE
- pronto
- mondo reale
- riconoscimento
- record
- ridurre
- riferimento
- raffinare
- riforma
- regione
- relazionato
- rilevanza
- pertinente
- rimanere
- resti
- rimuove
- riaprire
- ripetuto
- sostituire
- Reportistica
- Report
- richiesta
- richiedere
- colpevole
- risultante
- Risultati
- conservare
- ritorno
- di ritorno
- russo
- s
- sagemaker
- risparmio
- Risparmio
- sega
- Scala
- Scienze
- Punto
- Cerca
- motore di ricerca
- Ricerche
- ricerca
- SEC
- Secondo
- in modo sicuro
- problemi di
- vedere
- selezionato
- anziano
- delicata
- sentimento
- Servizi
- Sessione
- azionista
- dovrebbero
- vetrina
- Spettacoli
- simile
- singolo
- Siti
- leggermente diversa
- Lentamente
- Calcio
- Soluzioni
- alcuni
- Fonte
- fonti
- lo spazio
- Spagnolo
- parlare
- la nostra speciale
- spendere
- Spendere
- pila
- STAFF
- Stage
- Standard
- si
- inizia a
- Di partenza
- dichiarazioni
- soggiorno
- azione
- borsa
- Azioni
- Tornare al suo account
- lineare
- Strategia
- forte
- strutturato
- sostanziale
- tale
- supporto
- supportato
- Supporto
- supporti
- superficie
- Indagine
- Sostenibilità
- sostenibile
- Sviluppo sostenibile
- svedese
- Interruttore
- Sinonimo
- sistema
- SISTEMI DI TRATTAMENTO
- prende
- obiettivi
- imposta
- team
- Tech
- Tecnologia
- termine
- testo
- Classificazione del testo
- di
- che
- Il
- loro
- Li
- poi
- Là.
- in tal modo
- Strumenti Bowman per analizzare le seguenti finiture:
- di
- questo
- quelli
- tre
- Attraverso
- tempo
- titoli
- a
- oggi
- top
- argomento
- Argomenti
- pista
- allenato
- Training
- tradurre
- Traduzione
- Di viaggio
- prova
- Turco
- TURNO
- si
- tipico
- UN
- scoprire
- sottostante
- capire
- unico
- URL
- us
- uso
- caso d'uso
- utenti
- usa
- utilizzando
- APPREZZIAMO
- varietà
- molto
- walkthrough
- volere
- Prima
- Wave
- Modo..
- we
- sito web
- servizi web
- WELL
- Che
- quando
- se
- quale
- OMS
- volere
- con
- senza
- Lavora
- flusso di lavoro
- lavoro
- mondo
- classe mondiale
- anni
- ancora
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro