Byg økonomiske søgeapplikationer ved hjælp af Amazon Bedrock Cohere Multilingual Embedding Model

Genudgivet af Platon

Abonnenter: 0

Virksomheder har adgang til enorme mængder data, hvoraf meget er svært at opdage, fordi dataene er ustrukturerede. Konventionelle tilgange til analyse ustrukturerede data brug søgeords- eller synonymmatching. De fanger ikke den fulde kontekst af et dokument, hvilket gør dem mindre effektive til at håndtere ustrukturerede data.

I modsætning hertil bruger tekstindlejringer machine learning (ML) evner til at fange betydningen af ustrukturerede data. Indlejringer genereres af repræsentative sprogmodeller, der oversætter tekst til numeriske vektorer og koder kontekstuel information i et dokument. Dette muliggør applikationer såsom semantisk søgning, Retrieval Augmented Generation (RAG), emnemodellering og tekstklassificering.

For eksempel i industrien for finansielle tjenesteydelser omfatter applikationer at udtrække indsigt fra indtjeningsrapporter, søgning efter oplysninger fra regnskaber og analysere følelser om aktier og markeder, der findes i finansielle nyheder. Tekstindlejringer gør det muligt for branchefolk at udtrække indsigt fra dokumenter, minimere fejl og øge deres ydeevne.

I dette indlæg viser vi en applikation, der kan søge og forespørge på tværs af finansielle nyheder på forskellige sprog ved hjælp af Cohere's Integrer , Genranger modeller med Amazonas grundfjeld.

Coheres flersprogede indlejringsmodel

Cohere er en førende virksomheds-AI-platform, der bygger store sprogmodeller (LLM'er) i verdensklasse og LLM-drevne løsninger, der tillader computere at søge, fange mening og tale i tekst. De giver brugervenlighed og stærke sikkerheds- og privatlivskontroller.

Coheres flersprogede indlejringsmodel genererer vektorrepræsentationer af dokumenter til over 100 sprog og er tilgængelig på Amazon Bedrock. Dette giver AWS-kunder adgang til det som en API, hvilket eliminerer behovet for at administrere den underliggende infrastruktur og sikrer, at følsomme oplysninger forbliver sikkert administreret og beskyttet.

Den flersprogede model grupperer tekst med lignende betydninger ved at tildele dem positioner, der er tæt på hinanden i et semantisk vektorrum. Med en flersproget indlejringsmodel kan udviklere behandle tekst på flere sprog uden at skulle skifte mellem forskellige modeller, som illustreret i den følgende figur. Dette gør behandlingen mere effektiv og forbedrer ydeevnen for flersprogede applikationer.

Følgende er nogle af højdepunkterne i Coheres indlejringsmodel:

Fokus på dokumentkvalitet – Typiske indlejringsmodeller er trænet til at måle lighed mellem dokumenter, men Coheres model måler også dokumentkvalitet
Bedre hentning til RAG-applikationer – RAG-applikationer kræver et godt genfindingssystem, hvilket Coheres indlejringsmodel udmærker sig ved
Omkostningseffektiv datakomprimering – Cohere bruger en speciel, kompressionsbevidst træningsmetode, hvilket resulterer i betydelige omkostningsbesparelser for din vektordatabase

Brug cases til tekstindlejring

Tekstindlejringer gør ustrukturerede data til en struktureret form. Dette giver dig mulighed for objektivt at sammenligne, dissekere og udlede indsigt fra alle disse dokumenter. Følgende er eksempler på use cases, som Coheres indlejringsmodel muliggør:

Semantisk søgning - Muliggør kraftfulde søgeapplikationer, når de kombineres med en vektordatabase, med fremragende relevans baseret på søgesætningens betydning
Søgemaskine til et større system – Finder og henter den mest relevante information fra tilsluttede virksomhedsdatakilder til RAG-systemer
Tekstklassificering – Understøtter hensigtsgenkendelse, sentimentanalyse og avanceret dokumentanalyse
Emnemodellering - Forvandler en samling af dokumenter til særskilte klynger for at afdække nye emner og temaer

Forbedrede søgesystemer med Rerank

Hvordan introducerer man moderne semantiske søgefunktioner i virksomheder, hvor der allerede findes konventionelle søgeordssøgesystemer? For sådanne systemer, der har været en del af en virksomheds informationsarkitektur i lang tid, er en fuldstændig migrering til en indlejringsbaseret tilgang i mange tilfælde bare ikke gennemførlig.

Cohere's Rerank-endepunkt er designet til at bygge bro over denne kløft. Det fungerer som det andet trin i et søgeflow for at give en rangering af relevante dokumenter i henhold til en brugers forespørgsel. Virksomheder kan bibeholde et eksisterende søgeord (eller endda semantisk) system til første trins genfinding og øge kvaliteten af søgeresultater med Rerank endpoint i anden trins reranking.

Rerank giver en hurtig og ligetil mulighed for at forbedre søgeresultaterne ved at introducere semantisk søgeteknologi i en brugers stak med en enkelt kodelinje. Slutpunktet kommer også med flersproget support. Følgende figur illustrerer arbejdsgangen for hentning og omplacering.

Løsningsoversigt

Finansanalytikere skal fordøje en masse indhold, såsom finansielle publikationer og nyhedsmedier, for at holde sig orienteret. Ifølge Association for Financial Professionals (AFP), bruger finansanalytikere 75 % af deres tid på at indsamle data eller administrere processen i stedet for merværdianalyse. At finde svaret på et spørgsmål på tværs af en række forskellige kilder og dokumenter er tidskrævende og kedeligt arbejde. Cohere-indlejringsmodellen hjælper analytikere med hurtigt at søge på tværs af adskillige artikeltitler på flere sprog for at finde og rangere de artikler, der er mest relevante for en bestemt forespørgsel, hvilket sparer en enorm mængde tid og kræfter.

I det følgende use case-eksempel viser vi, hvordan Coheres Embed-model søger og forespørger på tværs af finansielle nyheder på forskellige sprog i én unik pipeline. Derefter demonstrerer vi, hvordan tilføjelse af Rerank til din indlejringshentning (eller tilføjelse af den til en ældre leksikalsk søgning) kan forbedre resultaterne yderligere.

Den understøttende notesbog er tilgængelig på GitHub.

Følgende diagram illustrerer applikationens arbejdsgang.

Aktiver modeladgang via Amazon Bedrock

Amazon Bedrock-brugere skal anmode om adgang til modeller for at gøre dem tilgængelige til brug. Vælg for at anmode om adgang til yderligere modeller Modeladgang navigationsruden på Amazonas grundfjeld konsol. For mere information, se Modeladgang. Til denne gennemgang skal du anmode om adgang til Cohere Embed Multilingual-modellen.

Installer pakker og importer moduler

Først installerer vi de nødvendige pakker og importerer de moduler, vi vil bruge i dette eksempel:

!pip install --upgrade cohere-aws hnswlib translate import pandas as pd
import cohere_aws
import hnswlib
import os
import re
import boto3

Importer dokumenter

Vi bruger et datasæt (MultiFIN), der indeholder en liste over artikeloverskrifter fra den virkelige verden, der dækker 15 sprog (engelsk, tyrkisk, dansk, spansk, polsk, græsk, finsk, hebraisk, japansk, ungarsk, norsk, russisk, italiensk, islandsk og svensk ). Dette er et open source-datasæt kurateret til finansiel behandling af naturligt sprog (NLP) og er tilgængeligt på en GitHub repository.

I vores tilfælde har vi lavet en CSV-fil med MultiFINs data samt en kolonne med oversættelser. Vi bruger ikke denne kolonne til at fodre modellen; vi bruger det til at hjælpe os med at følge med, når vi udskriver resultaterne til dem, der ikke taler dansk eller spansk. Vi peger på denne CSV for at skabe vores dataramme:

url = "https://raw.githubusercontent.com/cohere-ai/cohere-aws/main/notebooks/bedrock/multiFIN_train.csv"
df = pd.read_csv(url) # Inspect dataset
df.head(5)

Vælg en liste over dokumenter, du vil forespørge på

MultiFIN har over 6,000 poster på 15 forskellige sprog. For vores eksempelbrug fokuserer vi på tre sprog: engelsk, spansk og dansk. Vi sorterer også overskrifterne efter længde og vælger de længste.

Fordi vi udvælger de længste artikler, sikrer vi, at længden ikke skyldes gentagne sekvenser. Følgende kode viser et eksempel, hvor det er tilfældet. Det vil vi rydde op i.

df['text'].iloc[2215]

'El 86% de las empresas españolas comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible'

# Ensure there is no duplicated text in the headers
def remove_duplicates(text): return re.sub(r'((bw+b.{1,2}w+b)+).+1', r'1', text, flags=re.I) df ['text'] = df['text'].apply(remove_duplicates) # Keep only selected languages
languages = ['English', 'Spanish', 'Danish']
df = df.loc[df['lang'].isin(languages)] # Pick the top 80 longest articles
df['text_length'] = df['text'].str.len()
df.sort_values(by=['text_length'], ascending=False, inplace=True)
top_80_df = df[:80] # Language distribution
top_80_df['lang'].value_counts()

Vores liste over dokumenter er pænt fordelt på de tre sprog:

lang
Spanish 33
English 29
Danish 18
Name: count, dtype: int64

Følgende er den længste artikeloverskrift i vores datasæt:

top_80_df['text'].iloc[0]

"CFOdirect: Resultater fra PwC's Employee Engagement Landscape Survey, herunder hvordan man skaber mere engagement blandt medarbejdere. Læs desuden om de regnskabsmæssige konsekvenser for indkomstskat ifbm. Brexit"

Integrer og indekser dokumenter

Nu vil vi indlejre vores dokumenter og gemme indlejringerne. Indlejringerne er meget store vektorer, der indkapsler den semantiske betydning af vores dokument. Vi bruger især Coheres embed-multilingual-v3.0-model, som skaber indlejringer med 1,024 dimensioner.

Når en forespørgsel sendes, indlejrer vi også forespørgslen og bruger hnswlib-biblioteket til at finde de nærmeste naboer.

Det kræver kun et par linjer kode at etablere en Cohere-klient, indlejre dokumenterne og oprette søgeindekset. Vi holder også styr på sproget og oversættelsen af dokumentet for at berige visningen af resultaterne.

# Establish Cohere client
co = cohere_aws.Client(mode=cohere_aws.Mode.BEDROCK)
model_id = "cohere.embed-multilingual-v3" # Embed documents
docs = top_80_df['text'].to_list()
docs_lang = top_80_df['lang'].to_list()
translated_docs = top_80_df['translated_text'].to_list() #for reference when returning non-English results
doc_embs = co.embed(texts=docs, model_id=model_id, input_type='search_document').embeddings # Create a search index
index = hnswlib.Index(space='ip', dim=1024)
index.init_index(max_elements=len(doc_embs), ef_construction=512, M=64)
index.add_items(doc_embs, list(range(len(doc_embs))))

Byg et genfindingssystem

Dernæst bygger vi en funktion, der tager en forespørgsel som input, indlejrer den og finder de fire overskrifter, der er tættere relateret til den:

# Retrieval of 4 closest docs to query
def retrieval(query): # Embed query and retrieve results query_emb = co.embed(texts=[query], model_id=model_id, input_type="search_query").embeddings doc_ids = index.knn_query(query_emb, k=3)[0][0] # we will retrieve 4 closest neighbors # Print and append results print(f"QUERY: {query.upper()} n") retrieved_docs, translated_retrieved_docs = [], [] for doc_id in doc_ids: # Append results retrieved_docs.append(docs[doc_id]) translated_retrieved_docs.append(translated_docs[doc_id]) # Print results print(f"ORIGINAL ({docs_lang[doc_id]}): {docs[doc_id]}") if docs_lang[doc_id] != "English": print(f"TRANSLATION: {translated_docs[doc_id]} n----") else: print("----") print("END OF RESULTS nn") return retrieved_docs, translated_retrieved_docs

Forespørg på genfindingssystemet

Lad os undersøge, hvad vores system gør med et par forskellige forespørgsler. Vi starter med engelsk:

queries = [ "Are businessess meeting sustainability goals?", "Can data science help meet sustainability goals?"
] for query in queries: retrieval(query)

Resultaterne er som følger:

QUERY: ARE BUSINESSES MEETING SUSTAINABILITY GOALS? ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but businesses remain on starting blocks for integration and progress
----
ORIGINAL (Spanish): Integrar los criterios ESG y el propósito en la estrategia principal reto de los Consejos de las empresas españolas en el mundo post-COVID TRANSLATION: Integrate ESG criteria and purpose into the main challenge strategy of the Boards of Spanish companies in the post-COVID world ----
END OF RESULTS QUERY: CAN DATA SCIENCE HELP MEET SUSTAINABILITY GOALS? ORIGINAL (English): Using AI to better manage the environment could reduce greenhouse gas emissions, boost global GDP by up to 38m jobs by 2030
----
ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but businesses remain on starting blocks for integration and progress
----
END OF RESULTS

Bemærk følgende:

Vi stiller relaterede, men lidt anderledes spørgsmål, og modellen er nuanceret nok til at præsentere de mest relevante resultater øverst.
Vores model udfører ikke søgeordsbaseret søgning, men semantisk søgning. Selvom vi bruger et udtryk som "data science" i stedet for "AI", er vores model i stand til at forstå, hvad der bliver spurgt og returnere det mest relevante resultat øverst.

Hvad med en forespørgsel på dansk? Lad os se på følgende forespørgsel:

query = "Hvor kan jeg finde den seneste danske boligplan?" # "Where can I find the latest Danish property plan?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: HVOR KAN JEG FINDE DEN SENESTE DANSKE BOLIGPLAN? ORIGINAL (Danish): Nyt fra CFOdirect: Ny PP&E-guide, FAQs om den nye leasingstandard, podcast om udfordringerne ved implementering af leasingstandarden og meget mere TRANSLATION: New from CFOdirect: New PP&E guide, FAQs on the new leasing standard, podcast on the challenges of implementing the leasing standard and much more ----
ORIGINAL (Danish): Lovforslag fremlagt om rentefri lån, udskudt frist for lønsumsafgift, førtidig udbetaling af skattekredit og loft på indestående på skattekontoen TRANSLATION: Legislative proposal presented on interest-free loans, deferred payroll tax deadline, early payment of tax credit and ceiling on deposits in the tax account ----
ORIGINAL (Danish): Nyt fra CFOdirect: Shareholder-spørgsmål til ledelsen, SEC cybersikkerhedsguide, den amerikanske skattereform og meget mere TRANSLATION: New from CFOdirect: Shareholder questions for management, the SEC cybersecurity guide, US tax reform and more ----
END OF RESULTS

I det foregående eksempel står det engelske akronym "PP&E" for "ejendom, anlæg og udstyr", og vores model var i stand til at forbinde det med vores forespørgsel.

I dette tilfælde er alle returnerede resultater på dansk, men modellen kan returnere et dokument på et andet sprog end forespørgslen, hvis dets semantiske betydning er tættere på. Vi har fuld fleksibilitet, og med få linjer kode kan vi angive, om modellen kun skal se på dokumenter på forespørgslens sprog, eller om den skal se på alle dokumenter.

Forbedre resultater med Cohere Rerank

Indlejringer er meget kraftfulde. Men vi skal nu se på, hvordan vi kan forfine vores resultater endnu mere med Cohere's Rerank endpoint, som er blevet trænet til at score relevansen af dokumenter i forhold til en forespørgsel.

En anden fordel ved Rerank er, at den kan fungere oven på en ældre søgeordssøgemaskine. Du behøver ikke at skifte til en vektordatabase eller foretage drastiske ændringer i din infrastruktur, og det kræver kun et par linjer kode. Rerank er tilgængelig i Amazon SageMaker.

Lad os prøve en ny forespørgsel. Vi bruger SageMaker denne gang:

query = "Are companies ready for the next down market?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: ARE COMPANIES READY FOR THE NEXT DOWN MARKET? ORIGINAL (Spanish): El valor en bolsa de las 100 mayores empresas cotizadas cae un 15% entre enero y marzo pero aguanta el embate del COVID-19 TRANSLATION: The stock market value of the 100 largest listed companies falls 15% between January and March but withstands the onslaught of COVID-19 ----
ORIGINAL (English): 69% of business leaders have experienced a corporate crisis in the last five years yet 29% of companies have no staff dedicated to crisis preparedness
----
ORIGINAL (English): As work sites slowly start to reopen, CFOs are concerned about the global economy and a potential new COVID-19 wave - PwC survey
----
END OF RESULTS

I dette tilfælde var en semantisk søgning i stand til at hente vores svar og vise det i resultaterne, men det er ikke øverst. Men når vi sender forespørgslen igen til vores Rerank-slutpunkt med listen over hentede dokumenter, er Rerank i stand til at vise det mest relevante dokument øverst.

Først opretter vi klienten og Rerank-slutpunktet:

# map model package arn
import boto3
cohere_package = "cohere-rerank-multilingual-v2--8b26a507962f3adb98ea9ac44cb70be1" # replace this with your info model_package_map = { "us-east-1": f"arn:aws:sagemaker:us-east-1:865070037744:model-package/{cohere_package}", "us-east-2": f"arn:aws:sagemaker:us-east-2:057799348421:model-package/{cohere_package}", "us-west-1": f"arn:aws:sagemaker:us-west-1:382657785993:model-package/{cohere_package}", "us-west-2": f"arn:aws:sagemaker:us-west-2:594846645681:model-package/{cohere_package}", "ca-central-1": f"arn:aws:sagemaker:ca-central-1:470592106596:model-package/{cohere_package}", "eu-central-1": f"arn:aws:sagemaker:eu-central-1:446921602837:model-package/{cohere_package}", "eu-west-1": f"arn:aws:sagemaker:eu-west-1:985815980388:model-package/{cohere_package}", "eu-west-2": f"arn:aws:sagemaker:eu-west-2:856760150666:model-package/{cohere_package}", "eu-west-3": f"arn:aws:sagemaker:eu-west-3:843114510376:model-package/{cohere_package}", "eu-north-1": f"arn:aws:sagemaker:eu-north-1:136758871317:model-package/{cohere_package}", "ap-southeast-1": f"arn:aws:sagemaker:ap-southeast-1:192199979996:model-package/{cohere_package}", "ap-southeast-2": f"arn:aws:sagemaker:ap-southeast-2:666831318237:model-package/{cohere_package}", "ap-northeast-2": f"arn:aws:sagemaker:ap-northeast-2:745090734665:model-package/{cohere_package}", "ap-northeast-1": f"arn:aws:sagemaker:ap-northeast-1:977537786026:model-package/{cohere_package}", "ap-south-1": f"arn:aws:sagemaker:ap-south-1:077584701553:model-package/{cohere_package}", "sa-east-1": f"arn:aws:sagemaker:sa-east-1:270155090741:model-package/{cohere_package}",
} region = boto3.Session().region_name
if region not in model_package_map.keys(): raise Exception(f"Current boto3 session region {region} is not supported.") model_package_arn = model_package_map[region] co = cohere_aws.Client(region_name=region)
co.create_endpoint(arn=model_package_arn, endpoint_name="cohere-rerank-multilingual", instance_type="ml.g4dn.xlarge", n_instances=1)

Når vi videregiver dokumenterne til Rerank, er modellen i stand til at vælge den mest relevante nøjagtigt:

results = co.rerank(query=query, documents=retrieved_docs, top_n=1) for hit in results: print(hit.document['text'])

69% of business leaders have experienced a corporate crisis in the last five years yet 29% of companies have no staff dedicated to crisis preparedness

Konklusion

Dette indlæg præsenterede en gennemgang af brugen af Coheres flersprogede indlejringsmodel i Amazon Bedrock i domænet for finansielle tjenester. Vi demonstrerede især et eksempel på en flersproget søgeapplikation til finansielle artikler. Vi så, hvordan indlejringsmodellen muliggør effektiv og præcis opdagelse af information og derved øger produktiviteten og outputkvaliteten hos en analytiker.

Coheres flersprogede indlejringsmodel understøtter over 100 sprog. Det fjerner kompleksiteten ved at bygge applikationer, der kræver arbejde med et korpus af dokumenter på forskellige sprog. Det Cohere Embed model er uddannet til at levere resultater i virkelige applikationer. Den håndterer støjende data som input, tilpasser sig komplekse RAG-systemer og leverer omkostningseffektivitet fra sin kompressionsbevidste træningsmetode.

Begynd at bygge med Coheres flersprogede indlejringsmodel i Amazon Bedrock i dag.

Om forfatterne

James Yi er senior AI/ML Partner Solutions Architect i Technology Partners COE Tech-teamet hos Amazon Web Services. Han brænder for at arbejde med virksomhedskunder og partnere for at designe, implementere og skalere AI/ML-applikationer for at opnå forretningsværdi. Uden for arbejdet nyder han at spille fodbold, rejse og tilbringe tid med sin familie.

Gonzalo Betegon er Solutions Architect hos Cohere, en leverandør af banebrydende naturligt sprogbehandlingsteknologi. Han hjælper organisationer med at løse deres forretningsbehov gennem implementering af store sprogmodeller.

Meor Amer er udvikleradvokat hos Cohere, en udbyder af banebrydende NLP-teknologi (natural language processing). Han hjælper udviklere med at bygge banebrydende applikationer med Cohere's Large Language Models (LLM'er).

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/

Tidsstempel: Januar 12, 2024

Tidsstempel: Juni 15, 2022

Genudgivet af Platon

Indekser dit Alfresco-indhold ved hjælp af det nye Amazon Kendra Alfresco-stik | Amazon Web Services

Retrieval-Augmented Generation med LangChain, Amazon SageMaker JumpStart og MongoDB Atlas semantisk søgning | Amazon Web Services

Skab data af høj kvalitet til ML-modeller med Amazon SageMaker Ground Truth

Introduktion af Fortuna: Et bibliotek til kvantificering af usikkerhed

Amazon SageMaker Automatic Model Tuning giver nu op til tre gange hurtigere hyperparametertuning med Hyperband

3xLOGIC bruger Amazon Rekognition Streaming Video Events til at levere intelligent videoanalyse på live videostreams til overvågningsagenter

Tekstopsummering med Amazon SageMaker og Hugging Face

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto