Créez des applications de recherche financière à l'aide du modèle d'intégration multilingue Amazon Bedrock Cohere

Republié par Platon

Suiveurs: 0

Les entreprises ont accès à des quantités massives de données, dont la plupart sont difficiles à découvrir car elles ne sont pas structurées. Approches conventionnelles d’analyse données non structurées utilisez la correspondance de mots clés ou de synonymes. Ils ne capturent pas l’intégralité du contexte d’un document, ce qui les rend moins efficaces dans le traitement des données non structurées.

En revanche, les incorporations de texte utilisent machine learning (ML) pour capturer la signification des données non structurées. Les intégrations sont générées par des modèles de langage représentationnels qui traduisent le texte en vecteurs numériques et codent les informations contextuelles dans un document. Cela permet des applications telles que la recherche sémantique, Récupération Génération Augmentée (RAG), modélisation de sujets et classification de textes.

Par exemple, dans le secteur des services financiers, les applications incluent l'extraction d'informations à partir de rapports sur les bénéfices, la recherche d'informations à partir d'états financiers et l'analyse des sentiments sur les actions et les marchés trouvés dans l'actualité financière. L'intégration de texte permet aux professionnels du secteur d'extraire des informations à partir de documents, de minimiser les erreurs et d'augmenter leurs performances.

Dans cet article, nous présentons une application capable de rechercher et d'interroger des actualités financières dans différentes langues à l'aide de Cohere. Intégrer ainsi que le Reclasser modèles avec Socle amazonien.

Le modèle d’intégration multilingue de Cohere

Cohere est une plateforme d'IA d'entreprise de premier plan qui crée des modèles de langage étendus (LLM) de classe mondiale et des solutions basées sur LLM qui permettent aux ordinateurs de rechercher, de capturer du sens et de converser dans du texte. Ils offrent une facilité d’utilisation et de solides contrôles de sécurité et de confidentialité.

Le modèle d’intégration multilingue de Cohere génère des représentations vectorielles de documents dans plus de 100 langues et est disponible sur Amazon Bedrock. Cela permet aux clients AWS d'y accéder en tant qu'API, ce qui élimine le besoin de gérer l'infrastructure sous-jacente et garantit que les informations sensibles restent gérées et protégées en toute sécurité.

Le modèle multilingue regroupe les textes ayant des significations similaires en leur attribuant des positions proches les unes des autres dans un espace vectoriel sémantique. Avec un modèle d'intégration multilingue, les développeurs peuvent traiter du texte dans plusieurs langues sans avoir besoin de basculer entre différents modèles, comme illustré dans la figure suivante. Cela rend le traitement plus efficace et améliore les performances des applications multilingues.

Voici quelques-uns des points forts du modèle d’intégration de Cohere :

Focus sur la qualité des documents – Les modèles d'intégration typiques sont formés pour mesurer la similarité entre les documents, mais le modèle de Cohere mesure également la qualité des documents.
Meilleure récupération pour les applications RAG – Les applications RAG nécessitent un bon système de récupération, dans lequel le modèle d’intégration de Cohere excelle.
Compression de données rentable – Cohere utilise une méthode de formation spéciale prenant en compte la compression, ce qui entraîne des économies substantielles pour votre base de données vectorielles.

Cas d'utilisation pour l'intégration de texte

Les intégrations de texte transforment les données non structurées en un formulaire structuré. Cela vous permet de comparer, de décortiquer et de tirer des enseignements objectifs de tous ces documents. Voici des exemples de cas d’utilisation que le modèle d’intégration de Cohere permet :

Recherche sémantique – Permet des applications de recherche puissantes lorsqu'elles sont associées à une base de données vectorielles, avec une excellente pertinence basée sur la signification de l'expression de recherche
Moteur de recherche pour un système plus vaste – Recherche et récupère les informations les plus pertinentes à partir des sources de données d'entreprise connectées pour les systèmes RAG
Classification de texte – Prend en charge la reconnaissance d’intention, l’analyse des sentiments et l’analyse avancée des documents
Modélisation de sujets – Transforme une collection de documents en groupes distincts pour découvrir des sujets et des thèmes émergents

Systèmes de recherche améliorés avec Rerank

Dans les entreprises où des systèmes de recherche par mots-clés conventionnels sont déjà présents, comment introduire des capacités de recherche sémantique modernes ? Pour de tels systèmes qui font partie de l’architecture d’information d’une entreprise depuis longtemps, une migration complète vers une approche basée sur l’intégration n’est, dans de nombreux cas, tout simplement pas réalisable.

Point de terminaison Rerank de Cohere est conçu pour combler cette lacune. Il constitue la deuxième étape d’un flux de recherche pour fournir un classement des documents pertinents en fonction de la requête d’un utilisateur. Les entreprises peuvent conserver un système de mots clés (ou même sémantique) existant pour la récupération de première étape et améliorer la qualité des résultats de recherche avec le point de terminaison Rerank lors du reclassement de deuxième étape.

Rerank offre une option rapide et simple pour améliorer les résultats de recherche en introduisant la technologie de recherche sémantique dans la pile d'un utilisateur avec une seule ligne de code. Le point de terminaison est également livré avec un support multilingue. La figure suivante illustre le flux de travail de récupération et de reclassement.

Vue d'ensemble de la solution

Les analystes financiers doivent digérer de nombreux contenus, tels que les publications financières et les médias d'information, afin de rester informés. Selon le Association des professionnels de la finance (AFP), les analystes financiers passent 75 % de leur temps à collecter des données ou à administrer le processus au lieu de procéder à des analyses à valeur ajoutée. Trouver la réponse à une question à partir de diverses sources et documents est un travail long et fastidieux. Le modèle d'intégration Cohere aide les analystes à rechercher rapidement parmi de nombreux titres d'articles dans plusieurs langues pour trouver et classer les articles les plus pertinents pour une requête particulière, économisant ainsi énormément de temps et d'efforts.

Dans l’exemple de cas d’utilisation suivant, nous montrons comment le modèle Embed de Cohere effectue des recherches et des requêtes sur l’actualité financière dans différentes langues dans un seul pipeline. Ensuite, nous démontrons comment l'ajout de Rerank à votre récupération d'intégrations (ou son ajout à une recherche lexicale existante) peut encore améliorer les résultats.

Le carnet de support est disponible sur GitHub.

Le diagramme suivant illustre le flux de travail de l'application.

Activer l'accès aux modèles via Amazon Bedrock

Les utilisateurs d'Amazon Bedrock doivent demander l'accès aux modèles pour les rendre disponibles. Pour demander l'accès à des modèles supplémentaires, choisissez Accès au modèle le volet de navigation sur le substrat rocheux amazonien console. Pour plus d'informations, voir Accès au modèle. Pour cette procédure pas à pas, vous devez demander l'accès au modèle Cohere Embed Multilingual.

Installer des packages et importer des modules

Tout d’abord, nous installons les packages nécessaires et importons les modules que nous utiliserons dans cet exemple :

!pip install --upgrade cohere-aws hnswlib translate import pandas as pd
import cohere_aws
import hnswlib
import os
import re
import boto3

Les documents d'importation

Nous utilisons un ensemble de données (MultiFIN) contenant une liste de titres d'articles réels couvrant 15 langues (anglais, turc, danois, espagnol, polonais, grec, finnois, hébreu, japonais, hongrois, norvégien, russe, italien, islandais et suédois). ). Il s'agit d'un ensemble de données open source organisé pour le traitement du langage naturel (NLP) financier et disponible sur un site Web. GitHub référentiel.

Dans notre cas, nous avons créé un fichier CSV avec les données de MultiFIN ainsi qu'une colonne avec les traductions. Nous n'utilisons pas cette colonne pour alimenter le modèle ; nous l'utilisons pour nous aider à suivre lorsque nous imprimons les résultats pour ceux qui ne parlent ni danois ni espagnol. Nous pointons vers ce CSV pour créer notre dataframe :

url = "https://raw.githubusercontent.com/cohere-ai/cohere-aws/main/notebooks/bedrock/multiFIN_train.csv"
df = pd.read_csv(url) # Inspect dataset
df.head(5)

Sélectionnez une liste de documents à interroger

MultiFIN compte plus de 6,000 15 enregistrements dans XNUMX langues différentes. Pour notre exemple de cas d'utilisation, nous nous concentrons sur trois langues : l'anglais, l'espagnol et le danois. Nous trions également les en-têtes par longueur et sélectionnons les plus longs.

Parce que nous sélectionnons les articles les plus longs, nous veillons à ce que la longueur ne soit pas due à des séquences répétées. Le code suivant montre un exemple où c'est le cas. Nous allons nettoyer ça.

df['text'].iloc[2215]

'El 86% de las empresas españolas comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible'

# Ensure there is no duplicated text in the headers
def remove_duplicates(text): return re.sub(r'((bw+b.{1,2}w+b)+).+1', r'1', text, flags=re.I) df ['text'] = df['text'].apply(remove_duplicates) # Keep only selected languages
languages = ['English', 'Spanish', 'Danish']
df = df.loc[df['lang'].isin(languages)] # Pick the top 80 longest articles
df['text_length'] = df['text'].str.len()
df.sort_values(by=['text_length'], ascending=False, inplace=True)
top_80_df = df[:80] # Language distribution
top_80_df['lang'].value_counts()

Notre liste de documents est joliment répartie dans les trois langues :

lang
Spanish 33
English 29
Danish 18
Name: count, dtype: int64

Voici l’en-tête d’article le plus long de notre ensemble de données :

top_80_df['text'].iloc[0]

"CFOdirect: Resultater fra PwC's Employee Engagement Landscape Survey, herunder hvordan man skaber mere engagement blandt medarbejdere. Læs desuden om de regnskabsmæssige konsekvenser for indkomstskat ifbm. Brexit"

Incorporer et indexer des documents

Maintenant, nous voulons intégrer nos documents et stocker les intégrations. Les plongements sont de très grands vecteurs qui encapsulent la signification sémantique de notre document. En particulier, nous utilisons le modèle embed-multilingual-v3.0 de Cohere, qui crée des intégrations avec 1,024 XNUMX dimensions.

Lorsqu'une requête est transmise, nous intégrons également la requête et utilisons la bibliothèque hnswlib pour trouver les voisins les plus proches.

Quelques lignes de code suffisent pour établir un client Cohere, intégrer les documents et créer l'index de recherche. Nous gardons également une trace de la langue et de la traduction du document pour enrichir l'affichage des résultats.

# Establish Cohere client
co = cohere_aws.Client(mode=cohere_aws.Mode.BEDROCK)
model_id = "cohere.embed-multilingual-v3" # Embed documents
docs = top_80_df['text'].to_list()
docs_lang = top_80_df['lang'].to_list()
translated_docs = top_80_df['translated_text'].to_list() #for reference when returning non-English results
doc_embs = co.embed(texts=docs, model_id=model_id, input_type='search_document').embeddings # Create a search index
index = hnswlib.Index(space='ip', dim=1024)
index.init_index(max_elements=len(doc_embs), ef_construction=512, M=64)
index.add_items(doc_embs, list(range(len(doc_embs))))

Construire un système de récupération

Ensuite, nous construisons une fonction qui prend une requête en entrée, l'intègre et trouve les quatre en-têtes qui y sont plus étroitement liés :

# Retrieval of 4 closest docs to query
def retrieval(query): # Embed query and retrieve results query_emb = co.embed(texts=[query], model_id=model_id, input_type="search_query").embeddings doc_ids = index.knn_query(query_emb, k=3)[0][0] # we will retrieve 4 closest neighbors # Print and append results print(f"QUERY: {query.upper()} n") retrieved_docs, translated_retrieved_docs = [], [] for doc_id in doc_ids: # Append results retrieved_docs.append(docs[doc_id]) translated_retrieved_docs.append(translated_docs[doc_id]) # Print results print(f"ORIGINAL ({docs_lang[doc_id]}): {docs[doc_id]}") if docs_lang[doc_id] != "English": print(f"TRANSLATION: {translated_docs[doc_id]} n----") else: print("----") print("END OF RESULTS nn") return retrieved_docs, translated_retrieved_docs

Interroger le système de récupération

Explorons ce que notre système fait avec quelques requêtes différentes. On commence par l'anglais :

queries = [ "Are businessess meeting sustainability goals?", "Can data science help meet sustainability goals?"
] for query in queries: retrieval(query)

Les résultats sont les suivants:

QUERY: ARE BUSINESSES MEETING SUSTAINABILITY GOALS? ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but businesses remain on starting blocks for integration and progress
----
ORIGINAL (Spanish): Integrar los criterios ESG y el propósito en la estrategia principal reto de los Consejos de las empresas españolas en el mundo post-COVID TRANSLATION: Integrate ESG criteria and purpose into the main challenge strategy of the Boards of Spanish companies in the post-COVID world ----
END OF RESULTS QUERY: CAN DATA SCIENCE HELP MEET SUSTAINABILITY GOALS? ORIGINAL (English): Using AI to better manage the environment could reduce greenhouse gas emissions, boost global GDP by up to 38m jobs by 2030
----
ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but businesses remain on starting blocks for integration and progress
----
END OF RESULTS

Notez ce qui suit :

Nous posons des questions connexes, mais légèrement différentes, et le modèle est suffisamment nuancé pour présenter les résultats les plus pertinents en haut.
Notre modèle n'effectue pas de recherche par mots-clés, mais une recherche sémantique. Même si nous utilisons un terme comme « science des données » au lieu de « IA », notre modèle est capable de comprendre ce qui est demandé et de renvoyer le résultat le plus pertinent en haut.

Que diriez-vous d'une requête en danois ? Regardons la requête suivante :

query = "Hvor kan jeg finde den seneste danske boligplan?" # "Where can I find the latest Danish property plan?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: HVOR KAN JEG FINDE DEN SENESTE DANSKE BOLIGPLAN? ORIGINAL (Danish): Nyt fra CFOdirect: Ny PP&E-guide, FAQs om den nye leasingstandard, podcast om udfordringerne ved implementering af leasingstandarden og meget mere TRANSLATION: New from CFOdirect: New PP&E guide, FAQs on the new leasing standard, podcast on the challenges of implementing the leasing standard and much more ----
ORIGINAL (Danish): Lovforslag fremlagt om rentefri lån, udskudt frist for lønsumsafgift, førtidig udbetaling af skattekredit og loft på indestående på skattekontoen TRANSLATION: Legislative proposal presented on interest-free loans, deferred payroll tax deadline, early payment of tax credit and ceiling on deposits in the tax account ----
ORIGINAL (Danish): Nyt fra CFOdirect: Shareholder-spørgsmål til ledelsen, SEC cybersikkerhedsguide, den amerikanske skattereform og meget mere TRANSLATION: New from CFOdirect: Shareholder questions for management, the SEC cybersecurity guide, US tax reform and more ----
END OF RESULTS

Dans l'exemple précédent, l'acronyme anglais « PP&E » signifie « propriété, usine et équipement » et notre modèle a pu le connecter à notre requête.

Dans ce cas, tous les résultats renvoyés sont en danois, mais le modèle peut renvoyer un document dans une langue autre que celle de la requête si sa signification sémantique est plus proche. Nous disposons d'une flexibilité totale et, avec quelques lignes de code, nous pouvons spécifier si le modèle doit uniquement examiner les documents dans la langue de la requête ou s'il doit examiner tous les documents.

Améliorez vos résultats avec Cohere Rerank

Les intégrations sont très puissantes. Cependant, nous allons maintenant voir comment affiner encore plus nos résultats avec le point de terminaison Rerank de Cohere, qui a été formé pour évaluer la pertinence des documents par rapport à une requête.

Un autre avantage de Rerank est qu’il peut fonctionner sur un ancien moteur de recherche par mots clés. Vous n’avez pas besoin de passer à une base de données vectorielle ni d’apporter des modifications drastiques à votre infrastructure, et cela ne prend que quelques lignes de code. Le reclassement est disponible dans Amazon Sage Maker.

Essayons une nouvelle requête. Nous utilisons SageMaker cette fois :

query = "Are companies ready for the next down market?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: ARE COMPANIES READY FOR THE NEXT DOWN MARKET? ORIGINAL (Spanish): El valor en bolsa de las 100 mayores empresas cotizadas cae un 15% entre enero y marzo pero aguanta el embate del COVID-19 TRANSLATION: The stock market value of the 100 largest listed companies falls 15% between January and March but withstands the onslaught of COVID-19 ----
ORIGINAL (English): 69% of business leaders have experienced a corporate crisis in the last five years yet 29% of companies have no staff dedicated to crisis preparedness
----
ORIGINAL (English): As work sites slowly start to reopen, CFOs are concerned about the global economy and a potential new COVID-19 wave - PwC survey
----
END OF RESULTS

Dans ce cas, une recherche sémantique a pu récupérer notre réponse et l’afficher dans les résultats, mais elle n’est pas en haut. Cependant, lorsque nous transmettons à nouveau la requête à notre point de terminaison Rerank avec la liste des documents récupérés, Rerank est capable de faire apparaître le document le plus pertinent en haut.

Tout d’abord, nous créons le client et le point de terminaison Rerank :

# map model package arn
import boto3
cohere_package = "cohere-rerank-multilingual-v2--8b26a507962f3adb98ea9ac44cb70be1" # replace this with your info model_package_map = { "us-east-1": f"arn:aws:sagemaker:us-east-1:865070037744:model-package/{cohere_package}", "us-east-2": f"arn:aws:sagemaker:us-east-2:057799348421:model-package/{cohere_package}", "us-west-1": f"arn:aws:sagemaker:us-west-1:382657785993:model-package/{cohere_package}", "us-west-2": f"arn:aws:sagemaker:us-west-2:594846645681:model-package/{cohere_package}", "ca-central-1": f"arn:aws:sagemaker:ca-central-1:470592106596:model-package/{cohere_package}", "eu-central-1": f"arn:aws:sagemaker:eu-central-1:446921602837:model-package/{cohere_package}", "eu-west-1": f"arn:aws:sagemaker:eu-west-1:985815980388:model-package/{cohere_package}", "eu-west-2": f"arn:aws:sagemaker:eu-west-2:856760150666:model-package/{cohere_package}", "eu-west-3": f"arn:aws:sagemaker:eu-west-3:843114510376:model-package/{cohere_package}", "eu-north-1": f"arn:aws:sagemaker:eu-north-1:136758871317:model-package/{cohere_package}", "ap-southeast-1": f"arn:aws:sagemaker:ap-southeast-1:192199979996:model-package/{cohere_package}", "ap-southeast-2": f"arn:aws:sagemaker:ap-southeast-2:666831318237:model-package/{cohere_package}", "ap-northeast-2": f"arn:aws:sagemaker:ap-northeast-2:745090734665:model-package/{cohere_package}", "ap-northeast-1": f"arn:aws:sagemaker:ap-northeast-1:977537786026:model-package/{cohere_package}", "ap-south-1": f"arn:aws:sagemaker:ap-south-1:077584701553:model-package/{cohere_package}", "sa-east-1": f"arn:aws:sagemaker:sa-east-1:270155090741:model-package/{cohere_package}",
} region = boto3.Session().region_name
if region not in model_package_map.keys(): raise Exception(f"Current boto3 session region {region} is not supported.") model_package_arn = model_package_map[region] co = cohere_aws.Client(region_name=region)
co.create_endpoint(arn=model_package_arn, endpoint_name="cohere-rerank-multilingual", instance_type="ml.g4dn.xlarge", n_instances=1)

Lorsque nous transmettons les documents à Rerank, le modèle est capable de sélectionner avec précision le plus pertinent :

results = co.rerank(query=query, documents=retrieved_docs, top_n=1) for hit in results: print(hit.document['text'])

69% of business leaders have experienced a corporate crisis in the last five years yet 29% of companies have no staff dedicated to crisis preparedness

Conclusion

Cet article présente une présentation pas à pas de l'utilisation du modèle d'intégration multilingue de Cohere dans Amazon Bedrock dans le domaine des services financiers. En particulier, nous avons présenté un exemple d’application de recherche d’articles financiers multilingues. Nous avons vu comment le modèle d'intégration permet une découverte efficace et précise des informations, augmentant ainsi la productivité et la qualité des résultats d'un analyste.

Le modèle d’intégration multilingue de Cohere prend en charge plus de 100 langues. Cela supprime la complexité de la création d’applications qui nécessitent de travailler avec un corpus de documents dans différentes langues. Le Modèle Cohere Embed est formé pour fournir des résultats dans des applications du monde réel. Il gère les données bruitées comme entrées, s'adapte aux systèmes RAG complexes et offre une rentabilité grâce à sa méthode de formation prenant en compte la compression.

Commencez dès aujourd’hui à créer avec le modèle d’intégration multilingue de Cohere dans Amazon Bedrock.

À propos des auteurs

James Yi est architecte senior de solutions partenaires IA/ML au sein de l'équipe technologique COE Tech des partenaires technologiques d'Amazon Web Services. Il est passionné par le travail avec des entreprises clientes et partenaires pour concevoir, déployer et faire évoluer des applications IA/ML afin d'en tirer de la valeur commerciale. En dehors du travail, il aime jouer au football, voyager et passer du temps avec sa famille.

Gonzalo Betegon est architecte de solutions chez Cohere, un fournisseur de technologies de pointe en matière de traitement du langage naturel. Il aide les organisations à répondre à leurs besoins commerciaux grâce au déploiement de grands modèles linguistiques.

Meor Amer est Developer Advocate chez Cohere, un fournisseur de technologie de pointe de traitement du langage naturel (NLP). Il aide les développeurs à créer des applications de pointe avec les grands modèles linguistiques (LLM) de Cohere.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/

Horodatage: 12 janvier 2024

Horodatage: Le 15 juin 2022

Republié par Platon

Indexez votre contenu Alfresco à l'aide du nouveau connecteur Amazon Kendra Alfresco | Services Web Amazon

Génération de récupération augmentée avec LangChain, Amazon SageMaker JumpStart et recherche sémantique MongoDB Atlas | Services Web Amazon

Créez des données de haute qualité pour les modèles ML avec Amazon SageMaker Ground Truth

Présentation de Fortuna : une bibliothèque pour la quantification des incertitudes

Amazon SageMaker Automatic Model Tuning fournit désormais un réglage d'hyperparamètres jusqu'à trois fois plus rapide avec Hyperband

3xLOGIC utilise Amazon Rekognition Streaming Video Events pour fournir des analyses vidéo intelligentes sur les flux vidéo en direct aux agents de surveillance

Résumé de texte avec Amazon SageMaker et Hugging Face

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte