Amazon Bedrock Cohere 多言語埋め込みモデルを使用して金融検索アプリケーションを構築する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

企業は大量のデータにアクセスできますが、データの多くは構造化されていないため、発見するのが困難です。従来の分析アプローチ非構造化データキーワードまたは同義語の一致を使用します。ドキュメントの完全なコンテキストを取得できないため、非構造化データを扱う際の効果が低くなります。

対照的に、テキスト埋め込みでは、機械学習非構造化データの意味を捉える (ML) 機能。埋め込みは、テキストを数値ベクトルに変換し、ドキュメント内のコンテキスト情報をエンコードする表現言語モデルによって生成されます。これにより、セマンティック検索などのアプリケーションが可能になります。検索拡張生成 (RAG)、トピックモデリング、およびテキスト分類。

たとえば、金融サービス業界では、収益レポートからの洞察の抽出、財務諸表からの情報の検索、金融ニュースに含まれる株式や市場に関するセンチメントの分析などのアプリケーションが含まれます。テキストの埋め込みにより、業界の専門家はドキュメントから洞察を抽出し、エラーを最小限に抑え、パフォーマンスを向上させることができます。

この投稿では、Cohere のツールを使用して、さまざまな言語の金融ニュースを検索およびクエリできるアプリケーションを紹介します。埋め込むおよびリランクのモデルアマゾンの岩盤.

Cohereの多言語埋め込みモデル

Cohere は、世界クラスの大規模言語モデル (LLM) と、コンピュータがテキストで検索、意味を取得、会話できるようにする LLM を利用したソリューションを構築する、大手エンタープライズ AI プラットフォームです。使いやすさと、強力なセキュリティとプライバシーの制御を提供します。

Cohereの多言語埋め込みモデル 100 を超える言語のドキュメントのベクトル表現を生成し、Amazon Bedrock で入手できます。これにより、AWS の顧客は API としてアクセスできるため、基盤となるインフラストラクチャを管理する必要がなくなり、機密情報が安全に管理および保護されます。

多言語モデルは、意味ベクトル空間内で互いに近い位置を割り当てることで、同様の意味を持つテキストをグループ化します。次の図に示すように、多言語埋め込みモデルを使用すると、開発者は異なるモデル間で切り替える必要なく、複数の言語でテキストを処理できます。これにより、処理がより効率的になり、多言語アプリケーションのパフォーマンスが向上します。

以下は、Cohere の埋め込みモデルのハイライトの一部です。

文書の品質に重点を置く – 一般的な埋め込みモデルはドキュメント間の類似性を測定するようにトレーニングされていますが、Cohere のモデルはドキュメントの品質も測定します
RAG アプリケーションの取得の向上 – RAG アプリケーションには優れた検索システムが必要ですが、Cohere の埋め込みモデルはこれに優れています
コスト効率の高いデータ圧縮 – Cohere は、圧縮を意識した特別なトレーニング方法を使用するため、ベクトルデータベースのコストを大幅に節約できます。

テキスト埋め込みの使用例

テキスト埋め込みは、非構造化データを構造化形式に変換します。これにより、これらすべてのドキュメントを客観的に比較、分析し、洞察を得ることができます。以下は、Cohere の埋め込みモデルで可能になるユースケースの例です。

セマンティック検索 – ベクトルデータベースと組み合わせると、検索フレーズの意味に基づいた優れた関連性を備えた強力な検索アプリケーションが可能になります
大規模システム用の検索エンジン – RAG システムに接続されているエンタープライズデータソースから最も関連性の高い情報を検索して取得します
テキスト分類 – 意図認識、感情分析、高度な文書分析をサポート
トピックモデリング – ドキュメントのコレクションを個別のクラスターに変換して、新たなトピックやテーマを明らかにします

リランクによる検索システムの強化

従来のキーワード検索システムがすでに存在する企業では、最新のセマンティック検索機能をどのように導入しますか?長い間企業の情報アーキテクチャの一部であったこのようなシステムの場合、埋め込みベースのアプローチへの完全な移行は、多くの場合、現実的ではありません。

Cohereの再ランクエンドポイントはこのギャップを埋めるように設計されています。これは、検索フローの第 2 段階として機能し、ユーザーのクエリごとに関連ドキュメントのランキングを提供します。企業は、第 1 段階の検索では既存のキーワード (またはセマンティック) システムを保持し、第 2 段階の再ランキングで Rerank エンドポイントを使用して検索結果の品質を高めることができます。

Rerank は、1 行のコードでセマンティック検索テクノロジーをユーザーのスタックに導入することで、検索結果を改善するための高速かつ簡単なオプションを提供します。エンドポイントには多言語サポートも付いています。次の図は、取得と再ランキングのワークフローを示しています。

ソリューションの概要

金融アナリストは、最新情報を得るために、金融出版物やニュースメディアなどの多くのコンテンツを消化する必要があります。による金融専門家協会 (AFP)、金融アナリストは、付加価値分析ではなく、データ収集やプロセスの管理に時間の 75% を費やしています。さまざまな情報源や文書から質問に対する答えを見つけるのは、時間のかかる退屈な作業です。 Cohere埋め込みモデルを使用すると、アナリストは複数の言語で書かれた多数の記事タイトルを迅速に検索して、特定のクエリに最も関連性の高い記事を見つけてランク付けできるため、膨大な時間と労力を節約できます。

次の使用例では、Cohere の Embed モデルが 1 つの独自のパイプラインでさまざまな言語の金融ニュースを検索およびクエリする方法を紹介します。次に、Rerank を埋め込み検索に追加する (または従来の語彙検索に追加する) と結果がさらに改善される方法を示します。

サポートするノートブックは次の場所で入手できます。 GitHubの.

次の図は、アプリケーションのワークフローを示しています。

Amazon Bedrock を介したモデルへのアクセスを有効にする

Amazon Bedrock ユーザーは、モデルを使用できるようにするために、モデルへのアクセスをリクエストする必要があります。追加のモデルへのアクセスをリクエストするには、 モデルアクセス Amazon Bedrock のナビゲーションペインコンソール。詳細については、を参照してください。モデルアクセス。このチュートリアルでは、Cohere Embed Multilingual モデルへのアクセスをリクエストする必要があります。

パッケージをインストールしてモジュールをインポートする

まず、必要なパッケージをインストールし、この例で使用するモジュールをインポートします。

!pip install --upgrade cohere-aws hnswlib translate import pandas as pd
import cohere_aws
import hnswlib
import os
import re
import boto3

インポートドキュメント

15 の言語 (英語、トルコ語、デンマーク語、スペイン語、ポーランド語、ギリシャ語、フィンランド語、ヘブライ語、日本語、ハンガリー語、ノルウェー語、ロシア語、イタリア語、アイスランド語、スウェーデン語) をカバーする実際の記事見出しのリストを含むデータセット (MultiFIN) を使用します。）。これは金融自然言語処理 (NLP) 用に厳選されたオープンソースデータセットであり、 GitHubリポジトリ.

私たちの場合、MultiFIN のデータと翻訳を含む列を含む CSV ファイルを作成しました。この列はモデルにフィードを与えるために使用しません。デンマーク語やスペイン語を話せない人のために結果を印刷するときに、それを理解するのに役立ちます。その CSV をポイントしてデータフレームを作成します。

url = "https://raw.githubusercontent.com/cohere-ai/cohere-aws/main/notebooks/bedrock/multiFIN_train.csv"
df = pd.read_csv(url) # Inspect dataset
df.head(5)

クエリするドキュメントのリストを選択してください

MultiFIN には、6,000 の異なる言語で 15 を超えるレコードがあります。この使用例では、英語、スペイン語、デンマーク語の XNUMX つの言語に焦点を当てます。また、ヘッダーを長さで並べ替えて、最も長いものを選択します。

最も長い記事を選択しているため、その長さがシーケンスの繰り返しによるものではないことを確認します。次のコードは、その場合の例を示しています。私たちはそれをきれいにします。

df['text'].iloc[2215]

'El 86% de las empresas españolas comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible comprometidas con los Objetivos de Desarrollo Sostenible'

# Ensure there is no duplicated text in the headers
def remove_duplicates(text): return re.sub(r'((bw+b.{1,2}w+b)+).+1', r'1', text, flags=re.I) df ['text'] = df['text'].apply(remove_duplicates) # Keep only selected languages
languages = ['English', 'Spanish', 'Danish']
df = df.loc[df['lang'].isin(languages)] # Pick the top 80 longest articles
df['text_length'] = df['text'].str.len()
df.sort_values(by=['text_length'], ascending=False, inplace=True)
top_80_df = df[:80] # Language distribution
top_80_df['lang'].value_counts()

私たちのドキュメントのリストは、次の 3 つの言語に適切に分散されています。

lang
Spanish 33
English 29
Danish 18
Name: count, dtype: int64

以下は、データセット内の最長の記事ヘッダーです。

top_80_df['text'].iloc[0]

"CFOdirect: Resultater fra PwC's Employee Engagement Landscape Survey, herunder hvordan man skaber mere engagement blandt medarbejdere. Læs desuden om de regnskabsmæssige konsekvenser for indkomstskat ifbm. Brexit"

ドキュメントの埋め込みとインデックス付け

ここで、ドキュメントを埋め込み、その埋め込みを保存したいと思います。埋め込みは、ドキュメントの意味論的な意味をカプセル化する非常に大きなベクトルです。特に、3.0 次元のエンベディングを作成する Cohere の embed-multilingual-v1,024 モデルを使用します。

クエリが渡されると、そのクエリも埋め込まれ、hnswlib ライブラリを使用して最近傍を検索します。

わずか数行のコードで、Cohere クライアントを確立し、ドキュメントを埋め込み、検索インデックスを作成します。また、結果の表示を充実させるために、ドキュメントの言語と翻訳も追跡します。

# Establish Cohere client
co = cohere_aws.Client(mode=cohere_aws.Mode.BEDROCK)
model_id = "cohere.embed-multilingual-v3" # Embed documents
docs = top_80_df['text'].to_list()
docs_lang = top_80_df['lang'].to_list()
translated_docs = top_80_df['translated_text'].to_list() #for reference when returning non-English results
doc_embs = co.embed(texts=docs, model_id=model_id, input_type='search_document').embeddings # Create a search index
index = hnswlib.Index(space='ip', dim=1024)
index.init_index(max_elements=len(doc_embs), ef_construction=512, M=64)
index.add_items(doc_embs, list(range(len(doc_embs))))

検索システムを構築する

次に、クエリを入力として受け取り、それを埋め込み、クエリとより密接に関連する 4 つのヘッダーを検索する関数を構築します。

# Retrieval of 4 closest docs to query
def retrieval(query): # Embed query and retrieve results query_emb = co.embed(texts=[query], model_id=model_id, input_type="search_query").embeddings doc_ids = index.knn_query(query_emb, k=3)[0][0] # we will retrieve 4 closest neighbors # Print and append results print(f"QUERY: {query.upper()} n") retrieved_docs, translated_retrieved_docs = [], [] for doc_id in doc_ids: # Append results retrieved_docs.append(docs[doc_id]) translated_retrieved_docs.append(translated_docs[doc_id]) # Print results print(f"ORIGINAL ({docs_lang[doc_id]}): {docs[doc_id]}") if docs_lang[doc_id] != "English": print(f"TRANSLATION: {translated_docs[doc_id]} n----") else: print("----") print("END OF RESULTS nn") return retrieved_docs, translated_retrieved_docs

検索システムに問い合わせる

いくつかの異なるクエリを使用してシステムが何を行うかを調べてみましょう。まずは英語から始めましょう。

queries = [ "Are businessess meeting sustainability goals?", "Can data science help meet sustainability goals?"
] for query in queries: retrieval(query)

結果は次のとおりです。

QUERY: ARE BUSINESSES MEETING SUSTAINABILITY GOALS? ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but businesses remain on starting blocks for integration and progress
----
ORIGINAL (Spanish): Integrar los criterios ESG y el propósito en la estrategia principal reto de los Consejos de las empresas españolas en el mundo post-COVID TRANSLATION: Integrate ESG criteria and purpose into the main challenge strategy of the Boards of Spanish companies in the post-COVID world ----
END OF RESULTS QUERY: CAN DATA SCIENCE HELP MEET SUSTAINABILITY GOALS? ORIGINAL (English): Using AI to better manage the environment could reduce greenhouse gas emissions, boost global GDP by up to 38m jobs by 2030
----
ORIGINAL (English): Quality of business reporting on the Sustainable Development Goals improves, but has a long way to go to meet and drive targets.
----
ORIGINAL (English): Only 10 years to achieve Sustainable Development Goals but businesses remain on starting blocks for integration and progress
----
END OF RESULTS

次の点に注意してください。

私たちは関連しているものの、少し異なる質問をしています。このモデルは、最も関連性の高い結果を上部に表示するのに十分な微妙な違いがあります。
私たちのモデルはキーワードベースの検索ではなく、セマンティック検索を実行します。「AI」ではなく「データサイエンス」のような用語を使用している場合でも、私たちのモデルは何が質問されているかを理解し、最も関連性の高い結果を先頭に返すことができます。

デンマーク語で質問してみませんか？次のクエリを見てみましょう。

query = "Hvor kan jeg finde den seneste danske boligplan?" # "Where can I find the latest Danish property plan?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: HVOR KAN JEG FINDE DEN SENESTE DANSKE BOLIGPLAN? ORIGINAL (Danish): Nyt fra CFOdirect: Ny PP&E-guide, FAQs om den nye leasingstandard, podcast om udfordringerne ved implementering af leasingstandarden og meget mere TRANSLATION: New from CFOdirect: New PP&E guide, FAQs on the new leasing standard, podcast on the challenges of implementing the leasing standard and much more ----
ORIGINAL (Danish): Lovforslag fremlagt om rentefri lån, udskudt frist for lønsumsafgift, førtidig udbetaling af skattekredit og loft på indestående på skattekontoen TRANSLATION: Legislative proposal presented on interest-free loans, deferred payroll tax deadline, early payment of tax credit and ceiling on deposits in the tax account ----
ORIGINAL (Danish): Nyt fra CFOdirect: Shareholder-spørgsmål til ledelsen, SEC cybersikkerhedsguide, den amerikanske skattereform og meget mere TRANSLATION: New from CFOdirect: Shareholder questions for management, the SEC cybersecurity guide, US tax reform and more ----
END OF RESULTS

前の例では、英語の頭字語「PP&E」は「プロパティ、プラント、および設備」を表しており、モデルはそれをクエリに結び付けることができました。

この場合、返される結果はすべてデンマーク語ですが、意味論的な意味がより近い場合、モデルはクエリ以外の言語でドキュメントを返すことができます。完全な柔軟性があり、数行のコードで、モデルがクエリの言語のドキュメントのみを参照するか、それともすべてのドキュメントを参照するかを指定できます。

Cohere Rerank で結果を改善する

埋め込みは非常に強力です。ただし、ここでは、クエリに対するドキュメントの関連性をスコアするようにトレーニングされた Cohere の Rerank エンドポイントを使用して、結果をさらに絞り込む方法を見ていきます。

Rerank のもう 1 つの利点は、従来のキーワード検索エンジン上で動作できることです。ベクターデータベースに変更したり、インフラストラクチャに大幅な変更を加えたりする必要はなく、必要なコードは数行だけです。リランクは以下で利用可能ですアマゾンセージメーカー.

新しいクエリを試してみましょう。今回はSageMakerを使用します。

query = "Are companies ready for the next down market?"
retrieved_docs, translated_retrieved_docs = retrieval(query)

QUERY: ARE COMPANIES READY FOR THE NEXT DOWN MARKET? ORIGINAL (Spanish): El valor en bolsa de las 100 mayores empresas cotizadas cae un 15% entre enero y marzo pero aguanta el embate del COVID-19 TRANSLATION: The stock market value of the 100 largest listed companies falls 15% between January and March but withstands the onslaught of COVID-19 ----
ORIGINAL (English): 69% of business leaders have experienced a corporate crisis in the last five years yet 29% of companies have no staff dedicated to crisis preparedness
----
ORIGINAL (English): As work sites slowly start to reopen, CFOs are concerned about the global economy and a potential new COVID-19 wave - PwC survey
----
END OF RESULTS

この場合、セマンティック検索によって回答を取得して結果に表示できましたが、それは最上位には表示されませんでした。ただし、取得したドキュメントのリストを使用してクエリを Rerank エンドポイントに再度渡すと、Rerank は最も関連性の高いドキュメントを最上位に表示できます。

まず、クライアントと Rerank エンドポイントを作成します。

# map model package arn
import boto3
cohere_package = "cohere-rerank-multilingual-v2--8b26a507962f3adb98ea9ac44cb70be1" # replace this with your info model_package_map = { "us-east-1": f"arn:aws:sagemaker:us-east-1:865070037744:model-package/{cohere_package}", "us-east-2": f"arn:aws:sagemaker:us-east-2:057799348421:model-package/{cohere_package}", "us-west-1": f"arn:aws:sagemaker:us-west-1:382657785993:model-package/{cohere_package}", "us-west-2": f"arn:aws:sagemaker:us-west-2:594846645681:model-package/{cohere_package}", "ca-central-1": f"arn:aws:sagemaker:ca-central-1:470592106596:model-package/{cohere_package}", "eu-central-1": f"arn:aws:sagemaker:eu-central-1:446921602837:model-package/{cohere_package}", "eu-west-1": f"arn:aws:sagemaker:eu-west-1:985815980388:model-package/{cohere_package}", "eu-west-2": f"arn:aws:sagemaker:eu-west-2:856760150666:model-package/{cohere_package}", "eu-west-3": f"arn:aws:sagemaker:eu-west-3:843114510376:model-package/{cohere_package}", "eu-north-1": f"arn:aws:sagemaker:eu-north-1:136758871317:model-package/{cohere_package}", "ap-southeast-1": f"arn:aws:sagemaker:ap-southeast-1:192199979996:model-package/{cohere_package}", "ap-southeast-2": f"arn:aws:sagemaker:ap-southeast-2:666831318237:model-package/{cohere_package}", "ap-northeast-2": f"arn:aws:sagemaker:ap-northeast-2:745090734665:model-package/{cohere_package}", "ap-northeast-1": f"arn:aws:sagemaker:ap-northeast-1:977537786026:model-package/{cohere_package}", "ap-south-1": f"arn:aws:sagemaker:ap-south-1:077584701553:model-package/{cohere_package}", "sa-east-1": f"arn:aws:sagemaker:sa-east-1:270155090741:model-package/{cohere_package}",
} region = boto3.Session().region_name
if region not in model_package_map.keys(): raise Exception(f"Current boto3 session region {region} is not supported.") model_package_arn = model_package_map[region] co = cohere_aws.Client(region_name=region)
co.create_endpoint(arn=model_package_arn, endpoint_name="cohere-rerank-multilingual", instance_type="ml.g4dn.xlarge", n_instances=1)

ドキュメントを Rerank に渡すと、モデルは最も関連性の高いドキュメントを正確に選択できます。

results = co.rerank(query=query, documents=retrieved_docs, top_n=1) for hit in results: print(hit.document['text'])

69% of business leaders have experienced a corporate crisis in the last five years yet 29% of companies have no staff dedicated to crisis preparedness

まとめ

この投稿では、金融サービスドメインの Amazon Bedrock で Cohere の多言語埋め込みモデルを使用するチュートリアルを紹介しました。特に、多言語金融記事検索アプリケーションの例をデモしました。埋め込みモデルによって効率的かつ正確な情報発見がどのように可能になり、それによってアナリストの生産性と出力品質が向上するかを確認しました。

Cohereの多言語埋め込みモデルは100以上の言語をサポートしています。これにより、さまざまな言語のドキュメントのコーパスを操作する必要があるアプリケーションを構築する複雑さが解消されます。の Cohere 埋め込みモデル現実世界のアプリケーションで結果を出せるように訓練されています。ノイズの多いデータを入力として処理し、複雑な RAG システムに適応し、圧縮を意識したトレーニング方法によるコスト効率を実現します。

今すぐ Amazon Bedrock で Cohere の多言語埋め込みモデルを使用して構築を開始してください。

著者について

ジェームス・イー アマゾンウェブサービスのテクノロジーパートナー COE 技術チームのシニア AI/ML パートナーソリューションアーキテクトです。彼は、企業の顧客やパートナーと協力して AI/ML アプリケーションを設計、導入、拡張してビジネス価値を引き出すことに情熱を注いでいます。仕事以外では、サッカーをしたり、旅行したり、家族と時間を過ごすことを楽しんでいます。

ゴンサロ・ベテゴン は、最先端の自然言語処理テクノロジーのプロバイダーである Cohere のソリューションアーキテクトです。彼は、組織が大規模な言語モデルの導入を通じてビジネスニーズに対処できるよう支援しています。

メオール・アメール は、最先端の自然言語処理 (NLP) テクノロジーのプロバイダーである Cohere の開発者擁護者です。彼は、開発者が Cohere の大規模言語モデル (LLM) を使用して最先端のアプリケーションを構築できるよう支援しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/

タイムスタンプ： 2024 年 1 月 12 日

タイムスタンプ： 2022 年 2 月 11 日

プラトン再発行

Amazon Kendra のおすすめの結果を使用して検索コンテンツを宣伝する

Amazon SageMaker 地理空間機能とカスタム SageMaker モデルを使用した損害評価

Amazon SageMaker Jumpstart でテキストと表形式の機能のマルチモダリティを使用したチャーン予測

AWS は、AI 戦略を計画するための新しい人工知能、機械学習、生成 AI ガイドを提供します | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー