企業は大量のデータにアクセスできますが、データの多くは構造化されていないため、発見するのが困難です。従来の分析アプローチ 非構造化データ キーワードまたは同義語の一致を使用します。ドキュメントの完全なコンテキストを取得できないため、非構造化データを扱う際の効果が低くなります。
対照的に、テキスト埋め込みでは、 機械学習 非構造化データの意味を捉える (ML) 機能。埋め込みは、テキストを数値ベクトルに変換し、ドキュメント内のコンテキスト情報をエンコードする表現言語モデルによって生成されます。これにより、セマンティック検索などのアプリケーションが可能になります。 検索拡張生成 (RAG)、トピックモデリング、およびテキスト分類。
たとえば、金融サービス業界では、収益レポートからの洞察の抽出、財務諸表からの情報の検索、金融ニュースに含まれる株式や市場に関するセンチメントの分析などのアプリケーションが含まれます。テキストの埋め込みにより、業界の専門家はドキュメントから洞察を抽出し、エラーを最小限に抑え、パフォーマンスを向上させることができます。
この投稿では、Cohere のツールを使用して、さまざまな言語の金融ニュースを検索およびクエリできるアプリケーションを紹介します。 埋め込む および リランク のモデル アマゾンの岩盤.
Cohereの多言語埋め込みモデル
Cohere は、世界クラスの大規模言語モデル (LLM) と、コンピュータがテキストで検索、意味を取得、会話できるようにする LLM を利用したソリューションを構築する、大手エンタープライズ AI プラットフォームです。使いやすさと、強力なセキュリティとプライバシーの制御を提供します。
Cohereの多言語埋め込みモデル 100 を超える言語のドキュメントのベクトル表現を生成し、Amazon Bedrock で入手できます。これにより、AWS の顧客は API としてアクセスできるため、基盤となるインフラストラクチャを管理する必要がなくなり、機密情報が安全に管理および保護されます。
多言語モデルは、意味ベクトル空間内で互いに近い位置を割り当てることで、同様の意味を持つテキストをグループ化します。次の図に示すように、多言語埋め込みモデルを使用すると、開発者は異なるモデル間で切り替える必要なく、複数の言語でテキストを処理できます。これにより、処理がより効率的になり、多言語アプリケーションのパフォーマンスが向上します。
以下は、Cohere の埋め込みモデルのハイライトの一部です。
- 文書の品質に重点を置く – 一般的な埋め込みモデルはドキュメント間の類似性を測定するようにトレーニングされていますが、Cohere のモデルはドキュメントの品質も測定します
- RAG アプリケーションの取得の向上 – RAG アプリケーションには優れた検索システムが必要ですが、Cohere の埋め込みモデルはこれに優れています
- コスト効率の高いデータ圧縮 – Cohere は、圧縮を意識した特別なトレーニング方法を使用するため、ベクトル データベースのコストを大幅に節約できます。
テキスト埋め込みの使用例
テキスト埋め込みは、非構造化データを構造化形式に変換します。これにより、これらすべてのドキュメントを客観的に比較、分析し、洞察を得ることができます。以下は、Cohere の埋め込みモデルで可能になるユースケースの例です。
- セマンティック検索 – ベクトルデータベースと組み合わせると、検索フレーズの意味に基づいた優れた関連性を備えた強力な検索アプリケーションが可能になります
- 大規模システム用の検索エンジン – RAG システムに接続されているエンタープライズ データ ソースから最も関連性の高い情報を検索して取得します
- テキスト分類 – 意図認識、感情分析、高度な文書分析をサポート
- トピックモデリング – ドキュメントのコレクションを個別のクラスターに変換して、新たなトピックやテーマを明らかにします
リランクによる検索システムの強化
従来のキーワード検索システムがすでに存在する企業では、最新のセマンティック検索機能をどのように導入しますか?長い間企業の情報アーキテクチャの一部であったこのようなシステムの場合、埋め込みベースのアプローチへの完全な移行は、多くの場合、現実的ではありません。
Cohereの再ランクエンドポイント はこのギャップを埋めるように設計されています。これは、検索フローの第 2 段階として機能し、ユーザーのクエリごとに関連ドキュメントのランキングを提供します。企業は、第 1 段階の検索では既存のキーワード (またはセマンティック) システムを保持し、第 2 段階の再ランキングで Rerank エンドポイントを使用して検索結果の品質を高めることができます。
Rerank は、1 行のコードでセマンティック検索テクノロジーをユーザーのスタックに導入することで、検索結果を改善するための高速かつ簡単なオプションを提供します。エンドポイントには多言語サポートも付いています。次の図は、取得と再ランキングのワークフローを示しています。
ソリューションの概要
金融アナリストは、最新情報を得るために、金融出版物やニュースメディアなどの多くのコンテンツを消化する必要があります。による 金融専門家協会 (AFP)、金融アナリストは、付加価値分析ではなく、データ収集やプロセスの管理に時間の 75% を費やしています。さまざまな情報源や文書から質問に対する答えを見つけるのは、時間のかかる退屈な作業です。 Cohere埋め込みモデルを使用すると、アナリストは複数の言語で書かれた多数の記事タイトルを迅速に検索して、特定のクエリに最も関連性の高い記事を見つけてランク付けできるため、膨大な時間と労力を節約できます。
次の使用例では、Cohere の Embed モデルが 1 つの独自のパイプラインでさまざまな言語の金融ニュースを検索およびクエリする方法を紹介します。次に、Rerank を埋め込み検索に追加する (または従来の語彙検索に追加する) と結果がさらに改善される方法を示します。
サポートするノートブックは次の場所で入手できます。 GitHubの.
次の図は、アプリケーションのワークフローを示しています。
Amazon Bedrock を介したモデルへのアクセスを有効にする
Amazon Bedrock ユーザーは、モデルを使用できるようにするために、モデルへのアクセスをリクエストする必要があります。追加のモデルへのアクセスをリクエストするには、 モデルアクセス Amazon Bedrock のナビゲーション ペイン コンソール。 詳細については、を参照してください。 モデルアクセス。このチュートリアルでは、Cohere Embed Multilingual モデルへのアクセスをリクエストする必要があります。
パッケージをインストールしてモジュールをインポートする
まず、必要なパッケージをインストールし、この例で使用するモジュールをインポートします。
インポートドキュメント
15 の言語 (英語、トルコ語、デンマーク語、スペイン語、ポーランド語、ギリシャ語、フィンランド語、ヘブライ語、日本語、ハンガリー語、ノルウェー語、ロシア語、イタリア語、アイスランド語、スウェーデン語) をカバーする実際の記事見出しのリストを含むデータセット (MultiFIN) を使用します。 )。これは金融自然言語処理 (NLP) 用に厳選されたオープン ソース データセットであり、 GitHubリポジトリ.
私たちの場合、MultiFIN のデータと翻訳を含む列を含む CSV ファイルを作成しました。この列はモデルにフィードを与えるために使用しません。デンマーク語やスペイン語を話せない人のために結果を印刷するときに、それを理解するのに役立ちます。その CSV をポイントしてデータフレームを作成します。
クエリするドキュメントのリストを選択してください
MultiFIN には、6,000 の異なる言語で 15 を超えるレコードがあります。この使用例では、英語、スペイン語、デンマーク語の XNUMX つの言語に焦点を当てます。また、ヘッダーを長さで並べ替えて、最も長いものを選択します。
最も長い記事を選択しているため、その長さがシーケンスの繰り返しによるものではないことを確認します。次のコードは、その場合の例を示しています。私たちはそれをきれいにします。
df['text'].iloc[2215]
私たちのドキュメントのリストは、次の 3 つの言語に適切に分散されています。
以下は、データセット内の最長の記事ヘッダーです。
ドキュメントの埋め込みとインデックス付け
ここで、ドキュメントを埋め込み、その埋め込みを保存したいと思います。埋め込みは、ドキュメントの意味論的な意味をカプセル化する非常に大きなベクトルです。特に、3.0 次元のエンベディングを作成する Cohere の embed-multilingual-v1,024 モデルを使用します。
クエリが渡されると、そのクエリも埋め込まれ、hnswlib ライブラリを使用して最近傍を検索します。
わずか数行のコードで、Cohere クライアントを確立し、ドキュメントを埋め込み、検索インデックスを作成します。また、結果の表示を充実させるために、ドキュメントの言語と翻訳も追跡します。
検索システムを構築する
次に、クエリを入力として受け取り、それを埋め込み、クエリとより密接に関連する 4 つのヘッダーを検索する関数を構築します。
検索システムに問い合わせる
いくつかの異なるクエリを使用してシステムが何を行うかを調べてみましょう。まずは英語から始めましょう。
結果は次のとおりです。
次の点に注意してください。
- 私たちは関連しているものの、少し異なる質問をしています。このモデルは、最も関連性の高い結果を上部に表示するのに十分な微妙な違いがあります。
- 私たちのモデルはキーワードベースの検索ではなく、セマンティック検索を実行します。 「AI」ではなく「データ サイエンス」のような用語を使用している場合でも、私たちのモデルは何が質問されているかを理解し、最も関連性の高い結果を先頭に返すことができます。
デンマーク語で質問してみませんか?次のクエリを見てみましょう。
前の例では、英語の頭字語「PP&E」は「プロパティ、プラント、および設備」を表しており、モデルはそれをクエリに結び付けることができました。
この場合、返される結果はすべてデンマーク語ですが、意味論的な意味がより近い場合、モデルはクエリ以外の言語でドキュメントを返すことができます。完全な柔軟性があり、数行のコードで、モデルがクエリの言語のドキュメントのみを参照するか、それともすべてのドキュメントを参照するかを指定できます。
Cohere Rerank で結果を改善する
埋め込みは非常に強力です。ただし、ここでは、クエリに対するドキュメントの関連性をスコアするようにトレーニングされた Cohere の Rerank エンドポイントを使用して、結果をさらに絞り込む方法を見ていきます。
Rerank のもう 1 つの利点は、従来のキーワード検索エンジン上で動作できることです。ベクター データベースに変更したり、インフラストラクチャに大幅な変更を加えたりする必要はなく、必要なコードは数行だけです。リランクは以下で利用可能です アマゾンセージメーカー.
新しいクエリを試してみましょう。今回はSageMakerを使用します。
この場合、セマンティック検索によって回答を取得して結果に表示できましたが、それは最上位には表示されませんでした。ただし、取得したドキュメントのリストを使用してクエリを Rerank エンドポイントに再度渡すと、Rerank は最も関連性の高いドキュメントを最上位に表示できます。
まず、クライアントと Rerank エンドポイントを作成します。
ドキュメントを Rerank に渡すと、モデルは最も関連性の高いドキュメントを正確に選択できます。
まとめ
この投稿では、金融サービスドメインの Amazon Bedrock で Cohere の多言語埋め込みモデルを使用するチュートリアルを紹介しました。特に、多言語金融記事検索アプリケーションの例をデモしました。埋め込みモデルによって効率的かつ正確な情報発見がどのように可能になり、それによってアナリストの生産性と出力品質が向上するかを確認しました。
Cohereの多言語埋め込みモデルは100以上の言語をサポートしています。これにより、さまざまな言語のドキュメントのコーパスを操作する必要があるアプリケーションを構築する複雑さが解消されます。の Cohere 埋め込みモデル 現実世界のアプリケーションで結果を出せるように訓練されています。ノイズの多いデータを入力として処理し、複雑な RAG システムに適応し、圧縮を意識したトレーニング方法によるコスト効率を実現します。
今すぐ Amazon Bedrock で Cohere の多言語埋め込みモデルを使用して構築を開始してください。
著者について
ジェームス・イー アマゾン ウェブ サービスのテクノロジー パートナー COE 技術チームのシニア AI/ML パートナー ソリューション アーキテクトです。彼は、企業の顧客やパートナーと協力して AI/ML アプリケーションを設計、導入、拡張してビジネス価値を引き出すことに情熱を注いでいます。仕事以外では、サッカーをしたり、旅行したり、家族と時間を過ごすことを楽しんでいます。
ゴンサロ・ベテゴン は、最先端の自然言語処理テクノロジーのプロバイダーである Cohere のソリューション アーキテクトです。彼は、組織が大規模な言語モデルの導入を通じてビジネス ニーズに対処できるよう支援しています。
メオール・アメール は、最先端の自然言語処理 (NLP) テクノロジーのプロバイダーである Cohere の開発者擁護者です。彼は、開発者が Cohere の大規模言語モデル (LLM) を使用して最先端のアプリケーションを構築できるよう支援しています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/build-financial-search-applications-using-the-amazon-bedrock-cohere-multilingual-embedding-model/
- :持っている
- :は
- :not
- :どこ
- $UP
- 000
- 1
- 10
- 100
- 11
- 13
- 視聴者の38%が
- 16
- 2030
- 22
- 29
- 33
- 7
- 8
- 80
- 9
- a
- できる
- 私たちについて
- アクセス
- 従った
- 正確な
- 正確にデジタル化
- 達成する
- 越えて
- 使徒行伝
- 適応する
- 追加
- NEW
- 住所
- 高度な
- 利点
- 支持者
- AFP
- 再び
- に対して
- AI
- AIプラットフォーム
- AI / ML
- すべて
- 許す
- ことができます
- 沿って
- 既に
- また
- Amazon
- Amazon Webサービス
- 量
- 金額
- an
- 分析
- アナリスト
- アナリスト
- 分析する
- および
- 回答
- API
- 申し込み
- アプローチ
- アプローチ
- 建築
- です
- 記事
- 物品
- AS
- 質問
- At
- 増強された
- 利用できます
- AWS
- ベース
- なぜなら
- き
- さ
- より良いです
- の間に
- ブロック
- ブースト
- 後押し
- Brexit
- BRIDGE
- ビルド
- 建物
- 構築します
- ビジネス
- ビジネスリーダー
- ビジネス
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- 機能
- キャプチャー
- 場合
- 例
- 天井
- CFO
- 挑戦する
- 課題
- 変化する
- 変更
- 選択する
- 分類
- クライアント
- 閉じる
- 密接に
- クローザー
- CO
- コード
- コレクション
- コラム
- comes
- 企業
- 会社の
- 比較します
- コンプリート
- 複雑な
- 複雑さ
- コンピューター
- 心配
- お問合せ
- 交流
- コンテンツ
- コンテキスト
- 文脈上の
- コントラスト
- controls
- 従来の
- 企業
- 費用
- コスト削減
- 可能性
- カップル
- 結合しました
- カバーする
- コロナ
- 作ります
- 作成した
- 作成します。
- クレジット
- 危機
- 基準
- キュレーション
- 電流プローブ
- Customers
- 最先端
- サイバーセキュリティ
- デンマーク語
- デンマーク
- データ
- データサイエンス
- データベース
- de
- 締め切り
- 取引
- 専用の
- インクルード
- 配信する
- 結果を出す
- 提供します
- 実証します
- 実証
- 展開します
- 展開
- 預金
- 派生する
- 設計
- 設計
- Developer
- 開発者
- 開発
- 異なります
- 難しい
- ダイジェスト
- 大きさ
- 発見する
- 発見
- ディスプレイ
- 明確な
- 配布
- ディストリビューション
- do
- ドキュメント
- ドキュメント
- ありません
- ドメイン
- ドント
- ダウン
- ドライブ
- 原因
- e
- 各
- 早い
- 利益
- 緩和する
- 使いやすさ
- 経済
- 効果的な
- 効率的な
- 努力
- el
- 排除
- ほかに
- 埋め込みます
- 埋め込み
- 新興の
- 排出量
- 従業員
- enable
- 可能
- end
- エンドポイント
- 婚約
- エンジン
- 英語
- 巨大な
- 十分な
- 豊かにする
- 確保
- 確実に
- Enterprise
- 企業
- 環境
- 装置
- エラー
- IT G
- 確立する
- さらに
- 例
- 優れた
- 既存の
- 経験豊かな
- 探る
- エキス
- フォールズ
- 家族
- スピーディー
- 実行可能な
- 少数の
- フィギュア
- File
- ファイナンシャル
- 金融ニュース
- 金融業務
- もう完成させ、ワークスペースに掲示しましたか?
- 発見
- 発見
- フィンランド語
- 五
- 柔軟性
- フロー
- フォーカス
- フォロー中
- 次
- フォーム
- 発見
- 4
- フリスト
- から
- フル
- function
- さらに
- ギャップ
- GAS
- 集まり
- 国内総生産
- 生成された
- 生成
- グローバル
- 世界経済
- Go
- 目標
- 行く
- 良い
- ギリシャ語
- グループの
- ガイド
- ハンドル
- 持ってる
- he
- ヘッダーの
- ヘッドライン
- ヘブライ語の
- 助けます
- ことができます
- ハイライト
- 彼の
- ヒット
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- ハンガリー語
- i
- if
- 説明する
- 実装
- import
- 改善します
- 向上させる
- 改善
- in
- include
- 増える
- index
- 産業を変えます
- info
- 情報
- 情報に基づく
- インフラ
- 入力
- 洞察
- install
- を取得する必要がある者
- 統合する
- 統合
- 意図
- に
- 紹介する
- 導入
- IP
- IT
- イタリアの
- ITS
- 1月
- 日本語
- Jobs > Create New Job
- JPG
- ただ
- キープ
- 風景
- 言語
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- より大きい
- 最大の
- LAS
- 姓
- 最新の
- リーダー
- 主要な
- リース
- Legacy
- 立法
- 立法提案
- 長さ
- less
- 図書館
- ような
- LINE
- ライン
- リスト
- リストされた
- ローン
- 長い
- 長い時間
- 見て
- インクルード
- たくさん
- メイン
- make
- 作る
- 作成
- man
- 管理します
- マネージド
- 管理
- 多くの
- 地図
- 3月
- 市場
- 時価
- マーケット
- 大規模な
- マッチング
- 意味
- 意味
- だけど
- 措置
- メディア
- 大会
- ご相談
- 単なる
- 方法
- 移行
- ML
- モード
- モデリング
- モデル
- モダン
- モジュール
- 他には?
- もっと効率的
- 最も
- ずっと
- の試合に
- 名
- ナチュラル
- 自然言語処理
- ナビゲーション
- 必要
- 必要
- ニーズ
- 隣人
- 新作
- ニュース
- 次の
- NLP
- いいえ
- ノルウェー語
- ノート
- 今
- 多数の
- NY
- NYE
- NYT
- 客観的に
- of
- on
- ONE
- もの
- の
- 猛攻撃
- 開いた
- オープンソース
- オプション
- or
- 注文
- 組織
- オリジナル
- OS
- その他
- 私たちの
- 出力
- 外側
- が
- パッケージ
- パッケージ
- パンダ
- ペイン
- 部
- 特定の
- パートナー
- パートナー
- パス
- 渡された
- 情熱的な
- 支払い
- 給与
- 以下のために
- 実行する
- パフォーマンス
- 選ぶ
- ピッキング
- パイプライン
- 計画
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- ポッドキャスト
- ポイント
- ポーランド語
- ポジション
- ポスト
- 潜在的な
- 強力な
- 先行
- 現在
- PLM platform.
- 校長
- 印刷物
- プライバシー
- プロセス
- 処理
- 生産性
- 専門家
- 進捗
- 財産
- 提案
- 保護された
- 提供します
- プロバイダー
- は、大阪で
- 出版物
- 目的
- PWC
- 品質
- クエリ
- 質問
- 質問
- すぐに
- R
- 上げる
- ランク
- ランキング
- RE
- 準備
- 現実の世界
- 認識
- 記録
- 減らします
- 参照
- リファイン
- 改革
- 地域
- 関連する
- 関連性
- 関連した
- 残る
- 残っている
- 除去する
- 再び開きます
- 繰り返される
- replace
- 各種レポート作成
- レポート
- 要求
- 必要とする
- 結果
- 結果として
- 結果
- リテンションを維持
- return
- 返す
- ロシア
- s
- セージメーカー
- 節約
- 貯蓄
- 見ました
- 規模
- 科学
- スコア
- を検索
- 検索エンジン
- 検索
- 検索
- SEC
- 二番
- しっかりと
- セキュリティ
- 選択
- シニア
- 敏感な
- 感情
- サービス
- セッション
- 株主
- すべき
- ショーケース
- 作品
- 同様の
- サイト
- わずかに異なる
- ゆっくり
- サッカー
- ソリューション
- 一部
- ソース
- ソース
- スペース
- スペイン語
- 話す
- 特別
- 過ごす
- 支出
- スタック
- スタッフ
- ステージ
- 標準
- スタンド
- start
- 起動
- 文
- 滞在
- 株式
- 株式市場
- ストック
- 店舗
- 簡単な
- 戦略
- 強い
- 構造化された
- かなりの
- そのような
- サポート
- サポート
- 支援する
- サポート
- 表面
- Survey
- 3つの柱
- 持続可能な
- 持続可能な発展
- スウェーデン語
- スイッチ
- 同義語
- システム
- 取り
- ターゲット
- 税金
- チーム
- テク
- テクノロジー
- 期間
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- テキスト分類
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- そこ。
- それによって
- ボーマン
- 彼ら
- この
- それらの
- 三
- 介して
- 時間
- タイトル
- 〜へ
- 今日
- top
- トピック
- トピック
- 追跡する
- 訓練された
- トレーニング
- 翻訳する
- インタビュー
- 旅行
- 試します
- トルコ語
- 順番
- ターン
- 典型的な
- UN
- 明らかにする
- 根本的な
- わかる
- ユニーク
- URL
- us
- つかいます
- 使用事例
- users
- 使用されます
- 値
- 多様
- 非常に
- ウォークスルー
- 欲しいです
- ました
- ウェーブ
- 仕方..
- we
- ウェブ
- Webサービス
- WELL
- この試験は
- いつ
- かどうか
- which
- 誰
- 意志
- 無し
- 仕事
- ワークフロー
- ワーキング
- 世界
- ワールドクラス
- 年
- まだ
- You
- あなたの
- ゼファーネット