最新のデータ アーキテクチャを実装すると、異種ソースからのデータを統合するためのスケーラブルな方法が提供されます。 インフラストラクチャではなくビジネス ドメインごとにデータを整理することで、各ドメインはニーズに合ったツールを選択できます。 組織は、継続的に革新しながら、生成 AI ソリューションを使用して最新のデータ アーキテクチャの価値を最大化できます。
自然言語機能により、技術者以外のユーザーでも、複雑な SQL ではなく会話形式の英語を使用してデータをクエリできます。 ただし、利点を最大限に活用するには、いくつかの課題を克服する必要があります。 AI と言語モデルは、適切なデータ ソースを特定し、効果的な SQL クエリを生成し、埋め込まれた結果を含む一貫した応答を大規模に生成する必要があります。 また、自然言語の質問に対応するユーザー インターフェイスも必要です。
全体として、AWS を使用して最新のデータ アーキテクチャと生成 AI 技術を実装することは、企業規模で多様で膨大なデータから重要な洞察を収集し、広めるための有望なアプローチです。 AWS の生成 AI の最新製品は次のとおりです。 アマゾンの岩盤これはフルマネージド サービスであり、基礎モデルを使用して生成 AI アプリケーションを構築および拡張する最も簡単な方法です。 AWS では、次のような基盤モデルも提供しています。 Amazon SageMaker ジャンプスタート as アマゾンセージメーカー エンドポイント。 Amazon Bedrock が提供する統合の容易さを含む大規模言語モデル (LLM) と、スケーラブルなドメイン指向のデータインフラストラクチャの組み合わせにより、これは、さまざまな分析データベースやデータレイクに保持されている豊富な情報を活用するインテリジェントな方法として位置づけられます。
この投稿では、企業が複数のデータベースと API に存在するデータ (法律データなど) を使用した最新のデータ アーキテクチャを導入したシナリオを紹介します。 Amazon シンプル ストレージ サービス (Amazon S3)、人事担当者 Amazon リレーショナル データベース サービス (Amazon RDS)、販売およびマーケティング Amazonレッドシフト、サードパーティ データ ウェアハウス ソリューション上の金融市場データ スノーフレーク、API としての製品データ。 この実装は、企業のビジネス分析、製品所有者、およびビジネス ドメインの専門家の生産性を向上させることを目的としています。 これらすべては、このドメイン メッシュ アーキテクチャで生成 AI を使用することで実現され、これにより同社はビジネス目標をより効率的に達成できるようになりました。 このソリューションには、サードパーティ モデルだけでなく、JumpStart の LLM を SageMaker エンドポイントとして含めるオプションがあります。 データ チャネルに関する基礎知識がなくても、事実に基づいた質問ができる媒体を企業ユーザーに提供することで、単純な SQL クエリから複雑な SQL クエリまでの複雑な記述を抽象化します。
ソリューションの概要
AWS の最新のデータ アーキテクチャは、人工知能と自然言語処理を適用して、複数の分析データベースにクエリを実行します。 Amazon Redshift、Amazon RDS、Snowflake などのサービスを使用することで、 アマゾンアテナ, AWSグルー、さまざまなソースからのデータを統合するためのスケーラブルなソリューションを作成します。 使用する ラングチェーン、Amazon Bedrock や JumpStart の基礎モデルなど、LLM を操作するための強力なライブラリです。 Amazon SageMakerスタジオ ノートブックでは、ユーザーが自然な英語でビジネス上の質問をし、関連するデータベースから抽出されたデータを使用して回答を受け取ることができるシステムが構築されています。
次の図は、アーキテクチャを示しています。
ハイブリッド アーキテクチャでは、複数のデータベースと LLM を使用し、データ ソースの識別、SQL 生成、および結果付きのテキスト生成のために Amazon Bedrock と JumpStart の基盤モデルを使用します。
次の図は、ソリューションの具体的なワークフロー手順を示しています。
手順は次のとおりです。
- ビジネス ユーザーが英語の質問プロンプトを提供します。
- AWS Glue クローラーは、データベースからメタデータを抽出し、テーブル定義を作成するために、頻繁な間隔で実行されるようにスケジュールされています。 AWSGlueデータカタログ。 データ カタログはチェーン シーケンス 1 に入力されます (前の図を参照)。
- LLM およびプロンプトを操作するツールである LangChain は、Studio ノートブックで使用されます。 LangChain では LLM を定義する必要があります。 チェーン シーケンス 1 の一部として、プロンプトとデータ カタログのメタデータが SageMaker エンドポイントでホストされている LLM に渡され、LangChain を使用して関連するデータベースとテーブルが識別されます。
- プロンプトと識別されたデータベースとテーブルがチェーン シーケンス 2 に渡されます。
- LangChain はデータベースへの接続を確立し、SQL クエリを実行して結果を取得します。
- 結果は LLM に渡され、データを含む英語の回答が生成されます。
- ユーザーは、さまざまなデータベースからデータをクエリするプロンプトに対して英語の回答を受け取ります。
以下のセクションでは、主要な手順のいくつかと関連するコードについて説明します。 ここに示されているすべての手順のソリューションとコードをさらに詳しく調べるには、次のドキュメントを参照してください。 GitHubレポ。 次の図は、実行される一連の手順を示しています。
前提条件
と互換性のあるデータベースを使用できます。 SQLAlchemy LLM と LangChain からの応答を生成します。 ただし、これらのデータベースにはメタデータが AWS Glue データ カタログに登録されている必要があります。 さらに、JumpStart キーまたは API キーを介して LLM にアクセスできる必要があります。
SQLAlchemy を使用してデータベースに接続する
LangChain は SQLAlchemy を使用して SQL データベースに接続します。 エンジンを作成し、各データ ソースへの接続を確立することで、LangChain の SQLDatabase 関数を初期化します。 以下は接続方法のサンプルです。 AmazonAuroraMySQL-互換性のあるエディション サーバーレス データベースには、employees テーブルのみが含まれます。
次に、ユーザーの質問に基づいてデータベースとテーブル名を識別するためにチェーン シーケンス 1 で使用されるプロンプトを構築します。
動的プロンプトテンプレートを生成する
次の手順で詳しく説明するように、メタデータ情報を保存および管理するように設計された AWS Glue データ カタログを使用して、ユーザー クエリのデータ ソースを特定し、チェーン シーケンス 1 のプロンプトを作成します。
- データ カタログは、 JDBC接続 デモンストレーションで使用されます。
- Boto3 ライブラリを使用して、複数のデータ ソースからデータ カタログの統合ビューを構築します。 以下は、Aurora MySQL データベースのデータ カタログからemployees テーブルのメタデータを取得する方法のサンプルです。
統合データ カタログには、スキーマ、テーブル名、列名などのデータ ソースに関する詳細が含まれます。 以下は、統合されたデータ カタログの出力のサンプルです。
- 統合されたデータ カタログをプロンプト テンプレートに渡し、LangChain で使用されるプロンプトを定義します。
チェーン シーケンス 1: LangChain と LLM を使用してユーザー クエリのソース メタデータを検出する
前のステップで生成したプロンプト テンプレートをプロンプトに渡し、ユーザー クエリを LangChain モデルに渡して、質問に答えるための最適なデータ ソースを見つけます。 LangChain は、ソース メタデータを検出するために選択した LLM モデルを使用します。
JumpStart またはサードパーティ モデルの LLM を使用するには、次のコードを使用します。
生成されたテキストには、ユーザー クエリが実行されるデータベース名やテーブル名などの情報が含まれています。 たとえば、ユーザー クエリ「今月の誕生日を持つすべての従業員に名前を付けてください」の場合、 generated_text
情報を持っています database == rdsmysql
および database.table == rdsmysql.employees
.
次に、人事ドメイン、Aurora MySQL データベース、従業員テーブルの詳細をチェーン シーケンス 2 に渡します。
チェーン シーケンス 2: データ ソースから応答を取得してユーザーのクエリに答える
次に、LangChain の SQL データベース チェーンを実行してテキストを SQL に変換し、生成された SQL をデータベースに対して暗黙的に実行して、単純な可読言語でデータベースの結果を取得します。
まず、構文的に正しい方言で SQL を生成し、それをデータベースに対して実行するように LLM に指示するプロンプト テンプレートを定義します。
最後に、LLM、データベース接続、およびプロンプトを SQL データベース チェーンに渡し、SQL クエリを実行します。
たとえば、ユーザー クエリ「今月の誕生日をもつすべての従業員に名前を付けてください」の場合、答えは次のようになります。
クリーンアップ
生成 AI を使用して最新のデータ アーキテクチャを実行した後は、使用されないリソースを必ずクリーンアップしてください。 使用されているデータベース (Amazon Redshift、Amazon RDS、Snowflake) をシャットダウンして削除します。 さらに、Amazon S3 内のデータを削除し、Studio ノートブック インスタンスを停止して、追加料金が発生しないようにします。 JumpStart を使用して LLM を SageMaker リアルタイム エンドポイントとしてデプロイした場合は、SageMaker コンソールまたは Studio を通じてエンドポイントを削除します。
まとめ
この投稿では、最新のデータ アーキテクチャを SageMaker 内の生成 AI および LLM と統合しました。 このソリューションでは、JumpStart のさまざまなテキスト間基礎モデルとサードパーティ モデルを使用します。 このハイブリッド アプローチでは、データ ソースを識別し、SQL クエリを作成し、クエリ結果を含む応答を生成します。 Amazon Redshift、Amazon RDS、Snowflake、LLM を使用します。 ソリューションを改善するには、データベース、英語クエリ用の UI、プロンプト エンジニアリング、およびデータ ツールを追加します。 これは、複数のデータ ストアから洞察を得るインテリジェントで統合された方法になる可能性があります。 この投稿で示されているソリューションとコードについて詳しく知りたい場合は、以下をチェックしてください。 GitHubレポ . また、参照してください。 アマゾンの岩盤 生成 AI、基礎モデル、大規模言語モデルのユースケース向け。
付録
プロンプトの例
ドメイン | データベース/API | プロンプト | SQL (LLM によって生成) | 出力 |
セールス&マーケティング | AmazonRedShift | チケットの販売枚数は何枚ですか? | SELECT COUNT(*) AS total_sales FROM tickit.sales; |
There are 172,456 ticket sales. |
セールス&マーケティング | AmazonRedShift | 2008 年のチケット販売手数料の合計はいくらですか? | SELECT SUM(commission) AS total_commission FROM tickit.sales WHERE EXTRACT(YEAR FROM saletime) = 2008 |
The total commission for ticket sales in the year 2008 was $16,614,814.65. |
リーガルポリシー | S3 | 2023 年に詐欺事件は何件発生しましたか? | SELECT count(*) FROM claims WHERE extract(year from write_time) = 2023 AND fraud = 1; |
There were 164 fraud claims in 2023. |
リーガルポリシー | S3 | 今年申請された保険金は何件ありますか? | SELECT count(*) FROM claims; |
There were 5000 claims made this year. |
人事 | Amazon オーロラ MySQL | 今月の誕生日の従業員全員に名前を付けます | SELECT * FROM employees WHERE MONTH(birth_date) = MONTH(CURRENT_DATE()); |
The employees with birthdays this month are: Christian Koblick Tzvetan Zielinski Kazuhito Cappelletti Yinghua Dredge |
人事 | Amazon オーロラ MySQL | 1990 年以前に雇用された従業員は何名ですか? | SELECT COUNT(*) AS 'Number of employees hired before 1990' FROM employees WHERE hire_date < '1990-01-01' |
29 employees were hired before 1990. |
金融と投資 | スノーフレーク | 2013 年 XNUMX 月に最高のパフォーマンスを示した銘柄と最低のパフォーマンスを示した銘柄はどれですか? | SELECT name, MAX(close) AS max_close, MIN(close) AS min_close FROM all_stocks_5yr WHERE date BETWEEN '2013-05-01' AND '2013-05-31' GROUP BY name ORDER BY max_close DESC, min_close ASC |
The stock that performed the best in May 2013 was AnySock1 (ASTOCK1) with a maximum closing price of $842.50. The stock that performed the worst was AnySock2 (ASTOCK2) with a minimum closing price of $3.22. |
金融と投資 | スノーフレーク | 2013 年 XNUMX 月に取引された株式の平均出来高はいくらですか? | SELECT AVG(volume) AS average_volume FROM all_stocks_5yr WHERE date BETWEEN '2013-07-01' AND '2013-07-31' |
The average volume of stocks traded in July 2013 was 4,374,177 |
製品 – 天気 | API | ニューヨーク市の今の天気は華氏でどのくらいですか? |
著者について
ナヴニート・トゥテジャ アマゾン ウェブ サービスのデータ スペシャリストです。 Navneet は、AWS に入社する前、データ アーキテクチャを最新化し、包括的な AI/ML ソリューションを実装しようとしている組織のファシリテーターとして働いていました。 彼女は、ターパー大学で工学の学位を取得し、テキサス A&M 大学で統計学の修士号を取得しています。
ソビック・クマール・ナス AWS の AI/ML ソリューション アーキテクトです。 彼は、財務、運用、マーケティング、ヘルスケア、サプライ チェーン管理、IoT におけるエンドツーエンドの機械学習およびビジネス分析ソリューションの設計に豊富な経験を持っています。 Sovik は、ML モデルのモニタリングに関する論文を発表し、特許を取得しています。 彼は南フロリダ大学、スイスのフリブール大学で二重の修士号を取得し、インド工科大学カラグプール校で学士号を取得しています。 仕事以外では、Sovik は旅行、フェリーの乗車、映画鑑賞を楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- EVMファイナンス。 分散型金融のための統一インターフェイス。 こちらからアクセスしてください。
- クォンタムメディアグループ。 IR/PR増幅。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 データ インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/reinventing-the-data-experience-use-generative-ai-and-modern-data-architecture-to-unlock-insights/
- :持っている
- :は
- :not
- :どこ
- $3
- $UP
- 1
- 100
- 11
- 12
- 13
- 16
- 2008
- 2013
- 2023
- 22
- 32
- 50
- 5000
- 7
- 8
- 9
- a
- 豊富な
- アクセス
- 達成する
- 達成
- 加えます
- 添加
- さらに
- に対して
- AI
- AI / ML
- 目指して
- すべて
- 許す
- 沿って
- また
- Amazon
- アマゾンRDS
- Amazonレッドシフト
- Amazon Webサービス
- an
- 分析論
- および
- 回答
- 回答
- どれか
- API
- APIキー
- API
- アプローチ
- 適切な
- 建築
- です
- 物品
- 人工の
- 人工知能
- AS
- 関連する
- At
- オーロラ
- 平均
- AWS
- AWSグルー
- ベース
- BE
- になる
- 以下
- 利点
- BEST
- の間に
- ビルド
- 内蔵
- ビジネス
- by
- 缶
- 機能
- 例
- カタログ
- チェーン
- 課題
- チャンネル
- 課金
- チェック
- 選択
- 選択する
- 市町村
- 主張した
- クレーム
- 閉じる
- 閉鎖
- コード
- コヒーレント
- コラム
- コラム
- 組み合わせ
- 委員会
- 会社
- 互換性のあります
- 複雑な
- 複雑さ
- 包括的な
- お問合せ
- 接続
- 領事
- 含む
- 含まれています
- 連続的に
- 会話
- 変換
- 正しい
- 対応する
- 可能性
- クローラー
- 作ります
- 作成します。
- 作成
- データ
- データインフラストラクチャ
- データベース
- データベースを追加しました
- 日付
- より深い
- 定義済みの
- 定義
- 定義
- 度
- 展開します
- 展開
- 設計
- 設計
- 詳細な
- 細部
- 異なります
- 異なる
- 異なる
- ドメイン
- ドメイン
- ダウン
- 描かれた
- ダイナミック
- 各
- 緩和する
- 最も簡単
- 効果的な
- 効率良く
- どちら
- 埋め込まれた
- 社員
- 可能
- 端から端まで
- エンドポイント
- エンジン
- エンジニアリング
- 英語
- 高めます
- Enterprise
- 確立する
- 確立
- 例
- 広大な
- 体験
- 専門家
- 説明する
- 広範囲
- 豊富な経験
- エキス
- ファシリテーター
- ファイナンス
- ファイナンシャル
- 金融市場
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フロリダ
- 続いて
- フォロー中
- 次
- Foundation
- 詐欺
- 頻繁な
- から
- フル
- 完全に
- function
- さらに
- 生成する
- 生成された
- 生成
- 世代
- 生々しい
- 生成AI
- 取得する
- 与える
- 与えられた
- が起こった
- 持ってる
- 持って
- he
- ヘルスケア
- ヒーロー
- こちら
- 保持している
- 主催
- 認定条件
- How To
- しかしながら
- HTML
- HTTP
- HTTPS
- 人間
- 人事
- ハイブリッド
- 識別
- 特定され
- 識別する
- 識別する
- if
- 説明する
- 実装する
- 実装
- 実装
- 改善します
- in
- include
- 含めて
- インディアン
- 情報
- インフラ関連事業
- 革新的
- 洞察
- を取得する必要がある者
- 機関
- 統合する
- 統合された
- 統合
- インテリジェンス
- インテリジェント-
- インタフェース
- に
- IOT
- IT
- ITS
- 参加
- JPG
- 7月
- キー
- キー
- 知識
- 言語
- 大
- 最新の
- 学習
- リーガルポリシー
- 図書館
- ような
- LLM
- 見て
- 機械
- 機械学習
- 製
- make
- 管理します
- マネージド
- 管理
- 多くの
- 市場
- 市場データ
- マーケティング
- マスターの
- 最大化します
- 五月..
- 意味する
- ミディアム
- メッシュ
- 方法
- 最小
- ML
- モデル
- モダン
- 近代化します
- モニタリング
- 月
- 他には?
- 動画
- の試合に
- しなければなりません
- mysqlの
- 名
- 名
- ナチュラル
- 自然言語処理
- 必要
- ニーズ
- 新作
- ニューヨーク
- ニューヨーク市
- 非技術的な
- ノート
- 今
- 数
- 目的
- of
- 提供すること
- オファー
- on
- の
- 業務執行統括
- オプション
- or
- 組織
- 整理する
- 私たちの
- でる
- 出力
- 外側
- 所有者
- 部
- パス
- 渡された
- 特許
- 実行
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポリシー
- ポジション
- ポスト
- 強力な
- 前
- ブランド
- 処理
- 作り出す
- プロダクト
- 生産性
- 有望
- 提供します
- は、大阪で
- 公表
- クエリ
- 質問
- 質問
- むしろ
- への
- 実現
- 本当に
- 受け取ります
- 受け取り
- 登録された
- 関連した
- 必要
- リソース
- 応答
- 回答
- 結果
- return
- 右
- ラン
- セージメーカー
- セールス
- Save
- ド電源のデ
- 規模
- シナリオ
- 予定の
- セクション
- を求める
- シーケンス
- サーバレス
- サービス
- サービス
- 彼女
- ショーケース
- 示す
- 作品
- シャットダウン
- 簡単な拡張で
- 溶液
- ソリューション
- 一部
- 誰か
- ソース
- ソース
- サウス
- 南フロリダ
- 専門家
- 特定の
- start
- 統計
- 手順
- ステップ
- 株式
- ストック
- Force Stop
- ストレージ利用料
- 店舗
- 店舗
- 研究
- そのような
- スーツ
- 供給
- サプライチェーン
- サプライチェーンマネジメント
- スイス
- テーブル
- 取得
- テクニック
- テクノロジー
- template
- テキサス州
- より
- それ
- 情報
- ソース
- アプリ環境に合わせて
- その後
- そこ。
- それによって
- ボーマン
- 彼ら
- サードパーティ
- サードパーティのデータ
- この
- 今年
- 介して
- チケット
- チケット販売
- 〜へ
- ツール
- 豊富なツール群
- トータル
- 取引
- 旅行
- ui
- 根本的な
- 統一
- 大学
- アンロック
- つかいます
- 中古
- ユーザー
- ユーザーインターフェース
- users
- 使用されます
- 利用された
- 値
- さまざまな
- 詳しく見る
- ボリューム
- ました
- 見ている
- 仕方..
- we
- 天気
- ウェブ
- Webサービス
- WELL
- した
- which
- while
- 意志
- 以内
- 無し
- 仕事
- 働いていました
- ワークフロー
- ワーキング
- 最悪
- 書き込み
- 年
- ヨーク
- You
- あなたの
- ゼファーネット