複雑なクエリの生成、自己修正、および多様なデータソースのクエリを実行する、堅牢な Text-to-SQL ソリューションを構築する |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

構造化照会言語 (SQL) は、データベースとメタデータの理解を必要とする複雑な言語です。今日、 generative AI SQL の知識がない人でも使用できるようになります。この生成 AI タスクは text-to-SQL と呼ばれ、自然言語処理 (NLP) から SQL クエリを生成し、テキストを意味的に正しい SQL に変換します。この投稿のソリューションは、自然言語を使用してデータへのパスを短縮することで、エンタープライズ分析の運用を次のレベルに引き上げることを目的としています。

大規模言語モデル (LLM) の出現により、NLP ベースの SQL 生成は大きな変革を遂げました。 LLM は優れたパフォーマンスを示し、自然言語記述から正確な SQL クエリを生成できるようになりました。しかし、課題はまだ残っています。まず、人間の言語は本質的に曖昧で文脈に依存しますが、SQL は正確で数学的で構造化されています。このギャップにより、ユーザーのニーズが生成される SQL に不正確に変換される可能性があります。次に、データは単一のターゲットに保存されないことが多いため、データベースごとに text-to-SQL 機能を構築する必要がある場合があります。ユーザーが NLP ベースの SQL を生成できるようにするには、データベースごとに機能を再作成する必要がある場合があります。 3 番目に、データレイクやウェアハウスなどの集中分析ソリューションの採用が増えているにもかかわらず、目的のソースの SQL を作成するために必要なテーブル名やその他のメタデータが異なるため、複雑さが増しています。したがって、包括的で高品質のメタデータを収集することも依然として課題です。 text-to-SQL のベストプラクティスと設計パターンの詳細については、次を参照してください。エンタープライズデータからの価値の生成: Text2SQL と生成 AI のベストプラクティス.

私たちのソリューションは、次の方法を使用してこれらの課題に対処することを目的としています。アマゾンの岩盤および AWS 分析サービス。を使用しております人間的クロード v2.1 Amazon Bedrock に LLM として登録されています。この課題に対処するために、当社のソリューションではまずデータソースのメタデータを AWSGlueデータカタログ生成された SQL クエリの精度を向上させます。ワークフローには、SQL の問題が特定された場合に備えて、最終的な評価と修正のループも含まれています。アマゾンアテナ、SQL エンジンとしてダウンストリームで使用されます。 Athena を使用すると、さまざまな機能を使用できます。サポートされているエンドポイントとコネクタ大規模なデータソースセットをカバーします。

ソリューションを構築する手順を確認した後、さまざまな SQL 複雑さレベルでのいくつかのテストシナリオの結果を示します。最後に、さまざまなデータソースを SQL クエリに簡単に組み込む方法について説明します。

ソリューションの概要

私たちのアーキテクチャには、データベースメタデータを備えた検索拡張生成 (RAG)、複数ステップの自己修正ループ、SQL エンジンとしての Athena という 3 つの重要なコンポーネントがあります。

RAG メソッドを使用してテーブルの説明とスキーマの説明 (列) を AWS Glue メタストアから取得し、リクエストが適切なテーブルとデータセットに関連していることを確認します。私たちのソリューションでは、デモンストレーションの目的で、AWS Glue データカタログを使用して RAG フレームワークを実行するための個別のステップを構築しました。ただし、次のこともできます知識ベース Amazon Bedrock を使用して RAG ソリューションを迅速に構築します。

マルチステップコンポーネントにより、LLM は生成された SQL クエリを正確に修正できるようになります。ここでは、生成された SQL が構文エラーのために送信されます。 Athena エラーメッセージを使用して LLM のプロンプトを強化し、生成された SQL をより正確かつ効果的に修正します。

Athena から時折送信されるエラーメッセージは、フィードバックのようなものであると考えることができます。エラー修正ステップのコストへの影響は、提供される価値に比べれば無視できます。これらの修正手順を教師あり強化学習の例として含めて、LLM を微調整することもできます。ただし、わかりやすくするために、この投稿ではこのフローについては説明しませんでした。

不正確さのリスクが常に存在することに注意してください。これは生成 AI ソリューションには当然伴うものです。 Athena エラーメッセージがこのリスクを軽減するのに非常に効果的である場合でも、人によるフィードバックや微調整用のクエリ例などのコントロールやビューを追加して、そのようなリスクをさらに最小限に抑えることができます。

Athena を使用すると、SQL クエリを修正できるだけでなく、スポークが複数のデータソースとなるハブとして機能するため、全体的な問題も簡素化されます。アクセス管理、SQL 構文などはすべて Athena 経由で処理されます。

次の図は、ソリューションのアーキテクチャを示しています。

図 1. ソリューションのアーキテクチャとプロセスフロー。

プロセスフローには次の手順が含まれます。

AWS Glue データカタログを作成する AWS Glue クローラーを使用する (または別の方法)。
使い方 Amazon Bedrock の Titan-Text-Embeddings モデル、メタデータを埋め込みに変換し、 Amazon OpenSearch サーバーレスベクトルストア、RAG フレームワークのナレッジベースとして機能します。

この段階で、プロセスは自然言語でクエリを受け取る準備ができています。ステップ 7 ～ 9 は、該当する場合、修正ループを表します。

ユーザーは自然言語でクエリを入力します。任意の Web アプリケーションを使用してチャット UI を提供できます。したがって、この投稿では UI の詳細については説明しませんでした。
このソリューションは、RAG フレームワークを次の方法で適用します。類似性検索これにより、ベクターデータベースのメタデータから追加のコンテキストが追加されます。このテーブルは、正しいテーブル、データベース、属性を検索するために使用されます。
クエリはコンテキストとマージされ、に送信されます。人間的クロード v2.1 Amazon ベッドロックで。
モデルは生成された SQL クエリを取得し、Athena に接続して構文を検証します。
Athena が構文が正しくないことを示すエラーメッセージを表示した場合、モデルは Athena の応答からのエラーテキストを使用します。
新しいプロンプトには、Athena の応答が追加されます。
モデルは修正された SQL を作成し、プロセスを続行します。この繰り返しは複数回実行できます。
最後に、Athena を使用して SQL を実行し、出力を生成します。ここで、出力がユーザーに表示されます。アーキテクチャを簡素化するために、このステップは示しませんでした。

前提条件

この投稿では、次の前提条件を完了する必要があります。

一つ持っている AWSアカウント.
インストールを開始する　 AWSコマンドラインインターフェイス（AWS CLI）。
セットアップ Python 用 SDK (Boto3).
AWS Glue データカタログを作成する AWS Glue クローラーを使用する (または別の方法)。
使い方 Amazon Bedrock の Titan-Text-Embeddings モデル、メタデータを埋め込みに変換し、OpenSearch サーバーレスに保存します。ベクトルストア.

ソリューションを実装する

次のものを使用できます Jupyter Notebookこれには、ソリューションを構築するための、このセクションで提供されるすべてのコードスニペットが含まれています。使用することをお勧めします Amazon SageMakerスタジオ Python 3 (データサイエンス) カーネルを備えた ml.t3.medium インスタンスでこのノートブックを開きます。手順については、を参照してください。機械学習モデルをトレーニングする。ソリューションをセットアップするには、次の手順を実行します。

OpenSearch Service で RAG フレームワークのナレッジベースを作成します。

def add_documnets(self,index_name: str,file_name:str):

documents = JSONLoader(file_path=file_name, jq_schema='.', text_content=False, json_lines=False).load()
docs = OpenSearchVectorSearch.from_documents(embedding=self.embeddings, opensearch_url=self.opensearch_domain_endpoint, http_auth=self.http_auth, documents=documents, index_name=index_name, engine="faiss")
index_exists = self.check_if_index_exists(index_name,aws_region,opensearch_domain_endpoint,http_auth)
if not index_exists :
logger.info(f'index :{index_name} is not existing ')
sys.exit(-1)
else:
logger.info(f'index :{index_name} Got created')

プロンプトを作成します (final_question) ユーザー入力を自然言語で結合することにより (user_query)、ベクターストアからの関連メタデータ (vector_search_match) および当社の指示 (details):

def userinput(user_query):
logger.info(f'Searching metadata from vector store')

# vector_search_match=rqst.getEmbeddding(user_query)
vector_search_match = rqst.getOpenSearchEmbedding(index_name,user_query)

# print(vector_search_match)
details = "It is important that the SQL query complies with Athena syntax. 
During join if column name are same please use alias ex llm.customer_id 
in select statement. It is also important to respect the type of columns: 
if a column is string, the value should be enclosed in quotes. 
If you are writing CTEs then include all the required columns. 
While concatenating a non string column, make sure cast the column to string. 
For date columns comparing to string , please cast the string input."
final_question = "nnHuman:"+details + vector_search_match + user_query+ "nnAssistant:"
answer = rqst.generate_sql(final_question)
return answer

LLM (Claude v2) 用に Amazon Bedrock を呼び出し、SQL クエリを生成するように求めます。次のコードでは、自己修正手順を説明するために複数の試行を行っています。x

try:
logger.info(f'we are in Try block to generate the sql and count is :{attempt + 1}')
generated_sql = self.llm.predict(prompt)
query_str = generated_sql.split("```")[1]
query_str = " ".join(query_str.split("n")).strip()
sql_query = query_str[3:] if query_str.startswith("sql") else query_str

# return sql_query
syntaxcheckmsg=rqstath.syntax_checker(sql_query)
if syntaxcheckmsg=='Passed':
logger.info(f'syntax checked for query passed in attempt number :{attempt + 1}')
return sql_query

生成された SQL クエリで問題が発生した場合 ({sqlgenerated}) Athena の応答から ({syntaxcheckmsg})、新しいプロンプト (prompt) が応答に基づいて生成され、モデルは新しい SQL の生成を再試行します。

else:
prompt = f"""{prompt} 
This is syntax error: {syntaxcheckmsg}.
To correct this, please generate an alternative SQL query which will correct the syntax error. The updated query should take care of all the syntax issues encountered. Follow the instructions mentioned above to remediate the error.
Update the below SQL query to resolve the issue:
{sqlgenerated}
Make sure the updated SQL query aligns with the requirements provided in the initial question."""
prompts.append(prompt)

SQL が生成された後、Athena クライアントが起動されて実行され、出力が生成されます。

query_execution = self.athena_client.start_query_execution(
QueryString=query_string,
ResultConfiguration=result_config,
QueryExecutionContext=query_execution_context, )
execution_id = query_execution["QueryExecutionId"]

ソリューションをテストする

このセクションでは、さまざまなサンプルシナリオでソリューションを実行し、さまざまな複雑さの SQL クエリをテストします。

text-to-SQL をテストするには、2 つのメソッドを使用します。データセットは IMDB から入手できます。 IMDb データのサブセットは、個人および非営利目的で使用できます。データセットをダウンロードして保存できます。 Amazon シンプルストレージサービス (アマゾンS3)。次の Spark SQL スニペットを使用して、AWS Glue でテーブルを作成できます。この例では、 title_ratings および title:

source_title_ratings3_path = 's3://llm-athena-output/input_data/title.ratings.tsv'
target_title_s3_path='s3://llm-athena-output/output_data/imdb_stg/title_ratings'
source_titleratingdf=spark.read.csv(source_title_ratings3_path,sep="t",header=True)
source_titleratingdf.write.mode('overwrite').format('parquet').option('path', target_title_s3_path).saveAsTable('imdb_stg.title_ratings')

データを Amazon S3 に保存し、メタデータを AWS Glue に保存する

このシナリオでは、データセットは S3 バケットに保存されます。 Athena には、クエリ可能なデータソースとして Amazon S3 を使用できる S3 コネクタがあります。.

最初のクエリでは、「私はこれを初めて知ります。」という入力を提供します。 imdb スキーマ内のすべてのテーブルと列を表示するのを手伝ってもらえますか?」

生成されたクエリは次のとおりです。

WITH tables AS (
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'imdb_stg'),
columns AS (
SELECT
c.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM information_schema.columns c
WHERE c.table_schema = 'imdb_stg')
SELECT
t.table_name,
c.column_name,
c.data_type,
c.is_nullable,
c.column_default,
c.ordinal_position
FROM tables t
INNER JOIN columns c
ON t.table_name = c.table_name
ORDER BY
t.table_name,
c.ordinal_position
LIMIT 10;

次のスクリーンショットとコードは出力を示しています。

IMBD データセットの例の属性を示す表。

table_name column_name data_type
0 title titleid varchar
1 title ordering integer
2 title title varchar
3 title region varchar
4 title language varchar

9.5 番目のクエリでは、「米国地域でレーティングが XNUMX を超えるタイトルと詳細をすべて表示してください」と質問します。

以下は生成されたクエリです。

WITH us_titles AS (
SELECT t.title, t.region, tr.averageRating, tr.numVotes
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.region = 'US' AND cast(tr.averageRating as varchar) > '9.5'
)
SELECT title, region, averageRating, numVotes
FROM us_titles
LIMIT 100;

応答は次のとおりです。

SQLクエリの結果を示す表

title region averageRating numVotes
0 The Way You Saw Me US 9.7 8
1 The Brother Side of the Wake US 9.6 20
2 Ignis Fatuus US 9.6 11
3 Love and Hip Hop Atlanta US 9.9 11
4 ronny/lily US 9.7 14781

7.5 番目のクエリでは、「素晴らしい反応!」と入力します。では、レーティングが XNUMX を超え、米国地域ではないオリジナルタイプのタイトルをすべて見せてください。」

次のクエリが生成されます。

WITH titles AS (
SELECT t.titleId,
t.title,
t.types,
t.isOriginalTitle,
cast(tr.averageRating as decimal(3,1)) as averageRating,
tr.numVotes,
t.region
FROM imdb_stg.title t
INNER JOIN imdb_stg.title_ratings tr
ON t.titleId = tr.tconst
WHERE t.isOriginalTitle = '1'
AND cast(tr.averageRating as decimal(3,1)) > 7.5
AND t.region != 'US')
SELECT *
FROM titles
LIMIT 100;

次の結果が得られます。

SQL クエリの結果を示す 1 行。

titleId title types isOriginalTitle averageRating numVotes region
0 tt0986264 Taare Zameen Par original 1 8.3 203760 XWW

自己修正された SQL を生成する

このシナリオは、構文上の問題がある SQL クエリをシミュレートします。ここで、生成された SQL は、Athena からの応答に基づいて自己修正されます。次の応答で、アテナは次のように答えました。 COLUMN_NOT_FOUND エラーがあり、それについて言及しました table_description 解決できません:

Status : {'State': 'FAILED', 'StateChangeReason': "COLUMN_NOT_FOUND: line 1:50: Column 'table_description' 
cannot be resolved or requester is not authorized to access requested resources",
'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 501000, tzinfo=tzlocal()),
'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 38, 57, 778000, tzinfo=tzlocal()),
'AthenaError': {'ErrorCategory': 2, 'ErrorType': 1006, 'Retryable': False, 'ErrorMessage': "COLUMN_NOT_FOUND: 
line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to 
access requested resources"}}
COLUMN_NOT_FOUND: line 1:50: Column 'table_description' cannot be resolved or requester is not authorized to access requested resources
Try Count: 2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,Try Count: 2
we are in Try block to generate the sql and count is :2
2024-01-14 14:39:02,521,llm_execute,MainProcess,INFO,we are in Try block to generate the sql and count is :2
Executing: Explain WITH tables AS ( SELECT table_name FROM information_schema.tables WHERE table_schema = 'imdb_stg' ), columns AS ( SELECT c.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM information_schema.columns c WHERE c.table_schema = 'imdb_stg' ) SELECT t.table_name, c.column_name, c.data_type, c.is_nullable, c.column_default, c.ordinal_position FROM tables t INNER JOIN columns c ON t.table_name = c.table_name ORDER BY t.table_name, c.ordinal_position LIMIT 10;
I am checking the syntax here
execution_id: 904857c3-b7ac-47d0-8e7e-6b9d0456099b
Status : {'State': 'SUCCEEDED', 'SubmissionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 29, 537000, tzinfo=tzlocal()), 'CompletionDateTime': datetime.datetime(2024, 1, 14, 14, 39, 30, 183000, tzinfo=tzlocal())}
syntax checked for query passed in tries number :2

他のデータソースでソリューションを使用する

他のデータソースでソリューションを使用するには、Athena がジョブを処理します。これを行うために、Athena は次を使用します。データソースコネクタで使用できるフェデレーションクエリ。コネクタは、Athena クエリエンジンの拡張機能と考えることができます。事前に構築された Athena データソースコネクタは、次のようなデータソース用に存在します。 Amazon CloudWatchログ, Amazon DynamoDB, Amazon DocumentDB（MongoDB互換性あり）, Amazon リレーショナルデータベースサービス (Amazon RDS)、Apache 2.0 ライセンスに基づく MySQL や PostgreSQL などの JDBC 準拠のリレーショナルデータソース。任意のデータソースへの接続をセットアップしたら、前述のコードベースを使用してソリューションを拡張できます。詳細については、以下を参照してください。 Amazon Athena の新しいフェデレーテッドクエリを使用して任意のデータソースをクエリします.

クリーンアップ

リソースをクリーンアップするには、次のことから始めます。 S3バケットをクリーンアップするデータが存在する場所。アプリケーションが Amazon Bedrock を呼び出さない限り、コストは発生しません。インフラストラクチャ管理のベストプラクティスのために、このデモで作成されたリソースを削除することをお勧めします。

まとめ

この投稿では、NLP を使用して、Athena で有効になっているさまざまなリソースを使用して複雑な SQL クエリを生成できるソリューションを紹介しました。また、下流プロセスからのエラーメッセージに基づく複数ステップの評価ループを通じて、生成された SQL クエリの精度も向上しました。さらに、AWS Glue データカタログのメタデータを使用して、RAG フレームワークを介したクエリで尋ねられるテーブル名を検討しました。次に、クエリの複雑さのレベルが異なるさまざまな現実的なシナリオでソリューションをテストしました。最後に、このソリューションを Athena でサポートされているさまざまなデータソースに適用する方法について説明しました。

Amazon Bedrock はこのソリューションの中心です。 Amazon Bedrock は、多くの生成 AI アプリケーションの構築に役立ちます。 Amazon Bedrock の使用を開始するには、次のクイックスタートに従うことをお勧めします。 GitHubレポそして、生成 AI アプリケーションの構築に慣れてください。試してみることもできます知識ベースこのような RAG ソリューションを迅速に構築するには、Amazon Bedrock を使用します。

著者について

複雑なクエリを生成し、自己修正し、多様なデータソースをクエリする、堅牢なテキストから SQL へのソリューションを構築します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 サンジーブパンダ Amazon のデータおよび ML エンジニアです。 AI/ML、データサイエンス、ビッグデータの背景を持つ Sanjeeb は、複雑な技術的課題を解決し、Amazon でビジネスを管理する世界的なサードパーティ販売業者の戦略的目標を達成する革新的なデータおよび ML ソリューションを設計および開発しています。 Amazon でのデータおよび ML エンジニアとしての仕事以外では、Sanjeeb Panda は熱心なグルメと音楽愛好家です。

複雑なクエリを生成し、自己修正し、多様なデータソースをクエリする、堅牢なテキストから SQL へのソリューションを構築します。アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 ブラク・ゴズルクル マサチューセッツ州ボストンに拠点を置く、プリンシパル AI/ML スペシャリストソリューションアーキテクトです。彼は、戦略的顧客が AWS テクノロジー、特にジェネレーティブ AI ソリューションを導入してビジネス目標を達成できるよう支援しています。 Burak は、METU で航空宇宙工学の博士号を取得し、システムエンジニアリングの修士号を取得し、マサチューセッツ州ケンブリッジの MIT でシステムダイナミクスの博士研究員を取得しています。 Burak は今でも MIT の研究員です。 Burak はヨガと瞑想に情熱を注いでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/build-a-robust-text-to-sql-solution-generating-complex-queries-self-correcting-and-querying-diverse-data-sources/

タイムスタンプ： 2024 年 2 月 28 日

タイムスタンプ： 2022 年 12 月 16 日

プラトン再発行

AWS を使用した顧客感情のリアルタイム分析

ThirdAI と AWS Graviton を使用して CPU 上で大規模なニューラルネットワークトレーニングを加速する |アマゾンウェブサービス

大規模なモデル推論コンテナを使用して AWS Inferentia2 に大規模な言語モデルをデプロイする

AWS AI サービスを使用したインテリジェントなドキュメント処理: パート 2

Amazon SageMaker 自動モデル調整は、Hyperband を使用して最大 XNUMX 倍高速なハイパーパラメータ調整を提供するようになりました

Amazon Transcribe のカスタム語彙を使用して、顧客エージェントの通話の文字起こしの精度を向上させる

Fortuna のご紹介: 不確実性の定量化のためのライブラリ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー