Amazon SageMaker Data Wrangler を使用して生成 AI のデータ準備を簡素化する

プラトン再発行

フォロワー： 0

生成人工知能 (generative AI) モデルは、高品質のテキスト、画像、その他のコンテンツを生成する優れた機能を実証しています。ただし、これらのモデルがその可能性を最大限に発揮するには、大量のクリーンで構造化されたトレーニングデータが必要です。実際のデータのほとんどは PDF などの非構造化形式で存在するため、効果的に使用するには前処理が必要です。

による IDC, 現在、非構造化データはビジネスデータ全体の 80% 以上を占めています。これには、電子メール、PDF、スキャンしたドキュメント、画像、音声、ビデオなどの形式が含まれます。このデータには貴重な洞察が含まれていますが、その非構造化の性質により、AI アルゴリズムがデータを解釈して学習することが困難になります。によるとデロイトによる 2019 年の調査、非構造化データを活用できたと報告した企業はわずか 18% でした。

AI の導入が加速し続けるにつれ、非構造化データを消化して学習するための効率的なメカニズムを開発することが今後さらに重要になります。これには、より優れた前処理ツール、半教師あり学習技術、自然言語処理の進歩が含まれる可能性があります。非構造化データを最も効果的に使用する企業は、AI によって大きな競争上の優位性を得ることができます。モデルのパフォーマンスを向上させるには、クリーンなデータが重要です。抽出されたテキストには、依然として大量の意味不明な定型テキストが含まれています (HTML を読むなど)。インターネットからスクレイピングされたデータには、多くの重複が含まれることがよくあります。ソーシャルメディア、レビュー、またはユーザー生成コンテンツからのデータには、有害で偏ったコンテンツが含まれている可能性があるため、いくつかの前処理手順を使用してそれらを除外する必要がある場合があります。また、低品質のコンテンツやボットが生成したテキストが多数存在する可能性もありますが、これらは付随するメタデータを使用して除外できます (顧客評価が低い顧客サービスの応答を除外するなど)。

データの準備は、検索拡張生成の複数の段階で重要です (RAG）モデル。ナレッジソースドキュメントには、効率的にインデックスを作成して取得できるように、テキストのクリーニングやセマンティック埋め込みの生成などの前処理が必要です。ユーザーの自然言語クエリにも前処理が必要なので、ベクトルにエンコードしてドキュメントの埋め込みと比較できます。関連するコンテキストを取得した後、ユーザーのクエリに連結して基礎モデルの最終プロンプトを作成する前に、切り捨てなどの追加の前処理が必要になる場合があります。 Amazon SageMaker キャンバスを活用した包括的なデータ準備機能をサポートするようになりました。 AmazonSageMakerデータラングラー。この統合により、SageMaker Canvas は、データを準備し、ML および基盤モデルを構築および使用して、データからビジネスの洞察を得るまでの時間を短縮するためのエンドツーエンドのノーコードワークスペースを顧客に提供します。 50 を超えるデータソースからデータを簡単に検出して集計し、SageMaker Canvas のビジュアルインターフェイスで 300 を超える組み込みの分析と変換を使用してデータを探索および準備できるようになりました。

ソリューションの概要

この投稿では、PDF ドキュメントデータセットを使用します。アマゾンの岩盤ユーザーガイド。さらに、RAG 用にデータセットを前処理する方法を示します。具体的には、データをクリーンアップし、RAG アーティファクトを作成して、データセットの内容に関する質問に答えます。次の機械学習 (ML) 問題を考えてみましょう: ユーザーが大規模言語モデル (LLM) の質問をします: 「Amazon Bedrock でモデルをフィルタリングして検索する方法は?」。 LLM はトレーニングまたは微調整の段階でドキュメントを見ていないため、質問に答えることができず、おそらく幻覚を起こすでしょう。この投稿の目標は、PDF (つまり RAG) から関連するテキストを見つけてプロンプトに添付し、LLM がこのドキュメント固有の質問に回答できるようにすることです。

以下では、これらすべての主要な前処理ステップを実行する方法を示します。 Amazon SageMaker キャンバス（搭載 AmazonSageMakerデータラングラー):

PDF ドキュメントからのテキストの抽出 (Textract を利用)
機密情報を削除する (Comprehend を利用)
テキストを細かく分割します。
各ピースのエンベディングを作成します (Bedrock を利用)。
埋め込みをベクターデータベースにアップロード (OpenSearch を利用)

Amazon SageMaker Data Wrangler を使用して生成 AI のデータ準備を簡素化する |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

前提条件

このウォークスルーでは、次のものが必要です。

Note: 指示に従って OpenSearch Service ドメインを作成しますこちら。わかりやすくするために、きめ細かいアクセス制御のためにマスターユーザー名とパスワードを使用するオプションを選択しましょう。ドメインが作成されたら、次のマッピングを使用してベクトルインデックスを作成し、ベクトル次元 1536 が Amazon Titan 埋め込みと一致します。

PUT knowledge-base-index
{ "settings": { "index.knn": True }, "mappings": { "properties": { "text_content": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }, "text_content_v": { "type": "knn_vector", "dimension": 1536 }, } }
} }

チュートリアル

データフローを構築する

このセクションでは、PDF からテキストとメタデータを抽出し、データをクリーンアップして処理し、Amazon Bedrock を使用してエンベディングを生成し、Amazon OpenSearch でデータにインデックスを付けるためのデータフローを構築する方法について説明します。

SageMaker Canvas を起動する

SageMaker Canvas を起動するには、次の手順を実行します。

アマゾンで SageMaker コンソール、選択する ドメイン ナビゲーションペインに表示されます。
ドメインを選択します。
起動メニューで、選択します キャンバス.

データフローを作成する

SageMaker Canvas でデータフローを作成するには、次の手順を実行します。

SageMaker Canvas のホームページで、 データラングラー.
選択する 創造する ページの右側で、データフロー名を指定し、選択します 創造する.
これにより、データフローページが表示されます。
選択する インポート日、表形式のデータを選択します。

次に、Amazon S3 バケットからデータをインポートしましょう。

選択する インポート日 をクリックして 表形式 ドロップダウンリストから選択します。
情報元 をクリックして アマゾンS3 ドロップダウンリストから選択します。
PDF ファイルの場所を含むメタデータファイルに移動し、ファイルを選択します。
これで、メタデータファイルがデータ準備データフローにロードされ、データとインデックスを Amazon に変換する次のステップの追加に進むことができます。 Opensearch。この場合、ファイルには次のメタデータがあり、Amazon S3 ディレクトリ内の各ファイルの場所が示されます。

新しい変換を追加するには、次の手順を実行します。

プラス記号を選択し、 変換を追加.
選択する ステップを追加 選択して カスタム変換.
Pandas、PySpark、Python ユーザー定義関数、SQL PySpark を使用してカスタム変換を作成できます。選ぶ Python（PySpark） このユースケースでは。
ステップの名前を入力します。サンプルコードスニペットから参照して選択します PDFからテキストを抽出する。コードスニペットに必要な変更を加えて選択します Add.
を利用して、抽出されたデータから個人識別情報 (PII) データを編集するステップを追加してみましょう。 Amazon Comprehend。選択してください ステップを追加 選択して カスタム変換。そして、 Python (PySpark)。

サンプルコードスニペットから参照して選択します マスクPII。 コードスニペットに必要な変更を加えて選択します 追加します。

次のステップは、テキストコンテンツをチャンク化することです。選ぶ ステップを追加 選択して カスタム変換。そして、 Python (PySpark)。

サンプルコードスニペットから参照して選択します チャンクテキスト。 コードスニペットに必要な変更を加えて選択します 追加します。

を使用してテキストコンテンツをベクトル埋め込みに変換しましょう。アマゾンの岩盤 Titan 埋め込みモデル。選ぶ ステップを追加 選択して カスタム変換。そして、 Python (PySpark)。

サンプルコードスニペットから参照して選択します Bedrock を使用してテキスト埋め込みを生成します。 コードスニペットに必要な変更を加えて選択します 追加します。

これで、PDF ファイルのコンテンツにベクトル埋め込みを使用できるようになりました。先に進み、データを Amazon OpenSearch にインデックス付けしましょう。選ぶ ステップを追加 選択して カスタム変換。そして、 Python (PySpark)。 次のコードを自由に書き換えて、好みのベクトルデータベースを使用できます。わかりやすくするために、OpenSearch API へのアクセスにはマスターユーザー名とパスワードを使用します。実稼働ワークロードの場合は、組織のポリシーに従ってオプションを選択します。

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "text_redacted_chunks_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def index_data(text_redacted_chunks, text_redacted_chunks_embedding): input_json = json.dumps({"text_content": text_redacted_chunks[-1], "text_content_v": text_redacted_chunks_embedding[-1]}) response = requests.request(method="POST", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_doc', headers=headers, json=input_json, auth=(master_user, 'master_pass'), timeout=30) return response.content indexing_udf = udf(index_data, StringType())
df = df.withColumn('index_response', indexing_udf(col("text_redacted_chunks"), col("text_redacted_chunks_embedding")))

最終的に作成されるデータフローは次のようになります。

このデータフローでは、PDF ファイルのデータが読み取られ、Amazon OpenSearch のベクトル埋め込みでインデックス付けされます。次に、インデックス付きデータをクエリするためのクエリを含むファイルを作成し、それを Amazon S3 の場所に保存します。検索データフローをファイルに向け、対応する結果を含むファイルを Amazon S3 の場所にある新しいファイルに出力します。

プロンプトの準備

PDF からナレッジベースを作成したら、ナレッジベースでいくつかのサンプルクエリを検索してテストできます。各クエリを次のように処理します。

クエリの埋め込みを生成します (Amazon Bedrock を利用)
最近傍コンテキストのベクトルデータベースをクエリします (Amazon OpenSearch を利用)
クエリとコンテキストをプロンプトに結合します。
プロンプトを使用して LLM をクエリする (Amazon Bedrock を利用)
SageMaker Canvas のホームページで、 データの準備.
選択する 創造する ページの右側で、データフロー名を指定し、選択します 創造する.

次に、ユーザーの質問をロードし、質問と同様のドキュメントを組み合わせてプロンプトを作成しましょう。このプロンプトは、ユーザーの質問に対する回答を生成するために LLM に提供されます。

ユーザーの質問を含む CSV ファイルをロードしてみましょう。選ぶ データのインポート をクリックして 表形式 ドロップダウンリストから選択します。
情報元、 をクリックして アマゾンS3 ドロップダウンリストから。あるいは、ユーザーのクエリを含むファイルをアップロードすることもできます。
データをベクトル埋め込みに変換するカスタム変換を追加して、Amazon OpenSearch から関連する埋め込みを検索してから、ナレッジベースからのクエリとコンテキストを含むプロンプトを Amazon Bedrock に送信しましょう。クエリの埋め込みを生成するには、同じサンプルコードスニペットを使用できます。 Bedrock を使用してテキスト埋め込みを生成する 上記のステップ#7で説明したとおりです。

Amazon OpenSearch API を呼び出して、生成されたベクトル埋め込みの関連ドキュメントを検索してみましょう。 Python (PySpark) を使用してカスタム変換を追加します。

from pyspark.sql.functions import col, udf
from pyspark.sql.types import StringType
import json
import requests text_column = "Queries_embedding"
output_column = text_column + "_response" headers = {"Content-Type": "application/json", "kbn-xsrf": "true", "osd-xsrf": "true", "security_tenant": "global"};
index_name = 's3_vector_data_v1' def search_data(text_column_embedding): input_json={'size':20,'query':{'knn':{'text_content_v':{'vector':{text_column_embedding},'k':5,},},},'fields':['text_content']} response = requests.request(method="GET", url=f'https://search-canvas-vector-db-domain-dt3yq3b4cykwuvc6t7rnkvmnka.us-west-2.es.amazonaws.com/{index_name}/_search', headers=headers, json=input_json, auth=(master_user, master_pass'), timeout=30) return response.content search_udf = udf(search_data, types.ArrayType())
df = df.withColumn(output_column,search_udf(col(text_column)))

クエリ応答のために Amazon Bedrock API を呼び出し、Amazon OpenSearch ナレッジベースからドキュメントを渡すカスタム変換を追加しましょう。サンプルコードスニペットから参照して選択します コンテキストを使用して Bedrock をクエリします。 コードスニペットに必要な変更を加えて選択します 追加します。

要約すると、RAG ベースの質問応答データフローは次のとおりです。

ML 実践者は、特徴量エンジニアリングコードの作成、初期データセットへの適用、エンジニアリングされたデータセットでのモデルのトレーニング、モデルの精度の評価に多くの時間を費やします。この作業の実験的な性質を考慮すると、たとえ最小のプロジェクトであっても複数回の反復が必要になります。同じ特徴エンジニアリングコードが何度も実行されることが多く、同じ操作を繰り返すことで時間とコンピューティングリソースが無駄になります。大規模な組織では、異なるチームが以前の作業の知識がないために同じジョブを実行したり、重複した機能エンジニアリングコードを作成したりすることがよくあるため、これにより生産性がさらに失われる可能性があります。フィーチャの再処理を回避するために、データフローを Amazon にエクスポートします。 SageMaker パイプライン。 を選択しましょう クエリの右側にある + ボタン。 データフローのエクスポートを選択し、 SageMaker パイプラインを実行する (Jupyter ノートブック経由)。

清掃

今後料金が発生しないようにするには、この投稿のフォロー中に作成したリソースを削除するかシャットダウンしてください。参照する Amazon SageMaker Canvas からのログアウトのガイドをご参照ください。

まとめ

この投稿では、LLM 用にデータを準備するデータプロフェッショナルの役割を想定して、Amazon SageMaker Canvas のエンドツーエンド機能をどのように活用するかを説明しました。インタラクティブなデータ準備により、データを迅速にクリーニング、変換、分析して有益な機能を設計できるようになりました。 SageMaker Canvas はコーディングの複雑さを取り除くことで、迅速な反復を可能にして高品質のトレーニングデータセットを作成できます。この加速されたワークフローは、ビジネスに影響を与えるパフォーマンスの高い機械学習モデルの構築、トレーニング、展開に直接つながりました。 SageMaker Canvas は、包括的なデータ準備とデータから洞察に至るまでの統合エクスペリエンスにより、ユーザーが ML の成果を向上できるようにします。

探索してさらに学ぶことをお勧めします AmazonSageMakerデータラングラー, Amazon SageMaker キャンバス, アマゾンタイタンモデル、アマゾンの岩盤、およびAmazon OpenSearch サービスこの投稿で提供されているサンプル実装とビジネスに関連するデータセットを使用してソリューションを構築します。ご質問やご提案がございましたら、コメントを残してください。

著者について

アジャイ・ゴビンダラム AWS のシニアソリューションアーキテクトです。彼は、AI/ML を使用して複雑なビジネス上の問題を解決している戦略的な顧客と協力しています。彼の経験は、中規模から大規模の AI / ML アプリケーションの展開に対して、技術的な方向性と設計支援を提供することにあります。彼の知識は、アプリケーションアーキテクチャからビッグデータ、分析、機械学習にまで及びます。休息中に音楽を聴いたり、アウトドアを体験したり、愛する人と過ごす時間を楽しんでいます。