コードなしで Amazon Personalize を使用してバッチ推奨パイプラインを作成する

プラトン再発行

フォロワー： 0

パーソナライズされたコンテンツが顧客エンゲージメントを促進する可能性が高いため、企業は、顧客のプロファイルと行動に基づいてカスタマイズされたコンテンツを提供することを継続的に求めています。特にレコメンデーションシステムは、エンドユーザーがアイテムに与える好みを予測しようとします。一般的な使用例には、オンライン小売店での製品の推奨、ニュースレターのパーソナライズ、音楽プレイリストの推奨の生成、さらにはオンラインメディアサービスでの同様のコンテンツの発見などがあります。

ただし、モデルのトレーニング、アルゴリズムの選択、プラットフォームの管理が複雑なため、効果的なレコメンデーションシステムを作成するのは難しい場合があります。 Amazonパーソナライズ開発者は、機械学習 (ML) の専門知識を必要とせずに、パーソナライズされた製品とコンテンツのレコメンデーションを通じて顧客エンゲージメントを向上させることができます。開発者は、キャプチャされたユーザーの行動データを使用して、すぐに顧客との関わりを開始できます。バックグラウンドで、Amazon Personalize はこのデータを調べ、意味のあるものを特定し、適切なアルゴリズムを選択し、データ用にカスタマイズされたパーソナライゼーションモデルをトレーニングおよび最適化し、API エンドポイントを介して推奨事項を提供します。

リアルタイムで推奨事項を提供すると、エンゲージメントと満足度を高めることができますが、実際には必要ない場合もあります。これをスケジュールに基づいてバッチで実行することは、費用対効果が高く、管理しやすいオプションです。

この投稿では、AWS のサービスを使用してレコメンデーションを作成するだけでなく、バッチレコメンデーションパイプラインを運用する方法を示します。コードを XNUMX 行も書かずに、エンドツーエンドのソリューションを説明します。次の XNUMX つのトピックについて詳しく説明します。

ソリューションの概要

このソリューションでは、ムービーレンズデータセット。このデータセットには、86,000 人のユーザーによる 2,113 件の映画の評価が含まれています。このデータを使用して、これらのユーザーごとに推奨事項を生成しようとします。

データの準備は、顧客の行動データを Amazon Personalize の準備が整った形式にするために非常に重要です。この記事で説明するアーキテクチャは、サーバーレスデータ統合サービスである AWS Glue を使用して、未加工データを Amazon Personalize ですぐに使用できる形式に変換します。このソリューションでは、Amazon Personalize を使用して、バッチ推論を使用してすべてのユーザー向けのバッチ推奨事項を作成します。次に、Step Functions ワークフローを使用して、繰り返し可能な方法で Amazon Personalize API を呼び出して自動化されたワークフローを実行できるようにします。

次の図は、このソリューションを示しています。

次の手順でこのソリューションを構築します。

AWS Glue を使用して生データを変換するデータ変換ジョブを構築します。
変換されたデータセットを使用して Amazon Personalize ソリューションを構築します。
Step Functions ワークフローを構築して、バッチ推論の生成を調整します。

前提条件

このウォークスルーには次のものが必要です。

AWS Glue を使用して生データを変換するデータ変換ジョブを構築する

Amazon Personalize では、入力データに特定のスキーマとファイル形式が必要です。ユーザーとアイテム間の対話からのデータは、特定の列を含む CSV 形式である必要がありますが、レコメンデーションを生成するユーザーのリストは JSON 形式である必要があります。このセクションでは、AWS Glue Studio を使用して、生の入力データを Amazon Personalize に必要な構造と形式に変換します。

AWS Glue Studio は、抽出、変換、ロード (ETL) ジョブを簡単に作成および実行できるように設計されたグラフィカルインターフェイスを提供します。シンプルなドラッグアンドドロップ操作で、データ変換ワークロードを視覚的に作成できます。

最初にソースデータを準備します Amazon シンプルストレージサービス (Amazon S3)、コードなしでデータを変換します。

Amazon S3 コンソールで、raw、Transformed、curated の 3 つのフォルダを持つ SXNUMX バケットを作成します。
ダウンロード MovieLensデータセットそして、user_ratingmovies-timestamp.dat という名前の非圧縮ファイルを未加工フォルダーの下のバケットにアップロードします。
AWS Glue Studioコンソールで、 Jobs > Create New Job ナビゲーションペインに表示されます。
選択 ソースとターゲットを使用したビジュアル、を選択します 創造する.
と呼ばれる最初のノードを選択します データソース – S3 バケット. ここで、入力データを指定します。
ソフトウェア設定ページで、下図のように データソースのプロパティ タブ、選択 S3の場所 アップロードしたファイルを参照します。
データフォーマット、選択する CSV、および用 デリミタ、選択するタブ.
[出力スキーマ] タブを選択して、スキーマが列を正しく推測したことを確認できます。
スキーマが期待と一致しない場合は、選択してください編集スキーマを編集します。

次に、このデータを変換して、Amazon Personalize のスキーマ要件に従います。

選択する 変換 – マッピングを適用 ノード上で 最適化の適用 タブで、ターゲットキーとデータ型を更新します。
Amazon Personalize は、少なくとも、インタラクションデータセット:

- user_id （ストリング）
- item_id （ストリング）
- timestamp (長い、Unix エポック時間形式)

この例では、データセット内の評価の低い映画を除外します。

これを行うには、S3 バケットと呼ばれる最後のノードを削除し、フィルターノードを追加します。 最適化の適用 タブには何も表示されないことに注意してください。
選択する Add 条件評価が 3.5 未満のデータを除外します。

出力を Amazon S3 に書き戻します。

拡大する ターゲット メニューと選択 アマゾンS3.
S3ターゲットの場所、という名前のフォルダーを選択します transformed.
選択する CSV 形式とサフィックスとして ターゲットの位置 　 interactions/.

次に、おすすめを取得したいユーザーのリストを出力します。

選択する マッピングの適用 ノードを再度展開し、 最適化の適用 メニューと選択 マッピングの適用.
を除くすべてのフィールドをドロップします。 user_id そのフィールドの名前を userId. Amazon Personalize は、そのフィールドに名前が付けられていることを期待していますユーザーID.
拡大する ターゲット もう一度メニューを選択して選択します アマゾンS3.
今回はチョイス JSONの を形式として選択し、変換された S3 フォルダーを選択して、接尾辞を付けます。 batch_users_input/.

これにより、 JSONの Amazon Personalize の入力としてのユーザーのリスト。次のような図が表示されます。

これで、変換ジョブを実行する準備が整いました。

IAM コンソールで、glue-service-role というロールを作成し、次の管理ポリシーをアタッチします。
- AWSGlueServiceRole
- AmazonS3FullAccess

IAM サービスロールの作成方法の詳細については、アクセス許可を AWS サービスに委任するロールの作成.

AWS Glue Studio ジョブに戻り、 仕事の詳細 タブには何も表示されないことに注意してください。
ジョブ名を次のように設定します batch-personalize-input-transform-job.
新しく作成した IAM ロールを選択します。
それ以外はすべてデフォルト値のままにします。
選択する Save.
準備ができたら、選択してくださいランでジョブを監視します。 Active Runs タブには何も表示されないことに注意してください。
ジョブが完了したら、Amazon S3 コンソールに移動して、出力ファイルが正常に作成されたことを確認します。

これで、Amazon Personalize が必要とする形式と構造にデータを整形しました。変換されたデータセットには、次のフィールドと形式が必要です。

相互作用データセット – フィールド付きの CSV 形式 USER_ID, ITEM_ID, TIMESTAMP
ユーザー入力データセット – 要素を含む JSON 形式 userId

変換されたデータセットを使用して Amazon Personalize ソリューションを構築する

インタラクションデータセットとユーザー入力データが適切な形式になったので、Amazon Personalize ソリューションを作成できるようになりました。このセクションでは、データセットグループを作成し、データをインポートしてから、バッチ推論ジョブを作成します。データセットグループは、リソースを Amazon Personalize コンポーネントのコンテナに編成します。

Amazon Personalizeコンソールで、 創造する データセットグループ.
ドメイン選択 カスタム.
選択する データセットグループを作成して続行.

次に、インタラクションデータセットを作成します。

データセット名を入力して選択します 新しいスキーマを作成する.
選択する データセットを作成して続行.

以前に作成したインタラクションデータをインポートします。

インタラクション CSV データセットを作成した S3 バケットに移動します。

ソフトウェア設定ページで、下図のように権限タブで、次のバケットアクセスポリシーを追加して、Amazon Personalize がアクセスできるようにします。ポリシーを更新してバケット名を含めます。

{
   "Version":"2012-10-17",
   "Id":"PersonalizeS3BucketAccessPolicy",
   "Statement":[
      {
         "Sid":"PersonalizeS3BucketAccessPolicy",
         "Effect":"Allow",
         "Principal":{
            "Service":"personalize.amazonaws.com"
         },
         "Action":[
            "s3:GetObject",
            "s3:ListBucket",
            "s3:PutObject"
         ],
         "Resource":[
            "arn:aws:s3:::<your-bucket-name>",
            "arn:aws:s3:::<your-bucket-name> /*"
         ]
      }
   ]
}

Amazon Personalize に戻り、選択します データセットインポートジョブを作成する. インタラクションデータセットが Amazon Personalize にインポートされます。次のステップに進む前に、インポートジョブがアクティブのステータスで完了するのを待ちます。これには約 8 分かかります。

Amazon Personalizeコンソールで、概要ナビゲーションペインで、 ソリューションを作成する.
ソリューション名を入力します。
ソリューションタイプ、選択する アイテムのおすすめ.
抽出水のレシピを選択してください aws-user-personalization レシピ。
選択する ソリューションの作成とトレーニング.

このソリューションは、ユーザーのパーソナライズレシピでインポートされたインタラクションデータセットに対してトレーニングを行うようになりました。このプロセスのステータスを監視します ソリューションのバージョン. 処理が完了するまで待ってから続行してください。これには約 20 分かかります。

次に、JSON 入力に存在する各ユーザーのレコメンデーションを生成するバッチ推論ジョブを作成します。

ナビゲーションペインの[ カスタムリソース、選択する バッチ推論ジョブ.
ジョブ名を入力し、 ソリューションで、前に作成したソリューションを選択します。
選択する バッチ推論ジョブを作成する.
入力データ構成の S3 パスを入力します。 batch_users_input ファイルがあります。

これは、含まれている JSON ファイルです。 userId.

出力データ構成 path、S3 でキュレートされたパスを選択します。
選択する バッチ推論ジョブを作成する.

このプロセスには約 30 分かかります。ジョブが終了すると、ユーザー入力ファイルで指定された各ユーザーの推奨事項が S3 出力場所に保存されます。

すべてのユーザー向けの一連の推奨事項を正常に生成しました。ただし、これまでのところ、コンソールを使用してソリューションを実装しただけです。このバッチ推論が最新のデータセットで定期的に実行されるようにするには、オーケストレーションワークフローを構築する必要があります。次のセクションでは、Step Functions を使用してオーケストレーションワークフローを作成する方法を示します。

Step Functions ワークフローを構築して、バッチ推論ワークフローを調整する

パイプラインを調整するには、次の手順を実行します。

ステップ関数コンソールで、を選択します ステートマシンの作成.
選択 ワークフローを視覚的に設計する、を選択します Next.
ドラッグ CreateDatasetImportJob ノードを左から (検索ボックスでこのノードを検索できます) キャンバスに移動します。
ノードを選択すると、右側に構成 API パラメーターが表示されます。 ARN を記録します。
に独自の値を入力します。 APIパラメータ テキストボックス。

これはデータセットインポートジョブの作成指定したパラメーター値を持つ API。

ドラッグ CreateSolutionVersion ノードをキャンバスに配置します。
メモしたソリューションの ARN で API パラメーターを更新します。

これにより、新しくインポートされたデータで新しいソリューションバージョンが作成されます。ソリューションバージョンの作成 APIです。

ドラッグ CreateBatchInferenceJob ノードをキャンバスに追加し、同様に API パラメータを関連する値で更新します。

を使用していることを確認してください。 $.SolutionVersionArn 構文を使用して、前のステップからソリューションバージョンの ARN パラメーターを取得します。これらの API パラメータは、 CreateBatchInferenceJob APIです。

ワークフローが完了する前に推奨バッチ推論ジョブが確実に終了するように、Step Functions ワークフローで待機ロジックを構築する必要があります。

待機ノードを見つけてドラッグします。
の構成では、待つ、300 秒と入力します。

これは任意の値です。この待機時間は、特定のユースケースに応じて変更する必要があります。

選択する CreateBatchInferenceJob ノードに再度移動し、 エラー処理 タブには何も表示されないことに注意してください。
レスリング エラー、入る Personalize.ResourceInUseException.
フォールバック状態、選択する待つ.

このステップにより、ジョブのステータスを定期的に確認でき、ジョブが完了したときにのみループを終了します。

結果パス、入る $.errorMessage.

これは事実上、「使用中のリソース」例外が受信されると、ジョブは同じ入力で再試行する前に x 秒間待機することを意味します。

選択する Save、次に選択する 実行を開始する.

Amazon Personalize のバッチ推奨パイプラインを正常に調整しました。オプションの手順として、次を使用できます。アマゾンイベントブリッジこのワークフローのトリガーを定期的にスケジュールします。詳細については、を参照してください。 Step Functions の実行ステータス変更のための EventBridge (CloudWatch Events).

クリーンアップ

今後料金が発生しないようにするには、このチュートリアル用に作成したリソースを削除してください。

まとめ

この投稿では、AWS Glue、Amazon Personalize、Step Functions の組み合わせを使用して、コードや ML の経験を一切必要とせずにバッチ推奨パイプラインを作成する方法を示しました。 AWS Glue を使用して、Amazon Personalize が必要とする形式にデータを準備しました。次に、Amazon Personalize を使用してデータをインポートし、ユーザーのパーソナライズレシピを使用してソリューションを作成し、過去のやり取りに基づいて各ユーザーに対してデフォルトの 25 の推奨事項を生成するバッチ推論ジョブを作成しました。次に、これらのジョブを自動的に実行できるように、Step Functions を使用してこれらのステップを調整しました。

次に検討するステップとして、ユーザーセグメンテーションは Amazon Personalize の新しいレシピの XNUMX つであり、入力データの各行のユーザーセグメントを作成するために検討する必要がある場合があります。詳細については、を参照してください。バッチの推奨事項とユーザーセグメントの取得.

著者,

マキシン・ウィー は、AWS データラボのソリューションアーキテクトです。 Maxine は、お客様のユースケースについてお客様と協力し、ビジネス上の問題を解決するためのソリューションを設計し、スケーラブルなプロトタイプの構築をガイドします。 AWS に入社する前は、顧客がオーストラリアで BI、データウェアハウジング、およびデータレイクプロジェクトを実装するのを支援していました。

タイムスタンプ： 2022 年 8 月 30 日2022 年 8 月 30 日

タイムスタンプ： 2022 年 8 月 11 日

コードなしで Amazon Personalize を使用してバッチ推奨パイプラインを作成する

プラトン再発行

ソリューションの概要

前提条件

AWS Glue を使用して生データを変換するデータ変換ジョブを構築する

変換されたデータセットを使用して Amazon Personalize ソリューションを構築する

Step Functions ワークフローを構築して、バッチ推論ワークフローを調整する

クリーンアップ

まとめ

著者,

より多くの AWS機械学習

Amazon Forecast を使用して食品廃棄物を削減し、小売業の持続可能性と財務結果を改善する

AWS DeepRacer を使用すると、あらゆるスキルレベルのビルダーがスキルを向上させ、機械学習を開始できるようになります。アマゾンウェブサービス

Amazon Textract のセルフサービスクォータ管理とより高いデフォルトサービスクォータの導入

AmazonSageMakerJumpStartを使用して自動モデルチューニングを実行する

Amazon SageMaker JumpStart を使用した画像分類モデルの選択

Amazon Personalize と Amazon OpenSearch Service の統合で検索結果をパーソナライズ | アマゾンウェブサービス

Amazon SageMakerGroundTruthとDatabricksMLflowを使用してMLOps感情分析パイプラインを構築します

Amazon Lookout for Metrics を使用して大気質異常検出器を構築する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー