Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する | アマゾン ウェブ サービス

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する | アマゾン ウェブ サービス

の発売を発表できることを嬉しく思います Amazon DocumentDB(MongoDB互換性あり) との統合 Amazon SageMaker キャンバスこれにより、Amazon DocumentDB の顧客はコードを書かずに生成 AI および機械学習 (ML) ソリューションを構築して使用できるようになります。 Amazon DocumentDB はフルマネージドのネイティブ JSON ドキュメント データベースであり、インフラストラクチャを管理することなく、実質的にあらゆる規模で重要なドキュメントのワークロードを簡単かつコスト効率よく運用できるようになります。 Amazon SageMaker Canvas は、基盤モデルを含むすぐに使用できるモデルと、データを準備してカスタムモデルを構築およびデプロイする機能を提供するノーコード ML ワークスペースです。

この投稿では、Amazon DocumentDB に保存されているデータを SageMaker Canvas に取り込み、そのデータを使用して予測分析用の ML モデルを構築する方法について説明します。 データ パイプラインを作成および維持することなく、Amazon DocumentDB に保存されている非構造化データを使用して ML モデルを強化できるようになります。

ソリューションの概要

食品配達会社のビジネス アナリストの役割を想定してみましょう。 モバイルアプリは、そのスケーラビリティと柔軟なスキーマ機能により、レストランに関する情報を Amazon DocumentDB に保存します。 このデータに関する洞察を収集し、新しいレストランがどのように評価されるかを予測するための ML モデルを構築したいと考えていますが、非構造化データの分析を実行するのは難しいと感じています。 これらの目標を達成するにはデータ エンジニアリング チームとデータ サイエンス チームに依存する必要があるため、ボトルネックに遭遇します。

この新しい統合により、Amazon DocumentDB データを SageMaker Canvas に簡単に取り込み、すぐに ML 用のデータの準備と分析を開始できるようになり、これらの問題が解決されます。 さらに、SageMaker Canvas は、高品質のモデルを構築して予測を生成するための ML 専門知識への依存を排除​​します。

次の手順で、Amazon DocumentDB データを使用して SageMaker Canvas で ML モデルを構築する方法を示します。

  1. SageMaker Canvas で Amazon DocumentDB コネクタを作成します。
  2. 生成 AI を使用してデータを分析します。
  3. 機械学習用のデータを準備します。
  4. モデルを構築し、予測を生成します。

前提条件

このソリューションを実装するには、次の前提条件を満たしている必要があります。

  1. AWS クラウド管理者アクセス権を持っている AWS IDおよびアクセス管理 (わたし) user 統合を完了するために必要な権限が付与されています。
  2. 次を使用して環境セットアップを完了します。 AWS CloudFormation 次のいずれかのオプションを使用します。
    1. CloudFormation テンプレートを新しい VPC にデプロイする – このオプションは、VPC、プライベートサブネット、セキュリティグループ、IAM 実行ロール、 アマゾンクラウド9, 必要な VPC エンドポイント, SageMakerドメイン。 次に、Amazon DocumentDB をこの新しい VPC にデプロイします。 ダウンロード template または、選択して CloudFormation スタックをクイック起動します。 発射スタック:
      CloudFormation スタックを起動する
    2. CloudFormation テンプレートを既存の VPC にデプロイする – このオプションは、プライベートサブネットを持つ既存の VPC に必要な VPC エンドポイント、IAM 実行ロール、および SageMaker ドメインを作成します。 ダウンロード template または、選択して CloudFormation スタックをクイック起動します。 発射スタック:
      CloudFormation スタックを起動する

新しい SageMaker ドメインを作成している場合は、Amazon DocumentDB にコネクタを追加できるように、インターネット アクセスのないプライベート VPC 内にドメインを設定する必要があることに注意してください。 詳細については、を参照してください。 インターネットにアクセスせずに VPC で Amazon SageMaker Canvas を設定する.

  1. フォロー チュートリアル サンプルのレストランデータを Amazon DocumentDB にロードします。
  2. Amazon Bedrock とその中の Anthropic Claude モデルへのアクセスを追加します。 詳細については、を参照してください。 モデルアクセスの追加.

SageMaker Canvas で Amazon DocumentDB コネクタを作成する

SageMaker ドメインを作成したら、次の手順を実行します。

  1. Amazon DocumentDB コンソールで、次を選択します。 ノーコード機械学習 ナビゲーションペインに表示されます。
  2. ドメインとプロファイルを選択してください¸ SageMaker ドメインとユーザー プロファイルを選択します。
  3. 選択する Canvasを起動します 新しいタブで SageMaker Canvas を起動します。
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

SageMaker Canvas の読み込みが完了すると、 データフロー タブには何も表示されないことに注意してください。

  1. 選択する 創造する 新しいデータ フローを作成します。
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  2. データ フローの名前を入力し、選択します 創造する.
  3. を選択して、新しい Amazon DocumentDB 接続を追加します。 インポート日、を選択します 表形式 for データセットの種類.
  4. ソフトウェア設定ページで、下図のように インポート日 ページ、 情報元、選択する ドキュメントDB および 接続を追加.
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  5. 「demo」などの接続名を入力し、目的の Amazon DocumentDB クラスターを選択します。

SageMaker Canvas は、SageMaker ドメインと同じ VPC 内のクラスターをドロップダウン メニューに事前に設定することに注意してください。

  1. ユーザー名、パスワード、データベース名を入力します。
  2. 最後に、読み取り設定を選択します。

プライマリ インスタンスのパフォーマンスを保護するために、SageMaker Canvas はデフォルトで 二次つまり、セカンダリ インスタンスからのみ読み取ります。 読み取り設定が 第二優先, SageMaker Canvas は利用可能なセカンダリ インスタンスから読み取りますが、セカンダリ インスタンスが利用できない場合はプライマリ インスタンスから読み取ります。 Amazon DocumentDB 接続の設定方法の詳細については、「 AWS に保存されているデータベースに接続する.

  1. 選択する 接続を追加.
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

接続が成功すると、Amazon DocumentDB データベース内のコレクションがテーブルとして表示されます。

  1. 選択したテーブルを空白のキャンバスにドラッグします。 この投稿では、レストランのデータを追加します。

最初の 100 行がプレビューとして表示されます。

  1. データの分析と準備を開始するには、次を選択します。 インポート日.
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  2. データセット名を入力して選択します インポート日.

生成AIを使用したデータ分析

次に、データに関する洞察を取得し、パターンを探したいと思います。 SageMaker Canvas は、データを分析および準備するための自然言語インターフェイスを提供します。 とき 且つ タブが読み込まれると、次の手順でデータとのチャットを開始できます。

  1. 選択する データ準備のためのチャット.
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  2. 次のスクリーンショットに示されているサンプルのような質問をして、データに関する洞察を収集します。
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

自然言語を使用してデータを探索および準備する方法の詳細については、以下を参照してください。 自然言語を使用して、Amazon SageMaker Canvas の新機能でデータを探索および準備します.

データ品質を自動的に評価し、異常を検出する SageMaker Canvas データ品質およびインサイト レポートを使用して、データ品質をより深く理解してみましょう。

  1. ソフトウェア設定ページで、下図のように 分析 タブを選択 データ品質と洞察レポート.
  2. 選択する rating ターゲット列として、 不具合 問題の種類として選択し、 創造する.

これにより、モデルのトレーニングがシミュレートされ、機械学習用にデータを改善する方法についての洞察が得られます。 完全なレポートは数分で生成されます。

レポートでは、ターゲット内の行の 2.47% に欠損値があることが示されています。これについては次のステップで説明します。 さらに、分析により、 address line 2, name, type_of_food 特徴は、データ内で最も予測力があります。 これは、場所や料理などのレストランの基本情報が評価に大きな影響を与える可能性があることを示しています。

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

機械学習用のデータを準備する

SageMaker Canvas は、インポートされたデータを準備するための 300 以上の組み込み変換を提供します。 SageMaker Canvas の変換機能の詳細については、以下を参照してください。 高度な変換を使用してデータを準備する。 いくつかの変換を追加して、ML モデルをトレーニングできるようにデータを準備しましょう。

  1. に戻ります データフロー ページの上部でデータ フローの名前を選択して、ページを開きます。
  2. 横のプラス記号を選択します データ型 選択して 変換を追加.
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  3. 選択する ステップを追加.
  4. の名前を変更しましょう address line 2 列から cities.
    1. 選択する 列を管理する.
    2. 選択する 列の名前を変更 for 最適化の適用.
    3. 選択する address line 2 for 入力列、 入る cities for 新しい名前、選択して Add.
      Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  5. さらに、不要な列をいくつか削除してみましょう。
    1. 新しい変換を追加します。
    2. 最適化の適用、選択する ドロップカラム.
    3. ドロップする列、選択する URL および restaurant_id.
    4. 選択する Add.
      Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。[
  6. 本サイトの rating feature 列には欠損値がいくつかあるため、これらの行にこの列の平均値を入力しましょう。
    1. 新しい変換を追加します。
    2. 最適化の適用、選択する 代入.
    3. 列タイプ、選択する 数値の.
    4. 入力列を選択してください rating コラム。
    5. 帰属戦略、選択する 平均.
    6. 出力列、 入る rating_avg_filled.
    7. 選択する Add.
      Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  7. ドロップすることができます rating 値が入力された新しい列があるためです。
  8. なぜなら type_of_food は本質的にカテゴリカルであるため、数値的にエンコードする必要があります。 ワンホット エンコーディング手法を使用して、この機能をエンコードしてみましょう。
    1. 新しい変換を追加します。
    2. 最適化の適用、選択する ワンホットエンコード.
    3. [入力列] で、次を選択します。 type_of_food.
    4. 無効な処理戦略¸選ぶ キープ.
    5. 出力スタイル¸選ぶ コラム.
    6. 出力列、 入る encoded.
    7. 選択する Add.
      Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

モデルを構築して予測を生成する

データを変換したので、数値 ML モデルをトレーニングしてレストランの評価を予測しましょう。

  1. 選択する モデルを作成する.
  2. データセット名、データセットのエクスポートの名前を入力します。
  3. 選択する 輸出 そして、変換されたデータがエクスポートされるまで待ちます。
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。
  4. 選択する モデルを作成する ページの左下隅にあるリンク。

ページの左側にある Data Wrangler 機能からデータセットを選択することもできます。

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

  1. モデル名を入力します。
  2. 選択する 予測分析、を選択します 創造する.
  3. 選択する rating_avg_filled ターゲット列として。

SageMaker Canvas は、適切なモデル タイプを自動的に選択します。

  1. 選択する プレビューモデル データ品質に問題がないことを確認するためです。
  2. 選択する クイックビルド モデルを構築します。
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

モデルの作成が完了するまでに約 2 ~ 15 分かかります。

モデルのトレーニングが終了した後、モデルのステータスを表示できます。 私たちのモデルの RSME は 0.422 です。これは、モデルがレストランの評価を実際の値の +/- 0.422 以内で予測することが多く、これは 1 ~ 6 の評価スケールの確実な近似値であることを意味します。

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

  1. 最後に、に移動してサンプル予測を生成できます。 予測する タブには何も表示されないことに注意してください。
    Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

クリーンアップ

今後料金が発生しないようにするには、この投稿のフォロー中に作成したリソースを削除してください。 SageMaker Canvas はセッションの継続時間に対して料金を請求するため、使用していないときは SageMaker Canvas からログアウトすることをお勧めします。 参照する Amazon SageMaker Canvas からのログアウト のガイドをご参照ください。

まとめ

この投稿では、Amazon DocumentDB に保存されたデータを使用した生成 AI および ML に SageMaker Canvas を使用する方法について説明しました。 この例では、アナリストがサンプルのレストラン データセットを使用して高品質の ML モデルを迅速に構築する方法を示しました。

Amazon DocumentDB からのデータのインポートから SageMaker Canvas での ML モデルの構築まで、ソリューションを実装する手順を示しました。 プロセス全体は、コードを XNUMX 行も記述することなく、ビジュアル インターフェイスを通じて完了しました。

ローコード/ノーコード ML ジャーニーを開始するには、以下を参照してください。 Amazon SageMaker キャンバス.


著者について

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。アデレケ・コーカー AWS のグローバル ソリューション アーキテクトです。 彼は世界中の顧客と協力して、AWS に本番ワークロードを大規模にデプロイする際のガイダンスと技術支援を提供しています。 余暇には、学習、読書、ゲーム、スポーツ イベントの観戦を楽しんでいます。

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。 グルラジ・S・バヤリ AWS のシニア DocumentDB スペシャリスト ソリューション アーキテクトです。 彼は、顧客が Amazon の専用データベースを導入できるよう支援することに喜びを感じています。 彼は、顧客が NoSQL やリレーショナル データベースを活用したインターネット スケールと高性能ワークロードの設計、評価、最適化を支援します。

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ティム・プサテリ 彼は AWS のシニアプロダクトマネージャーで、Amazon SageMaker Canvas に取り組んでいます。 彼の目標は、顧客が AI/ML から価値を迅速に引き出せるよう支援することです。 仕事以外では、アウトドアに出かけたり、ギターを弾いたり、ライブ音楽を鑑賞したり、家族や友人と時間を過ごすのが大好きです。

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。プラティック・ダス AWS のプロダクト マネージャーです。 彼は、クラウド上で復元力のあるワークロードと強力なデータ基盤を構築したいと考えている顧客と協力することに喜びを感じています。 彼は、企業と協力してモダナイゼーション、分析、データ変換の取り組みに取り組む専門知識をもたらします。

Amazon DocumentDB を使用して、Amazon SageMaker Canvas でコードなしの機械学習ソリューションを構築する |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ヴァルマ ゴトゥムッカラ は、ダラス フォートワースを拠点とする AWS のシニア データベース スペシャリスト ソリューション アーキテクトです。 Varma は、顧客のデータベース戦略について協力し、AWS 専用データベースを使用してワークロードを設計します。 AWS に入社する前は、過去 22 年間、リレーショナル データベース、NOSQL データベース、および複数のプログラミング言語を幅広く扱ってきました。

タイムスタンプ:

より多くの AWS機械学習