Amazon SageMaker Canvas を使用してコードなしの機械学習のために 40 を超えるデータソースからデータをインポートする

Amazon SageMaker Canvas を使用してコードなしの機械学習のために 40 を超えるデータソースからデータをインポートする

データは機械学習 (ML) の心臓部です。 ビジネス上の問題を包括的に表す関連データを含めることで、傾向と関係を効果的に把握し、ビジネス上の意思決定を促進するために必要な洞察を導き出すことができます。 と Amazon SageMaker キャンバスからデータをインポートできるようになりました 40 以上のデータ ソース ノーコード ML に使用されます。 Canvas は、ビジネス アナリストにビジュアル インターフェイスを提供することで、ML へのアクセスを拡張します。ビジネス アナリストは、ML の経験がなくても、コードを XNUMX 行も書かなくても、自分で正確な ML 予測を生成できます。 などの一般的なリレーショナル データ ストアからアプリ内データをインポートできるようになりました。 アマゾンアテナ によってサポートされるサードパーティのサービスとしてのソフトウェア (SaaS) プラットフォームと同様に、 アマゾンアプリフロー Salesforce、SAP OData、Google アナリティクスなど。

ML 用の高品質データを収集するプロセスは、複雑で時間がかかる可能性があります。これは、SaaS アプリケーションとデータ ストレージ サービスの急増により、多数のシステムにデータが分散されているためです。 たとえば、Salesforce の顧客データ、SAP の財務データ、Snowflake のロジスティクス データを使用して、顧客離れ分析を実施する必要がある場合があります。 これらのソース全体でデータセットを作成するには、各アプリケーションに個別にログインし、目的のデータを選択してローカルにエクスポートする必要があります。その後、別のツールを使用して集計できます。 次に、このデータセットを ML 用の別のアプリケーションにインポートする必要があります。

今回のリリースにより、Canvas はアプリ内データのインポートと 40 を超えるデータ ソースからの集約をサポートすることで、さまざまなソースに保存されているデータを活用できるようにします。 この機能は、Athena および Amazon AppFlow への新しいネイティブ コネクタによって可能になります。 AWSグルー データカタログ。 Amazon AppFlow は、サードパーティの SaaS アプリケーションからデータを安全に転送できるマネージド サービスです。 Amazon シンプル ストレージ サービス (Amazon S3) を作成し、数回クリックするだけで Data Catalog を使用してデータをカタログ化します。 データが転送された後は、Canvas 内のデータ ソースに簡単にアクセスできます。ここでテーブル スキーマを表示したり、データ ソース内またはデータ ソース間でテーブルを結合したり、Athena クエリを記述したり、データをプレビューおよびインポートしたりできます。 データをインポートしたら、ML モデルの構築、列の影響データの表示、予測の生成など、既存の Canvas 機能を使用できます。 Amazon AppFlow のデータ転送プロセスを自動化してスケジュールに従ってアクティブ化することで、Canvas の最新データに常にアクセスできるようになります。

ソリューションの概要

この投稿で概説する手順では、ノーコード ML のために Canvas にデータをインポートする方法の XNUMX つの例を示します。 最初の例では、Athena を介してデータをインポートする方法を示します。 XNUMX 番目の例では、Amazon AppFlow を介してサードパーティの SaaS アプリケーションからデータをインポートする方法を示します。

Athena からデータをインポートする

このセクションでは、Athena から Canvas にデータをインポートして顧客セグメンテーション分析を行う例を示します。 ML 分類モデルを作成して、顧客ベースを XNUMX つの異なるクラスに分類し、モデルを使用して新しい顧客がどのクラスに分類されるかを予測することを最終目標としています。 データのインポート、モデルのトレーニング、予測の生成という XNUMX つの主要な手順に従います。 始めましょう。

データをインポートする

Athena からデータをインポートするには、次の手順を実行します。

  1. Canvas コンソールで、 データセット ナビゲーションペインで、を選択します インポート.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  2. 拡大する 情報元 メニューと選択 アテナ.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  3. インポートする正しいデータベースとテーブルを選択します。 必要に応じて、プレビュー アイコンを選択してテーブルをプレビューできます。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

次のスクリーンショットは、プレビュー テーブルの例を示しています。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

この例では、顧客が当社のサービスに関与したマーケティング チャネルに基づいて顧客をセグメント化します。 これは列によって指定されます segmentation、ここで、A は印刷メディア、B はモバイル、C は店内プロモーション、D はテレビです。

  1. 適切なテーブルが作成されたことに満足したら、目的のテーブルを データセットをドラッグ アンド ドロップして結合する のセクションから無料でダウンロードできます。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  2. 必要に応じて、列を選択または選択解除したり、別のテーブルをドラッグしてテーブルを結合したりできるようになりました データセットをドラッグ アンド ドロップして結合する セクションを作成するか、SQL クエリを記述してデータ スライスを指定します。 この投稿では、テーブル内のすべてのデータを使用します。
  3. データをインポートするには、 データをインポートします。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

データは、Athena の特定のテーブルからデータセットとして Canvas にインポートされます。

モデルをトレーニングする

データがインポートされると、 データセット ページ。 この段階で、モデルを構築できます。 これを行うには、次の手順を実行します。

  1. データセットを選択して選択します モデルを作成する.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  2. モデル名、モデル名を入力します (この記事では、 my_first_model).
  3. Canvas を使用すると、予測分析、画像分析、およびテキスト分析用のモデルを作成できます。 顧客を分類したいので、 予測分析 for 問題の種類.
  4. 続行するには、 創造する.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

ソフトウェア設定ページで、下図のように 完成に向けてあなたの背中を押してくれる、執筆のための持続可能で本物のモーメンタムを作り出す。 ページでは、欠損値のパーセンテージやデータの平均など、データセットに関する統計を確認できます。

  1. ターゲット列、列を選択します (この投稿では、 segmentation).
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

Canvas は、予測を生成できる 2 種類のモデルを提供します。 クイック ビルドでは、精度よりも速度が優先され、15 ~ 2 分でモデルが提供されます。 標準ビルドでは、速度よりも精度が優先され、4 ~ XNUMX 時間でモデルが提供されます。

  1. この投稿では、 クイックビルド.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  2. モデルのトレーニングが完了したら、モデルの精度を分析できます。

次のモデルは、顧客を 94.67% の確率で正しく分類します。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

  1. 必要に応じて、各列が分類にどのように影響するかを表示することもできます。 この例では、顧客の年齢が上がるにつれて、列が分類に与える影響は少なくなります。 新しいモデルで予測を生成するには、次を選択します 予測する.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

予測を生成する

ソフトウェア設定ページで、下図のように 予測する タブでは、バッチ予測と単一予測の両方を生成できます。 次の手順を完了します。

  1. この投稿では、 単一の予測 新しい顧客にとって、顧客セグメンテーションがどのような結果になるかを理解する。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

予測のために、顧客が 32 歳で職業が弁護士である場合、顧客がどのようなセグメンテーションになるかを理解したいと考えています。

  1. 対応する値をこれらの入力に置き換えます。
  2. 選択する アップデイト.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

更新された予測が予測ウィンドウに表示されます。 この例では、32 歳の弁護士がセグメント D に分類されます。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

サードパーティの SaaS アプリケーションから AWS にデータをインポートする

コードなし ML のためにサードパーティの SaaS アプリケーションから Canvas にデータをインポートするには、最初に Amazon AppFlow 経由でアプリケーションから Amazon S3 にデータを転送する必要があります。 この例では、製造データを SAP OData から転送します。

データを転送するには、次の手順を実行します。

  1. Amazon AppFlowコンソールで、 フローを作成する.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  2. フロー名、名前を入力します。
  3. 選択する Next.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  4. ソース名で、目的のサードパーティ SaaS アプリケーションを選択します (この記事では、SAP OData)。
  5. 選択する 新しい接続を作成する.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  6. SAP OData に接続する ポップアップ ウィンドウで、認証の詳細を入力し、 お問合せ.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  7. SAP OData オブジェクトで、SAP OData 内のデータを含むオブジェクトを選択します。
  8. 宛先名、選択する アマゾンS3.
  9. バケットの詳細で、S3 バケットの詳細を指定します。
  10. 選択 AWS Glue Data Catalog でデータをカタログ化する.
  11. ユーザー役割を選択してください AWS IDおよびアクセス管理 Canvas ユーザーがデータへのアクセスに使用する (IAM) ロール。
  12. フロートリガー選択 オンデマンドで実行.

または、選択してフロー転送を自動化することもできます スケジュールに従ってフローを実行する.

  1. 選択する Next.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  2. フィールドのマッピング方法を選択し、フィールド マッピングを完了します。 この記事では、対応するマッピング先データベースがないため、マッピングを指定する必要はありません。
  3. 選択する 次へ。
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  4. オプションで、必要に応じてフィルターを追加して、転送されるデータを制限します。
  5. 選択する Next.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。
  6. 詳細を確認して選択する フローを作成する.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

フローが作成されると、ページの上部に緑色のリボンが表示され、正常に更新されたことを示します。

  1. 選択する 実行フロー.
    Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

この段階で、データを SAP OData から Amazon S3 に正常に転送できました。

Canvas アプリ内からデータをインポートできるようになりました。 Canvas からデータをインポートするには、 データインポート この投稿の前半のセクション。 この例では、 情報元 のドロップダウンメニュー データインポート ページ、あなたが見ることができます SAP OData リストされている。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

データのクリーニング、ML モデルの構築、列の影響データの表示、予測の生成など、既存のすべての Canvas 機能を使用できるようになりました。

クリーンアップ

プロビジョニングされたリソースをクリーンアップするには、Canvas アプリケーションからログアウトします。 ログアウト ナビゲーションペインに表示されます。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。

まとめ

Canvas を使用すると、AWS Glue Data Catalog を介して Athena と Amazon AppFlow のネイティブ コネクタを介して 47 のデータ ソースからノーコード ML のデータをインポートできるようになりました。 このプロセスにより、データが Amazon AppFlow 経由で転送された後、Canvas 内のデータ ソース全体に直接アクセスしてデータを集約できます。 データ転送を自動化して、スケジュールに従ってアクティブ化できます。つまり、データを更新するためにプロセスを再度実行する必要はありません。 このプロセスにより、キャンバス アプリを離れることなく、最新のデータを使用して新しいデータセットを作成できます。 この機能は、Canvas が利用可能なすべての AWS リージョンで利用できるようになりました。 データのインポートを開始するには、Canvas コンソールに移動し、この投稿で概説されている手順に従います。 詳細については、次を参照してください。 データ ソースに接続する.


著者について

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。ブランドン・ネア Amazon SageMaker Canvas のシニア プロダクト マネージャーです。 彼の専門的な関心は、スケーラブルな機械学習サービスとアプリケーションの作成にあります。 仕事以外では、国立公園を探索したり、ゴルフ スイングを完成させたり、冒険旅行を計画したりしています。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。サンジャナ・カンバラパリー ノーコード ML アプリケーションを構築することで機械学習の民主化を目指す AWS Sagemaker Canvas のソフトウェア開発マネージャーです。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。シン・シュウ Canvas チームのソフトウェア開発エンジニアであり、ノーコード機械学習製品のさまざまな側面の中で、データの準備に取り組んでいます。 余暇には、ジョギング、読書、映画鑑賞を楽しんでいます。

Amazon SageMaker Canvas PlatoBlockchain Data Intelligence を使用して、コードなしの機械学習のために 40 以上のデータソースからデータをインポートします。垂直検索。あい。ヴォルカン・ウンサル Canvas チームのシニア フロントエンド エンジニアであり、人間が人工知能にアクセスできるようにするノーコード製品を構築しています。 余暇には、ランニング、読書、e スポーツ観戦、格闘技を楽しんでいます。

タイムスタンプ:

より多くの AWS機械学習