探索的データ分析とデータ準備のために、AmazonSageMakerデータラングラーでクロスアカウントAmazonRedshiftからデータをインポートします

プラトン再発行

フォロワー： 0

データ主導の文化に移行している組織は、意思決定にデータと機械学習（ML）の使用を採用しています。データからMLベースの意思決定を行うには、MLモデルをトレーニングするために、データが利用可能で、アクセス可能で、クリーンで、適切な形式である必要があります。マルチアカウントアーキテクチャを採用している組織は、データ準備アクティビティのために、あるアカウントからデータを抽出して別のアカウントにロードする必要がある状況を避けたいと考えています。さまざまなアカウントでさまざまな抽出、変換、および読み込み（ETL）ジョブを手動で構築および維持すると、複雑さとコストが増加し、データを安全に保つためのガバナンス、コンプライアンス、およびセキュリティのベストプラクティスを維持することがより困難になります。

Amazonレッドシフト高速で完全に管理されたクラウドデータウェアハウスです。 Amazon Redshiftのクロスアカウントデータ共有機能は、Amazon Redshiftデータウェアハウス内の新鮮で完全で一貫性のあるデータを、さまざまなAWSアカウントの任意の数の利害関係者と共有するためのシンプルで安全な方法を提供します。 AmazonSageMakerデータラングラーの機能ですアマゾンセージメーカーこれにより、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用してMLアプリケーション用のデータをすばやく準備できます。 Data Wranglerを使用すると、Amazon Redshiftデータシェアに接続することで、MLのデータを探索および変換できます。

この投稿では、Amazon Redshiftデータシェアを使用してクロスアカウント統合を設定し、DataWranglerを使用してデータを準備する方法について説明します。

ソリューションの概要

まず、XNUMXつのAWSアカウントから始めます。AmazonRedshiftデータウェアハウスのプロデューサーアカウントと、SageMakerMLユースケースのコンシューマーアカウントです。この投稿では、銀行データセット。フォローするには、データセットをローカルマシンにダウンロードします。以下は、ワークフローの概要です。

プロデューサーアカウントでAmazonRedshiftRA3クラスターをインスタンス化し、データセットをロードします。
プロデューサーアカウントでAmazonRedshiftデータシェアを作成し、コンシューマーアカウントがデータにアクセスできるようにします。
コンシューマーアカウントでAmazonRedshiftデータシェアにアクセスします。
コンシューマーアカウントのDataWranglerを使用してデータを分析および処理し、データ準備ワークフローを構築します。

に注意してください検討事項 Amazon Redshiftデータ共有を使用する場合：

複数のAWSアカウント –少なくともXNUMXつのAWSアカウントが必要です。プロデューサーアカウントとコンシューマーアカウントです。
クラスタータイプ –データ共有はRA3クラスタータイプでサポートされています。 Amazon Redshiftクラスターをインスタンス化するときは、必ずRA3クラスタータイプを選択してください。
Encryption –データ共有が機能するには、プロデューサークラスターとコンシューマークラスターの両方が暗号化され、同じAWSリージョンに存在する必要があります。
地域 –クロスアカウントデータ共有はすべてのAmazonRedshiftで利用できます RA3ノードタイプ米国東部（北バージニア州）、米国東部（オハイオ州）、米国西部（北カリフォルニア州）、米国西部（オレゴン州）、アジア太平洋地域（ムンバイ）、アジア太平洋地域（ソウル）、アジア太平洋地域（シンガポール）、アジア太平洋地域（シドニー）、アジア太平洋（東京）、カナダ（中央）、ヨーロッパ（フランクフルト）、ヨーロッパ（アイルランド）、ヨーロッパ（ロンドン）、ヨーロッパ（パリ）、ヨーロッパ（ストックホルム）、南アメリカ（サンパウロ）。
価格（英語） –クロスアカウントデータ共有は、同じリージョンにあるクラスター間で利用できます。データを共有するための費用はかかりません。共有に参加するAmazonRedshiftクラスターの料金を支払うだけです。

アカウント間のデータ共有はXNUMX段階のプロセスです。まず、プロデューサークラスター管理者がデータ共有を作成し、オブジェクトを追加して、コンシューマーアカウントへのアクセスを許可します。次に、プロデューサーアカウント管理者は、指定されたコンシューマーのデータの共有を承認します。これは、AmazonRedshiftコンソールから実行できます。

プロデューサーアカウントでAmazonRedshiftデータシェアを作成します

データ共有を作成するには、次の手順を実行します。

Amazon Redshiftコンソールで、AmazonRedshiftクラスターを作成します。
指定生産 RA3ノードタイプを選択します。
追加の構成、選択を解除します デフォルトを使用.
データベース構成、クラスターの暗号化を設定します。
クラスターを作成したら、ダイレクトマーケティング銀行のデータセットをインポートします。次のURLからダウンロードできます。 https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
アップロード bank-additional-full.csv 〜に Amazon シンプルストレージサービス（Amazon S3）クラスターがアクセスできるバケット。

Amazon Redshiftクエリエディターを使用し、次のSQLクエリを実行して、データをAmazonRedshiftにコピーします。

create table bank_additional_full ( age char(40), job char(40), marital char(40), education char(40), default_history varchar(40), housing char(40), loan char(40), contact char(40), month char(40), day_of_week char(40), duration char(40), campaign char(40), pdays char(40), previous char(40), poutcome char(40), emp_var_rate char(40), cons_price_idx char(40), cons_conf_idx char(40), euribor3m char(40), nr_employed char(40), y char(40));
copy bank_additional_full
from <S3 LOCATION OF THE CSV FILE>
credentials <CLUSTER ROLE ARN>
region 'us-east-1'
format csv
IGNOREBLANKLINES
IGNOREHEADER 1

クラスタの詳細ページに移動し、 データ共有 タブを選択 データ共有を作成する.
データ共有名、名前を入力します。
データベース名、データベースを選択します。
データ共有オブジェクトを追加する セクションで、データ共有に含めるデータベースからオブジェクトを選択します。
他の人と共有することを選択したものをきめ細かく制御できます。簡単にするために、すべてのテーブルを共有します。実際には、XNUMXつ以上のテーブル、ビュー、またはユーザー定義関数を選択できます。
選択する Add.
データコンシューマーを追加するには、 AWSアカウントをデータシェアに追加します セカンダリAWSアカウントIDを追加します。
選択する データ共有を作成する.
作成したデータコンシューマーを承認するには、 データ共有 Amazon Redshiftコンソールのページで、新しいデータ共有を選択します。
データコンシューマーを選択し、 承認する.

消費者ステータスはから変更されます Pending authorization 〜へ Authorized.

コンシューマーAWSアカウントでAmazonRedshiftクロスアカウントデータシェアにアクセスする

データ共有が設定されたので、データ共有を使用するためにコンシューマーAWSアカウントに切り替えます。コンシューマーアカウントに少なくともXNUMXつのAmazonRedshiftクラスターが作成されていることを確認してください。クラスタは暗号化され、ソースと同じリージョンにある必要があります。

Amazon Redshiftコンソールで、 データ共有 ナビゲーションペインに表示されます。
ソフトウェア設定ページで、下図のように 他のアカウントから タブで、作成したデータ共有を選択し、仲間.
データ共有をこのアカウントのXNUMXつ以上のクラスターに関連付けるか、データ共有をアカウント全体に関連付けて、コンシューマーアカウントの現在および将来のクラスターがこの共有にアクセスできるようにすることができます。
接続の詳細を指定して、 お問合せ.
選択する データ共有からデータベースを作成する 新しいデータベースの名前を入力します。
データ共有をテストするには、クエリエディターに移動し、新しいデータベースに対してクエリを実行して、すべてのオブジェクトがデータ共有の一部として使用できることを確認します。

データラングラーを使用してデータを分析および処理する

これで、Data Wranglerを使用して、AmazonRedshiftでデータ共有として作成されたクロスアカウントデータにアクセスできます。

Open Amazon SageMakerスタジオ.
ソフトウェア設定ページで、下図のように File メニュー、選択新作 & データラングラーの流れ.
ソフトウェア設定ページで、下図のように インポート タブを選択 データソースを追加する & Amazonレッドシフト.
データ共有のコンシューマーアカウントで作成したAmazonRedshiftクラスターの接続の詳細を入力します。
選択する お問合せ.
AWS IDおよびアクセス管理（IAM）AmazonRedshiftクラスターに使用したロール。

データ共有はAmazonRedshiftクラスターの新しいデータベースですが、データラングラーから直接接続することはできないことに注意してください。

正しい方法は、最初にデフォルトのクラスターデータベースに接続してから、SQLを使用してデータ共有データベースにクエリを実行することです。デフォルトのクラスターデータベースに接続するために必要な情報を提供します。注意してください AWSキー管理サービス（AWS KMS）接続するためにキーIDは必要ありません。

これで、DataWranglerがAmazonRedshiftインスタンスに接続されました。

SQLエディターを使用して、AmazonRedshiftデータ共有データベースのデータをクエリします。
選択する インポート データセットをデータラングラーにインポートします。
データセットの名前を入力して、 Add.

これで、のフローを確認できます。 データフロー データラングラーのタブ。

データをデータラングラーにロードした後、探索的データ分析を実行し、MLのデータを準備できます。

プラス記号を選択し、 分析を追加.

データラングラーは、組み込みの分析を提供します。これらには、データ品質と洞察のレポート、データの相関関係、トレーニング前のバイアスレポート、データセットの概要、視覚化（ヒストグラムや散布図など）が含まれますが、これらに限定されません。独自のカスタムビジュアライゼーションを作成することもできます。

データ品質と洞察レポートを使用して、視覚化と分析を自動的に生成し、データ品質の問題を特定し、データセットに必要な適切な変換を推奨できます。

選択する データ品質と洞察レポート、および ターゲット列 as y.
これは分類問題ステートメントであるため、 問題の種類選択 Classification.
選択する 創造する.

データラングラーは、データセットに関する詳細なレポートを作成します。レポートをローカルマシンにダウンロードすることもできます。

データの準備には、プラス記号を選択して選択します 分析を追加.
選択する ステップを追加 変革の構築を開始します。

この記事の執筆時点で、DataWranglerは300を超える組み込みの変換を提供しています。 PandasまたはPySparkを使用して独自の変換を作成することもできます。

これで、ビジネス要件に基づいて変換と分析の構築を開始できます。

まとめ

この投稿では、データを手動でダウンロードおよびアップロードすることなく、AmazonRedshiftデータ共有を使用してアカウント間でデータを共有する方法について説明しました。データラングラーを使用して共有データにアクセスし、MLユースケースのデータを準備する方法について説明しました。 AmazonRedshiftデータ共有とデータラングラーのこのノーコード/ローコード機能は、トレーニングデータの準備を加速し、データエンジニアとデータサイエンティストの俊敏性を高め、反復的なデータ準備を高速化します。

Amazon RedshiftとSageMakerの詳細については、 AmazonRedshiftデータベース開発者ガイド & AmazonSageMakerのドキュメント.

著者について

探索的データ分析とデータ準備のために、Amazon SageMakerDataWranglerのクロスアカウントAmazonRedshiftからデータをインポートします。PlatoBlockchainDataIntelligence。垂直検索。愛。 ミーナクシスンダラム・タンダヴァラヤン AWSのシニアAI/MLスペシャリストです。彼は、AIとMLの旅でハイテク戦略アカウントを支援しています。彼はデータ駆動型AIに非常に情熱を注いでいます。

ジェームズ・ウー AWSのシニアAI/MLスペシャリストソリューションアーキテクトです。お客様がAI/MLソリューションを設計および構築するのを支援します。 Jamesの仕事は、コンピュータビジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 AWSに入社する前、Jamesは、エンジニアリングで10年間、マーケティングおよび広告業界で6年間を含む、4年以上にわたってアーキテクト、開発者、およびテクノロジーのリーダーでした。

タイムスタンプ： 2022 年 6 月 23 日

タイムスタンプ： 2022 年 12 月 1 日

プラトン再発行

パラメータ化されたデータセットとスケジュールされたジョブを使用して、Amazon SageMaker Data Wrangler ワークロードをより詳細に制御します

IMDb ナレッジグラフを使用した電力の推奨と検索 – パート 1

Amazon SageMaker の合成データを使用して不正取引を強化する

Amazon SageMaker を使用して機械学習モデルのガバナンスを改善する

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー