データ主導の文化に移行している組織は、意思決定にデータと機械学習(ML)の使用を採用しています。 データからMLベースの意思決定を行うには、MLモデルをトレーニングするために、データが利用可能で、アクセス可能で、クリーンで、適切な形式である必要があります。 マルチアカウントアーキテクチャを採用している組織は、データ準備アクティビティのために、あるアカウントからデータを抽出して別のアカウントにロードする必要がある状況を避けたいと考えています。 さまざまなアカウントでさまざまな抽出、変換、および読み込み(ETL)ジョブを手動で構築および維持すると、複雑さとコストが増加し、データを安全に保つためのガバナンス、コンプライアンス、およびセキュリティのベストプラクティスを維持することがより困難になります。
Amazonレッドシフト 高速で完全に管理されたクラウドデータウェアハウスです。 Amazon Redshiftのクロスアカウントデータ共有機能は、Amazon Redshiftデータウェアハウス内の新鮮で完全で一貫性のあるデータを、さまざまなAWSアカウントの任意の数の利害関係者と共有するためのシンプルで安全な方法を提供します。 AmazonSageMakerデータラングラー の機能です アマゾンセージメーカー これにより、データサイエンティストやエンジニアは、ビジュアルインターフェイスを使用してMLアプリケーション用のデータをすばやく準備できます。 Data Wranglerを使用すると、Amazon Redshiftデータシェアに接続することで、MLのデータを探索および変換できます。
この投稿では、Amazon Redshiftデータシェアを使用してクロスアカウント統合を設定し、DataWranglerを使用してデータを準備する方法について説明します。
ソリューションの概要
まず、XNUMXつのAWSアカウントから始めます。AmazonRedshiftデータウェアハウスのプロデューサーアカウントと、SageMakerMLユースケースのコンシューマーアカウントです。 この投稿では、 銀行データセット。 フォローするには、データセットをローカルマシンにダウンロードします。 以下は、ワークフローの概要です。
- プロデューサーアカウントでAmazonRedshiftRA3クラスターをインスタンス化し、データセットをロードします。
- プロデューサーアカウントでAmazonRedshiftデータシェアを作成し、コンシューマーアカウントがデータにアクセスできるようにします。
- コンシューマーアカウントでAmazonRedshiftデータシェアにアクセスします。
- コンシューマーアカウントのDataWranglerを使用してデータを分析および処理し、データ準備ワークフローを構築します。
に注意してください 検討事項 Amazon Redshiftデータ共有を使用する場合:
- 複数のAWSアカウント –少なくともXNUMXつのAWSアカウントが必要です。プロデューサーアカウントとコンシューマーアカウントです。
- クラスタータイプ –データ共有はRA3クラスタータイプでサポートされています。 Amazon Redshiftクラスターをインスタンス化するときは、必ずRA3クラスタータイプを選択してください。
- Encryption –データ共有が機能するには、プロデューサークラスターとコンシューマークラスターの両方が暗号化され、同じAWSリージョンに存在する必要があります。
- 地域 –クロスアカウントデータ共有はすべてのAmazonRedshiftで利用できます RA3ノードタイプ 米国東部(北バージニア州)、米国東部(オハイオ州)、米国西部(北カリフォルニア州)、米国西部(オレゴン州)、アジア太平洋地域(ムンバイ)、アジア太平洋地域(ソウル)、アジア太平洋地域(シンガポール)、アジア太平洋地域(シドニー)、アジア太平洋(東京)、カナダ(中央)、ヨーロッパ(フランクフルト)、ヨーロッパ(アイルランド)、ヨーロッパ(ロンドン)、ヨーロッパ(パリ)、ヨーロッパ(ストックホルム)、南アメリカ(サンパウロ)。
- 価格(英語) –クロスアカウントデータ共有は、同じリージョンにあるクラスター間で利用できます。 データを共有するための費用はかかりません。 共有に参加するAmazonRedshiftクラスターの料金を支払うだけです。
アカウント間のデータ共有はXNUMX段階のプロセスです。 まず、プロデューサークラスター管理者がデータ共有を作成し、オブジェクトを追加して、コンシューマーアカウントへのアクセスを許可します。 次に、プロデューサーアカウント管理者は、指定されたコンシューマーのデータの共有を承認します。 これは、AmazonRedshiftコンソールから実行できます。
プロデューサーアカウントでAmazonRedshiftデータシェアを作成します
データ共有を作成するには、次の手順を実行します。
- Amazon Redshiftコンソールで、AmazonRedshiftクラスターを作成します。
- 指定 生産 RA3ノードタイプを選択します。
- 追加の構成、選択を解除します デフォルトを使用.
- データベース構成、クラスターの暗号化を設定します。
- クラスターを作成したら、ダイレクトマーケティング銀行のデータセットをインポートします。 次のURLからダウンロードできます。 https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- アップロード
bank-additional-full.csv
〜に Amazon シンプル ストレージ サービス (Amazon S3)クラスターがアクセスできるバケット。 - Amazon Redshiftクエリエディターを使用し、次のSQLクエリを実行して、データをAmazonRedshiftにコピーします。
- クラスタの詳細ページに移動し、 データ共有 タブを選択 データ共有を作成する.
- データ共有名、名前を入力します。
- データベース名、データベースを選択します。
- データ共有オブジェクトを追加する セクションで、データ共有に含めるデータベースからオブジェクトを選択します。
他の人と共有することを選択したものをきめ細かく制御できます。 簡単にするために、すべてのテーブルを共有します。 実際には、XNUMXつ以上のテーブル、ビュー、またはユーザー定義関数を選択できます。 - 選択する Add.
- データコンシューマーを追加するには、 AWSアカウントをデータシェアに追加します セカンダリAWSアカウントIDを追加します。
- 選択する データ共有を作成する.
- 作成したデータコンシューマーを承認するには、 データ共有 Amazon Redshiftコンソールのページで、新しいデータ共有を選択します。
- データコンシューマーを選択し、 承認する.
消費者ステータスはから変更されます Pending authorization
〜へ Authorized
.
コンシューマーAWSアカウントでAmazonRedshiftクロスアカウントデータシェアにアクセスする
データ共有が設定されたので、データ共有を使用するためにコンシューマーAWSアカウントに切り替えます。 コンシューマーアカウントに少なくともXNUMXつのAmazonRedshiftクラスターが作成されていることを確認してください。 クラスタは暗号化され、ソースと同じリージョンにある必要があります。
- Amazon Redshiftコンソールで、 データ共有 ナビゲーションペインに表示されます。
- ソフトウェア設定ページで、下図のように 他のアカウントから タブで、作成したデータ共有を選択し、 仲間.
- データ共有をこのアカウントのXNUMXつ以上のクラスターに関連付けるか、データ共有をアカウント全体に関連付けて、コンシューマーアカウントの現在および将来のクラスターがこの共有にアクセスできるようにすることができます。
- 接続の詳細を指定して、 お問合せ.
- 選択する データ共有からデータベースを作成する 新しいデータベースの名前を入力します。
- データ共有をテストするには、クエリエディターに移動し、新しいデータベースに対してクエリを実行して、すべてのオブジェクトがデータ共有の一部として使用できることを確認します。
データラングラーを使用してデータを分析および処理する
これで、Data Wranglerを使用して、AmazonRedshiftでデータ共有として作成されたクロスアカウントデータにアクセスできます。
- Open Amazon SageMakerスタジオ.
- ソフトウェア設定ページで、下図のように File メニュー、選択 新作 & データラングラーの流れ.
- ソフトウェア設定ページで、下図のように インポート タブを選択 データソースを追加する & Amazonレッドシフト.
- データ共有のコンシューマーアカウントで作成したAmazonRedshiftクラスターの接続の詳細を入力します。
- 選択する お問合せ.
- AWS IDおよびアクセス管理 (IAM)AmazonRedshiftクラスターに使用したロール。
データ共有はAmazonRedshiftクラスターの新しいデータベースですが、データラングラーから直接接続することはできないことに注意してください。
正しい方法は、最初にデフォルトのクラスターデータベースに接続してから、SQLを使用してデータ共有データベースにクエリを実行することです。 デフォルトのクラスターデータベースに接続するために必要な情報を提供します。 注意してください AWSキー管理サービス (AWS KMS)接続するためにキーIDは必要ありません。
これで、DataWranglerがAmazonRedshiftインスタンスに接続されました。
- SQLエディターを使用して、AmazonRedshiftデータ共有データベースのデータをクエリします。
- 選択する インポート データセットをデータラングラーにインポートします。
- データセットの名前を入力して、 Add.
これで、のフローを確認できます。 データフロー データラングラーのタブ。
データをデータラングラーにロードした後、探索的データ分析を実行し、MLのデータを準備できます。
- プラス記号を選択し、 分析を追加.
データラングラーは、組み込みの分析を提供します。 これらには、データ品質と洞察のレポート、データの相関関係、トレーニング前のバイアスレポート、データセットの概要、視覚化(ヒストグラムや散布図など)が含まれますが、これらに限定されません。 独自のカスタムビジュアライゼーションを作成することもできます。
データ品質と洞察レポートを使用して、視覚化と分析を自動的に生成し、データ品質の問題を特定し、データセットに必要な適切な変換を推奨できます。
データラングラーは、データセットに関する詳細なレポートを作成します。 レポートをローカルマシンにダウンロードすることもできます。
この記事の執筆時点で、DataWranglerは300を超える組み込みの変換を提供しています。 PandasまたはPySparkを使用して独自の変換を作成することもできます。
これで、ビジネス要件に基づいて変換と分析の構築を開始できます。
まとめ
この投稿では、データを手動でダウンロードおよびアップロードすることなく、AmazonRedshiftデータ共有を使用してアカウント間でデータを共有する方法について説明しました。 データラングラーを使用して共有データにアクセスし、MLユースケースのデータを準備する方法について説明しました。 AmazonRedshiftデータ共有とデータラングラーのこのノーコード/ローコード機能は、トレーニングデータの準備を加速し、データエンジニアとデータサイエンティストの俊敏性を高め、反復的なデータ準備を高速化します。
Amazon RedshiftとSageMakerの詳細については、 AmazonRedshiftデータベース開発者ガイド & AmazonSageMakerのドキュメント.
著者について
ミーナクシスンダラム・タンダヴァラヤン AWSのシニアAI/MLスペシャリストです。 彼は、AIとMLの旅でハイテク戦略アカウントを支援しています。 彼はデータ駆動型AIに非常に情熱を注いでいます。
ジェームズ・ウー AWSのシニアAI/MLスペシャリストソリューションアーキテクトです。 お客様がAI/MLソリューションを設計および構築するのを支援します。 Jamesの仕事は、コンピュータビジョン、ディープラーニング、企業全体でのMLのスケーリングに主な関心を持って、幅広いMLユースケースをカバーしています。 AWSに入社する前、Jamesは、エンジニアリングで10年間、マーケティングおよび広告業界で6年間を含む、4年以上にわたってアーキテクト、開発者、およびテクノロジーのリーダーでした。
- "
- &
- 10
- 100
- 11
- 7
- a
- 私たちについて
- アクセス
- アクセス可能な
- 越えて
- 活動
- 広告運用
- に対して
- AI
- すべて
- ことができます
- Amazon
- アメリカ
- 分析
- 別の
- 建築
- アジア
- アジア太平洋地域
- 仲間
- 自動的に
- 利用できます
- AWS
- 銀行
- BEST
- ベストプラクティス
- 国境
- ビルド
- 建物
- 内蔵
- ビジネス
- カリフォルニア州
- キャンペーン
- カナダ
- 例
- 中央の
- 選択する
- 分類
- クラウド
- コンプリート
- コンプライアンス
- コンピュータ
- お問合せ
- 交流
- 接続する
- 接続
- 整合性のある
- 領事
- 消費する
- consumer
- 消費者
- 接触
- コントロール
- 作ります
- 作成した
- 作成します。
- Credentials
- 文化
- 電流プローブ
- カスタム
- Customers
- データ
- データ分析
- データ共有
- データベース
- 決定
- 深いです
- 設計
- 詳細な
- 細部
- Developer
- 異なります
- 難しい
- 直接
- 直接に
- ダウンロード
- エディタ
- 教育
- 受け入れる
- 暗号化
- エンジニアリング
- エンジニア
- 入力します
- Enterprise
- ヨーロッパ
- 探る
- スピーディー
- 速いです
- 特徴
- 名
- フロー
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- 新鮮な
- から
- 機能
- 未来
- 生成する
- ガバナンス
- 持って
- 助け
- ことができます
- 住宅
- 認定条件
- How To
- HTTPS
- 識別する
- アイデンティティ
- include
- 含めて
- 産業
- 情報
- 洞察
- 統合
- 関心
- インタフェース
- アイルランド
- 問題
- IT
- ジョブ
- Jobs > Create New Job
- 参加
- 旅
- キープ
- キー
- リーダー
- LEARN
- 学習
- 限定的
- 負荷
- ローカル
- 場所
- ロンドン
- 機械
- 機械学習
- 維持する
- make
- 作る
- マネージド
- 管理
- 手動で
- マーケティング
- かもしれない
- ML
- モデル
- 月
- 他には?
- 移動する
- ムンバイ
- ナビゲーション
- 数
- オハイオ
- 注文
- オレゴン
- 組織
- その他
- 自分の
- 太平洋
- パリ
- 部
- 参加する
- 情熱的な
- 支払う
- 練習
- 準備
- 前
- 主要な
- 問題
- プロセス
- プロデューサー
- 提供します
- は、大阪で
- 品質
- 範囲
- 推奨する
- 地域
- レポート
- の提出が必要です
- 職種
- ラン
- 安全な
- 同じ
- スケーリング
- 科学者たち
- 二次
- 安全に
- セキュリティ
- ソウル
- セッションに
- 設定
- シェアする
- shared
- シェアリング
- 符号
- 簡単な拡張で
- シンガポール
- So
- 固体
- 溶液
- ソリューション
- サウス
- 専門家
- start
- ステートメント
- Status:
- ストレージ利用料
- 戦略的
- サポート
- スイッチ
- シドニー
- テクノロジー
- test
- ソース
- 介して
- 時間
- 東京
- に向かって
- トレーニング
- 最適化の適用
- 変換
- 変換
- us
- つかいます
- バージニア州
- ビジョン
- 可視化
- ウェスト
- この試験は
- 無し
- 仕事
- ワークフロー
- ワーキング
- 書き込み
- 年
- あなたの