AmazonSageMakerデータラングラー は、機械学習(ML)用の専用のデータ集約および準備ツールです。 ビジュアルインターフェイスを使用してデータにアクセスし、探索的データ分析(EDA)と特徴エンジニアリングを実行できます。 EDA機能には、チャート(散布図やヒストグラムなど)のデータ分析機能と、機能の重要性、ターゲットリーク、モデルの説明可能性などの時間節約モデル分析機能が組み込まれています。 特徴エンジニアリング機能には300を超える組み込みの変換があり、Python、PySpark、またはSparkSQLランタイムのいずれかを使用してカスタム変換を実行できます。
カスタムの視覚化と変換のために、DataWranglerは一般的なタイプの視覚化と変換のサンプルコードスニペットを提供するようになりました。 この投稿では、これらのコードスニペットを使用してデータラングラーでEDAをクイックスタートする方法を示します。
ソリューションの概要
この記事の執筆時点では、データセットをデータラングラーにインポートできます。 Amazon シンプル ストレージ サービス (Amazon S3)、 アマゾンアテナ, Amazonレッドシフト、Databricks、およびSnowflake。 この投稿では、AmazonS3を使用して2014Amazonを保存します レビューデータセット。 以下は、データセットのサンプルです。
この投稿では、XNUMXつの列を使用してEDAを実行します—asin
, reviewTime
, overall
-それぞれ、製品ID、レビュー日時、および全体的なレビュースコアにマップされます。 このデータを使用して、数か月および数年にわたるレビュー数のダイナミクスを視覚化します。
データラングラーでのEDAのサンプルコードスニペットの使用
データラングラーでEDAの実行を開始するには、次の手順を実行します。
- ダウンロード デジタルミュージックレビューデータセット JSONを使用してAmazonS3にアップロードします。
これをEDAの生のデータセットとして使用します。 - Open Amazon SageMakerスタジオ 新しいデータラングラーフローを作成し、AmazonS3からデータセットをインポートします。
このデータセットにはXNUMXつの列がありますが、使用するのはXNUMXつだけです。
asin
,reviewTime
,overall
。 他のXNUMXつの列を削除する必要があります。 - カスタム変換を作成して選択します Python(PySpark).
- 詳細 サンプルスニペットを検索する 選択して いくつかを除くすべての列を削除します.
- 提供されたスニペットをカスタムトランスフォームに入力し、指示に従ってコードを変更します。
必要な列がすべて揃ったので、データをフィルタリングして、2000〜2020年のレビューのみを保持しましょう。
- 範囲外のタイムスタンプをフィルタリングする 2000年以前と2020年以降のデータを削除するスニペット:
次に、reviewTime列から年と月を抽出します。
- 日付/時刻を機能化する 変換します。
- 列を抽出する、選択する 年 & 月.
次に、前のステップで作成した年と月ごとのレビュー数を集計します。
- グループで統計を計算する スニペット:
- 前のステップの集計の名前を
count(overall)
〜へreviews_num
選択することによって 列の管理 と 列の名前を変更 変換します。
最後に、年別および月別のレビューの分布を視覚化するヒートマップを作成します。 - [分析]タブで、[ カスタム視覚化.
- 詳細 スニペットを検索 選択して ヒートマップ ドロップダウンメニューで
- 提供されたスニペットをカスタムビジュアライゼーションに入力します。
次の視覚化が得られます。
ヒートマップをさらに強化したい場合は、データをスライスして2011年より前のレビューのみを表示できます。2012年以降のレビューが大量にあるため、作成したヒートマップではこれらを特定するのは困難です。 - カスタムビジュアライゼーションにXNUMX行のコードを追加します。
次のヒートマップを取得します。
現在、ヒートマップは2011年より前のレビューをより明確に反映しています。季節的な影響を観察でき(年末には購入が増え、レビューが増える)、2003年2005月やXNUMX年XNUMX月などの異常な月を特定できます。さらに調査する価値があります。それらの異常の原因を特定します。
まとめ
Data Wranglerは、ML用の専用のデータ集約および準備ツールです。 この投稿では、Data Wranglerが提供するコードスニペットを使用してEDAを実行し、データをすばやく変換する方法を示しました。 スニペットを見つけてコードを入力し、データセットに一致するようにパラメータを調整するだけです。 スクリプトを繰り返し処理して、より複雑な視覚化と変換を作成できます。
データラングラーの詳細については、以下を参照してください。 データラングラーフローの作成と使用.
著者について
ニキータ・イヴキン は、Amazon SageMakerDataWranglerの応用科学者です。
ハイダーナクヴィ AWSのソリューションアーキテクトです。 彼は、広範なソフトウェア開発とエンタープライズアーキテクチャの経験があります。 彼は、お客様がAWSでビジネスの成果を達成できるようにすることに重点を置いています。 彼はニューヨークを拠点としています。
ハリッシュラジャゴパラン アマゾンウェブサービスのシニアソリューションアーキテクトです。 Harishは企業のお客様と協力し、クラウドへの移行を支援します。
ジェームズ・ウー AWSのシニアAI/MLスペシャリストSAです。 彼は顧客と協力して、クラウドジャーニーを加速し、ビジネス価値の実現を迅速に進めます。 それに加えて、Jamesは、さまざまなドメインにわたる大規模なAI/MLソリューションの開発とスケーリングにも情熱を注いでいます。 AWSに入社する前は、市場および広告業界のトップグローバル企業のMLエンジニアおよびソフトウェア開発者とともに多分野のイノベーションテクノロジーチームを率いていました。
- "
- 100
- 2020
- a
- 私たちについて
- 加速する
- アクセス
- 達成する
- 越えて
- 添加
- 広告運用
- すべて
- ことができます
- Amazon
- Amazon Webサービス
- 分析
- 適用された
- 建築
- 利用できます
- AWS
- 軸
- なぜなら
- の間に
- 内蔵
- ビジネス
- 機能
- 原因となる
- チャート
- 選択する
- クラウド
- コード
- コラム
- コマンドと
- コンプリート
- 複雑な
- 続ける
- controls
- 作ります
- 作成した
- カスタム
- Customers
- データ
- データ分析
- 実証します
- 実証
- 決定する
- 開発者
- 開発
- 開発
- ディストリビューション
- ドメイン
- ダウン
- Drop
- ダイナミクス
- 効果
- 有効にする
- エンジニアリング
- エンジニア
- 入力します
- Enterprise
- 例
- 除く
- 体験
- 広範囲
- 速いです
- 特徴
- 最後に
- 会社
- 名
- フロー
- 焦点を当てて
- フォロー中
- から
- function
- 機能
- さらに
- グローバル
- 素晴らしい
- グループの
- 持って
- 役立つ
- ことができます
- 認定条件
- How To
- HTTPS
- 識別する
- 重要性
- 産業を変えます
- 革新的手法
- インタフェース
- IT
- 旅
- キープ
- 大
- LEARN
- 学習
- ツェッペリン
- LINE
- リスト
- 機械
- 機械学習
- 地図
- 3月
- 市場
- 一致
- ML
- 月
- ヶ月
- 他には?
- 音楽を聴く際のスピーカーとして
- 名
- ニューヨーク
- 数
- その他
- 全体
- 情熱的な
- 実行
- 再生
- 準備
- 前
- プロダクト
- 提供します
- 提供
- は、大阪で
- 購入
- 購入
- すぐに
- Raw
- 記録
- 反映
- レビュー
- レビュー
- スケーリング
- 科学者
- サービス
- 簡単な拡張で
- から
- SIX
- ソフトウェア
- ソフトウェア開発
- ソリューション
- 専門家
- start
- 統計
- ストレージ利用料
- 店舗
- ターゲット
- チーム
- テクノロジー
- したがって、
- 三
- 時間
- ツール
- top
- 最適化の適用
- 変換
- つかいます
- 値
- さまざまな
- 可視化
- ボリューム
- ウェブ
- Webサービス
- 誰
- 素晴らしい
- 作品
- 価値
- 書き込み
- X
- 年
- 年
- あなたの