Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

AWS機械学習

Amazon SageMaker Data Wrangler で Github サンプルを使用する

AIタイムスタンプ：4年2022月11日41:XNUMX AM

プラトン再発行

フォロワー： 0

アマゾンセージメイク r データラングラーは UI ベースのデータ準備ツールであり、データの分析、前処理、および視覚化を実行するのに役立ち、データをより迅速にクリーニング、変換、および準備する機能を備えています。 Data Wrangler の事前構築済みフローテンプレートは、共通のデータセットを使用してデータフローのベストプラクティスパターンを加速および理解できるようにすることで、データサイエンティストや機械学習 (ML) 実践者のデータ準備を迅速化するのに役立ちます。

Data Wrangler フローを使用して、次のタスクを実行できます。

データの視覚化 –データセットの各列の統計プロパティの調査、ヒストグラムの作成、外れ値の調査
データクリーニング –重複の削除、エントリの削除または欠落した値の入力、外れ値の削除
データエンリッチメントと機能エンジニアリング –列を処理してより表現力豊かな特徴を構築し、トレーニング用の特徴のサブセットを選択します

この投稿は、次のビルド済みフローのサンプルを使用して、Data Wrangler を理解するのに役立ちます。 GitHubの. リポジトリは、表形式のデータ変換、時系列データの変換、および結合されたデータセットの変換を示しています。それぞれが基本的な性質のため、異なるタイプの変換を必要とします。標準的な表形式または断面データは、特定の時点で収集されます。対照的に、時系列データは時間の経過とともに繰り返し取得され、連続する各データポイントは過去の値に依存します。

表形式データのサンプルデータフローを使用する方法の例を見てみましょう。

前提条件

データラングラーはアマゾンセージメーカー内で利用可能な機能 Amazon SageMakerスタジオ、そのため、Studio のオンボーディングプロセスに従って、Studio 環境とノートブックをスピンアップする必要があります。いくつかの認証方法から選択できますが、Studio ドメインを作成する最も簡単な方法は、クイックスタート指示。クイックスタートは、標準スタジオ設定. を使用してオンボーディングを選択することもできます AWS IAM アイデンティティセンター (AWS Single Sign-On の後継) 認証用 (参照 IAM Identity Center を使用して Amazon SageMaker ドメインにオンボード).

Studio を使用してデータセットとフローファイルを Data Wrangler にインポートする

次の手順は、データを SageMaker にインポートして Data Wrangler で使用する方法の概要を示しています。

を選択して、Studio UI を介して Data Wrangler を初期化します。 新しいデータフロー.

クローン GitHubレポフローファイルを Studio 環境にダウンロードします。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

クローンが完了すると、左側のペインにリポジトリの内容が表示されるはずです。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

ファイルを選択 ホテル予約分類フロー フローファイルを Data Wrangler にインポートします。

時系列または結合されたデータフローを使用する場合、フローは別の名前で表示されます。フローがインポートされると、次のスクリーンショットが表示されます。フローファイルが正しいデータソースを指していることを確認する必要があるため、これはエラーを示しています。 Amazon シンプルストレージサービス（Amazon S3）。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

選択する データセットを編集 すべての S3 バケットを起動します。次に、データセットを選択します hotel_bookings.csv S3 バケットから表形式のデータフロー.

を使用している場合は、結合されたデータフロー、複数のデータセットを Data Wrangler にインポートする必要がある場合があります Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

右側のペインで、段落区切り文字として選択され、 サンプリング に設定されています 最初のK. 私たちのデータセットは、完全なデータセットで Data Wrangler 変換を実行するのに十分小さいですが、データセットをインポートする方法を強調したかったのです。大規模なデータセットがある場合は、サンプリングの使用を検討してください。選ぶ インポート このデータセットを Data Wrangler にインポートします。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

データセットがインポートされると、Data Wrangler は自動的にデータセットを検証し、データ型を検出します。正しいデータセットを指しているため、エラーがなくなっていることがわかります。フローエディターには、データがソースからインポートされ、データ型が認識されたことを示す XNUMX つのブロックが表示されるようになりました。必要に応じて、データ型を編集することもできます。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

次のスクリーンショットは、データ型を示しています。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

この表形式のフローの一部として行われる変換のいくつかを見てみましょう。を使用している場合時系列 or 参加したデータフローの一般的な変換を確認してください。 GitHubレポ. データセット内のターゲットリークと特徴の共線性を調査したデータインサイトレポート、テーブルサマリー分析、および迅速なモデリング機能を使用して、いくつかの基本的な探索的データ分析を実行しました。の手順を調べる GitHubレポ.

ここで、Data Insights and Quality Report によって提供される推奨事項に基づいて列を削除します。

対象漏れの場合はドロップ 予約状況.
冗長な列の場合はドロップします days_in_waiting_list、ホテル、reserved_room_type、arrival_date_month、reservation_status_date、赤ちゃん、 & Arrival_date_day_of_month.
線形相関の結果に基づいて、列を削除します 到着日_週番号 & 到着日_年 これらの特徴 (列) ペアの相関値は、推奨されるしきい値の 0.90 よりも大きいためです。
非線形相関結果に基づいて、ドロップ 予約状況. この列は、ターゲットの漏れ分析に基づいて、削除するように既にマークされています。
の処理数値 (最小 - 最大スケーリング) Lead_time, stays_in_weekend_nights, stays_in_weekday_nights, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, booking_changes, adr, total_of_specical_requests, & required_car_parking_spaces.
次のようなカテゴリ変数のワンホットエンコード 食事、is_repeated_guest、market_segment、assigned_room_type、deposit_type、 & 顧客タイプ.
クラスの不均衡に対してターゲット変数のランダムオーバーサンプルのバランスをとります。クイックモデリング機能を使用して、外れ値と欠損値を処理します。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

AmazonS3にエクスポートする

これで、さまざまな変換が完了し、データを Amazon S3 にエクスポートする準備が整いました。このオプションは、Data Wrangler 処理フローを実行し、結果のデータセットを指定された S3 バケットに保存する SageMaker 処理ジョブを作成します。次の手順に従って、Amazon S3 へのエクスポートを設定します。

変換要素のコレクションの横にあるプラス記号を選択し、 宛先を追加をタップし、その後、 アマゾンS3.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

データセット名、新しいデータセットの名前を入力します。たとえば、 NYC_export.
ファイルの種類、選択する CSV.
デリミタ、選択する コンマ.
圧縮、選択するなし.
AmazonS3の場所、前に作成したものと同じバケット名を使用します。
選択する 宛先を追加.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

選択する ジョブを作成.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

職種名、名前を入力するか、自動生成されたオプションを保持して選択します デスティネーション. 目的地はただ一つ、 S3:testingtabulardataですが、ワークフローのさまざまなステップから複数の宛先がある場合があります。出て KMS キー ARN フィールドを空にして選択 Next.

ここで、ジョブのコンピューティング容量を構成する必要があります。この例では、すべてのデフォルト値をそのまま使用できます。

インスタンスタイプ、ml.m5.4xlargeを使用します。
インスタンス数、2 を使用します。
あなたは探検することができます 追加の構成、ただしデフォルト設定のままにします。
選択するラン.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

これでジョブが開始されました。Data Wrangler の処理フローに従って 6 GB のデータを処理するには時間がかかります。 ml.m2xlarge のコストは 5.4 時間あたり 0.922 米ドルで、そのうちの XNUMX つを使用しているため、このジョブのコストは約 XNUMX 米ドルになります。

ジョブ名を選択すると、ジョブの詳細が表示された新しいウィンドウにリダイレクトされます。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

ジョブの詳細ページで、前の手順のすべてのパラメーターを確認できます。

ジョブのステータスが [完了] に変わると、次のことも確認できます。 処理時間 (秒) 価値。この処理ジョブが完了するまでに約 5 ～ 10 分かかります。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

ジョブが完了すると、トレーニングとテストの出力ファイルが対応する S3 出力フォルダーで使用可能になります。処理ジョブ構成から出力場所を見つけることができます。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence で Github サンプルを使用します。垂直検索。あい。

Data Wrangler 処理ジョブが完了したら、S3 バケットに保存された結果を確認できます。を更新することを忘れないでください job_name 変数をジョブ名に置き換えます。

このエクスポートされたデータを使用して、ML モデルを実行できるようになりました。

クリーンアップ

S3 バケットを削除するとはデータラングラーフロー基盤となるリソースを削除し、実験終了後に不要なコストが発生しないようにするため。

まとめ

この投稿では、事前に構築された表形式のデータフローを Data Wrangler にインポートし、データセットにプラグインして、結果を Amazon S3 にエクスポートする方法を示しました。ユースケースで時系列データの操作や複数のデータセットの結合が必要な場合は、 GitHubレポ.

事前構築済みのデータ準備ワークフローをインポートしたら、それを Amazon SageMaker Processing と統合できます。 AmazonSageMakerパイプライン, Amazon SageMaker フィーチャーストア ML トレーニングデータの処理、共有、保存のタスクを簡素化します。また、このサンプルデータフローを Python スクリプトにエクスポートし、カスタム ML データ準備パイプラインを作成して、リリース速度を加速することもできます。

私たちはあなたが私たちをチェックすることをお勧めします GitHubリポジトリ実践的な練習を行い、モデルの精度を向上させる新しい方法を見つけてください! SageMaker の詳細については、次の Web サイトをご覧ください。 AmazonSageMaker開発者ガイド.

著者について

イシャドゥア サンフランシスコベイエリアを拠点とするシニアソリューションアーキテクトです。彼女は、AWS Enterprise のお客様の目標と課題を理解することで成長を支援し、クラウドネイティブな方法でアプリケーションを構築する方法を指導しながら、それらの回復力とスケーラビリティを確保しています。彼女は、機械学習技術と環境の持続可能性に情熱を注いでいます。

タイムスタンプ： 2022 年 11 月 4 日2022 年 11 月 5 日

より多くの AWS機械学習

モビリティデータを使用して、Amazon SageMaker 地理空間機能を使用して洞察を導き出す |アマゾンウェブサービス

モビリティデータを使用して、Amazon SageMaker 地理空間機能を使用して洞察を導き出す |アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1938140

タイムスタンプ： 2024 年 1 月 17 日

Amazon SageMaker Data Wrangler を使用して生成 AI のデータ準備を簡素化する | アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1918408

タイムスタンプ： 2023 年 11 月 27 日

Amazon SageMaker JumpStart を使用した画像分類モデルの選択

Amazon SageMaker JumpStart を使用した画像分類モデルの選択

ソースクラスター：

AWS機械学習

ソースノード： 1799994

タイムスタンプ： 2023 年 2 月 6 日

Amazon Comprehend を使用した The Very Group での PII データの秘匿化

Amazon Comprehend を使用した The Very Group での PII データの秘匿化

ソースクラスター：

AWS機械学習

ソースノード： 1785869

タイムスタンプ： 2023 年 1 月 12 日

Amazon Polly PlatoBlockchain Data Intelligence を使用して、ウェブページを読み、コンテンツをハイライトします。垂直検索。あい。

Amazon Polly を使用してウェブページを読み、コンテンツをハイライトする

ソースクラスター：

AWS機械学習

ソースノード： 1667276

タイムスタンプ： 2022 年 9 月 16 日

BMC AMI zAdviser Enterprise と Amazon Bedrock で DevOps の成熟度を達成 |アマゾンウェブサービス

BMC AMI zAdviser Enterprise と Amazon Bedrock で DevOps の成熟度を達成 |アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1959546

タイムスタンプ： 2024 年 3 月 27 日

バーコードレジストリがオブジェクト検出とAmazonSageMakerを使用して偽造品を検出する方法

ソースクラスター：

AWS機械学習

ソースノード： 1223264

タイムスタンプ： 2022 年 3 月 8 日

Amazon SageMaker Canvas の ML 予測を使用して、Amazon QuickSight で予測ダッシュボードを公開する | アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1834973

タイムスタンプ： 2023 年 5 月 10 日

AWS アクセラレータ全体のスタートアップは、AI と ML を使用してミッションクリティカルな顧客の課題を解決しています

ソースクラスター：

AWS機械学習

ソースノード： 1734450

タイムスタンプ： 2022 年 11 月 1 日

Amazon SageMaker JumpStart の Pinecone ベクターデータベースと Llama-2 を使用した検索拡張生成を通じて幻覚を軽減する | アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1921923

タイムスタンプ： 2023 年 12 月 6 日

Vericast が Amazon SageMaker Processing を使用して機能エンジニアリングを最適化した方法

Vericast が Amazon SageMaker Processing を使用して機能エンジニアリングを最適化した方法

ソースクラスター：

AWS機械学習

ソースノード： 1833498

タイムスタンプ： 2023 年 5 月 3 日

Amazon SageMaker JumpStart PlatoBlockchainDataIntelligenceを使用したインクリメンタルトレーニング。垂直検索。愛。

AmazonSageMakerJumpStartを使用したインクリメンタルトレーニング

ソースクラスター：

AWS機械学習

ソースノード： 1430639

タイムスタンプ： 2022 年 6 月 9 日