AmazonSageMakerデータラングラー 機械学習(ML)のデータを集約して準備する時間を数週間から数分に短縮します。 Data Wranglerを使用すると、数回クリックするだけでデータを選択してクエリを実行し、300を超える組み込みのデータ変換を使用してデータをすばやく変換し、コードを記述せずに組み込みの視覚化を使用してデータを理解できます。
さらに、作成することができます カスタム変換 要件に固有です。 カスタム変換を使用すると、PySpark、Pandas、またはSQLのいずれかを使用してカスタム変換を記述できます。
データラングラーがカスタムをサポートするようになりました パンダのユーザー定義関数 (UDF)大規模なデータセットを効率的に処理できる変換。 パンダとPythonのXNUMXつのカスタムパンダUDFモードから選択できます。 どちらのモードもデータセットを処理するための効率的なソリューションを提供し、選択するモードは好みによって異なります。
この投稿では、新しいPandasUDFトランスフォームをどちらのモードでも使用する方法を示します。
ソリューションの概要
この記事の執筆時点では、データセットをデータラングラーにインポートできます。 Amazon シンプル ストレージ サービス (Amazon S3)、 アマゾンアテナ, Amazonレッドシフト、Databricks、およびSnowflake。 この投稿では、AmazonS3を使用して2014を保存します Amazonレビューデータセット.
データには、という列があります reviewText
ユーザー生成テキストを含みます。 テキストにはいくつかが含まれています ストップワード、「a」、「an」、「the」など、あまり情報を提供しない一般的な単語です。 ストップワードの削除は、自然言語処理(NLP)パイプラインの一般的な前処理ステップです。 レビューからストップワードを削除するカスタム関数を作成できます。
カスタムパンダUDFトランスフォームを作成する
パンダモードとPythonモードを使用して、XNUMXつのデータラングラーカスタムパンダUDF変換を作成するプロセスを見ていきましょう。
- ダウンロード デジタルミュージックレビューデータセット それをAmazonS3にアップロードします。
- Open Amazon SageMakerスタジオ 新しいデータラングラーフローを作成します。
- インポート日、選択する アマゾンS3 データセットの場所に移動します。
- ファイルの種類、選択する jsonl.
データのプレビューがテーブルに表示されます。
- 選択する インポート をクリックして次に進みます。
- データをインポートしたら、横にあるプラス記号を選択します データ型 選択して 変換を追加.
- 選択する カスタム変換.
- ドロップダウンメニューで、 Python(ユーザー定義関数).
次に、ストップワードを削除するカスタム変換を作成します。
- 入力列、出力列、戻り値のタイプ、およびモードを指定します。
次の例では、パンダモードを使用しています。 これは、関数が同じ長さのPandasシリーズを受け入れて返す必要があることを意味します。 Pandasシリーズは、テーブルの列または列のチャンクと考えることができます。 これは、Pandasが一度にXNUMXつずつではなく、値のバッチ全体で操作をベクトル化できるため、最もパフォーマンスの高いPandasUDFモードです。 The pd.Series
パンダモードではタイプヒントが必要です。
Pandas APIではなく純粋なPythonを使用する場合は、Pythonモードを使用して、単一の引数を受け入れ、単一の値を返す純粋なPython関数を指定できます。 次の例は、出力の点で前述のPandasコードと同等です。 Pythonモードでは、タイプヒントは必要ありません。
- 選択する Add カスタム変換を追加します。
まとめ
Data Wranglerには300を超える組み込みの変換があり、要件に固有のカスタム変換を追加することもできます。 この投稿では、PandasモードとPythonモードの両方を使用して、DataWranglerの新しいカスタムPandasUDF変換でデータセットを処理する方法を示しました。 好みに応じてどちらのモードも使用できます。 データラングラーの詳細については、を参照してください。 データラングラーフローの作成と使用.
著者について
ベン・ハリス は、さまざまなドメインにわたるスケーラブルなデータパイプラインと機械学習ソリューションの設計、導入、保守の経験を持つソフトウェアエンジニアです。 ベンは、データの収集とラベリング、画像とテキストの分類、シーケンス間のモデリング、埋め込み、クラスタリングなどのシステムを構築してきました。
ハイダーナクヴィ AWSのソリューションアーキテクトです。 彼は、ソフトウェア開発とエンタープライズアーキテクチャの豊富な経験があります。 彼は、お客様がAWSでビジネスの成果を達成できるようにすることに重点を置いています。 彼はニューヨークを拠点としています。
ヴィシャル・スリバスタヴァ AWSのテクニカルアカウントマネージャーです。 ソフトウェア開発と分析のバックグラウンドを持ち、主に金融サービスセクターとデジタルネイティブビジネスの顧客と協力し、クラウドジャーニーをサポートしています。 余暇には、家族と一緒に旅行するのが大好きです。
- "
- 10
- 100
- 9
- 私たちについて
- 越えて
- Amazon
- 間で
- 分析論
- API
- 建築
- 利用できます
- AWS
- 背景
- 内蔵
- ビジネス
- 選択する
- 分類
- クラウド
- コード
- コレクション
- コラム
- コマンドと
- 含まれています
- 作ります
- 作成
- カスタム
- Customers
- データ
- 実証します
- 実証
- 依存
- 展開する
- 設計
- 開発
- デジタル
- ドメイン
- 効率的な
- 効率良く
- 有効にする
- エンジニア
- Enterprise
- 例
- 体験
- 広範囲
- 家族
- ファイナンシャル
- 金融業務
- フロー
- 焦点を当てて
- フォロー中
- 無料版
- function
- 認定条件
- How To
- HTTPS
- 画像
- 情報
- IT
- ジョイン
- ラベリング
- 言語
- 大
- LEARN
- 学習
- 場所
- 機械
- 機械学習
- マネージャー
- 一致
- ML
- 他には?
- 最も
- 音楽を聴く際のスピーカーとして
- ナチュラル
- ニューヨーク
- 業務執行統括
- 準備
- プレビュー
- プロセス
- 処理
- 提供します
- クイック
- すぐに
- の提出が必要です
- 要件
- return
- 収益
- レビュー
- ド電源のデ
- セクター
- シリーズ
- サービス
- 簡単な拡張で
- ソフトウェア
- ソフトウェア開発
- ソフトウェアエンジニア
- 溶液
- ソリューション
- スペース
- ストレージ利用料
- 店舗
- サポート
- システム
- 技術的
- 介して
- 時間
- トークン
- トークン
- 最適化の適用
- 旅行
- わかる
- ユニーク
- つかいます
- 値
- 多様
- 無し
- 言葉
- 作品
- 書き込み