Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

Amazon SageMaker Data Wrangler でテキストデータのパターンを検出する

この投稿では、新しい分析を紹介します データ品質と洞察レポート of AmazonSageMakerデータラングラー. この分析は、テキストの特徴が正しいかどうかを検証し、無効な行を見つけて修復または省略できるようにするのに役立ちます。

Data Wrangler は、機械学習 (ML) 用のデータの集計と準備にかかる時間を数週間から数分に短縮します。 データ準備と特徴量エンジニアリングのプロセスを簡素化し、データの選択、クレンジング、探索、視覚化など、データ準備ワークフローの各ステップを単一のビジュアル インターフェイスから完了できます。

ソリューションの概要

多くの場合、データの前処理には、電子メール アドレス、電話番号、製品名などのテキスト データのクリーニングが含まれます。 このデータには、正規表現で記述できる基本的な整合性制約を含めることができます。 たとえば、有効であると見なされるには、市内の電話番号が次のようなパターンに従う必要がある場合があります。 [1-9][0-9]{2}-[0-9]{4}、これはゼロ以外の数字、その後にさらに XNUMX つの数字、その後にダッシュ、さらに XNUMX つの数字が続くものと一致します。

データが無効になる一般的なシナリオには、さまざまな形式の電話番号 (5551234 対 555 1234 対 555-1234) や、0、911、または 411 などの予期しないデータなど、一貫性のない人間の入力が含まれる場合があります。カスタマー コール センターの場合、 0、911、または 411 などの数字を省略し、5551234 または 555 1234 などのエントリを検証 (および場合によっては正しい) することが重要です。

残念ながら、テキストの制約は存在しますが、データに含まれていない場合があります。 したがって、データセットを準備するデータ サイエンティストは、データを見て手動で制約を明らかにする必要があります。 これは退屈で、エラーが発生しやすく、時間がかかる可能性があります。

パターン学習は自動的にデータを分析し、データセットに適用されるテキスト制約を明らかにします。 電話番号の例では、パターン学習によってデータを分析し、電話番号の大部分がテキストの制約に従っていることを特定できます。 [1-9][0-9]{2}-[0-9][4]. また、無効なデータの例があることを警告して、それらを除外または修正できるようにすることもできます。

以下のセクションでは、製品カテゴリと SKU (在庫管理単位) コードの架空のデータセットを使用して、Data Wrangler でパターン学習を使用する方法を示します。

このデータセットには、会社、ブランド、およびエネルギー消費ごとに製品を説明する機能が含まれています。 特に、不適切な形式の機能 SKU が含まれています。 このデータセットのすべてのデータは架空のものであり、ランダムなブランド名とアプライアンス名を使用してランダムに作成されています。

前提条件

Data Wrangler の使用を開始する前に、 ダウンロード サンプル データセットを次の場所にアップロードします。 Amazon シンプル ストレージ サービス (アマゾン S3)。 手順については、を参照してください。 オブジェクトのアップロード.

データセットをインポートする

データセットをインポートするには、次の手順を実行します。

  1. Data Wrangler で、 ML 用のデータのインポートと探索.
  2. 選択する インポート.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。
  3. インポート日、選択する アマゾンS3.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。
  4. Amazon S3 でファイルを見つけて選択します インポート.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

インポート後、データ フローに移動できます。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

データの洞察を得る

このステップでは、データ品質に関する情報を含むデータ インサイト レポートを作成します。 詳細については、次を参照してください。 データとデータ品質に関する洞察を得る。 次の手順を実行します。

  1. ソフトウェア設定ページで、下図のように データフロー タブで、横にあるプラス記号を選択します データ型.
  2. 選択する データの洞察を得る.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。
  3. 分析タイプ、選択する データ品質と洞察レポート.
  4. この投稿については、そのままにしておきます ターゲット列 & 問題の種類 ブランク。ターゲット フィーチャを使用した回帰または分類タスクにデータセットを使用する予定の場合は、これらのオプションを選択できます。レポートには、入力フィーチャがターゲットにどのように関連しているかについての分析が含まれます。 たとえば、ターゲットの漏洩に関するレポートを作成できます。 詳細については、次を参照してください。 ターゲット列.
  5. 選択する 創造する.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

これで、データ品質とデータ インサイト レポートが作成されました。 下にスクロールすると SKU セクションでは、SKU を説明するパターン学習の例を見ることができます。 この機能には無効なデータが含まれている可能性があり、実用的な修正が必要です。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

SKU 機能を消去する前に、上にスクロールして ブランド セクションを参照して、さらに詳しい情報を確認してください。 ここでは、XNUMX つのパターンが明らかになりました。これは、ブランド名の大部分が単語文字またはアルファベット文字で構成される単一の単語であることを示しています。 あ 単語文字 アンダースコアまたは任意の言語の単語に表示される文字のいずれかです。 たとえば、文字列 Hello_world & écoute 両方とも単語文字で構成されています。 H & é.

この投稿では、この機能をクリーンアップしません。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

パターン学習のインサイトを表示する

SKU のクリーニングに戻り、パターンと警告メッセージを拡大してみましょう。

次のスクリーンショットに示すように、パターン学習により、データの 97.78% に一致する高精度のパターンが明らかになります。 パターンに一致する例と、パターンに一致しない例も表示されます。 不一致では、無効な SKU がいくつか見られます。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

表面化されたパターンに加えて、高精度のパターンとパターンに適合しないデータがある場合、データをクリーンアップする潜在的なアクションを示す警告が表示される場合があります。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

無効なデータは省略できます。 正規表現を選択 (右クリック) すると、表現をコピーできます [A-Z]{3}-[0-9]{4,5}.

無効なデータを削除する

このパターンに一致しない不適合データを省略する変換を作成しましょう。

  1. ソフトウェア設定ページで、下図のように データフロー タブで、横にあるプラス記号を選択します データ型.
  2. 選択する 変換を追加.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。
  3. 選択する ステップを追加.
  4. 検索する regex 選択して 検索・編集.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。
  5. 最適化の適用、選択する 不一致を欠落に変換する.
  6. 入力列、選択する SKU.
  7. パターン、正規表現を入力します。
  8. 選択する プレビュー、を選択します Add.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。
    これで不要なデータがフィーチャから削除されました。
  9. 行を削除するには、ステップを追加します ハンドルがありません 変換を選択します ドロップがありません.
  10. 選択する SKU 入力列として。
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

エラーのあるデータを削除して、データ フローに戻ります。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。

まとめ

この投稿では、データ インサイトのパターン学習機能を使用して、データセット内の無効なテキスト データを見つける方法と、そのデータを修正または省略する方法を紹介しました。

テキスト列をクリーンアップしたので、次を使用してデータセットを視覚化できます。 分析 またはあなたが適用することができます 組み込みの変換 データをさらに処理するため。 データに満足したら、次のことができます。 モデルを訓練する   Amazon SageMakerオートパイロットまたは データをエクスポートする Amazon S3 などのデータ ソースに。

Nikita Ivkin の思慮深いレビューに感謝します。


著者について

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。ヴィシャル・カプール AWSAIのシニア応用科学者です。 彼は、顧客がデータラングラーのデータを理解できるよう支援することに情熱を注いでいます。 余暇には、マウンテンバイクやスノーボードを楽しんだり、家族と一緒に過ごしたりしています。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。ゾハル・カルニン Amazon AI のプリンシパル サイエンティストです。 彼の研究対象は、大規模なオンライン機械学習アルゴリズムの分野です。 彼は、Amazon SageMaker 向けの無限にスケーラブルな機械学習アルゴリズムを開発しています。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。アジャイシャルマ はAmazonSageMakerのプリンシパルプロダクトマネージャーであり、データサイエンティスト向けのビジュアルデータ準備ツールであるデータラングラーに焦点を当てています。 AWSの前は、AjaiはMcKinsey and Companyのデータサイエンスエキスパートであり、世界中の主要な金融および保険会社のMLに焦点を当てたエンゲージメントを主導していました。 Ajaiはデータサイエンスに情熱を注いでおり、最新のアルゴリズムと機械学習技術を探求するのが大好きです。

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence を使用してテキストデータのパターンを検出します。 垂直検索。 あい。 デレク・バロン は、Amazon SageMaker Data Wrangler のソフトウェア開発マネージャーです

タイムスタンプ:

より多くの AWS機械学習