A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Észleljen mintákat a szöveges adatokban az Amazon SageMaker Data Wrangler segítségével

In this post, we introduce a new analysis in the Adatminőségi és betekintési jelentés of Amazon SageMaker Data Wrangler. This analysis assists you in validating textual features for correctness and uncovering invalid rows for repair or omission.

Data Wrangler reduces the time it takes to aggregate and prepare data for machine learning (ML) from weeks to minutes. You can simplify the process of data preparation and feature engineering, and complete each step of the data preparation workflow, including data selection, cleansing, exploration, and visualization, from a single visual interface.

Megoldás áttekintése

Data preprocessing often involves cleaning textual data such as email addresses, phone numbers, and product names. This data can have underlying integrity constraints that may be described by regular expressions. For example, to be considered valid, a local phone number may need to follow a pattern like [1-9][0-9]{2}-[0-9]{4}, which would match a non-zero digit, followed by two more digits, followed by a dash, followed by four more digits.

Common scenarios resulting in invalid data may include inconsistent human entry, for example phone numbers in various formats (5551234 vs. 555 1234 vs. 555-1234) or unexpected data, such as 0, 911, or 411. For a customer call center, it’s important to omit numbers such as 0, 911, or 411, and validate (and potentially correct) entries such as 5551234 or 555 1234.

Unfortunately, although textual constraints exist, they may not be provided with the data. Therefore, a data scientist preparing a dataset must manually uncover the constraints by looking at the data. This can be tedious, error prone, and time consuming.

Pattern learning automatically analyzes your data and surfaces textual constraints that may apply to your dataset. For the example with phone numbers, pattern learning can analyze the data and identify that the vast majority of phone numbers follow the textual constraint [1-9][0-9]{2}-[0-9][4]. It can also alert you that there are examples of invalid data so that you can exclude or correct them.

In the following sections, we demonstrate how to use pattern learning in Data Wrangler using a fictional dataset of product categories and SKU (stock keeping unit) codes.

This dataset contains features that describe products by company, brand, and energy consumption. Notably, it includes a feature SKU that is ill-formatted. All the data in this dataset is fictional and created randomly using random brand names and appliance names.

Előfeltételek

Before you get started using Data Wrangler, letöltés the sample dataset and upload it to a location in Amazon egyszerű tárolási szolgáltatás (Amazon S3). For instructions, refer to Objektumok feltöltése.

Importálja az adatkészletet

To import your dataset, complete the following steps:

  1. In Data Wrangler, choose Import & Explore Data for ML.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  3. A Adatok importálása, választ Amazon S3.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  4. Locate the file in Amazon S3 and choose import.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

After importing, we can navigate to the data flow.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Szerezzen betekintést az adatokból

In this step, we create a data insights report that includes information about data quality. For more information, refer to Szerezzen betekintést az adatokba és az adatminőségbe. Hajtsa végre a következő lépéseket:

  1. A Adatáramlás tab, choose the plus sign next to Adattípusok.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Szerezzen betekintést az adatokból.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  3. A Elemzés típusa, választ Adatminőségi és betekintési jelentés.
  4. For this post, leave Céloszlop és a Probléma típusa blank.If you plan to use your dataset for a regression or classification task with a target feature, you can select those options and the report will include analysis on how your input features relate to your target. For example, it can produce reports on target leakage. For more information, refer to Céloszlop.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

We now have a Data Quality and Data Insights Report. If we scroll down to the SKU section, we can see an example of pattern learning describing the SKU. This feature appears to have some invalid data, and actionable remediation is required.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Before we clean the SKU feature, let’s scroll up to the Márka section to see some more insights. Here we see two patterns have been uncovered, indicating that that majority of brand names are single words consisting of word characters or alphabetic characters. A word character is either an underscore or a character that may appear in a word in any language. For example, the strings Hello_world és a écoute both consist of word characters: H és a é.

For this post, we don’t clean this feature.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

View pattern learning insights

Let’s return to cleaning SKUs and zoom in on the pattern and the warning message.

As shown in the following screenshot, pattern learning surfaces a high-accuracy pattern matching 97.78% of the data. It also displays some examples matching the pattern as well as examples that don’t match the pattern. In the non-matches, we see some invalid SKUs.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

In addition to the surfaced patterns, a warning may appear indicating a potential action to clean up data if there is a high accuracy pattern as well as some data that doesn’t conform to the pattern.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

We can omit the invalid data. If we choose (right-click) on the regular expression, we can copy the expression [A-Z]{3}-[0-9]{4,5}.

Remove invalid data

Let’s create a transform to omit non-conforming data that doesn’t match this pattern.

  1. A Adatáramlás tab, choose the plus sign next to Adattípusok.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Transzformáció hozzáadása.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása.
  4. Keresése regex És válasszon Keresés és szerkesztés.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
  5. A Átalakítás, választ Convert non-matches to missing.
  6. A Beviteli oszlopok, választ SKU.
  7. A Mintás, enter our regular expression.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki hozzáad.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
    Now the extraneous data has been removed from the features.
  9. To remove the rows, add the step Fogantyú hiányzik és válassza ki az átalakítást Csepp hiányzik.
  10. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a SKU mint a bemeneti oszlop.
    A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

We return to our data flow with the erroneous data removed.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Következtetés

In this post, we showed you how to use the pattern learning feature in data insights to find invalid textual data in your dataset, as well as how to correct or omit that data.

Now that you’ve cleaned up a textual column, you can visualize your dataset using an elemzés or you can apply built-in transformations to further process your data. When you’re satisfied with your data, you can modellt képezni val vel Amazon SageMaker Autopilotvagy exportálja adatait to a data source such as Amazon S3.

We would like to thank Nikita Ivkin for his thoughtful review.


A szerzőkről

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Vishaal Kapoor az AWS AI vezető alkalmazott tudósa. Szenvedélyesen segíti ügyfeleit a Data Wranglerben tárolt adataik megértésében. Szabadidejében mountain bike-zik, snowboardozik, és családjával tölti az idejét.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Zohar Karnin is a Principal Scientist in Amazon AI. His research interests are in the areas of large scale and online machine learning algorithms. He develops infinitely scalable machine learning algorithms for Amazon SageMaker.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.Ajai Sharma az Amazon SageMaker fő termékmenedzsere, ahol a Data Wranglerre, az adattudósok vizuális adat-előkészítő eszközére összpontosít. Az AWS előtt Ajai a McKinsey and Company adattudományi szakértőjeként dolgozott, ahol ML-központú megbízásokat vezetett vezető pénzügyi és biztosítási cégek számára világszerte. Ajai szenvedélyesen rajong az adattudományért, és szereti felfedezni a legújabb algoritmusokat és gépi tanulási technikákat.

A szöveges adatok mintáinak észlelése az Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. Derek Baron is a software development manager for Amazon SageMaker Data Wrangler

Időbélyeg:

Még több AWS gépi tanulás