Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler

In dit bericht introduceren we een nieuwe analyse in de Rapport Gegevenskwaliteit en inzichten of Amazon SageMaker-gegevens Wrangler. Deze analyse helpt u bij het valideren van tekstuele kenmerken op juistheid en het opsporen van ongeldige rijen voor reparatie of weglating.

Data Wrangler reduceert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor machine learning (ML) van weken tot minuten. U kunt het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie, vanuit één enkele visuele interface.

Overzicht oplossingen

Voorverwerking van gegevens omvat vaak het opschonen van tekstuele gegevens zoals e-mailadressen, telefoonnummers en productnamen. Deze gegevens kunnen onderliggende integriteitsbeperkingen hebben die kunnen worden beschreven door reguliere expressies. Om bijvoorbeeld als geldig te worden beschouwd, moet een lokaal telefoonnummer mogelijk een patroon volgen zoals: [1-9][0-9]{2}-[0-9]{4}, die zou overeenkomen met een cijfer dat niet nul is, gevolgd door nog twee cijfers, gevolgd door een streepje, gevolgd door nog vier cijfers.

Veelvoorkomende scenario's die leiden tot ongeldige gegevens kunnen inconsistente menselijke invoer zijn, bijvoorbeeld telefoonnummers in verschillende formaten (5551234 versus 555 1234 versus 555-1234) of onverwachte gegevens, zoals 0, 911 of 411. Voor een callcenter van een klant: het is belangrijk om nummers zoals 0, 911 of 411 weg te laten en invoer zoals 5551234 of 555 1234 te valideren (en mogelijk te corrigeren).

Helaas, hoewel er tekstuele beperkingen bestaan, worden deze mogelijk niet bij de gegevens geleverd. Daarom moet een datawetenschapper die een dataset voorbereidt, handmatig de beperkingen blootleggen door naar de data te kijken. Dit kan vervelend, foutgevoelig en tijdrovend zijn.

Pattern Learning analyseert automatisch uw gegevens en brengt tekstuele beperkingen aan het licht die van toepassing kunnen zijn op uw dataset. Voor het voorbeeld met telefoonnummers kan patroonleren de gegevens analyseren en vaststellen dat de overgrote meerderheid van telefoonnummers de tekstuele beperking volgt [1-9][0-9]{2}-[0-9][4]. Het kan u ook waarschuwen dat er voorbeelden zijn van ongeldige gegevens, zodat u deze kunt uitsluiten of corrigeren.

In de volgende secties laten we zien hoe u patroonleren in Data Wrangler kunt gebruiken met behulp van een fictieve dataset van productcategorieën en SKU-codes (stockkeeping unit).

Deze dataset bevat functies die producten beschrijven per bedrijf, merk en energieverbruik. Het bevat met name een functie-SKU die slecht is opgemaakt. Alle gegevens in deze dataset zijn fictief en willekeurig gemaakt met willekeurige merknamen en apparaatnamen.

Voorwaarden

Voordat u Data Wrangler gaat gebruiken, Download de voorbeelddataset en upload deze naar een locatie in Amazon eenvoudige opslagservice (Amazon S3). Raadpleeg voor instructies: Objecten uploaden.

Importeer uw dataset

Voer de volgende stappen uit om uw dataset te importeren:

  1. Kies in Data Wrangler Gegevens importeren en verkennen voor ML.
  2. Kies import.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  3. Voor Datums importeren, kiezen Amazon S3.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  4. Zoek het bestand in Amazon S3 en kies import.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Na het importeren kunnen we navigeren naar de datastroom.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Gegevensinzichten verkrijgen

In deze stap maken we een rapport met gegevensinzichten dat informatie over gegevenskwaliteit bevat. Voor meer informatie, zie: Krijg inzicht in gegevens en gegevenskwaliteit. Voer de volgende stappen uit:

  1. Op de Informatiestroom tabblad, kies het plusteken naast Datatypen.
  2. Kies Gegevensinzichten verkrijgen.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  3. Voor Type analyse, kiezen Rapport Gegevenskwaliteit en inzichten.
  4. Voor dit bericht, vertrek Doelkolom en Type probleem blank.Als u van plan bent uw dataset te gebruiken voor een regressie- of classificatietaak met een doelfunctie, kunt u die opties selecteren en het rapport bevat een analyse van hoe uw invoerfuncties zich verhouden tot uw doel. Het kan bijvoorbeeld rapporten produceren over doellekkage. Voor meer informatie, zie: Doelkolom.
  5. Kies creëren.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We hebben nu een Data Quality en Data Insights Report. Als we naar beneden scrollen naar de SKU sectie, kunnen we een voorbeeld zien van het leren van patronen waarin de SKU wordt beschreven. Deze functie lijkt een aantal ongeldige gegevens te bevatten, en actiegerichte herstel is vereist.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Voordat we de SKU-functie opschonen, scrollen we omhoog naar de Brand sectie om wat meer inzichten te zien. Hier zien we dat twee patronen zijn ontdekt, wat aangeeft dat de meeste merknamen losse woorden zijn die bestaan ​​uit woordtekens of alfabetische tekens. EEN woord karakter is ofwel een onderstrepingsteken of een teken dat in een woord in elke taal kan voorkomen. Bijvoorbeeld de snaren Hello_world en écoute beide bestaan ​​uit woordtekens: H en é.

Voor dit bericht maken we deze functie niet schoon.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Inzichten in het leren van patronen bekijken

Laten we terugkeren naar het opschonen van SKU's en inzoomen op het patroon en het waarschuwingsbericht.

Zoals te zien is in de volgende schermafbeelding, komt patroonleren naar een zeer nauwkeurig patroon dat overeenkomt met 97.78% van de gegevens. Het toont ook enkele voorbeelden die overeenkomen met het patroon en voorbeelden die niet overeenkomen met het patroon. In de non-matches zien we enkele ongeldige SKU's.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Naast de opgedoken patronen kan er een waarschuwing verschijnen die een mogelijke actie aangeeft om gegevens op te schonen als er een patroon met hoge nauwkeurigheid is en als er gegevens zijn die niet aan het patroon voldoen.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We kunnen de ongeldige gegevens weglaten. Als we (rechtsklik) op de reguliere expressie kiezen, kunnen we de expressie kopiëren [A-Z]{3}-[0-9]{4,5}.

Ongeldige gegevens verwijderen

Laten we een transformatie maken om niet-conforme gegevens weg te laten die niet overeenkomen met dit patroon.

  1. Op de Informatiestroom tabblad, kies het plusteken naast Datatypen.
  2. Kies Voeg transformatie toe.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  3. Kies Stap toevoegen.
  4. Zoek naar regex En kies Zoeken en bewerken.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  5. Voor Transformeren, kiezen Converteer niet-overeenkomsten naar ontbrekend.
  6. Voor Invoerkolommen, kiezen SKU.
  7. Voor Patronen, voer onze reguliere expressie in.
  8. Kies Voorbeschouwing, kies dan Toevoegen.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    Nu zijn de externe gegevens uit de functies verwijderd.
  9. Voeg de stap toe om de rijen te verwijderen Handvat ontbreekt en kies de transformatie druppel ontbreekt.
  10. Kies SKU als de invoerkolom.
    Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We keren terug naar onze gegevensstroom met de foutieve gegevens verwijderd.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Conclusie

In dit bericht hebben we u laten zien hoe u de functie voor het leren van patronen in gegevensinzichten kunt gebruiken om ongeldige tekstuele gegevens in uw gegevensset te vinden, en hoe u die gegevens kunt corrigeren of weglaten.

Nu u een tekstkolom heeft opgeschoond, kunt u uw dataset visualiseren met een analyse of je kunt solliciteren ingebouwde transformaties om uw gegevens verder te verwerken. Als u tevreden bent met uw gegevens, kunt u: een model trainen Met Amazon SageMaker-stuurautomaatof exporteer uw gegevens naar een gegevensbron zoals Amazon S3.

We willen Nikita Ivkin bedanken voor zijn doordachte recensie.


Over de auteurs

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Vishaal Kapoor is een Senior Applied Scientist bij AWS AI. Hij is gepassioneerd om klanten te helpen hun gegevens in Data Wrangler te begrijpen. In zijn vrije tijd mountainbiket, snowboardt hij en brengt hij tijd door met zijn gezin.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Zohar Karnin is een hoofdwetenschapper in Amazon AI. Zijn onderzoeksinteresses liggen op het gebied van grootschalige en online machine learning-algoritmen. Hij ontwikkelt oneindig schaalbare machine learning-algoritmen voor Amazon SageMaker.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Ajai Sharma is Principal Product Manager voor Amazon SageMaker, waar hij zich richt op Data Wrangler, een visuele datavoorbereidingstool voor datawetenschappers. Voordat hij bij AWS kwam, was Ajai Data Science Expert bij McKinsey and Company, waar hij leiding gaf aan ML-gerichte opdrachten voor toonaangevende financiële en verzekeringsmaatschappijen over de hele wereld. Ajai is gepassioneerd door datawetenschap en houdt ervan om de nieuwste algoritmen en machine learning-technieken te verkennen.

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Dirk Baron is een softwareontwikkelingsmanager voor Amazon SageMaker Data Wrangler

Tijdstempel:

Meer van AWS-machine learning