Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

volgers: 0

In dit bericht introduceren we een nieuwe analyse in de Rapport Gegevenskwaliteit en inzichten of Amazon SageMaker-gegevens Wrangler. Deze analyse helpt u bij het valideren van tekstuele kenmerken op juistheid en het opsporen van ongeldige rijen voor reparatie of weglating.

Data Wrangler reduceert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor machine learning (ML) van weken tot minuten. U kunt het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie, vanuit één enkele visuele interface.

Overzicht oplossingen

Voorverwerking van gegevens omvat vaak het opschonen van tekstuele gegevens zoals e-mailadressen, telefoonnummers en productnamen. Deze gegevens kunnen onderliggende integriteitsbeperkingen hebben die kunnen worden beschreven door reguliere expressies. Om bijvoorbeeld als geldig te worden beschouwd, moet een lokaal telefoonnummer mogelijk een patroon volgen zoals: [1-9][0-9]{2}-[0-9]{4}, die zou overeenkomen met een cijfer dat niet nul is, gevolgd door nog twee cijfers, gevolgd door een streepje, gevolgd door nog vier cijfers.

Veelvoorkomende scenario's die leiden tot ongeldige gegevens kunnen inconsistente menselijke invoer zijn, bijvoorbeeld telefoonnummers in verschillende formaten (5551234 versus 555 1234 versus 555-1234) of onverwachte gegevens, zoals 0, 911 of 411. Voor een callcenter van een klant: het is belangrijk om nummers zoals 0, 911 of 411 weg te laten en invoer zoals 5551234 of 555 1234 te valideren (en mogelijk te corrigeren).

Helaas, hoewel er tekstuele beperkingen bestaan, worden deze mogelijk niet bij de gegevens geleverd. Daarom moet een datawetenschapper die een dataset voorbereidt, handmatig de beperkingen blootleggen door naar de data te kijken. Dit kan vervelend, foutgevoelig en tijdrovend zijn.

Pattern Learning analyseert automatisch uw gegevens en brengt tekstuele beperkingen aan het licht die van toepassing kunnen zijn op uw dataset. Voor het voorbeeld met telefoonnummers kan patroonleren de gegevens analyseren en vaststellen dat de overgrote meerderheid van telefoonnummers de tekstuele beperking volgt [1-9][0-9]{2}-[0-9][4]. Het kan u ook waarschuwen dat er voorbeelden zijn van ongeldige gegevens, zodat u deze kunt uitsluiten of corrigeren.

In de volgende secties laten we zien hoe u patroonleren in Data Wrangler kunt gebruiken met behulp van een fictieve dataset van productcategorieën en SKU-codes (stockkeeping unit).

Deze dataset bevat functies die producten beschrijven per bedrijf, merk en energieverbruik. Het bevat met name een functie-SKU die slecht is opgemaakt. Alle gegevens in deze dataset zijn fictief en willekeurig gemaakt met willekeurige merknamen en apparaatnamen.

Voorwaarden

Voordat u Data Wrangler gaat gebruiken, Download de voorbeelddataset en upload deze naar een locatie in Amazon eenvoudige opslagservice (Amazon S3). Raadpleeg voor instructies: Objecten uploaden.

Importeer uw dataset

Voer de volgende stappen uit om uw dataset te importeren:

Kies in Data Wrangler Gegevens importeren en verkennen voor ML.
Kies import.
Voor Datums importeren, kiezen Amazon S3.
Zoek het bestand in Amazon S3 en kies import.

Na het importeren kunnen we navigeren naar de datastroom.

Gegevensinzichten verkrijgen

In deze stap maken we een rapport met gegevensinzichten dat informatie over gegevenskwaliteit bevat. Voor meer informatie, zie: Krijg inzicht in gegevens en gegevenskwaliteit. Voer de volgende stappen uit:

Op de Informatiestroom tabblad, kies het plusteken naast Datatypen.
Kies Gegevensinzichten verkrijgen.
Voor Type analyse, kiezen Rapport Gegevenskwaliteit en inzichten.
Voor dit bericht, vertrek Doelkolom en Type probleem blank.Als u van plan bent uw dataset te gebruiken voor een regressie- of classificatietaak met een doelfunctie, kunt u die opties selecteren en het rapport bevat een analyse van hoe uw invoerfuncties zich verhouden tot uw doel. Het kan bijvoorbeeld rapporten produceren over doellekkage. Voor meer informatie, zie: Doelkolom.
Kies creëren.

We hebben nu een Data Quality en Data Insights Report. Als we naar beneden scrollen naar de SKU sectie, kunnen we een voorbeeld zien van het leren van patronen waarin de SKU wordt beschreven. Deze functie lijkt een aantal ongeldige gegevens te bevatten, en actiegerichte herstel is vereist.

Voordat we de SKU-functie opschonen, scrollen we omhoog naar de Brand sectie om wat meer inzichten te zien. Hier zien we dat twee patronen zijn ontdekt, wat aangeeft dat de meeste merknamen losse woorden zijn die bestaan uit woordtekens of alfabetische tekens. EEN woord karakter is ofwel een onderstrepingsteken of een teken dat in een woord in elke taal kan voorkomen. Bijvoorbeeld de snaren Hello_world en écoute beide bestaan uit woordtekens: H en é.

Voor dit bericht maken we deze functie niet schoon.

Inzichten in het leren van patronen bekijken

Laten we terugkeren naar het opschonen van SKU's en inzoomen op het patroon en het waarschuwingsbericht.

Zoals te zien is in de volgende schermafbeelding, komt patroonleren naar een zeer nauwkeurig patroon dat overeenkomt met 97.78% van de gegevens. Het toont ook enkele voorbeelden die overeenkomen met het patroon en voorbeelden die niet overeenkomen met het patroon. In de non-matches zien we enkele ongeldige SKU's.

Naast de opgedoken patronen kan er een waarschuwing verschijnen die een mogelijke actie aangeeft om gegevens op te schonen als er een patroon met hoge nauwkeurigheid is en als er gegevens zijn die niet aan het patroon voldoen.

We kunnen de ongeldige gegevens weglaten. Als we (rechtsklik) op de reguliere expressie kiezen, kunnen we de expressie kopiëren [A-Z]{3}-[0-9]{4,5}.

Ongeldige gegevens verwijderen

Laten we een transformatie maken om niet-conforme gegevens weg te laten die niet overeenkomen met dit patroon.

Op de Informatiestroom tabblad, kies het plusteken naast Datatypen.
Kies Voeg transformatie toe.
Kies Stap toevoegen.
Zoek naar regex En kies Zoeken en bewerken.
Voor Transformeren, kiezen Converteer niet-overeenkomsten naar ontbrekend.
Voor Invoerkolommen, kiezen SKU.
Voor Patronen, voer onze reguliere expressie in.
Kies Voorbeschouwing, kies dan Toevoegen.

Nu zijn de externe gegevens uit de functies verwijderd.
Voeg de stap toe om de rijen te verwijderen Handvat ontbreekt en kies de transformatie druppel ontbreekt.
Kies SKU als de invoerkolom.

We keren terug naar onze gegevensstroom met de foutieve gegevens verwijderd.

Conclusie

In dit bericht hebben we u laten zien hoe u de functie voor het leren van patronen in gegevensinzichten kunt gebruiken om ongeldige tekstuele gegevens in uw gegevensset te vinden, en hoe u die gegevens kunt corrigeren of weglaten.

Nu u een tekstkolom heeft opgeschoond, kunt u uw dataset visualiseren met een analyse of je kunt solliciteren ingebouwde transformaties om uw gegevens verder te verwerken. Als u tevreden bent met uw gegevens, kunt u: een model trainen Met Amazon SageMaker-stuurautomaatof exporteer uw gegevens naar een gegevensbron zoals Amazon S3.

We willen Nikita Ivkin bedanken voor zijn doordachte recensie.

Over de auteurs

Vishaal Kapoor is een Senior Applied Scientist bij AWS AI. Hij is gepassioneerd om klanten te helpen hun gegevens in Data Wrangler te begrijpen. In zijn vrije tijd mountainbiket, snowboardt hij en brengt hij tijd door met zijn gezin.

Zohar Karnin is een hoofdwetenschapper in Amazon AI. Zijn onderzoeksinteresses liggen op het gebied van grootschalige en online machine learning-algoritmen. Hij ontwikkelt oneindig schaalbare machine learning-algoritmen voor Amazon SageMaker.

Ajai Sharma is Principal Product Manager voor Amazon SageMaker, waar hij zich richt op Data Wrangler, een visuele datavoorbereidingstool voor datawetenschappers. Voordat hij bij AWS kwam, was Ajai Data Science Expert bij McKinsey and Company, waar hij leiding gaf aan ML-gerichte opdrachten voor toonaangevende financiële en verzekeringsmaatschappijen over de hele wereld. Ajai is gepassioneerd door datawetenschap en houdt ervan om de nieuwste algoritmen en machine learning-technieken te verkennen.

Dirk Baron is een softwareontwikkelingsmanager voor Amazon SageMaker Data Wrangler

Tijdstempel: 24 oktober 202224 oktober 2022

Tijdstempel: September 15, 2022

Detecteer patronen in tekstgegevens met Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

Overzicht oplossingen

Voorwaarden

Importeer uw dataset

Gegevensinzichten verkrijgen

Inzichten in het leren van patronen bekijken

Ongeldige gegevens verwijderen

Conclusie

Over de auteurs

Meer van AWS-machine learning

AWS Panorama ondersteunt nu NVIDIA JetPack SDK 4.6.2

Aan de slag met het implementeren van realtime modellen op Amazon SageMaker

Knowledge Bases in Amazon Bedrock vereenvoudigen nu het stellen van vragen over één enkel document | Amazon-webservices

Wekelijkse voorspellingen kunnen nu op zondag beginnen met Amazon Forecast

Vereenvoudig het continu leren van aangepaste modellen van Amazon Comprehend met behulp van het vliegwiel van Comprehend

Doorzoek uw Jira-projecten intelligent met Amazon Kendra Jira-cloudconnector

Amazon EC2 DL2q-instantie voor kostenefficiënte, krachtige AI-inferentie is nu algemeen beschikbaar | Amazon-webservices

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account