Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Introductie van de nieuwe ingebedde visualisaties van Amazon SageMaker Data Wrangler

Het handmatig inspecteren van de gegevenskwaliteit en het opschonen van gegevens is een pijnlijk en tijdrovend proces dat een groot deel van de tijd van een datawetenschapper aan een project kan kosten. Volgens een onderzoek uit 2020 onder datawetenschappers, uitgevoerd door Anaconda, besteden datawetenschappers ongeveer 66% van hun tijd aan gegevensvoorbereiding en -analyse, waaronder laden (19%), opschonen (26%) en visualiseren van gegevens (21%). Amazon Sage Maker biedt een scala aan hulpmiddelen voor gegevensvoorbereiding om aan de verschillende behoeften en voorkeuren van klanten te voldoen. Voor gebruikers die de voorkeur geven aan een GUI-gebaseerde interactieve interface, SageMaker-gegevens Wrangler biedt meer dan 300 ingebouwde visualisaties, analyses en transformaties om gegevens efficiënt te verwerken, ondersteund door Spark, zonder een enkele regel code te schrijven.

Datavisualisatie in machine learning (ML) is een iteratief proces en vereist continue visualisatie van de dataset voor ontdekking, onderzoek en validatie. Gegevens in perspectief plaatsen houdt in dat u elk van de kolommen bekijkt om mogelijke gegevensfouten, ontbrekende waarden, verkeerde gegevenstypen, misleidende/onjuiste gegevens, uitbijtergegevens en meer te begrijpen.

In dit bericht laten we je zien hoe Amazon SageMaker-gegevens Wrangler genereert automatisch belangrijke visualisaties van gegevensdistributie, detecteert problemen met gegevenskwaliteit en brengt gegevensinzichten zoals uitschieters voor elke functie naar boven zonder een enkele regel code te schrijven. Het helpt de datagridervaring te verbeteren met automatische kwaliteitswaarschuwingen (bijvoorbeeld ontbrekende waarden of ongeldige waarden). De automatisch gegenereerde visualisaties zijn ook interactief. U kunt bijvoorbeeld een tabel weergeven van de vijf meest voorkomende items, gesorteerd op percentage, en de muisaanwijzer op de balk plaatsen om te schakelen tussen aantal en percentage.

Voorwaarden

Amazon SageMaker Data Wrangler is een SageMaker-functie die beschikbaar is in SageMaker Studio. Je kunt volgen het Studio onboarding-proces om de Studio-omgeving en notebooks op gang te brengen. Hoewel u kunt kiezen uit een aantal authenticatiemethoden, is de eenvoudigste manier om een ​​Studio-domein te maken, het volgen van de Snelstartinstructies. De Snelstart gebruikt dezelfde standaardinstellingen als de standaard Studio-opstelling. U kunt er ook voor kiezen om aan boord te gaan met behulp van AWS Identiteits- en toegangsbeheer (IAM) Identity Center (opvolger van AWS Single Sign-On) voor authenticatie (zie Aan boord van Amazon SageMaker Domain met IAM Identity Center).

Oplossingsoverzicht

Start uw SageMaker Studio Omgeving en maak een nieuwe Data Wrangler-stroom. U kunt uw eigen dataset importeren of een voorbeelddataset gebruiken (Titanisch) zoals te zien in de volgende afbeelding. Deze twee knooppunten (de (bron) knooppunt en het gegevens type knooppunt) zijn aanklikbaar - wanneer u dubbelklikt op deze twee knooppunten, zal Data Wrangler de tabel weergeven.

Laten we in ons geval met de rechtermuisknop klikken op de Gegevenstypen pictogram en Voeg een transformatie toe:

U zou nu visualisaties bovenaan elke kolom moeten zien. Het kan enige tijd duren voordat de grafieken zijn geladen. De latentie hangt af van de grootte van de dataset (voor de Titanic-dataset duurt dit standaard 1-2 seconden).

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Scrol naar de horizontale balk bovenaan door de muisaanwijzer op tooltip te plaatsen. Nu de grafieken zijn geladen, kunt u de gegevensdistributie, ongeldige waarden en ontbrekende waarden zien. Uitbijters en ontbrekende waarden zijn kenmerken van foutieve gegevens en het is van cruciaal belang om ze te identificeren, omdat ze uw resultaten kunnen beïnvloeden. Dit betekent dat, omdat uw gegevens afkomstig zijn van een niet-representatieve steekproef, uw bevindingen mogelijk niet generaliseerbaar zijn naar situaties buiten uw onderzoek. Classificatie van waarden is te zien op de grafieken onderaan waar geldig waarden worden weergegeven in het wit, ongeldig waarden in blauw, en vermist waarden in paars. Je kunt ook kijken naar de uitschieters weergegeven door de blauwe stippen links of rechts van een kaart.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Alle visualisaties komen in de vorm van histogrammen. Voor niet-categorische gegevens wordt voor elke bin een bucketset gedefinieerd. Voor categorische gegevens wordt elke unieke waarde behandeld als een bin. Bovenaan het histogram ziet u een staafdiagram met de ongeldige en ontbrekende waarden. We kunnen de verhouding van geldige waarden voor de typen Numeriek, Categorisch, Binair, Tekst en Datum/tijd bekijken, evenals de verhouding van ontbrekende waarden op basis van het totale aantal null- en lege cellen en ten slotte de verhouding van ongeldige waarden. Laten we enkele voorbeelden bekijken om te begrijpen hoe u deze kunt zien met behulp van Data Wrangler's vooraf geladen monster Titanic Dataset.

Voorbeeld 1 – We kunnen kijken naar de 20% ontbrekende waarden voor de LEEFTIJD functie/kolom. Het is van cruciaal belang om te gaan met ontbrekende gegevens op het gebied van datagerelateerd onderzoek/ML, door deze te verwijderen of toe te rekenen (de ontbrekende waarden met enige schatting behandelen).

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.
U kunt ontbrekende waarden verwerken met behulp van de Omgaan met ontbrekende waarden groep transformeren. Gebruik de Toerekenen ontbreekt transformeren om geïmputeerde waarden te genereren waar ontbrekende waarden werden gevonden in de invoerkolom. De configuratie is afhankelijk van uw gegevenstype.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

In dit voorbeeld is de LEEFTIJD kolom heeft een numeriek gegevenstype. Voor toegerekende strategie kunnen we ervoor kiezen om de te toerekenen gemiddelde of de geschatte mediaan over de waarden die aanwezig zijn in uw dataset.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Nu we de transformatie hebben toegevoegd, kunnen we zien dat de LEEFTIJD kolom heeft geen ontbrekende waarden meer.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Voorbeeld 2 – We kunnen kijken naar de 27% ongeldige waarden voor de TICKET kenmerk/kolom die van de STRING type. Ongeldige gegevens kunnen vertekende schattingen opleveren, wat de nauwkeurigheid van een model kan verminderen en kan leiden tot verkeerde conclusies. Laten we eens kijken naar enkele transformaties die we kunnen gebruiken om de ongeldige gegevens in de TICKET kolom.

Als we naar de schermafbeelding kijken, zien we dat sommige invoer is geschreven in een formaat dat alfabetten vóór cijfers bevat "PC 17318” en anderen zijn slechts cijfers zoals “11769'.

We kunnen ervoor kiezen om een ​​transformatie toe te passen om specifieke patronen binnen tekenreeksen te zoeken en te bewerken, zoals "pc” en vervang ze. Vervolgens kunnen we onze casten snaar kolom naar een nieuw type zoals lang voor gebruiksgemak.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Dit laat ons nog steeds met 19% ontbrekende waarden op de TICKET voorzien zijn van. Net als in voorbeeld 1 kunnen we nu de ontbrekende waarden toerekenen met behulp van gemiddelde of geschatte mediaan. De toekomst TICKET zouden geen ongeldige of ontbrekende waarden meer moeten hebben zoals in de onderstaande afbeelding.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.

Om ervoor te zorgen dat er geen kosten in rekening worden gebracht na het volgen van deze zelfstudie, moet u ervoor zorgen dat u sluit de Data Wrangler-app af.

Conclusie 

In dit bericht presenteerden we het nieuwe Amazon Sagemaker Data Wrangler widget die zal helpen bij het verwijderen van de ongedifferentieerd zwaar tillen voor eindgebruikers tijdens datavoorbereiding met automatisch verschijnende visualisaties en dataprofileringsinzichten voor elke functie. Deze widget maakt het gemakkelijk om gegevens te visualiseren (bijvoorbeeld categorisch/niet-categorisch histogram), problemen met gegevenskwaliteit te detecteren (bijvoorbeeld ontbrekende waarden en ongeldige waarden) en gegevensinzichten aan de oppervlakte te brengen (bijvoorbeeld uitschieters en top N-item).

U kunt deze mogelijkheid vandaag nog gaan gebruiken in alle regio's waar SageMaker Studio beschikbaar is. Proberen, en laat ons weten wat je ervan vindt. We kijken altijd uit naar uw feedback, hetzij via uw gebruikelijke AWS-ondersteuningscontacten, hetzij via de AWS-forum voor SageMaker.


Over de auteurs

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.Ischa Dua is een Senior Solutions Architect gevestigd in de San Francisco Bay Area. Ze helpt AWS Enterprise-klanten groeien door hun doelen en uitdagingen te begrijpen, en begeleidt hen bij het ontwerpen van hun applicaties op een cloud-native manier, terwijl ze ervoor zorgen dat ze veerkrachtig en schaalbaar zijn. Ze is gepassioneerd door machine learning-technologieën en ecologische duurzaamheid.

Introductie van de nieuwe ingebedde visualisaties PlatoBlockchain Data Intelligence van Amazon SageMaker Data Wrangler. Verticaal zoeken. Ai.Deel Patel is Solutions Architect bij AWS in de San Francisco Bay Area. Parth begeleidt klanten om hun reis naar de cloud te versnellen en helpt hen de AWS Cloud met succes te adopteren. Hij richt zich op ML en applicatiemodernisering.

Tijdstempel:

Meer van AWS-machine learning