Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en studiolabs om te leren en te experimenteren met ML

Heruitgegeven door Plato

volgers: 0

Amazon SageMaker Studiolab is een gratis ontwikkelomgeving voor machine learning (ML) op basis van open-source JupyterLab voor iedereen om te leren en te experimenteren met ML met behulp van AWS ML-rekenbronnen. Het is gebaseerd op dezelfde architectuur en gebruikersinterface als Amazon SageMaker Studio, maar met een subset van Studio-mogelijkheden.

Wanneer u begint te werken aan ML-initiatieven, moet u verkennende gegevensanalyse (EDA) of gegevensvoorbereiding uitvoeren voordat u doorgaat met het bouwen van modellen. Amazon SageMaker-gegevens Wrangler is een vermogen van Amazon Sage Maker dat maakt het voor datawetenschappers en technici sneller om data voor te bereiden voor ML-applicaties via een visuele interface. Data Wrangler reduceert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor ML van weken tot minuten.

Een belangrijke versneller bij het voorbereiden van functies in Data Wrangler is de: Rapport Gegevenskwaliteit en inzichten. Dit rapport controleert de gegevenskwaliteit en helpt afwijkingen in uw gegevens op te sporen, zodat u de vereiste gegevensengineering kunt uitvoeren om uw gegevensset te herstellen. U kunt het Data Quality and Insights Report gebruiken om een analyse van uw data uit te voeren om inzicht te krijgen in uw dataset zoals het aantal ontbrekende waarden en het aantal uitbijters. Als u problemen heeft met uw gegevens, zoals lekkage van doelen of onbalans, kan het rapport Insights deze problemen onder uw aandacht brengen en u helpen bij het identificeren van de stappen voor gegevensvoorbereiding die u moet uitvoeren.

Studio Lab-gebruikers kunnen profiteren van Data Wrangler omdat datakwaliteit en feature-engineering van cruciaal belang zijn voor de voorspellende prestaties van uw model. Data Wrangler helpt bij datakwaliteit en feature-engineering door inzicht te geven in datakwaliteitsproblemen en door eenvoudig snelle iteratie en engineering van functies mogelijk te maken met behulp van een low-code UI.

In dit bericht laten we u zien hoe u verkennende gegevensanalyse uitvoert, gegevens voorbereidt en transformeert met Data Wrangler, en de getransformeerde en voorbereide gegevens exporteert naar Studio Lab om modelbouw uit te voeren.

Overzicht oplossingen

De oplossing omvat de volgende stappen op hoog niveau:

Maak een AWS-account en admin-gebruiker aan. Dit is een voorwaarde
Download de dataset verloop.csv.
Laad de dataset naar Amazon eenvoudige opslagservice (Amazone S3).
Maak een SageMaker Studio-domein en start Data Wrangler.
Importeer de dataset in de Data Wrangler-stroom van Amazon S3.
Maak het Data Quality and Insights Report en trek conclusies over de benodigde feature engineering.
Voer de benodigde gegevenstransformaties uit in Data Wrangler.
Download het Data Quality and Insights Report en de getransformeerde dataset.
Upload de gegevens naar een Studio Lab-project voor modeltraining.

Het volgende diagram illustreert deze workflow.

Voorwaarden

Om Data Wrangler en Studio Lab te gebruiken, hebt u de volgende vereisten nodig:

Bouw een workflow voor gegevensvoorbereiding met Data Wrangler

Voer de volgende stappen uit om aan de slag te gaan:

Upload uw dataset naar Amazon S3.
Op de SageMaker-console, onder Bedieningspaneel in het navigatievenster, kies studio.
Op de Start de app menu naast uw gebruikersprofiel, kies studio.

Nadat u zich met succes hebt aangemeld bij Studio, ziet u een ontwikkelomgeving zoals de volgende schermafbeelding.
Als u een nieuwe Data Wrangler-workflow wilt maken, gaat u op de Dien in menu, kies New, kies dan Data Wrangler-stroom.

De eerste stap in Data Wrangler is om: importeren jouw gegevens. U kunt gegevens importeren uit meerdere gegevensbronnen, zoals Amazon S3, Amazone Athene, Amazon roodverschuiving, Sneeuwvlok en Databricks. In dit voorbeeld gebruiken we Amazon S3. Als je gewoon wilt zien hoe Data Wrangler werkt, kun je altijd kiezen: Voorbeeldgegevensset gebruiken.
Kies Datums importeren.
Kies Amazon S3.
Kies de dataset die je hebt geüpload en kies import.

Met Data Wrangler kunt u de volledige dataset importeren of een deel ervan samplen.
Om snel inzicht te krijgen in de dataset, kiest u Eerste K For monsterneming en voer 50000 in voor Grootte van de steekproef.

Begrijp datakwaliteit en krijg inzichten

Laten we het rapport Gegevenskwaliteit en inzichten gebruiken om een analyse uit te voeren van de gegevens die we in Data Wrangler hebben geïmporteerd. U kunt het rapport gebruiken om te begrijpen welke stappen u moet nemen om uw gegevens op te schonen en te verwerken. Dit rapport geeft informatie zoals het aantal ontbrekende waarden en het aantal uitbijters. Als u problemen heeft met uw gegevens, zoals lekkage van doelen of onbalans, kan het rapport Insights deze problemen onder uw aandacht brengen.

Kies het plusteken naast Datatypen En kies Gegevensinzichten verkrijgen.
Voor Type analyse, kiezen Rapport Gegevenskwaliteit en inzichten.
Voor Doelkolom, kiezen Chun?.
Voor Type probleem¸ selecteren Classificatie.
Kies creëren.

U krijgt een gedetailleerd rapport te zien dat u kunt bekijken en downloaden. Het rapport bevat verschillende secties, zoals snel model, functieoverzicht, functiecorrelatie en gegevensinzichten. De volgende schermafbeeldingen geven voorbeelden van deze secties.

Opmerkingen uit het rapport

Uit het rapport kunnen we de volgende opmerkingen maken:

Er zijn geen dubbele rijen gevonden.
De State kolom lijkt vrij gelijk verdeeld te zijn, dus de gegevens zijn in evenwicht in termen van staatsbevolking.
De Phone kolom presenteert te veel unieke waarden om van praktisch nut te zijn. Te veel unieke waarden maken deze kolom niet bruikbaar. We kunnen de . laten vallen Phone kolom in onze transformatie.
Op basis van het gedeelte over functiecorrelatie van het rapport, Mins en Charge zijn sterk gecorreleerd. We kunnen er één verwijderen.

Transformatie

Op basis van onze waarnemingen willen we de volgende transformaties maken:

Verwijder Phone kolom omdat deze veel unieke waarden heeft.
We zien ook verschillende functies die in wezen 100% correlatie met elkaar hebben. Het opnemen van deze functieparen in sommige ML-algoritmen kan ongewenste problemen veroorzaken, terwijl het in andere slechts kleine redundantie en vooringenomenheid introduceert. Laten we één kenmerk verwijderen uit elk van de sterk gecorreleerde paren: Day Charge van het paar met Day Mins, Night Charge van het paar met Night Mins en Intl Charge van het paar met Intl Mins.
Converteren True or False in de Churn kolom een numerieke waarde van 1 of 0 zijn.

Keer terug naar de gegevensstroom en kies het plusteken naast Datatypen.
Kies Voeg transformatie toe.
Kies Stap toevoegen.
U kunt zoeken naar de transformatie die u zoekt (in ons geval kolommen beheren).
Kies Beheer kolommen.
Voor TransformerenKiezen Kolom laten vallen.
Voor Kolommen om te laten vallenKiezen Phone, Day Charge, Eve Charge, Night Charge en Intl Charge.
Kies Voorbeschouwing, kies dan bijwerken.

Laten we nog een transformatie toevoegen om een categorische codering uit te voeren op de Churn? kolom.
Kies de transformatie Codeer categorisch.
Voor Transformeren, kiezen Ordinale codering.
Voor Invoerkolommen, kies de Churn? kolom.
Voor Ongeldige verwerkingsstrategie, kiezen Vervang door NaN.
Kies Voorbeschouwing, kies dan bijwerken.

Nu True en False worden respectievelijk omgezet in 1 en 0.

Nu we een goed begrip hebben van de gegevens en de gegevens voor modelbouw hebben voorbereid en getransformeerd, kunnen we de gegevens naar Studio Lab verplaatsen voor modelbouw.

Upload de gegevens naar Studio Lab

Voer de volgende stappen uit om de gegevens in Studio Lab te gaan gebruiken:

Kies Exportgegevens naar exporteren naar een S3-bak.
Voor Amazon S3-locatie, voer je S3-pad in.
Geef het bestandstype op.
Kies Exportgegevens.
Nadat u de gegevens hebt geëxporteerd, kunt u de gegevens van de S3-bucket naar uw lokale computer downloaden.
Nu kunt u naar Studio Lab gaan en het bestand uploaden naar Studio Lab.

Als alternatief kunt u vanuit Studio Lab verbinding maken met Amazon S3. Voor meer informatie, zie: Externe bronnen gebruiken in Amazon SageMaker Studio Lab.
Laten we SageMaker installeren en Panda's importeren.
Importeer alle bibliotheken zoals vereist.
Nu kunnen we het CSV-bestand lezen.
Laten we afdrukken churn om te bevestigen dat de dataset correct is.

Nu u de verwerkte dataset in Studio Lab heeft, kunt u verdere stappen uitvoeren die nodig zijn voor modelbouw.

Data Wrangler-prijzen

U kunt alle stappen in dit bericht uitvoeren voor EDA of gegevensvoorbereiding binnen Data Wrangler en betalen voor de eenvoudige instantie, banen en opslagprijzen op basis van gebruik of verbruik. Er zijn geen voorrijkosten of licentiekosten vereist.

Opruimen

Als u Data Wrangler niet gebruikt, is het belangrijk om de instantie waarop het wordt uitgevoerd af te sluiten om extra kosten te voorkomen. Sla uw gegevensstroom op voordat u Data Wrangler afsluit om te voorkomen dat u werk verliest.

Om uw gegevensstroom in Studio op te slaan, kiest u Dien in, kies dan Gegevens Wrangler-stroom opslaan.
Data Wrangler slaat uw gegevensstroom automatisch elke 60 seconden op.
Om de Data Wrangler-instantie af te sluiten, kiest u in Studio: Instanties en kernels uitvoeren.
Onder ACTIEVE APPS, kies het afsluitpictogram naast de sagemaker-data-wrangler-1.0 app.
Kies Alles afsluiten bevestigen.

Data Wrangler draait op een ml.m5.4xlarge instantie. Deze instantie verdwijnt uit LOPENDE INSTANTIES wanneer u de Data Wrangler-app afsluit.

Nadat u de Data Wrangler-app hebt afgesloten, moet deze opnieuw worden opgestart de volgende keer dat u een Data Wrangler-stroombestand opent. Dit kan enkele minuten duren.

Conclusie

In dit bericht hebben we gezien hoe u inzicht kunt krijgen in uw dataset, verkennende gegevensanalyses kunt uitvoeren, gegevens kunt voorbereiden en transformeren met Data Wrangler in Studio, en de getransformeerde en voorbereide gegevens kunt exporteren naar Studio Lab en modelbouw en andere stappen kunt uitvoeren.

Met SageMaker Data Wrangler kunt u het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie vanuit één enkele visuele interface.

Over de auteurs

Rajakumar Sampathkumar is een Principal Technical Account Manager bij AWS en biedt klanten begeleiding bij de afstemming van bedrijfstechnologie en ondersteunt de heruitvinding van hun cloudoperatiemodellen en -processen. Hij is gepassioneerd door de cloud en machine learning. Raj is ook een machine learning-specialist en werkt samen met AWS-klanten om hun AWS-workloads en architecturen te ontwerpen, implementeren en beheren.

Meenakshisundaram Thandavarayan is een Senior AI/ML-specialist met een passie voor het ontwerpen, creëren en promoten van mensgerichte data- en analyse-ervaringen. Hij ondersteunt AWS Strategische klanten bij hun transformatie naar een datagedreven organisatie.

James Wu is Senior AI/ML Specialist Solution Architect bij AWS. klanten helpen bij het ontwerpen en bouwen van AI/ML-oplossingen. James' werk omvat een breed scala aan ML-gebruikscasussen, met een primaire interesse in computervisie, deep learning en het opschalen van ML in de hele onderneming. Voordat hij bij AWS kwam, was James meer dan 10 jaar architect, ontwikkelaar en technologieleider, waarvan 6 jaar in engineering en 4 jaar in marketing- en reclamesectoren.

Tijdstempel: 15 september 202215 september 2022

Tijdstempel: 4-2024-XNUMX

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML

Heruitgegeven door Plato

Overzicht oplossingen

Voorwaarden

Bouw een workflow voor gegevensvoorbereiding met Data Wrangler

Begrijp datakwaliteit en krijg inzichten

Opmerkingen uit het rapport

Transformatie

Upload de gegevens naar Studio Lab

Data Wrangler-prijzen

Opruimen

Conclusie

Over de auteurs

Meer van AWS-machine learning

Accenture creëert een oplossing voor het schrijven van regelgevingsdocumenten met behulp van generatieve AI-services van AWS | Amazon-webservices

Amazon Comprehend Targeted Sentiment voegt synchrone ondersteuning toe

Hoe BigBasket het afrekenen met AI in hun fysieke winkels verbeterde met Amazon SageMaker | Amazon-webservices

Gebruik de AWS CDK om levenscyclusconfiguraties van Amazon SageMaker Studio te implementeren | Amazon-webservices

Aankondiging van de bijgewerkte Salesforce-connector (V2) voor Amazon Kendra

Volgende generatie Amazon SageMaker-experimenten - Organiseer, volg en vergelijk uw machine learning-trainingen op schaal

Bereik volwassenheid in DevOps met BMC AMI zAdviser Enterprise en Amazon Bedrock | Amazon-webservices

Innovatie ontsluiten: AWS en Anthropic verleggen samen de grenzen van generatieve AI | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account