Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML

Amazon SageMaker Studiolab is een gratis ontwikkelomgeving voor machine learning (ML) op basis van open-source JupyterLab voor iedereen om te leren en te experimenteren met ML met behulp van AWS ML-rekenbronnen. Het is gebaseerd op dezelfde architectuur en gebruikersinterface als Amazon SageMaker Studio, maar met een subset van Studio-mogelijkheden.

Wanneer u begint te werken aan ML-initiatieven, moet u verkennende gegevensanalyse (EDA) of gegevensvoorbereiding uitvoeren voordat u doorgaat met het bouwen van modellen. Amazon SageMaker-gegevens Wrangler is een vermogen van Amazon Sage Maker dat maakt het voor datawetenschappers en technici sneller om data voor te bereiden voor ML-applicaties via een visuele interface. Data Wrangler reduceert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor ML van weken tot minuten.

Een belangrijke versneller bij het voorbereiden van functies in Data Wrangler is de: Rapport Gegevenskwaliteit en inzichten. Dit rapport controleert de gegevenskwaliteit en helpt afwijkingen in uw gegevens op te sporen, zodat u de vereiste gegevensengineering kunt uitvoeren om uw gegevensset te herstellen. U kunt het Data Quality and Insights Report gebruiken om een โ€‹โ€‹analyse van uw data uit te voeren om inzicht te krijgen in uw dataset zoals het aantal ontbrekende waarden en het aantal uitbijters. Als u problemen heeft met uw gegevens, zoals lekkage van doelen of onbalans, kan het rapport Insights deze problemen onder uw aandacht brengen en u helpen bij het identificeren van de stappen voor gegevensvoorbereiding die u moet uitvoeren.

Studio Lab-gebruikers kunnen profiteren van Data Wrangler omdat datakwaliteit en feature-engineering van cruciaal belang zijn voor de voorspellende prestaties van uw model. Data Wrangler helpt bij datakwaliteit en feature-engineering door inzicht te geven in datakwaliteitsproblemen en door eenvoudig snelle iteratie en engineering van functies mogelijk te maken met behulp van een low-code UI.

In dit bericht laten we u zien hoe u verkennende gegevensanalyse uitvoert, gegevens voorbereidt en transformeert met Data Wrangler, en de getransformeerde en voorbereide gegevens exporteert naar Studio Lab om modelbouw uit te voeren.

Overzicht oplossingen

De oplossing omvat de volgende stappen op hoog niveau:

  1. Maak een AWS-account en admin-gebruiker aan. Dit is een voorwaarde
  2. Download de dataset verloop.csv.
  3. Laad de dataset naar Amazon eenvoudige opslagservice (Amazone S3).
  4. Maak een SageMaker Studio-domein en start Data Wrangler.
  5. Importeer de dataset in de Data Wrangler-stroom van Amazon S3.
  6. Maak het Data Quality and Insights Report en trek conclusies over de benodigde feature engineering.
  7. Voer de benodigde gegevenstransformaties uit in Data Wrangler.
  8. Download het Data Quality and Insights Report en de getransformeerde dataset.
  9. Upload de gegevens naar een Studio Lab-project voor modeltraining.

Het volgende diagram illustreert deze workflow.

Voorwaarden

Om Data Wrangler en Studio Lab te gebruiken, hebt u de volgende vereisten nodig:

Bouw een workflow voor gegevensvoorbereiding met Data Wrangler

Voer de volgende stappen uit om aan de slag te gaan:

  1. Upload uw dataset naar Amazon S3.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  2. Op de SageMaker-console, onder Bedieningspaneel in het navigatievenster, kies studio.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  3. Op de Start de app menu naast uw gebruikersprofiel, kies studio.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    Nadat u zich met succes hebt aangemeld bij Studio, ziet u een ontwikkelomgeving zoals de volgende schermafbeelding.
  4. Als u een nieuwe Data Wrangler-workflow wilt maken, gaat u op de Dien in menu, kies New, kies dan Data Wrangler-stroom.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    De eerste stap in Data Wrangler is om: importeren jouw gegevens. U kunt gegevens importeren uit meerdere gegevensbronnen, zoals Amazon S3, Amazone Athene, Amazon roodverschuiving, Sneeuwvlok en Databricks. In dit voorbeeld gebruiken we Amazon S3. Als je gewoon wilt zien hoe Data Wrangler werkt, kun je altijd kiezen: Voorbeeldgegevensset gebruiken.
  5. Kies Datums importeren.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  6. Kies Amazon S3.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  7. Kies de dataset die je hebt geรผpload en kies import.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    Met Data Wrangler kunt u de volledige dataset importeren of een deel ervan samplen.
  8. Om snel inzicht te krijgen in de dataset, kiest u Eerste K For monsterneming en voer 50000 in voor Grootte van de steekproef.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Begrijp datakwaliteit en krijg inzichten

Laten we het rapport Gegevenskwaliteit en inzichten gebruiken om een โ€‹โ€‹analyse uit te voeren van de gegevens die we in Data Wrangler hebben geรฏmporteerd. U kunt het rapport gebruiken om te begrijpen welke stappen u moet nemen om uw gegevens op te schonen en te verwerken. Dit rapport geeft informatie zoals het aantal ontbrekende waarden en het aantal uitbijters. Als u problemen heeft met uw gegevens, zoals lekkage van doelen of onbalans, kan het rapport Insights deze problemen onder uw aandacht brengen.

  1. Kies het plusteken naast Datatypen En kies Gegevensinzichten verkrijgen.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  2. Voor Type analyse, kiezen Rapport Gegevenskwaliteit en inzichten.
  3. Voor Doelkolom, kiezen Chun?.
  4. Voor Type probleemยธ selecteren Classificatie.
  5. Kies creรซren.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

U krijgt een gedetailleerd rapport te zien dat u kunt bekijken en downloaden. Het rapport bevat verschillende secties, zoals snel model, functieoverzicht, functiecorrelatie en gegevensinzichten. De volgende schermafbeeldingen geven voorbeelden van deze secties.

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Opmerkingen uit het rapport

Uit het rapport kunnen we de volgende opmerkingen maken:

  • Er zijn geen dubbele rijen gevonden.
  • De State kolom lijkt vrij gelijk verdeeld te zijn, dus de gegevens zijn in evenwicht in termen van staatsbevolking.
  • De Phone kolom presenteert te veel unieke waarden om van praktisch nut te zijn. Te veel unieke waarden maken deze kolom niet bruikbaar. We kunnen de . laten vallen Phone kolom in onze transformatie.
  • Op basis van het gedeelte over functiecorrelatie van het rapport, Mins en Charge zijn sterk gecorreleerd. We kunnen er รฉรฉn verwijderen.

Transformatie

Op basis van onze waarnemingen willen we de volgende transformaties maken:

  • Verwijder Phone kolom omdat deze veel unieke waarden heeft.
  • We zien ook verschillende functies die in wezen 100% correlatie met elkaar hebben. Het opnemen van deze functieparen in sommige ML-algoritmen kan ongewenste problemen veroorzaken, terwijl het in andere slechts kleine redundantie en vooringenomenheid introduceert. Laten we รฉรฉn kenmerk verwijderen uit elk van de sterk gecorreleerde paren: Day Charge van het paar met Day Mins, Night Charge van het paar met Night Mins en Intl Charge van het paar met Intl Mins.
  • Converteren True or False in de Churn kolom een โ€‹โ€‹numerieke waarde van 1 of 0 zijn.
  1. Keer terug naar de gegevensstroom en kies het plusteken naast Datatypen.
  2. Kies Voeg transformatie toe.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  3. Kies Stap toevoegen.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  4. U kunt zoeken naar de transformatie die u zoekt (in ons geval kolommen beheren).
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  5. Kies Beheer kolommen.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  6. Voor TransformerenKiezen Kolom laten vallen.
  7. Voor Kolommen om te laten vallenKiezen Phone, Day Charge, Eve Charge, Night Charge en Intl Charge.
  8. Kies Voorbeschouwing, kies dan bijwerken.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    Laten we nog een transformatie toevoegen om een โ€‹โ€‹categorische codering uit te voeren op de Churn? kolom.
  9. Kies de transformatie Codeer categorisch.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  10. Voor Transformeren, kiezen Ordinale codering.
  11. Voor Invoerkolommen, kies de Churn? kolom.
  12. Voor Ongeldige verwerkingsstrategie, kiezen Vervang door NaN.
  13. Kies Voorbeschouwing, kies dan bijwerken.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nu True en False worden respectievelijk omgezet in 1 en 0.

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nu we een goed begrip hebben van de gegevens en de gegevens voor modelbouw hebben voorbereid en getransformeerd, kunnen we de gegevens naar Studio Lab verplaatsen voor modelbouw.

Upload de gegevens naar Studio Lab

Voer de volgende stappen uit om de gegevens in Studio Lab te gaan gebruiken:

  1. Kies Exportgegevens naar exporteren naar een S3-bak.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  2. Voor Amazon S3-locatie, voer je S3-pad in.
  3. Geef het bestandstype op.
  4. Kies Exportgegevens.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  5. Nadat u de gegevens hebt geรซxporteerd, kunt u de gegevens van de S3-bucket naar uw lokale computer downloaden.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  6. Nu kunt u naar Studio Lab gaan en het bestand uploaden naar Studio Lab.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    Als alternatief kunt u vanuit Studio Lab verbinding maken met Amazon S3. Voor meer informatie, zie: Externe bronnen gebruiken in Amazon SageMaker Studio Lab.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  7. Laten we SageMaker installeren en Panda's importeren.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  8. Importeer alle bibliotheken zoals vereist.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  9. Nu kunnen we het CSV-bestand lezen.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  10. Laten we afdrukken churn om te bevestigen dat de dataset correct is.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nu u de verwerkte dataset in Studio Lab heeft, kunt u verdere stappen uitvoeren die nodig zijn voor modelbouw.

Data Wrangler-prijzen

U kunt alle stappen in dit bericht uitvoeren voor EDA of gegevensvoorbereiding binnen Data Wrangler en betalen voor de eenvoudige instantie, banen en opslagprijzen op basis van gebruik of verbruik. Er zijn geen voorrijkosten of licentiekosten vereist.

Opruimen

Als u Data Wrangler niet gebruikt, is het belangrijk om de instantie waarop het wordt uitgevoerd af te sluiten om extra kosten te voorkomen. Sla uw gegevensstroom op voordat u Data Wrangler afsluit om te voorkomen dat u werk verliest.

  1. Om uw gegevensstroom in Studio op te slaan, kiest u Dien in, kies dan Gegevens Wrangler-stroom opslaan.
    Data Wrangler slaat uw gegevensstroom automatisch elke 60 seconden op.
  2. Om de Data Wrangler-instantie af te sluiten, kiest u in Studio: Instanties en kernels uitvoeren.
  3. Onder ACTIEVE APPS, kies het afsluitpictogram naast de sagemaker-data-wrangler-1.0 app.
  4. Kies Alles afsluiten bevestigen.
    Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Data Wrangler draait op een ml.m5.4xlarge instantie. Deze instantie verdwijnt uit LOPENDE INSTANTIES wanneer u de Data Wrangler-app afsluit.

Nadat u de Data Wrangler-app hebt afgesloten, moet deze opnieuw worden opgestart de volgende keer dat u een Data Wrangler-stroombestand opent. Dit kan enkele minuten duren.

Conclusie

In dit bericht hebben we gezien hoe u inzicht kunt krijgen in uw dataset, verkennende gegevensanalyses kunt uitvoeren, gegevens kunt voorbereiden en transformeren met Data Wrangler in Studio, en de getransformeerde en voorbereide gegevens kunt exporteren naar Studio Lab en modelbouw en andere stappen kunt uitvoeren.

Met SageMaker Data Wrangler kunt u het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie vanuit รฉรฉn enkele visuele interface.


Over de auteurs

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Rajakumar Sampathkumar is een Principal Technical Account Manager bij AWS en biedt klanten begeleiding bij de afstemming van bedrijfstechnologie en ondersteunt de heruitvinding van hun cloudoperatiemodellen en -processen. Hij is gepassioneerd door de cloud en machine learning. Raj is ook een machine learning-specialist en werkt samen met AWS-klanten om hun AWS-workloads en architecturen te ontwerpen, implementeren en beheren.

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Meenakshisundaram Thandavarayan is een Senior AI/ML-specialist met een passie voor het ontwerpen, creรซren en promoten van mensgerichte data- en analyse-ervaringen. Hij ondersteunt AWS Strategische klanten bij hun transformatie naar een datagedreven organisatie.

Gebruik Amazon SageMaker Data Wrangler voor gegevensvoorbereiding en Studio Labs om te leren en te experimenteren met ML PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.James Wu is Senior AI/ML Specialist Solution Architect bij AWS. klanten helpen bij het ontwerpen en bouwen van AI/ML-oplossingen. James' werk omvat een breed scala aan ML-gebruikscasussen, met een primaire interesse in computervisie, deep learning en het opschalen van ML in de hele onderneming. Voordat hij bij AWS kwam, was James meer dan 10 jaar architect, ontwikkelaar en technologieleider, waarvan 6 jaar in engineering en 4 jaar in marketing- en reclamesectoren.

Tijdstempel:

Meer van AWS-machine learning