Amazon SageMaker Studiolab is een gratis ontwikkelomgeving voor machine learning (ML) op basis van open-source JupyterLab voor iedereen om te leren en te experimenteren met ML met behulp van AWS ML-rekenbronnen. Het is gebaseerd op dezelfde architectuur en gebruikersinterface als Amazon SageMaker Studio, maar met een subset van Studio-mogelijkheden.
Wanneer u begint te werken aan ML-initiatieven, moet u verkennende gegevensanalyse (EDA) of gegevensvoorbereiding uitvoeren voordat u doorgaat met het bouwen van modellen. Amazon SageMaker-gegevens Wrangler is een vermogen van Amazon Sage Maker dat maakt het voor datawetenschappers en technici sneller om data voor te bereiden voor ML-applicaties via een visuele interface. Data Wrangler reduceert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor ML van weken tot minuten.
Een belangrijke versneller bij het voorbereiden van functies in Data Wrangler is de: Rapport Gegevenskwaliteit en inzichten. Dit rapport controleert de gegevenskwaliteit en helpt afwijkingen in uw gegevens op te sporen, zodat u de vereiste gegevensengineering kunt uitvoeren om uw gegevensset te herstellen. U kunt het Data Quality and Insights Report gebruiken om een โโanalyse van uw data uit te voeren om inzicht te krijgen in uw dataset zoals het aantal ontbrekende waarden en het aantal uitbijters. Als u problemen heeft met uw gegevens, zoals lekkage van doelen of onbalans, kan het rapport Insights deze problemen onder uw aandacht brengen en u helpen bij het identificeren van de stappen voor gegevensvoorbereiding die u moet uitvoeren.
Studio Lab-gebruikers kunnen profiteren van Data Wrangler omdat datakwaliteit en feature-engineering van cruciaal belang zijn voor de voorspellende prestaties van uw model. Data Wrangler helpt bij datakwaliteit en feature-engineering door inzicht te geven in datakwaliteitsproblemen en door eenvoudig snelle iteratie en engineering van functies mogelijk te maken met behulp van een low-code UI.
In dit bericht laten we u zien hoe u verkennende gegevensanalyse uitvoert, gegevens voorbereidt en transformeert met Data Wrangler, en de getransformeerde en voorbereide gegevens exporteert naar Studio Lab om modelbouw uit te voeren.
Overzicht oplossingen
De oplossing omvat de volgende stappen op hoog niveau:
- Maak een AWS-account en admin-gebruiker aan. Dit is een voorwaarde
- Download de dataset verloop.csv.
- Laad de dataset naar Amazon eenvoudige opslagservice (Amazone S3).
- Maak een SageMaker Studio-domein en start Data Wrangler.
- Importeer de dataset in de Data Wrangler-stroom van Amazon S3.
- Maak het Data Quality and Insights Report en trek conclusies over de benodigde feature engineering.
- Voer de benodigde gegevenstransformaties uit in Data Wrangler.
- Download het Data Quality and Insights Report en de getransformeerde dataset.
- Upload de gegevens naar een Studio Lab-project voor modeltraining.
Het volgende diagram illustreert deze workflow.
Voorwaarden
Om Data Wrangler en Studio Lab te gebruiken, hebt u de volgende vereisten nodig:
Bouw een workflow voor gegevensvoorbereiding met Data Wrangler
Voer de volgende stappen uit om aan de slag te gaan:
- Upload uw dataset naar Amazon S3.
- Op de SageMaker-console, onder Bedieningspaneel in het navigatievenster, kies studio.
- Op de Start de app menu naast uw gebruikersprofiel, kies studio.
Nadat u zich met succes hebt aangemeld bij Studio, ziet u een ontwikkelomgeving zoals de volgende schermafbeelding. - Als u een nieuwe Data Wrangler-workflow wilt maken, gaat u op de Dien in menu, kies New, kies dan Data Wrangler-stroom.
De eerste stap in Data Wrangler is om: importeren jouw gegevens. U kunt gegevens importeren uit meerdere gegevensbronnen, zoals Amazon S3, Amazone Athene, Amazon roodverschuiving, Sneeuwvlok en Databricks. In dit voorbeeld gebruiken we Amazon S3. Als je gewoon wilt zien hoe Data Wrangler werkt, kun je altijd kiezen: Voorbeeldgegevensset gebruiken. - Kies Datums importeren.
- Kies Amazon S3.
- Kies de dataset die je hebt geรผpload en kies import.
Met Data Wrangler kunt u de volledige dataset importeren of een deel ervan samplen. - Om snel inzicht te krijgen in de dataset, kiest u Eerste K For monsterneming en voer 50000 in voor Grootte van de steekproef.
Begrijp datakwaliteit en krijg inzichten
Laten we het rapport Gegevenskwaliteit en inzichten gebruiken om een โโanalyse uit te voeren van de gegevens die we in Data Wrangler hebben geรฏmporteerd. U kunt het rapport gebruiken om te begrijpen welke stappen u moet nemen om uw gegevens op te schonen en te verwerken. Dit rapport geeft informatie zoals het aantal ontbrekende waarden en het aantal uitbijters. Als u problemen heeft met uw gegevens, zoals lekkage van doelen of onbalans, kan het rapport Insights deze problemen onder uw aandacht brengen.
- Kies het plusteken naast Datatypen En kies Gegevensinzichten verkrijgen.
- Voor Type analyse, kiezen Rapport Gegevenskwaliteit en inzichten.
- Voor Doelkolom, kiezen Chun?.
- Voor Type probleemยธ selecteren Classificatie.
- Kies creรซren.
U krijgt een gedetailleerd rapport te zien dat u kunt bekijken en downloaden. Het rapport bevat verschillende secties, zoals snel model, functieoverzicht, functiecorrelatie en gegevensinzichten. De volgende schermafbeeldingen geven voorbeelden van deze secties.
Opmerkingen uit het rapport
Uit het rapport kunnen we de volgende opmerkingen maken:
- Er zijn geen dubbele rijen gevonden.
- De
State
kolom lijkt vrij gelijk verdeeld te zijn, dus de gegevens zijn in evenwicht in termen van staatsbevolking. - De
Phone
kolom presenteert te veel unieke waarden om van praktisch nut te zijn. Te veel unieke waarden maken deze kolom niet bruikbaar. We kunnen de . laten vallenPhone
kolom in onze transformatie. - Op basis van het gedeelte over functiecorrelatie van het rapport,
Mins
enCharge
zijn sterk gecorreleerd. We kunnen er รฉรฉn verwijderen.
Transformatie
Op basis van onze waarnemingen willen we de volgende transformaties maken:
- Verwijder
Phone
kolom omdat deze veel unieke waarden heeft. - We zien ook verschillende functies die in wezen 100% correlatie met elkaar hebben. Het opnemen van deze functieparen in sommige ML-algoritmen kan ongewenste problemen veroorzaken, terwijl het in andere slechts kleine redundantie en vooringenomenheid introduceert. Laten we รฉรฉn kenmerk verwijderen uit elk van de sterk gecorreleerde paren:
Day Charge
van het paar metDay Mins
,Night Charge
van het paar metNight Mins
enIntl Charge
van het paar metIntl Mins
. - Converteren
True
orFalse
in deChurn
kolom een โโnumerieke waarde van 1 of 0 zijn.
- Keer terug naar de gegevensstroom en kies het plusteken naast Datatypen.
- Kies Voeg transformatie toe.
- Kies Stap toevoegen.
- U kunt zoeken naar de transformatie die u zoekt (in ons geval kolommen beheren).
- Kies Beheer kolommen.
- Voor TransformerenKiezen Kolom laten vallen.
- Voor Kolommen om te laten vallenKiezen
Phone
,Day Charge
,Eve Charge
,Night Charge
enIntl Charge
. - Kies Voorbeschouwing, kies dan bijwerken.
Laten we nog een transformatie toevoegen om een โโcategorische codering uit te voeren op deChurn?
kolom. - Kies de transformatie Codeer categorisch.
- Voor Transformeren, kiezen Ordinale codering.
- Voor Invoerkolommen, kies de
Churn?
kolom. - Voor Ongeldige verwerkingsstrategie, kiezen Vervang door NaN.
- Kies Voorbeschouwing, kies dan bijwerken.
Nu True
en False
worden respectievelijk omgezet in 1 en 0.
Nu we een goed begrip hebben van de gegevens en de gegevens voor modelbouw hebben voorbereid en getransformeerd, kunnen we de gegevens naar Studio Lab verplaatsen voor modelbouw.
Upload de gegevens naar Studio Lab
Voer de volgende stappen uit om de gegevens in Studio Lab te gaan gebruiken:
- Kies Exportgegevens naar exporteren naar een S3-bak.
- Voor Amazon S3-locatie, voer je S3-pad in.
- Geef het bestandstype op.
- Kies Exportgegevens.
- Nadat u de gegevens hebt geรซxporteerd, kunt u de gegevens van de S3-bucket naar uw lokale computer downloaden.
- Nu kunt u naar Studio Lab gaan en het bestand uploaden naar Studio Lab.
Als alternatief kunt u vanuit Studio Lab verbinding maken met Amazon S3. Voor meer informatie, zie: Externe bronnen gebruiken in Amazon SageMaker Studio Lab. - Laten we SageMaker installeren en Panda's importeren.
- Importeer alle bibliotheken zoals vereist.
- Nu kunnen we het CSV-bestand lezen.
- Laten we afdrukken
churn
om te bevestigen dat de dataset correct is.
Nu u de verwerkte dataset in Studio Lab heeft, kunt u verdere stappen uitvoeren die nodig zijn voor modelbouw.
Data Wrangler-prijzen
U kunt alle stappen in dit bericht uitvoeren voor EDA of gegevensvoorbereiding binnen Data Wrangler en betalen voor de eenvoudige instantie, banen en opslagprijzen op basis van gebruik of verbruik. Er zijn geen voorrijkosten of licentiekosten vereist.
Opruimen
Als u Data Wrangler niet gebruikt, is het belangrijk om de instantie waarop het wordt uitgevoerd af te sluiten om extra kosten te voorkomen. Sla uw gegevensstroom op voordat u Data Wrangler afsluit om te voorkomen dat u werk verliest.
- Om uw gegevensstroom in Studio op te slaan, kiest u Dien in, kies dan Gegevens Wrangler-stroom opslaan.
Data Wrangler slaat uw gegevensstroom automatisch elke 60 seconden op. - Om de Data Wrangler-instantie af te sluiten, kiest u in Studio: Instanties en kernels uitvoeren.
- Onder ACTIEVE APPS, kies het afsluitpictogram naast de
sagemaker-data-wrangler-1.0 app
. - Kies Alles afsluiten bevestigen.
Data Wrangler draait op een ml.m5.4xlarge instantie. Deze instantie verdwijnt uit LOPENDE INSTANTIES wanneer u de Data Wrangler-app afsluit.
Nadat u de Data Wrangler-app hebt afgesloten, moet deze opnieuw worden opgestart de volgende keer dat u een Data Wrangler-stroombestand opent. Dit kan enkele minuten duren.
Conclusie
In dit bericht hebben we gezien hoe u inzicht kunt krijgen in uw dataset, verkennende gegevensanalyses kunt uitvoeren, gegevens kunt voorbereiden en transformeren met Data Wrangler in Studio, en de getransformeerde en voorbereide gegevens kunt exporteren naar Studio Lab en modelbouw en andere stappen kunt uitvoeren.
Met SageMaker Data Wrangler kunt u het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie vanuit รฉรฉn enkele visuele interface.
Over de auteurs
Rajakumar Sampathkumar is een Principal Technical Account Manager bij AWS en biedt klanten begeleiding bij de afstemming van bedrijfstechnologie en ondersteunt de heruitvinding van hun cloudoperatiemodellen en -processen. Hij is gepassioneerd door de cloud en machine learning. Raj is ook een machine learning-specialist en werkt samen met AWS-klanten om hun AWS-workloads en architecturen te ontwerpen, implementeren en beheren.
Meenakshisundaram Thandavarayan is een Senior AI/ML-specialist met een passie voor het ontwerpen, creรซren en promoten van mensgerichte data- en analyse-ervaringen. Hij ondersteunt AWS Strategische klanten bij hun transformatie naar een datagedreven organisatie.
James Wu is Senior AI/ML Specialist Solution Architect bij AWS. klanten helpen bij het ontwerpen en bouwen van AI/ML-oplossingen. James' werk omvat een breed scala aan ML-gebruikscasussen, met een primaire interesse in computervisie, deep learning en het opschalen van ML in de hele onderneming. Voordat hij bij AWS kwam, was James meer dan 10 jaar architect, ontwikkelaar en technologieleider, waarvan 6 jaar in engineering en 4 jaar in marketing- en reclamesectoren.
- AI
- ai kunst
- ai kunst generator
- je hebt een robot
- Amazon Sage Maker
- Amazon SageMaker-gegevens Wrangler
- kunstmatige intelligentie
- certificering van kunstmatige intelligentie
- kunstmatige intelligentie in het bankwezen
- kunstmatige intelligentie robot
- kunstmatige intelligentie robots
- kunstmatige intelligentiesoftware
- AWS-machine learning
- blockchain
- blockchain conferentie ai
- vindingrijk
- conversatie kunstmatige intelligentie
- crypto conferentie ai
- van dall
- diepgaand leren
- google ai
- machine learning
- Plato
- plato ai
- Plato gegevensintelligentie
- Plato-spel
- PlatoData
- platogamen
- schaal ai
- syntaxis
- zephyrnet