Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Gebruik Amazon SageMaker Canvas voor verkennende gegevensanalyse

Verkennende gegevensanalyse (EDA) is een veelvoorkomende taak van bedrijfsanalisten om patronen te ontdekken, relaties te begrijpen, aannames te valideren en anomalieรซn in hun gegevens te identificeren. Bij machine learning (ML) is het belangrijk om eerst de gegevens en hun relaties te begrijpen voordat u met modelbouw begint. Traditionele ML-ontwikkelingscycli kunnen soms maanden duren en vereisen geavanceerde vaardigheden op het gebied van datawetenschap en ML-engineering, terwijl ML-oplossingen zonder code bedrijven kunnen helpen de levering van ML-oplossingen te versnellen tot dagen of zelfs uren.

Amazon SageMaker-canvas is een ML-tool zonder code waarmee bedrijfsanalisten nauwkeurige ML-voorspellingen kunnen genereren zonder code te hoeven schrijven of zonder enige ervaring met ML. Canvas biedt een gebruiksvriendelijke visuele interface om de datasets te laden, op te schonen en te transformeren, gevolgd door het bouwen van ML-modellen en het genereren van nauwkeurige voorspellingen.

In dit bericht laten we zien hoe u EDA kunt uitvoeren om een โ€‹โ€‹beter begrip van uw gegevens te krijgen voordat u uw ML-model bouwt, dankzij de ingebouwde geavanceerde visualisaties van Canvas. Deze visualisaties helpen u de relaties tussen functies in uw datasets te analyseren en uw gegevens beter te begrijpen. Dit gebeurt intuรฏtief, met de mogelijkheid om met de gegevens te communiceren en inzichten te ontdekken die mogelijk onopgemerkt blijven bij ad-hocquery's. Ze kunnen snel worden gemaakt via de 'Data visualizer' binnen Canvas voordat ML-modellen worden gebouwd en getraind.

Overzicht oplossingen

Deze visualisaties vormen een aanvulling op het scala aan mogelijkheden voor gegevensvoorbereiding en -verkenning die Canvas al biedt, inclusief de mogelijkheid om ontbrekende waarden te corrigeren en uitbijters te vervangen; datasets filteren, samenvoegen en wijzigen; en extraheer specifieke tijdwaarden uit tijdstempels. Voor meer informatie over hoe Canvas je kan helpen bij het opschonen, transformeren en voorbereiden van je dataset, ga naar Gegevens voorbereiden met geavanceerde transformaties.

Voor onze use case bekijken we waarom klanten in elk bedrijf churnen en illustreren we hoe EDA kan helpen vanuit het oogpunt van een analist. De dataset die we in dit bericht gebruiken, is een synthetische dataset van een telecomaanbieder voor mobiele telefonie voor voorspelling van klantverloop die u kunt downloaden (verloop.csv), of je brengt je eigen dataset mee om mee te experimenteren. Voor instructies over het importeren van uw eigen dataset, zie: Gegevens importeren in Amazon SageMaker Canvas.

Voorwaarden

Volg de instructies in Vereisten voor het instellen van Amazon SageMaker Canvas voordat u verder gaat.

Importeer je dataset in Canvas

Voer de volgende stappen uit om de voorbeeldgegevensset in Canvas te importeren:

  1. Log in op Canvas als zakelijke gebruiker.Eerst uploaden we de eerder genoemde dataset van onze lokale computer naar Canvas. Als u andere bronnen wilt gebruiken, zoals: Amazon roodverschuiving, verwijzen naar Verbinding maken met een externe gegevensbron.
  2. Kies import.Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  3. Kies Uploaden, kies dan Selecteer bestanden van uw computer.
  4. Selecteer uw dataset (churn.csv) en kies Datums importeren.Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  5. Selecteer de dataset en kies Maak een model.Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  6. Voor Modelnaam, voer een naam in (voor dit bericht hebben we de naam Churn-voorspelling gegeven).
  7. Kies creรซren.
    Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    Zodra u uw gegevensset selecteert, krijgt u een overzicht te zien met de gegevenstypen, ontbrekende waarden, niet-overeenkomende waarden, unieke waarden en de gemiddelde of moduswaarden van de respectieve kolommen.Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
    Vanuit een EDA-perspectief kunt u zien dat er geen ontbrekende of niet-overeenkomende waarden in de dataset zijn. Als bedrijfsanalist wilt u misschien een eerste inzicht krijgen in de modelopbouw, zelfs voordat u met de gegevensverkenning begint, om vast te stellen hoe het model zal presteren en welke factoren bijdragen aan de prestaties van het model. Canvas geeft je de mogelijkheid om inzichten uit je gegevens te halen voordat je een model bouwt door eerst een voorbeeld van het model te bekijken.
  8. Voordat u gegevens gaat verkennen, kiest u: Voorbeeldmodel.Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  9. Selecteer de kolom om te voorspellen (churn). Canvas detecteert automatisch dat dit een voorspelling in twee categorieรซn is.
  10. Kies Voorbeeldmodel. SageMaker Canvas gebruikt een subset van uw gegevens om snel een model te bouwen om te controleren of uw gegevens klaar zijn om een โ€‹โ€‹nauwkeurige voorspelling te genereren. Met dit voorbeeldmodel krijgt u inzicht in de nauwkeurigheid van het huidige model en de relatieve impact van elke kolom op voorspellingen.

De volgende schermafbeelding toont ons voorbeeld.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De modelvoorbeeld geeft aan dat het model 95.6% van de tijd het juiste doel (churn?) voorspelt. U kunt ook de initiรซle kolomimpact zien (invloed van elke kolom op de doelkolom). Laten we wat gegevensverkenning, -visualisatie en -transformatie doen en dan verder gaan met het bouwen van een model.

Gegevensverkenning

Canvas biedt al enkele algemene basisvisualisaties, zoals gegevensdistributie in een rasterweergave op de Bouw tabblad. Deze zijn geweldig om een โ€‹โ€‹overzicht op hoog niveau van de gegevens te krijgen, te begrijpen hoe de gegevens worden gedistribueerd en om een โ€‹โ€‹samenvattend overzicht van de gegevensset te krijgen.

Als bedrijfsanalist moet u mogelijk inzicht op hoog niveau krijgen over hoe de gegevens worden gedistribueerd en hoe de distributie wordt weerspiegeld in de doelkolom (churn) om de gegevensrelatie gemakkelijk te begrijpen voordat u het model bouwt. U kunt nu kiezen Rasterweergave om een โ€‹โ€‹overzicht te krijgen van de datadistributie.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De volgende schermafbeelding toont het overzicht van de distributie van de dataset.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We kunnen de volgende opmerkingen maken:

  • Telefoon neemt te veel unieke waarden aan om praktisch bruikbaar te zijn. We weten dat de telefoon een klant-ID is en we willen geen model bouwen dat rekening houdt met specifieke klanten, maar in meer algemene zin leren wat tot klantverloop kan leiden. U kunt deze variabele verwijderen.
  • De meeste numerieke kenmerken zijn mooi verdeeld, na a Gauss bel kromme. In ML wilt u dat de gegevens normaal worden verdeeld, omdat elke variabele die een normale verdeling vertoont, met een hogere nauwkeurigheid kan worden voorspeld.

Laten we dieper gaan en de geavanceerde visualisaties bekijken die beschikbaar zijn in Canvas.

Data visualisatie

Als bedrijfsanalisten wilt u zien of er relaties zijn tussen gegevenselementen en hoe deze verband houden met churn. Met Canvas kunt u uw gegevens verkennen en visualiseren, waardoor u geavanceerde inzichten in uw gegevens kunt krijgen voordat u uw ML-modellen gaat bouwen. U kunt visualiseren met behulp van spreidingsdiagrammen, staafdiagrammen en boxplots, die u kunnen helpen uw gegevens te begrijpen en de relaties tussen kenmerken te ontdekken die de nauwkeurigheid van het model kunnen beรฏnvloeden.

Voer de volgende stappen uit om uw visualisaties te maken:

  • Op de Bouw tabblad van de Canvas-app, kies Gegevensvisualizer.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Een belangrijke versneller van visualisatie in Canvas is de: Gegevensvisualizer. Laten we de steekproefomvang wijzigen om een โ€‹โ€‹beter perspectief te krijgen.

  • Kies aantal rijen naast Visualisatie voorbeeld.
  • Gebruik de schuifregelaar om de gewenste steekproefomvang te selecteren.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

  • Kies bijwerken om de wijziging in uw steekproefomvang te bevestigen.

Misschien wilt u de steekproefomvang wijzigen op basis van uw dataset. In sommige gevallen heb je een paar honderd tot een paar duizend rijen waar je de hele dataset kunt selecteren. In sommige gevallen heeft u misschien enkele duizenden rijen, in welk geval u een paar honderd of een paar duizend rijen kunt selecteren op basis van uw gebruik.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Een spreidingsplot toont de relatie tussen twee kwantitatieve variabelen gemeten voor dezelfde individuen. In ons geval is het belangrijk om de relatie tussen waarden te begrijpen om te controleren op correlatie.

Omdat we oproepen, minuten en kosten hebben, zullen we de correlatie tussen hen plotten voor dag, avond en nacht.

Laten we eerst een maken spreidingsplot tussen Dagkosten vs. Dag Min.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

We kunnen zien dat naarmate de dagminuten toenemen, de dagkosten ook toenemen.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Hetzelfde geldt voor avondoproepen.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Nachtoproepen hebben ook hetzelfde patroon.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Omdat minuten en lading lineair lijken toe te nemen, kun je zien dat ze een hoge correlatie met elkaar hebben. Het opnemen van deze functieparen in sommige ML-algoritmen kan extra opslagruimte in beslag nemen en de trainingssnelheid verminderen, en als vergelijkbare informatie in meer dan รฉรฉn kolom wordt weergegeven, kan dit ertoe leiden dat het model de effecten te veel benadrukt en tot ongewenste vertekening in het model leiden. Laten we รฉรฉn kenmerk verwijderen uit elk van de sterk gecorreleerde paren: Day Charge van het paar met Day Mins, Night Charge van het paar met Night Mins en Intl Charge van het paar met Intl Mins.

Gegevensbalans en variatie

Een staafdiagram is een grafiek tussen een categorische variabele op de x-as en een numerieke variabele op de y-as om de relatie tussen beide variabelen te onderzoeken. Laten we een staafdiagram maken om te zien hoe de oproepen zijn verdeeld over onze doelkolom Churn voor True en False. Kiezen Staafdiagram en sleep dagoproepen en churn naar respectievelijk de y-as en x-as.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Laten we nu hetzelfde staafdiagram maken voor avondoproepen versus klantverloop.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Laten we vervolgens een staafdiagram maken voor nachtoproepen versus klantverloop.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Het lijkt erop dat er een verschil in gedrag is tussen klanten die hebben gekarnd en degenen die dat niet hebben gedaan.

Boxplots zijn handig omdat ze verschillen in gedrag van gegevens per klasse laten zien (verloop of niet). Omdat we het verloop (doelkolom) gaan voorspellen, gaan we een boxplot maken van enkele functies tegen onze doelkolom om beschrijvende statistieken over de dataset af te leiden, zoals gemiddelde, max, min, mediaan en uitbijters.

Kies Boxplot en sleep Dagminuten en Churn naar respectievelijk de y-as en x-as.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

U kunt dezelfde aanpak ook proberen voor andere kolommen tegen onze doelkolom (churn).

Laten we nu een boxplot maken van dag-minuten tegen klantenservice-oproepen om te begrijpen hoe de klantenservice-oproepen zich uitstrekken over de dag-minuten-waarde. U kunt zien dat klantenservice-oproepen geen afhankelijkheid of correlatie hebben met de dagmin-waarde.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Uit onze waarnemingen kunnen we vaststellen dat de dataset redelijk in balans is. We willen dat de gegevens gelijkmatig worden verdeeld over echte en valse waarden, zodat het model niet vooringenomen is in de richting van รฉรฉn waarde.

Transformaties

Op basis van onze observaties laten we de kolom Telefoon vallen omdat het slechts een rekeningnummer is en de kolommen Day Charge, Eve Charge, Night Charge omdat ze overlappende informatie bevatten, zoals de mins-kolommen, maar we kunnen ter bevestiging nogmaals een voorbeeld uitvoeren.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Laten we na de gegevensanalyse en -transformatie nog een voorbeeld van het model bekijken.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

U kunt zien dat de geschatte nauwkeurigheid van het model is veranderd van 95.6% naar 93.6% (dit kan variรซren), maar de impact van de kolom (belang van de functie) voor specifieke kolommen is aanzienlijk veranderd, wat de trainingssnelheid en de invloed van de kolommen op de voorspelling als we naar de volgende stappen van modelbouw gaan. Onze dataset vereist geen extra transformatie, maar als dat nodig is, kunt u profiteren van: ML-gegevens worden getransformeerd om uw gegevens op te schonen, te transformeren en voor te bereiden voor modelbouw.

Bouw het model

U kunt nu verder gaan met het bouwen van een model en het analyseren van de resultaten. Voor meer informatie, zie: Voorspel klantverloop met machine learning zonder code met Amazon SageMaker Canvas.

Opruimen

Om te voorkomen dat u in de toekomst loopt sessiekosten, uitloggen van Canvas.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Conclusie

In dit bericht hebben we laten zien hoe u Canvas-visualisatiemogelijkheden voor EDA kunt gebruiken om uw gegevens beter te begrijpen voordat u een model gaat bouwen, nauwkeurige ML-modellen kunt maken en voorspellingen kunt genereren met behulp van een visuele, aanwijzen-en-klik-interface zonder code.


Over de auteurs

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Rajakumar Sampathkumar is een Principal Technical Account Manager bij AWS en biedt klanten begeleiding bij de afstemming van bedrijfstechnologie en ondersteunt de heruitvinding van hun cloud-operatiemodellen en -processen. Hij is gepassioneerd door cloud en machine learning. Raj is ook een machine learning-specialist en werkt samen met AWS-klanten om hun AWS-workloads en architecturen te ontwerpen, implementeren en beheren.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Rahul Nabera is een Data Analytics Consultant bij AWS Professional Services. Zijn huidige werk is erop gericht klanten in staat te stellen hun data- en machine learning-workloads op AWS te bouwen. In zijn vrije tijd speelt hij graag cricket en volleybal.

Gebruik Amazon SageMaker Canvas voor verkennende data-analyse PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Raviteja Yelamanchili is een Enterprise Solutions Architect bij Amazon Web Services, gevestigd in New York. Hij werkt samen met grote financiรซle dienstverleners aan het ontwerpen en implementeren van zeer veilige, schaalbare, betrouwbare en kosteneffectieve applicaties in de cloud. Hij brengt meer dan 11 jaar ervaring met risicobeheer, technologieadvies, data-analyse en machine learning met zich mee. Als hij geen klanten helpt, houdt hij van reizen en PS5 spelen.

Tijdstempel:

Meer van AWS-machine learning