Amazon SageMaker-gegevens Wrangler is een speciaal gebouwde tool voor het verzamelen en voorbereiden van gegevens voor machine learning (ML). Hiermee kunt u een visuele interface gebruiken om toegang te krijgen tot gegevens en verkennende gegevensanalyse (EDA) en feature-engineering uit te voeren. De EDA-functie wordt geleverd met ingebouwde gegevensanalysemogelijkheden voor grafieken (zoals spreidingsplot of histogram) en tijdbesparende modelanalysemogelijkheden zoals functiebelang, doellekkage en modelverklaarbaarheid. De functie-engineering heeft meer dan 300 ingebouwde transformaties en kan aangepaste transformaties uitvoeren met behulp van Python, PySpark of Spark SQL-runtime.
Voor aangepaste visualisaties en transformaties biedt Data Wrangler nu voorbeeldcodefragmenten voor veelvoorkomende typen visualisaties en transformaties. In dit bericht laten we zien hoe u deze codefragmenten kunt gebruiken om uw EDA snel te starten in Data Wrangler.
Overzicht oplossingen
Op het moment van schrijven kunt u datasets in Data Wrangler importeren vanuit: Amazon eenvoudige opslagservice (Amazone S3), Amazone Athene, Amazon roodverschuiving, Databricks en Sneeuwvlok. Voor dit bericht gebruiken we Amazon S3 om de Amazon 2014 op te slaan beoordelingen dataset. Het volgende is een voorbeeld van de dataset:
In dit bericht voeren we EDA uit met behulp van drie kolommen:asin
, reviewTime
en overall
-die respectievelijk verwijzen naar de product-ID, de datum van de beoordeling en de algehele beoordelingsscore. We gebruiken deze gegevens om de dynamiek van het aantal beoordelingen over maanden en jaren te visualiseren.
Voorbeeld Code Snippet voor EDA gebruiken in Data Wrangler
Voer de volgende stappen uit om EDA in Data Wrangler uit te voeren:
- Download de Dataset voor digitale muziekrecensies JSON en upload het naar Amazon S3.
We gebruiken dit als de ruwe dataset voor de EDA. - Openen Amazon SageMaker Studio en maak een nieuwe Data Wrangler-stroom en importeer de dataset van Amazon S3.
Deze dataset heeft negen kolommen, maar we gebruiken er maar drie:
asin
,reviewTime
enoverall
. We moeten de andere zes kolommen laten vallen. - Maak een aangepaste transformatie en kies Python (PySpark).
- Uitvouwen Zoek voorbeeldfragmenten En kies Laat alle kolommen vallen, behalve meerdere.
- Voer het meegeleverde fragment in uw aangepaste transformatie in en volg de aanwijzingen om de code aan te passen.
Nu we alle kolommen hebben die we nodig hebben, gaan we de gegevens filteren om alleen beoordelingen tussen 2000-2020 te behouden.
- Gebruik de Filter tijdstempel buiten bereik fragment om de gegevens vรณรณr het jaar 2000 en na 2020 te verwijderen:
Vervolgens extraheren we het jaar en de maand uit de kolom reviewTime.
- Gebruik de Datum/tijd uitlichten transformeren.
- Voor Kolommen extraheren, kiezen jaar en maand.
Vervolgens willen we het aantal beoordelingen dat we in de vorige stap hebben gemaakt, per jaar en per maand samenvoegen.
- Gebruik de Statistieken berekenen in groepen fragment:
- Hernoem de aggregatie van de vorige stap van
count(overall)
naarreviews_num
door te kiezen Kolommen beheren en Kolom hernoemen transformeren.
Ten slotte willen we een heatmap maken om de verdeling van beoordelingen per jaar en per maand te visualiseren. - Kies op het analysetabblad Aangepaste visualisatie.
- Uitvouwen Zoeken naar fragment En kies Heatmap in het vervolgkeuzemenu.
- Voer het meegeleverde fragment in uw aangepaste visualisatie in:
We krijgen de volgende visualisatie.
Als u de heatmap verder wilt verbeteren, kunt u de gegevens opsplitsen om alleen beoordelingen van vรณรณr 2011 weer te geven. Deze zijn moeilijk te identificeren in de heatmap die we zojuist hebben gemaakt vanwege het grote aantal beoordelingen sinds 2012. - Voeg รฉรฉn regel code toe aan uw aangepaste visualisatie:
We krijgen de volgende heatmap.
Nu geeft de heatmap de beoordelingen van vรณรณr 2011 meer zichtbaar weer: we kunnen de seizoenseffecten waarnemen (het einde van het jaar brengt meer aankopen en dus meer beoordelingen) en kunnen afwijkende maanden identificeren, zoals oktober 2003 en maart 2005. Het is de moeite waard om verder te onderzoeken om de oorzaak van deze afwijkingen vast te stellen.
Conclusie
Data Wrangler is een speciaal gebouwde tool voor het verzamelen en voorbereiden van gegevens voor ML. In dit bericht hebben we laten zien hoe u EDA kunt uitvoeren en uw gegevens snel kunt transformeren met behulp van codefragmenten van Data Wrangler. U hoeft alleen maar een fragment te vinden, de code in te voeren en de parameters aan te passen aan uw dataset. U kunt doorgaan met het herhalen van uw script om complexere visualisaties en transformaties te maken.
Raadpleeg voor meer informatie over Data Wrangler: Een Data Wrangler-stroom maken en gebruiken.
Over de auteurs
Nikita Ivkin is een toegepast wetenschapper, Amazon SageMaker Data Wrangler.
Haider Naqvi is Solutions Architect bij AWS. Hij heeft uitgebreide ervaring op het gebied van softwareontwikkeling en enterprise-architectuur. Hij richt zich op het in staat stellen van klanten om zakelijke resultaten te behalen met AWS. Hij is gevestigd in New York.
Harish Rajagopalan is Senior Solutions Architect bij Amazon Web Services. Harish werkt met zakelijke klanten en helpt hen met hun cloudreis.
James Wu is Senior AI/ML Specialist SA bij AWS. Hij werkt samen met klanten om hun reis naar de cloud te versnellen en de realisatie van hun bedrijfswaarde te versnellen. Daarnaast is James ook gepassioneerd door het ontwikkelen en opschalen van grote AI/ML-oplossingen in verschillende domeinen. Voordat hij bij AWS kwam, leidde hij een multidisciplinair innovatietechnologieteam met ML-ingenieurs en softwareontwikkelaars voor een wereldwijd topbedrijf in de markt- en reclame-industrie.
- Coinsmart. Europa's beste Bitcoin- en crypto-uitwisseling.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. GRATIS TOEGANG.
- CryptoHawk. Altcoin-radar. Gratis proefversie.
- Bron: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Over
- versnellen
- toegang
- Bereiken
- over
- toevoeging
- Advertising
- Alles
- toestaat
- Amazone
- Amazon Web Services
- analyse
- toegepast
- architectuur
- Beschikbaar
- AWS
- As
- omdat
- vaardigheden
- tussen
- ingebouwd
- bedrijfsdeskundigen
- mogelijkheden
- Veroorzaken
- Grafieken
- Kies
- Cloud
- code
- Kolom
- Gemeen
- compleet
- complex
- voortzetten
- controles
- en je merk te creรซren
- aangemaakt
- gewoonte
- Klanten
- gegevens
- gegevensanalyse
- tonen
- gedemonstreerd
- Bepalen
- ontwikkelaars
- het ontwikkelen van
- Ontwikkeling
- distributie
- domeinen
- beneden
- Val
- dynamica
- duurt
- waardoor
- Engineering
- Ingenieurs
- Enter
- Enterprise
- voorbeeld
- Behalve
- ervaring
- uitgebreid
- sneller
- Kenmerk
- Tot slot
- Stevig
- Voornaam*
- stroom
- richt
- volgen
- volgend
- oppompen van
- functie
- functies
- verder
- Globaal
- groot
- Groep
- met
- nuttig
- helpt
- Hoe
- How To
- HTTPS
- identificeren
- belang
- -industrie
- Innovatie
- Interface
- IT
- Houden
- Groot
- LEARN
- leren
- LED
- Lijn
- Lijst
- machine
- machine learning
- kaart
- Maart
- Markt
- Match
- ML
- model
- Maand
- maanden
- meer
- Muziek
- namen
- New York
- aantal
- Overige
- totaal
- hartstochtelijk
- uitvoerend
- spelen
- Voorbereiden
- vorig
- Product
- zorgen voor
- mits
- biedt
- inkomsten
- aankopen
- kwantitatief
- snel
- Rauw
- archief
- weerspiegelt
- beoordelen
- Recensies
- scaling
- Wetenschapper
- Diensten
- Eenvoudig
- sinds
- ZES
- Software
- software development
- Oplossingen
- specialist
- begin
- statistiek
- mediaopslag
- shop
- doelwit
- team
- Technologie
- De
- daarom
- drie
- niet de tijd of
- tools
- top
- Transformeren
- transformaties
- types
- .
- waarde
- divers
- visualisatie
- volumes
- web
- webservices
- WIE
- prachtig
- Bedrijven
- waard
- het schrijven van
- X
- jaar
- jaar
- Your