Amazon SageMaker Data Wrangler'da PySpark ve Altair Kod Parçacıkları ile Verileri Daha Hızlı Hazırlayın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Amazon SageMaker Veri Düzenleyicisi makine öğrenimi (ML) için amaca yönelik oluşturulmuş bir veri toplama ve hazırlama aracıdır. Verilere erişmek ve keşifsel veri analizi (EDA) ve özellik mühendisliği gerçekleştirmek için görsel bir arayüz kullanmanıza olanak tanır. EDA özelliği, grafikler (dağılım grafiği veya histogram gibi) için yerleşik veri analizi yetenekleri ve özellik önemi, hedef sızıntısı ve model açıklanabilirliği gibi zaman kazandıran model analizi yetenekleriyle birlikte gelir. Özellik mühendisliği yeteneği, 300'den fazla yerleşik dönüşüme sahiptir ve Python, PySpark veya Spark SQL çalışma zamanını kullanarak özel dönüşümler gerçekleştirebilir.

Özel görselleştirmeler ve dönüşümler için Data Wrangler artık yaygın görselleştirme ve dönüşüm türleri için örnek kod parçacıkları sağlar. Bu gönderide, Data Wrangler'da EDA'nızı hızlı bir şekilde başlatmak için bu kod parçacıklarının nasıl kullanılacağını gösteriyoruz.

Çözüme genel bakış

Bu yazı yazılırken, veri kümelerini şu adresten Data Wrangler'a aktarabilirsiniz: Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, Amazon Kırmızıya Kaydırma, Databricks ve Kar Tanesi. Bu gönderi için, 3 Amazon'u depolamak için Amazon S2014 kullanıyoruz veri kümesini gözden geçirir. Aşağıdaki veri kümesinin bir örneğidir:

{ "reviewerID": "A2SUAM1J3GNN3B", "asin": "0000013714", "reviewerName": "J. McDonald", "helpful": [2, 3], "reviewText": "I bought this for my husband who plays the piano. He is having a wonderful time playing these old hymns. The music is sometimes hard to read because we think the book was published for singing from more than playing from. Great purchase though!", "overall": 5.0, "summary": "Heavenly Highway Hymns", "unixReviewTime": 1252800000, "reviewTime": "09 13, 2009" }

Bu gönderide, üç sütun kullanarak EDA gerçekleştiriyoruz—asin, reviewTime, ve overall-sırasıyla ürün kimliğine, inceleme zaman tarihine ve genel inceleme puanına eşlenir. Bu verileri aylar ve yıllar boyunca yapılan inceleme sayısı için dinamikleri görselleştirmek için kullanırız.

Veri Wrangler'da EDA için örnek Kod Parçacığı'nı kullanma

Data Wrangler'da EDA gerçekleştirmeye başlamak için aşağıdaki adımları tamamlayın:

Atomic Cüzdanı indirin : Dijital Müzik incelemeleri veri kümesi JSON ve Amazon S3'e yükleyin.
Bunu EDA için ham veri seti olarak kullanıyoruz.
Açılış Amazon SageMaker Stüdyosu ve yeni bir Data Wrangler akışı oluşturun ve veri kümesini Amazon S3'ten içe aktarın.

Bu veri kümesinde dokuz sütun var, ancak yalnızca üç tane kullanıyoruz: asin, reviewTime, ve overall. Diğer altı sütunu bırakmamız gerekiyor.
Özel bir dönüşüm oluşturun ve seçin Python (PySpark).
Genişletmek Örnek snippet'lerde ara Ve seç Birkaç sütun hariç tüm sütunları bırak.
Sağlanan snippet'i özel dönüşümünüze girin ve kodu değiştirmek için talimatları izleyin.
```
# Specify the subset of columns to keep
cols = ["asin", "reviewTime", "overall"] cols_to_drop = set(df.columns).difference(cols) df = df.drop(*cols_to_drop)
```
Artık ihtiyacımız olan tüm sütunlara sahip olduğumuza göre, verileri yalnızca 2000–2020 arasındaki incelemeleri tutacak şekilde filtreleyelim.

Kullan Aralık dışında filtre zaman damgası 2000 yılından önce ve 2020'den sonra verileri bırakmak için snippet:

from pyspark.sql.functions import col
from datetime import datetime # specify the start and the stop timestamp
timestamp_start = datetime.strptime("2000-01-01 12:00:00", "%Y-%m-%d %H:%M:%S")
timestamp_stop = datetime.strptime("2020-01-01 12:00:00", "%Y-%m-%d %H:%M:%S") df = df.filter(col("reviewTime").between(timestamp_start, timestamp_stop))

Ardından, inceleme Zamanı sütunundan yılı ve ayı çıkarırız.

Kullan Tarih/saati öne çıkar dönüşümü.
İçin Sütunları ayıkla, seçmek yıl ve ay.

Ardından, önceki adımda oluşturduğumuz incelemelerin sayısını yıl ve aya göre toplamak istiyoruz.

Kullan Gruplar halinde hesaplama istatistikleri pasajı:

# Table is available as variable `df`
from pyspark.sql.functions import sum, avg, max, min, mean, count # Provide the list of columns defining groups
groupby_cols = ["reviewTime_year", "reviewTime_month"] # Specify the map of aggregate function to the list of colums
# aggregates to use: sum, avg, max, min, mean, count
aggregate_map = {count: ["overall"]} all_aggregates = []
for a, cols in aggregate_map.items(): all_aggregates += [a(col) for col in cols] df = df.groupBy(groupby_cols).agg(*all_aggregates)

Önceki adımın toplanmasını yeniden adlandırın count(overall) için reviews_num seçerek Sütunları Yönet ve Sütunu yeniden adlandır dönüşümü.
Son olarak, incelemelerin yıllara ve aya göre dağılımını görselleştirmek için bir ısı haritası oluşturmak istiyoruz.
Analiz sekmesinde, Özel görselleştirme.
Genişletmek Snippet'i ara Ve seç İlgi haritası Açılır menüde.

Sağlanan snippet'i özel görselleştirmenize girin:

# Table is available as variable `df`
# Table is available as variable `df`
import altair as alt # Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

Aşağıdaki görselleştirmeyi elde ederiz.

Isı haritasını daha da geliştirmek istiyorsanız, verileri yalnızca 2011'den önceki incelemeleri gösterecek şekilde dilimleyebilirsiniz. 2012'den bu yana çok sayıda inceleme yapıldığından, az önce oluşturduğumuz ısı haritasında bunların tanımlanması zordur.

Özel görselleştirmenize bir satır kod ekleyin:

# Table is available as variable `df`
import altair as alt df = df[df.reviewTime_year < 2011]
# Takes first 1000 records of the Dataframe
df = df.head(1000) chart = ( alt.Chart(df) .mark_rect() .encode( # Specify the column names for X and Y axis, # Both should have discrete values: ordinal (:O) or nominal (:N) x= "reviewTime_year:O", y="reviewTime_month:O", # Color can be both discrete (:O, :N) and quantitative (:Q) color="reviews_num:Q", ) .interactive()
)

Aşağıdaki ısı haritasını alıyoruz.

Artık ısı haritası 2011'den önceki incelemeleri daha görünür bir şekilde yansıtıyor: mevsimsel etkileri gözlemleyebiliriz (yıl sonu daha fazla satın alma ve dolayısıyla daha fazla inceleme getirir) ve Ekim 2003 ve Mart 2005 gibi anormal ayları tespit edebiliriz. Daha fazla araştırmaya değer Bu anormalliklerin nedenini belirlemek için.

Sonuç

Data Wrangler, makine öğrenimi için amaca yönelik oluşturulmuş bir veri toplama ve hazırlama aracıdır. Bu gönderide, Data Wrangler tarafından sağlanan kod parçacıklarını kullanarak EDA'yı nasıl gerçekleştireceğinizi ve verilerinizi nasıl hızlı bir şekilde dönüştüreceğinizi gösterdik. Tek yapmanız gereken bir pasaj bulmanız, kodu girmeniz ve parametreleri veri kümenize uyacak şekilde ayarlamanız. Daha karmaşık görselleştirmeler ve dönüşümler oluşturmak için komut dosyanızda yinelemeye devam edebilirsiniz.
Data Wrangler hakkında daha fazla bilgi için bkz. Veri Wrangler Akışı Oluşturun ve Kullanın.

Yazarlar Hakkında

Nikita Ivkin Uygulamalı Bilim Adamı, Amazon SageMaker Data Wrangler.

Haydar Nakvi AWS'de Çözüm Mimarıdır. Kapsamlı yazılım geliştirme ve kurumsal mimari deneyimine sahiptir. Müşterilerin AWS ile iş sonuçları elde etmesini sağlamaya odaklanıyor. New York merkezlidir.

Harish Rajagopalan Amazon Web Services'de Kıdemli Çözüm Mimarıdır. Harish, kurumsal müşterilerle çalışır ve bulut yolculuklarında onlara yardımcı olur.

James Wu AWS'de Kıdemli Yapay Zeka/ML Uzmanı SA'dır. Bulut yolculuklarını hızlandırmak ve iş değeri gerçekleştirmelerini hızlandırmak için müşterilerle birlikte çalışır. Buna ek olarak James, çeşitli alanlarda büyük AI/ML çözümleri geliştirme ve ölçeklendirme konusunda da tutkulu. AWS'ye katılmadan önce, pazar ve reklamcılık sektöründe en iyi küresel bir firma için makine öğrenimi mühendisleri ve yazılım geliştiricilerinden oluşan çok disiplinli bir inovasyon teknolojisi ekibine liderlik etti.

Zaman Damgası: Haziran 15, 2022

Zaman Damgası: Kasım 30, 2022

Amazon SageMaker Data Wrangler'da PySpark ve Altair kod parçacıklarıyla verileri daha hızlı hazırlayın

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Veri Wrangler'da EDA için örnek Kod Parçacığı'nı kullanma

Sonuç

Yazarlar Hakkında

Den fazla AWS Makine Öğrenimi

Teknik Rapor: Sağlık ve Yaşam Bilimlerinde Makine Öğrenimi En İyi Uygulamaları

Görüntü verilerini Amazon SageMaker Data Wrangler ile hazırlayın

AWS Trainium ve Amazon SageMaker ile performansı en üst düzeye çıkarın ve derin öğrenme eğitim maliyetinizi azaltın

AI21 Jurassic-1 temel modeli artık Amazon SageMaker'da mevcut

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap