Amazon SageMaker Veri Düzenleyicisi makine öğrenimi (ML) için amaca yönelik oluşturulmuş bir veri toplama ve hazırlama aracıdır. Verilere erişmek ve keşifsel veri analizi (EDA) ve özellik mühendisliği gerçekleştirmek için görsel bir arayüz kullanmanıza olanak tanır. EDA özelliği, grafikler (dağılım grafiği veya histogram gibi) için yerleşik veri analizi yetenekleri ve özellik önemi, hedef sızıntısı ve model açıklanabilirliği gibi zaman kazandıran model analizi yetenekleriyle birlikte gelir. Özellik mühendisliği yeteneği, 300'den fazla yerleşik dönüşüme sahiptir ve Python, PySpark veya Spark SQL çalışma zamanını kullanarak özel dönüşümler gerçekleştirebilir.
Özel görselleştirmeler ve dönüşümler için Data Wrangler artık yaygın görselleştirme ve dönüşüm türleri için örnek kod parçacıkları sağlar. Bu gönderide, Data Wrangler'da EDA'nızı hızlı bir şekilde başlatmak için bu kod parçacıklarının nasıl kullanılacağını gösteriyoruz.
Çözüme genel bakış
Bu yazı yazılırken, veri kümelerini şu adresten Data Wrangler'a aktarabilirsiniz: Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, Amazon Kırmızıya Kaydırma, Databricks ve Kar Tanesi. Bu gönderi için, 3 Amazon'u depolamak için Amazon S2014 kullanıyoruz veri kümesini gözden geçirir. Aşağıdaki veri kümesinin bir örneğidir:
Bu gönderide, üç sütun kullanarak EDA gerçekleştiriyoruz—asin
, reviewTime
, ve overall
-sırasıyla ürün kimliğine, inceleme zaman tarihine ve genel inceleme puanına eşlenir. Bu verileri aylar ve yıllar boyunca yapılan inceleme sayısı için dinamikleri görselleştirmek için kullanırız.
Veri Wrangler'da EDA için örnek Kod Parçacığı'nı kullanma
Data Wrangler'da EDA gerçekleştirmeye başlamak için aşağıdaki adımları tamamlayın:
- Atomic Cüzdanı indirin : Dijital Müzik incelemeleri veri kümesi JSON ve Amazon S3'e yükleyin.
Bunu EDA için ham veri seti olarak kullanıyoruz. - Açılış Amazon SageMaker Stüdyosu ve yeni bir Data Wrangler akışı oluşturun ve veri kümesini Amazon S3'ten içe aktarın.
Bu veri kümesinde dokuz sütun var, ancak yalnızca üç tane kullanıyoruz:
asin
,reviewTime
, veoverall
. Diğer altı sütunu bırakmamız gerekiyor. - Özel bir dönüşüm oluşturun ve seçin Python (PySpark).
- Genişletmek Örnek snippet'lerde ara Ve seç Birkaç sütun hariç tüm sütunları bırak.
- Sağlanan snippet'i özel dönüşümünüze girin ve kodu değiştirmek için talimatları izleyin.
Artık ihtiyacımız olan tüm sütunlara sahip olduğumuza göre, verileri yalnızca 2000–2020 arasındaki incelemeleri tutacak şekilde filtreleyelim.
- Kullan Aralık dışında filtre zaman damgası 2000 yılından önce ve 2020'den sonra verileri bırakmak için snippet:
Ardından, inceleme Zamanı sütunundan yılı ve ayı çıkarırız.
- Kullan Tarih/saati öne çıkar dönüşümü.
- İçin Sütunları ayıkla, seçmek yıl ve ay.
Ardından, önceki adımda oluşturduğumuz incelemelerin sayısını yıl ve aya göre toplamak istiyoruz.
- Kullan Gruplar halinde hesaplama istatistikleri pasajı:
- Önceki adımın toplanmasını yeniden adlandırın
count(overall)
içinreviews_num
seçerek Sütunları Yönet ve Sütunu yeniden adlandır dönüşümü.
Son olarak, incelemelerin yıllara ve aya göre dağılımını görselleştirmek için bir ısı haritası oluşturmak istiyoruz. - Analiz sekmesinde, Özel görselleştirme.
- Genişletmek Snippet'i ara Ve seç İlgi haritası Açılır menüde.
- Sağlanan snippet'i özel görselleştirmenize girin:
Aşağıdaki görselleştirmeyi elde ederiz.
Isı haritasını daha da geliştirmek istiyorsanız, verileri yalnızca 2011'den önceki incelemeleri gösterecek şekilde dilimleyebilirsiniz. 2012'den bu yana çok sayıda inceleme yapıldığından, az önce oluşturduğumuz ısı haritasında bunların tanımlanması zordur. - Özel görselleştirmenize bir satır kod ekleyin:
Aşağıdaki ısı haritasını alıyoruz.
Artık ısı haritası 2011'den önceki incelemeleri daha görünür bir şekilde yansıtıyor: mevsimsel etkileri gözlemleyebiliriz (yıl sonu daha fazla satın alma ve dolayısıyla daha fazla inceleme getirir) ve Ekim 2003 ve Mart 2005 gibi anormal ayları tespit edebiliriz. Daha fazla araştırmaya değer Bu anormalliklerin nedenini belirlemek için.
Sonuç
Data Wrangler, makine öğrenimi için amaca yönelik oluşturulmuş bir veri toplama ve hazırlama aracıdır. Bu gönderide, Data Wrangler tarafından sağlanan kod parçacıklarını kullanarak EDA'yı nasıl gerçekleştireceğinizi ve verilerinizi nasıl hızlı bir şekilde dönüştüreceğinizi gösterdik. Tek yapmanız gereken bir pasaj bulmanız, kodu girmeniz ve parametreleri veri kümenize uyacak şekilde ayarlamanız. Daha karmaşık görselleştirmeler ve dönüşümler oluşturmak için komut dosyanızda yinelemeye devam edebilirsiniz.
Data Wrangler hakkında daha fazla bilgi için bkz. Veri Wrangler Akışı Oluşturun ve Kullanın.
Yazarlar Hakkında
Nikita Ivkin Uygulamalı Bilim Adamı, Amazon SageMaker Data Wrangler.
Haydar Nakvi AWS'de Çözüm Mimarıdır. Kapsamlı yazılım geliştirme ve kurumsal mimari deneyimine sahiptir. Müşterilerin AWS ile iş sonuçları elde etmesini sağlamaya odaklanıyor. New York merkezlidir.
Harish Rajagopalan Amazon Web Services'de Kıdemli Çözüm Mimarıdır. Harish, kurumsal müşterilerle çalışır ve bulut yolculuklarında onlara yardımcı olur.
James Wu AWS'de Kıdemli Yapay Zeka/ML Uzmanı SA'dır. Bulut yolculuklarını hızlandırmak ve iş değeri gerçekleştirmelerini hızlandırmak için müşterilerle birlikte çalışır. Buna ek olarak James, çeşitli alanlarda büyük AI/ML çözümleri geliştirme ve ölçeklendirme konusunda da tutkulu. AWS'ye katılmadan önce, pazar ve reklamcılık sektöründe en iyi küresel bir firma için makine öğrenimi mühendisleri ve yazılım geliştiricilerinden oluşan çok disiplinli bir inovasyon teknolojisi ekibine liderlik etti.
- Akıllı para. Avrupa'nın En İyi Bitcoin ve Kripto Borsası.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. SERBEST ERİŞİM.
- KriptoHawk. Altcoin Radarı. Ücretsiz deneme.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- Hakkımızda
- hızlandırmak
- erişim
- Başarmak
- karşısında
- ilave
- reklâm
- Türkiye
- veriyor
- Amazon
- Amazon Web Servisleri
- analiz
- uygulamalı
- mimari
- mevcut
- AWS
- eksen
- Çünkü
- önce
- arasında
- yerleşik
- iş
- yetenekleri
- Sebeb olmak
- Grafikler
- Klinik
- bulut
- kod
- Sütun
- ortak
- tamamlamak
- karmaşık
- devam etmek
- kontroller
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- görenek
- Müşteriler
- veri
- veri analizi
- göstermek
- gösterdi
- Belirlemek
- geliştiriciler
- gelişen
- gelişme
- dağıtım
- etki
- aşağı
- Damla
- dinamik
- etkileri
- etkinleştirme
- Mühendislik
- Mühendisler
- Keşfet
- kuruluş
- örnek
- Dışında
- deneyim
- kapsamlı, geniş
- Daha hızlı
- Özellikler(Hazırlık aşamasında)
- Nihayet
- Firma
- Ad
- akış
- odaklanır
- takip et
- takip etme
- itibaren
- işlev
- fonksiyonlar
- daha fazla
- Küresel
- harika
- Grubun
- sahip olan
- faydalı
- yardımcı olur
- Ne kadar
- Nasıl Yapılır
- HTTPS
- belirlemek
- önem
- sanayi
- Yenilikçilik
- arayüzey
- IT
- seyahat
- tutmak
- büyük
- ÖĞRENİN
- öğrenme
- Led
- çizgi
- Liste
- makine
- makine öğrenme
- harita
- Mart
- pazar
- Maç
- ML
- model
- Ay
- ay
- Daha
- Music
- isimleri
- New York
- numara
- Diğer
- tüm
- tutkulu
- icra
- oynama
- Hazırlamak
- önceki
- PLATFORM
- sağlamak
- sağlanan
- sağlar
- satın alma
- alımları
- nicel
- hızla
- Çiğ
- kayıtlar
- yansıtır
- yorum
- Yorumları
- ölçekleme
- bilim adamı
- Hizmetler
- Basit
- beri
- ALTINCI
- Yazılım
- yazılım geliştirme
- Çözümler
- uzman
- başlama
- istatistik
- hafızası
- mağaza
- Hedef
- takım
- Teknoloji
- The
- bu nedenle
- üç
- zaman
- araç
- üst
- Dönüştürmek
- dönüşümler
- türleri
- kullanım
- değer
- çeşitli
- görüntüleme
- hacimleri
- ağ
- web hizmetleri
- DSÖ
- harika
- çalışır
- değer
- yazı yazıyor
- X
- yıl
- yıl