Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın

Keşifsel veri analizi (EDA), iş analistleri tarafından kalıpları keşfetmek, ilişkileri anlamak, varsayımları doğrulamak ve verilerindeki anormallikleri belirlemek için gerçekleştirilen ortak bir görevdir. Makine öğreniminde (ML), model oluşturmaya başlamadan önce verileri ve ilişkilerini anlamak önemlidir. Geleneksel makine öğrenimi geliştirme döngüleri bazen aylar alabilir ve gelişmiş veri bilimi ve makine öğrenimi mühendisliği becerileri gerektirebilirken, kod içermeyen makine öğrenimi çözümleri, şirketlerin makine öğrenimi çözümlerini günlere hatta saatlere ulaştırmasını hızlandırmasına yardımcı olabilir.

Amazon SageMaker Tuval iş analistlerinin kod yazmak zorunda kalmadan veya herhangi bir ML deneyimi gerektirmeden doğru ML tahminleri oluşturmasına yardımcı olan kodsuz bir ML aracıdır. Canvas, veri kümelerini yüklemek, temizlemek ve dönüştürmek için kullanımı kolay bir görsel arabirim sağlar, ardından makine öğrenimi modelleri oluşturur ve doğru tahminler üretir.

Bu yazıda, Canvas'ın yerleşik gelişmiş görselleştirmeleri sayesinde makine öğrenimi modelinizi oluşturmadan önce verilerinizi daha iyi anlamak için EDA'nın nasıl gerçekleştirileceğini anlatacağız. Bu görselleştirmeler, veri kümelerinizdeki özellikler arasındaki ilişkileri analiz etmenize ve verilerinizi daha iyi anlamanıza yardımcı olur. Bu, verilerle etkileşim kurma ve geçici sorgulama ile fark edilmeyebilecek içgörüleri keşfetme yeteneği ile sezgisel olarak yapılır. ML modelleri oluşturmadan ve eğitmeden önce Canvas içindeki 'Veri görselleştiricisi' aracılığıyla hızlı bir şekilde oluşturulabilirler.

Çözüme genel bakış

Bu görselleştirmeler, eksik değerleri düzeltme ve aykırı değerleri değiştirme yeteneği de dahil olmak üzere, Canvas tarafından halihazırda sunulan veri hazırlama ve keşfetme yetenekleri yelpazesine katkıda bulunur; veri kümelerini filtreleme, birleştirme ve değiştirme; ve zaman damgalarından belirli zaman değerlerini çıkarın. Canvas'ın veri kümenizi temizlemenize, dönüştürmenize ve hazırlamanıza nasıl yardımcı olabileceği hakkında daha fazla bilgi edinmek için bkz. Gelişmiş dönüşümlerle verileri hazırlayın.

Kullanım durumumuz için, müşterilerin herhangi bir işte neden çalıştıklarını inceliyoruz ve bir analistin bakış açısından EDA'nın nasıl yardımcı olabileceğini gösteriyoruz. Bu gönderide kullandığımız veri seti, indirebileceğiniz müşteri kaybı tahmini için bir telekomünikasyon cep telefonu operatöründen sentetik bir veri setidir (çalkalama.csv) veya denemek için kendi veri kümenizi getirirsiniz. Kendi veri kümenizi içe aktarma yönergeleri için bkz. Amazon SageMaker Canvas'ta verileri içe aktarma.

Önkoşullar

Içindeki talimatları izleyin Amazon SageMaker Canvas'ı kurmak için ön koşullar daha fazla ilerlemeden önce.

Veri kümenizi Canvas'a aktarın

Örnek veri kümesini Canvas'a aktarmak için aşağıdaki adımları tamamlayın:

  1. İş kullanıcısı olarak Canvas'ta oturum açın.Öncelikle daha önce bahsettiğimiz veri setini yerel bilgisayarımızdan Canvas'a yüklüyoruz. gibi diğer kaynakları kullanmak istiyorsanız, Amazon Kırmızıya Kaydırmabakın Harici bir veri kaynağına bağlanın.
  2. Klinik ithalat.Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.
  3. Klinik Foto Yükle, Daha sonra seçmek Bilgisayarınızdan dosya seçin.
  4. Veri kümenizi (churn.csv) seçin ve Tarihleri ​​içe aktar.Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.
  5. Veri kümesini seçin ve Model oluştur.Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.
  6. İçin Model adı, bir isim girin (bu gönderi için Churn tahmin ismini verdik).
  7. Klinik oluşturmak.
    Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.
    Veri kümenizi seçtiğiniz anda, ilgili sütunların veri türlerini, eksik değerleri, eşleşmeyen değerleri, benzersiz değerleri ve ortalama veya mod değerlerini ana hatlarıyla belirten bir genel bakış sunulur.Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.
    EDA perspektifinden, veri setinde eksik veya uyumsuz değer olmadığını gözlemleyebilirsiniz. Bir iş analisti olarak, modelin nasıl performans göstereceğini ve modelin performansına hangi faktörlerin katkıda bulunduğunu belirlemek için veri keşfine başlamadan önce bile model oluşturma hakkında bir ön fikir edinmek isteyebilirsiniz. Canvas, bir model oluşturmadan önce önce modeli önizleyerek verilerinizden içgörüler elde etme olanağı sağlar.
  8. Herhangi bir veri keşfi yapmadan önce, Önizleme modeli.Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.
  9. Tahmin edilecek sütunu seçin (çalkalayın).Canvas, bunun iki kategorili bir tahmin olduğunu otomatik olarak algılar.
  10. Klinik Önizleme modeli. SageMaker Canvas, verilerinizin doğru bir tahmin oluşturmaya hazır olup olmadığını kontrol etmek için hızlı bir şekilde bir model oluşturmak için verilerinizin bir alt kümesini kullanır. Bu örnek modeli kullanarak, mevcut model doğruluğunu ve her bir sütunun tahminler üzerindeki göreli etkisini anlayabilirsiniz.

Aşağıdaki ekran görüntüsü önizlememizi göstermektedir.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Model önizlemesi, modelin zamanın %95.6'sında doğru hedefi (kayıp mı?) tahmin ettiğini gösterir. Ayrıca ilk sütun etkisini de görebilirsiniz (her sütunun hedef sütun üzerindeki etkisi). Biraz veri keşfi, görselleştirme ve dönüştürme yapalım ve ardından bir model oluşturmaya devam edelim.

Veri keşfi

Kanvas, bir ızgara görünümünde veri dağıtımı gibi bazı genel temel görselleştirmeleri zaten sağlar. İnşa etmek sekme. Bunlar, verilere üst düzey bir genel bakış elde etmek, verilerin nasıl dağıtıldığını anlamak ve veri kümesine ilişkin özet bir genel bakış elde etmek için harikadır.

Bir iş analisti olarak, modeli oluşturmadan önce veri ilişkisini kolayca anlamak için verilerin nasıl dağıtıldığına ve dağılımın hedef sütuna (çalıntıya) göre nasıl yansıdığına ilişkin üst düzey bilgiler edinmeniz gerekebilir. şimdi seçebilirsiniz Izgara görünümü Veri dağılımına genel bir bakış elde etmek için.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Aşağıdaki ekran görüntüsü, veri kümesinin dağılımına genel bir bakış gösterir.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Aşağıdaki gözlemleri yapabiliriz:

  • Telefon, herhangi bir pratik kullanım için çok fazla benzersiz değer alır. Telefonun bir müşteri kimliği olduğunu biliyoruz ve belirli müşterileri dikkate alabilecek bir model oluşturmak istemiyoruz, bunun yerine daha genel anlamda neyin kesintiye yol açabileceğini öğrenmek istiyoruz. Bu değişkeni kaldırabilirsiniz.
  • Sayısal özelliklerin çoğu güzel bir şekilde dağıtılmıştır. Gauss Çan eğrisi. ML'de, normal dağılım sergileyen herhangi bir değişken daha yüksek doğrulukla tahmin edilebildiğinden, verilerin normal olarak dağıtılmasını istersiniz.

Daha derine inelim ve Canvas'ta bulunan gelişmiş görselleştirmelere göz atalım.

Veri goruntuleme

İş analistleri olarak, veri öğeleri arasında ilişkiler olup olmadığını ve bunların kayıpla nasıl ilişkili olduğunu görmek istersiniz. Canvas ile verilerinizi keşfedebilir ve görselleştirebilirsiniz; bu, ML modellerinizi oluşturmadan önce verilerinize ilişkin gelişmiş öngörüler elde etmenize yardımcı olur. Verilerinizi anlamanıza ve model doğruluğunu etkileyebilecek özellikler arasındaki ilişkileri keşfetmenize yardımcı olabilecek dağılım grafikleri, çubuk grafikler ve kutu grafikleri kullanarak görselleştirebilirsiniz.

Görselleştirmelerinizi oluşturmaya başlamak için aşağıdaki adımları tamamlayın:

  • Üzerinde İnşa etmek Canvas uygulamasının sekmesini seçin Veri görselleştirici.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Canvas'ta görselleştirmenin önemli bir hızlandırıcısı, Veri görselleştirici. Daha iyi bir bakış açısı elde etmek için örnek boyutunu değiştirelim.

  • yanındaki satır sayısını seçin Görselleştirme örneği.
  • İstediğiniz numune boyutunu seçmek için kaydırıcıyı kullanın.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

  • Klinik Güncelleme örnek boyutunuzdaki değişikliği onaylamak için.

Veri kümenize göre örnek boyutunu değiştirmek isteyebilirsiniz. Bazı durumlarda, tüm veri kümesini seçebileceğiniz birkaç yüz ila birkaç bin satırınız olabilir. Bazı durumlarda, birkaç bin satırınız olabilir, bu durumda kullanım durumunuza göre birkaç yüz veya birkaç bin satır seçebilirsiniz.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Bir dağılım grafiği, aynı bireyler için ölçülen iki nicel değişken arasındaki ilişkiyi gösterir. Bizim durumumuzda, korelasyonu kontrol etmek için değerler arasındaki ilişkiyi anlamak önemlidir.

Aramalar, Dakikalar ve Ücretler olduğundan, aralarındaki ilişkiyi Gündüz, Akşam ve Gece için çizeceğiz.

İlk olarak, dağılım grafiği Gün Ücreti ile Gün Mins.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Day Mins arttıkça Day Charge'ın da arttığını gözlemleyebiliriz.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Aynısı akşam aramaları için de geçerlidir.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Gece aramaları da aynı düzene sahiptir.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Dakikalar ve şarj lineer olarak artıyor gibi göründüğünden, birbirleriyle yüksek bir korelasyona sahip olduklarını gözlemleyebilirsiniz. Bu özellik çiftlerinin bazı ML algoritmalarına dahil edilmesi ek depolama gerektirebilir ve eğitim hızını azaltabilir ve benzer bilgilerin birden fazla sütunda bulunması modelin etkileri aşırı vurgulamasına ve modelde istenmeyen yanlılığa yol açabilir. Yüksek korelasyonlu çiftlerin her birinden bir özelliği kaldıralım: Gündüz Dakikası olan çiftten Gündüz Ücreti, Gece Dakikası olan çiftten Gece Ücreti ve Uluslararası Dakikası olan çiftten Uluslararası Ücret.

Veri dengesi ve varyasyon

Çubuk grafik, her iki değişken arasındaki ilişkiyi keşfetmek için x eksenindeki kategorik bir değişken ile y eksenindeki sayısal değişken arasındaki bir grafiktir. Çağrıların Doğru ve Yanlış için Churn hedef sütunumuz boyunca nasıl dağıtıldığını görmek için bir çubuk grafik oluşturalım. Seçmek Grafik çubuğu ve günlük aramaları sürükleyip bırakın ve sırasıyla y eksenine ve x eksenine çalkala.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Şimdi, akşam aramaları vs. için aynı çubuk grafiği oluşturalım.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Ardından, gece aramaları ve kesinti için bir çubuk grafik oluşturalım.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Kullanan ve kullanmayan müşteriler arasında davranış farkı var gibi görünüyor.

Kutu grafikleri yararlıdır çünkü verilerin davranışında sınıfa göre farklılıklar gösterirler (çalkalama ya da değil). Churn'u (hedef sütun) tahmin edeceğimiz için, veri kümesi hakkında ortalama, maks, min, medyan ve aykırı değerler gibi tanımlayıcı istatistikler çıkarmak için hedef sütunumuza karşı bazı özelliklerin bir kutu grafiğini oluşturalım.

Klinik Kutu çizimi ve Day mins ve Churn öğelerini sırasıyla y eksenine ve x eksenine sürükleyip bırakın.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Aynı yaklaşımı diğer sütunlar için de hedef sütunumuza (churn) karşı deneyebilirsiniz.

Şimdi müşteri hizmetleri çağrılarının gün dakika değerine nasıl yayıldığını anlamak için müşteri hizmetleri çağrılarına karşı bir gün dakikası kutu grafiği oluşturalım. Müşteri hizmetleri aramalarının gün dakika değeriyle bir bağımlılığı veya korelasyonu olmadığını görebilirsiniz.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Gözlemlerimizden, veri setinin oldukça dengeli olduğunu belirleyebiliriz. Modelin tek bir değere karşı önyargılı olmaması için verilerin doğru ve yanlış değerler arasında eşit olarak dağıtılmasını istiyoruz.

Dönüşümler

Gözlemlerimize dayanarak, Telefon sütununu yalnızca bir hesap numarası olduğu için ve Gündüz Ücreti, Eve Ücreti, Gece Ücreti sütunları, dakika sütunları gibi örtüşen bilgiler içerdiği için atıyoruz, ancak onaylamak için tekrar bir önizleme çalıştırabiliriz.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Veri analizi ve dönüşümünden sonra modeli tekrar önizleyelim.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Model tahmini doğruluğunun %95.6'dan %93.6'ya değiştiğini (bu değişebilir), ancak belirli sütunlar için sütun etkisinin (özellik önemi) önemli ölçüde değiştiğini gözlemleyebilirsiniz, bu da eğitim hızını ve sütunların üzerindeki etkisini artırır. Model oluşturmanın sonraki adımlarına geçerken tahmin. Veri kümemiz ek dönüşüm gerektirmez, ancak gerekirse ML veri dönüşümleri verilerinizi temizlemek, dönüştürmek ve model oluşturmaya hazırlamak için.

Modeli oluşturun

Artık bir model oluşturmaya ve sonuçları analiz etmeye devam edebilirsiniz. Daha fazla bilgi için bkz. Amazon SageMaker Canvas'ı kullanarak kodsuz makine öğrenimi ile müşteri kaybını tahmin edin.

Temizlemek

Gelecekle karşılaşmamak için seans ücretleri, oturumu Tuval

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.

Sonuç

Bu gönderide, model oluşturmadan önce verilerinizi daha iyi anlamak, doğru ML modelleri oluşturmak ve kodsuz, görsel, tıkla ve tıkla arabirimi kullanarak tahminler oluşturmak için EDA için Canvas görselleştirme özelliklerini nasıl kullanabileceğinizi gösterdik.


Yazarlar Hakkında

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.Rajakumar Sampathkumar AWS'de Baş Teknik Hesap Yöneticisidir, müşterilere iş-teknoloji uyumu konusunda rehberlik eder ve bulut operasyon modellerinin ve süreçlerinin yeniden icat edilmesini destekler. Bulut ve makine öğrenimi konusunda tutkulu. Raj aynı zamanda bir makine öğrenimi uzmanıdır ve AWS iş yüklerini ve mimarilerini tasarlamak, dağıtmak ve yönetmek için AWS müşterileriyle birlikte çalışır.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.Rahul Nabera AWS Profesyonel Hizmetlerde Veri Analitiği Danışmanıdır. Şu anki çalışması, müşterilerin verilerini ve makine öğrenimi iş yüklerini AWS'de oluşturmasını sağlamaya odaklanıyor. Boş zamanlarında kriket ve voleybol oynamayı sever.

Keşif amaçlı veri analizi için Amazon SageMaker Canvas'ı kullanın PlatoBlockchain Data Intelligence. Dikey Arama. Ai.Raviteja Yelamanchili New York merkezli Amazon Web Services ile Kurumsal Çözümler Mimarıdır. Bulutta son derece güvenli, ölçeklenebilir, güvenilir ve uygun maliyetli uygulamalar tasarlamak ve dağıtmak için büyük finansal hizmetler kurumsal müşterileriyle birlikte çalışır. 11 yılı aşkın risk yönetimi, teknoloji danışmanlığı, veri analizi ve makine öğrenimi deneyimi getiriyor. Müşterilere yardım etmediği zamanlarda seyahat etmekten ve PS5 oynamaktan hoşlanıyor.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi