Keşifsel veri analizi (EDA), iş analistleri tarafından kalıpları keşfetmek, ilişkileri anlamak, varsayımları doğrulamak ve verilerindeki anormallikleri belirlemek için gerçekleştirilen ortak bir görevdir. Makine öğreniminde (ML), model oluşturmaya başlamadan önce verileri ve ilişkilerini anlamak önemlidir. Geleneksel makine öğrenimi geliştirme döngüleri bazen aylar alabilir ve gelişmiş veri bilimi ve makine öğrenimi mühendisliği becerileri gerektirebilirken, kod içermeyen makine öğrenimi çözümleri, şirketlerin makine öğrenimi çözümlerini günlere hatta saatlere ulaştırmasını hızlandırmasına yardımcı olabilir.
Amazon SageMaker Tuval iş analistlerinin kod yazmak zorunda kalmadan veya herhangi bir ML deneyimi gerektirmeden doğru ML tahminleri oluşturmasına yardımcı olan kodsuz bir ML aracıdır. Canvas, veri kümelerini yüklemek, temizlemek ve dönüştürmek için kullanımı kolay bir görsel arabirim sağlar, ardından makine öğrenimi modelleri oluşturur ve doğru tahminler üretir.
Bu yazıda, Canvas'ın yerleşik gelişmiş görselleştirmeleri sayesinde makine öğrenimi modelinizi oluşturmadan önce verilerinizi daha iyi anlamak için EDA'nın nasıl gerçekleştirileceğini anlatacağız. Bu görselleştirmeler, veri kümelerinizdeki özellikler arasındaki ilişkileri analiz etmenize ve verilerinizi daha iyi anlamanıza yardımcı olur. Bu, verilerle etkileşim kurma ve geçici sorgulama ile fark edilmeyebilecek içgörüleri keşfetme yeteneği ile sezgisel olarak yapılır. ML modelleri oluşturmadan ve eğitmeden önce Canvas içindeki 'Veri görselleştiricisi' aracılığıyla hızlı bir şekilde oluşturulabilirler.
Çözüme genel bakış
Bu görselleştirmeler, eksik değerleri düzeltme ve aykırı değerleri değiştirme yeteneği de dahil olmak üzere, Canvas tarafından halihazırda sunulan veri hazırlama ve keşfetme yetenekleri yelpazesine katkıda bulunur; veri kümelerini filtreleme, birleştirme ve değiştirme; ve zaman damgalarından belirli zaman değerlerini çıkarın. Canvas'ın veri kümenizi temizlemenize, dönüştürmenize ve hazırlamanıza nasıl yardımcı olabileceği hakkında daha fazla bilgi edinmek için bkz. Gelişmiş dönüşümlerle verileri hazırlayın.
Kullanım durumumuz için, müşterilerin herhangi bir işte neden çalıştıklarını inceliyoruz ve bir analistin bakış açısından EDA'nın nasıl yardımcı olabileceğini gösteriyoruz. Bu gönderide kullandığımız veri seti, indirebileceğiniz müşteri kaybı tahmini için bir telekomünikasyon cep telefonu operatöründen sentetik bir veri setidir (çalkalama.csv) veya denemek için kendi veri kümenizi getirirsiniz. Kendi veri kümenizi içe aktarma yönergeleri için bkz. Amazon SageMaker Canvas'ta verileri içe aktarma.
Önkoşullar
Içindeki talimatları izleyin Amazon SageMaker Canvas'ı kurmak için ön koşullar daha fazla ilerlemeden önce.
Veri kümenizi Canvas'a aktarın
Örnek veri kümesini Canvas'a aktarmak için aşağıdaki adımları tamamlayın:
- İş kullanıcısı olarak Canvas'ta oturum açın.Öncelikle daha önce bahsettiğimiz veri setini yerel bilgisayarımızdan Canvas'a yüklüyoruz. gibi diğer kaynakları kullanmak istiyorsanız, Amazon Kırmızıya Kaydırmabakın Harici bir veri kaynağına bağlanın.
- Klinik ithalat.
- Klinik Foto Yükle, Daha sonra seçmek Bilgisayarınızdan dosya seçin.
- Veri kümenizi (churn.csv) seçin ve Tarihleri içe aktar.
- Veri kümesini seçin ve Model oluştur.
- İçin Model adı, bir isim girin (bu gönderi için Churn tahmin ismini verdik).
- Klinik oluşturmak.
Veri kümenizi seçtiğiniz anda, ilgili sütunların veri türlerini, eksik değerleri, eşleşmeyen değerleri, benzersiz değerleri ve ortalama veya mod değerlerini ana hatlarıyla belirten bir genel bakış sunulur.
EDA perspektifinden, veri setinde eksik veya uyumsuz değer olmadığını gözlemleyebilirsiniz. Bir iş analisti olarak, modelin nasıl performans göstereceğini ve modelin performansına hangi faktörlerin katkıda bulunduğunu belirlemek için veri keşfine başlamadan önce bile model oluşturma hakkında bir ön fikir edinmek isteyebilirsiniz. Canvas, bir model oluşturmadan önce önce modeli önizleyerek verilerinizden içgörüler elde etme olanağı sağlar. - Herhangi bir veri keşfi yapmadan önce, Önizleme modeli.
- Tahmin edilecek sütunu seçin (çalkalayın).Canvas, bunun iki kategorili bir tahmin olduğunu otomatik olarak algılar.
- Klinik Önizleme modeli. SageMaker Canvas, verilerinizin doğru bir tahmin oluşturmaya hazır olup olmadığını kontrol etmek için hızlı bir şekilde bir model oluşturmak için verilerinizin bir alt kümesini kullanır. Bu örnek modeli kullanarak, mevcut model doğruluğunu ve her bir sütunun tahminler üzerindeki göreli etkisini anlayabilirsiniz.
Aşağıdaki ekran görüntüsü önizlememizi göstermektedir.
Model önizlemesi, modelin zamanın %95.6'sında doğru hedefi (kayıp mı?) tahmin ettiğini gösterir. Ayrıca ilk sütun etkisini de görebilirsiniz (her sütunun hedef sütun üzerindeki etkisi). Biraz veri keşfi, görselleştirme ve dönüştürme yapalım ve ardından bir model oluşturmaya devam edelim.
Veri keşfi
Kanvas, bir ızgara görünümünde veri dağıtımı gibi bazı genel temel görselleştirmeleri zaten sağlar. İnşa etmek sekme. Bunlar, verilere üst düzey bir genel bakış elde etmek, verilerin nasıl dağıtıldığını anlamak ve veri kümesine ilişkin özet bir genel bakış elde etmek için harikadır.
Bir iş analisti olarak, modeli oluşturmadan önce veri ilişkisini kolayca anlamak için verilerin nasıl dağıtıldığına ve dağılımın hedef sütuna (çalıntıya) göre nasıl yansıdığına ilişkin üst düzey bilgiler edinmeniz gerekebilir. şimdi seçebilirsiniz Izgara görünümü Veri dağılımına genel bir bakış elde etmek için.
Aşağıdaki ekran görüntüsü, veri kümesinin dağılımına genel bir bakış gösterir.
Aşağıdaki gözlemleri yapabiliriz:
- Telefon, herhangi bir pratik kullanım için çok fazla benzersiz değer alır. Telefonun bir müşteri kimliği olduğunu biliyoruz ve belirli müşterileri dikkate alabilecek bir model oluşturmak istemiyoruz, bunun yerine daha genel anlamda neyin kesintiye yol açabileceğini öğrenmek istiyoruz. Bu değişkeni kaldırabilirsiniz.
- Sayısal özelliklerin çoğu güzel bir şekilde dağıtılmıştır. Gauss Çan eğrisi. ML'de, normal dağılım sergileyen herhangi bir değişken daha yüksek doğrulukla tahmin edilebildiğinden, verilerin normal olarak dağıtılmasını istersiniz.
Daha derine inelim ve Canvas'ta bulunan gelişmiş görselleştirmelere göz atalım.
Veri goruntuleme
İş analistleri olarak, veri öğeleri arasında ilişkiler olup olmadığını ve bunların kayıpla nasıl ilişkili olduğunu görmek istersiniz. Canvas ile verilerinizi keşfedebilir ve görselleştirebilirsiniz; bu, ML modellerinizi oluşturmadan önce verilerinize ilişkin gelişmiş öngörüler elde etmenize yardımcı olur. Verilerinizi anlamanıza ve model doğruluğunu etkileyebilecek özellikler arasındaki ilişkileri keşfetmenize yardımcı olabilecek dağılım grafikleri, çubuk grafikler ve kutu grafikleri kullanarak görselleştirebilirsiniz.
Görselleştirmelerinizi oluşturmaya başlamak için aşağıdaki adımları tamamlayın:
- Üzerinde İnşa etmek Canvas uygulamasının sekmesini seçin Veri görselleştirici.
Canvas'ta görselleştirmenin önemli bir hızlandırıcısı, Veri görselleştirici. Daha iyi bir bakış açısı elde etmek için örnek boyutunu değiştirelim.
- yanındaki satır sayısını seçin Görselleştirme örneği.
- İstediğiniz numune boyutunu seçmek için kaydırıcıyı kullanın.
- Klinik Güncelleme örnek boyutunuzdaki değişikliği onaylamak için.
Veri kümenize göre örnek boyutunu değiştirmek isteyebilirsiniz. Bazı durumlarda, tüm veri kümesini seçebileceğiniz birkaç yüz ila birkaç bin satırınız olabilir. Bazı durumlarda, birkaç bin satırınız olabilir, bu durumda kullanım durumunuza göre birkaç yüz veya birkaç bin satır seçebilirsiniz.
Bir dağılım grafiği, aynı bireyler için ölçülen iki nicel değişken arasındaki ilişkiyi gösterir. Bizim durumumuzda, korelasyonu kontrol etmek için değerler arasındaki ilişkiyi anlamak önemlidir.
Aramalar, Dakikalar ve Ücretler olduğundan, aralarındaki ilişkiyi Gündüz, Akşam ve Gece için çizeceğiz.
İlk olarak, dağılım grafiği Gün Ücreti ile Gün Mins.
Day Mins arttıkça Day Charge'ın da arttığını gözlemleyebiliriz.
Aynısı akşam aramaları için de geçerlidir.
Gece aramaları da aynı düzene sahiptir.
Dakikalar ve şarj lineer olarak artıyor gibi göründüğünden, birbirleriyle yüksek bir korelasyona sahip olduklarını gözlemleyebilirsiniz. Bu özellik çiftlerinin bazı ML algoritmalarına dahil edilmesi ek depolama gerektirebilir ve eğitim hızını azaltabilir ve benzer bilgilerin birden fazla sütunda bulunması modelin etkileri aşırı vurgulamasına ve modelde istenmeyen yanlılığa yol açabilir. Yüksek korelasyonlu çiftlerin her birinden bir özelliği kaldıralım: Gündüz Dakikası olan çiftten Gündüz Ücreti, Gece Dakikası olan çiftten Gece Ücreti ve Uluslararası Dakikası olan çiftten Uluslararası Ücret.
Veri dengesi ve varyasyon
Çubuk grafik, her iki değişken arasındaki ilişkiyi keşfetmek için x eksenindeki kategorik bir değişken ile y eksenindeki sayısal değişken arasındaki bir grafiktir. Çağrıların Doğru ve Yanlış için Churn hedef sütunumuz boyunca nasıl dağıtıldığını görmek için bir çubuk grafik oluşturalım. Seçmek Grafik çubuğu ve günlük aramaları sürükleyip bırakın ve sırasıyla y eksenine ve x eksenine çalkala.
Şimdi, akşam aramaları vs. için aynı çubuk grafiği oluşturalım.
Ardından, gece aramaları ve kesinti için bir çubuk grafik oluşturalım.
Kullanan ve kullanmayan müşteriler arasında davranış farkı var gibi görünüyor.
Kutu grafikleri yararlıdır çünkü verilerin davranışında sınıfa göre farklılıklar gösterirler (çalkalama ya da değil). Churn'u (hedef sütun) tahmin edeceğimiz için, veri kümesi hakkında ortalama, maks, min, medyan ve aykırı değerler gibi tanımlayıcı istatistikler çıkarmak için hedef sütunumuza karşı bazı özelliklerin bir kutu grafiğini oluşturalım.
Klinik Kutu çizimi ve Day mins ve Churn öğelerini sırasıyla y eksenine ve x eksenine sürükleyip bırakın.
Aynı yaklaşımı diğer sütunlar için de hedef sütunumuza (churn) karşı deneyebilirsiniz.
Şimdi müşteri hizmetleri çağrılarının gün dakika değerine nasıl yayıldığını anlamak için müşteri hizmetleri çağrılarına karşı bir gün dakikası kutu grafiği oluşturalım. Müşteri hizmetleri aramalarının gün dakika değeriyle bir bağımlılığı veya korelasyonu olmadığını görebilirsiniz.
Gözlemlerimizden, veri setinin oldukça dengeli olduğunu belirleyebiliriz. Modelin tek bir değere karşı önyargılı olmaması için verilerin doğru ve yanlış değerler arasında eşit olarak dağıtılmasını istiyoruz.
Dönüşümler
Gözlemlerimize dayanarak, Telefon sütununu yalnızca bir hesap numarası olduğu için ve Gündüz Ücreti, Eve Ücreti, Gece Ücreti sütunları, dakika sütunları gibi örtüşen bilgiler içerdiği için atıyoruz, ancak onaylamak için tekrar bir önizleme çalıştırabiliriz.
Veri analizi ve dönüşümünden sonra modeli tekrar önizleyelim.
Model tahmini doğruluğunun %95.6'dan %93.6'ya değiştiğini (bu değişebilir), ancak belirli sütunlar için sütun etkisinin (özellik önemi) önemli ölçüde değiştiğini gözlemleyebilirsiniz, bu da eğitim hızını ve sütunların üzerindeki etkisini artırır. Model oluşturmanın sonraki adımlarına geçerken tahmin. Veri kümemiz ek dönüşüm gerektirmez, ancak gerekirse ML veri dönüşümleri verilerinizi temizlemek, dönüştürmek ve model oluşturmaya hazırlamak için.
Modeli oluşturun
Artık bir model oluşturmaya ve sonuçları analiz etmeye devam edebilirsiniz. Daha fazla bilgi için bkz. Amazon SageMaker Canvas'ı kullanarak kodsuz makine öğrenimi ile müşteri kaybını tahmin edin.
Temizlemek
Gelecekle karşılaşmamak için seans ücretleri, oturumu Tuval
Sonuç
Bu gönderide, model oluşturmadan önce verilerinizi daha iyi anlamak, doğru ML modelleri oluşturmak ve kodsuz, görsel, tıkla ve tıkla arabirimi kullanarak tahminler oluşturmak için EDA için Canvas görselleştirme özelliklerini nasıl kullanabileceğinizi gösterdik.
Yazarlar Hakkında
Rajakumar Sampathkumar AWS'de Baş Teknik Hesap Yöneticisidir, müşterilere iş-teknoloji uyumu konusunda rehberlik eder ve bulut operasyon modellerinin ve süreçlerinin yeniden icat edilmesini destekler. Bulut ve makine öğrenimi konusunda tutkulu. Raj aynı zamanda bir makine öğrenimi uzmanıdır ve AWS iş yüklerini ve mimarilerini tasarlamak, dağıtmak ve yönetmek için AWS müşterileriyle birlikte çalışır.
Rahul Nabera AWS Profesyonel Hizmetlerde Veri Analitiği Danışmanıdır. Şu anki çalışması, müşterilerin verilerini ve makine öğrenimi iş yüklerini AWS'de oluşturmasını sağlamaya odaklanıyor. Boş zamanlarında kriket ve voleybol oynamayı sever.
Raviteja Yelamanchili New York merkezli Amazon Web Services ile Kurumsal Çözümler Mimarıdır. Bulutta son derece güvenli, ölçeklenebilir, güvenilir ve uygun maliyetli uygulamalar tasarlamak ve dağıtmak için büyük finansal hizmetler kurumsal müşterileriyle birlikte çalışır. 11 yılı aşkın risk yönetimi, teknoloji danışmanlığı, veri analizi ve makine öğrenimi deneyimi getiriyor. Müşterilere yardım etmediği zamanlarda seyahat etmekten ve PS5 oynamaktan hoşlanıyor.
- Gelişmiş (300)
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon Adaçayı Yapıcı
- Amazon SageMaker Tuval
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- makine öğrenme
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- sözdizimi
- Teknik Nasıl Yapılır
- zefirnet