Amazon SageMaker Stüdyo Laboratuvarı herkesin AWS ML bilgi işlem kaynaklarını kullanarak ML öğrenmesi ve denemesi için açık kaynaklı JupyterLab'a dayalı ücretsiz bir makine öğrenimi (ML) geliştirme ortamıdır. ile aynı mimariye ve kullanıcı arayüzüne dayanmaktadır. Amazon SageMaker Stüdyosu, ancak Studio özelliklerinin bir alt kümesiyle.
Makine öğrenimi girişimleri üzerinde çalışmaya başladığınızda, model oluşturmaya devam etmeden önce keşif amaçlı veri analizi (EDA) veya veri hazırlığı yapmanız gerekir. Amazon SageMaker Veri Düzenleyicisi bir yeteneğidir Amazon Adaçayı Yapıcı bu, veri bilimcilerin ve mühendislerin görsel bir arayüz aracılığıyla ML uygulamaları için veri hazırlamasını hızlandırır. Data Wrangler, ML için veri toplamak ve hazırlamak için gereken süreyi haftalardan dakikalara indirir.
Data Wrangler'da özellik hazırlamanın önemli bir hızlandırıcısı, Veri Kalitesi ve Öngörüler Raporu. Bu rapor, veri kalitesini kontrol eder ve verilerinizdeki anormallikleri tespit etmeye yardımcı olur, böylece veri kümenizi düzeltmek için gerekli veri mühendisliğini gerçekleştirebilirsiniz. Eksik değerlerin sayısı ve aykırı değerlerin sayısı gibi veri kümenize ilişkin öngörüler elde etmek için verilerinizin bir analizini gerçekleştirmek için Veri Kalitesi ve Öngörüler Raporunu kullanabilirsiniz. Verilerinizle ilgili hedef sızıntısı veya dengesizlik gibi sorunlarınız varsa, içgörü raporu bu sorunları dikkatinize sunabilir ve gerçekleştirmeniz gereken veri hazırlama adımlarını belirlemenize yardımcı olabilir.
Studio Lab kullanıcıları, veri kalitesi ve özellik mühendisliği, modelinizin tahmine dayalı performansı için kritik öneme sahip olduğundan, Data Wrangler'dan yararlanabilir. Data Wrangler, veri kalitesi sorunları hakkında bilgi vererek ve düşük kodlu bir kullanıcı arayüzü kullanarak hızlı özellik yineleme ve mühendisliğini kolayca sağlayarak veri kalitesi ve özellik mühendisliğine yardımcı olur.
Bu gönderide, keşif amaçlı veri analizinin nasıl gerçekleştirileceğini, Data Wrangler kullanarak verilerin nasıl hazırlanıp dönüştürüleceğini ve dönüştürülen ve hazırlanan verilerin model oluşturmayı gerçekleştirmek için Studio Lab'a nasıl aktarılacağını gösteriyoruz.
Çözüme genel bakış
Çözüm, aşağıdaki üst düzey adımları içerir:
- AWS hesabı ve yönetici kullanıcısı oluşturun. Bu bir ön koşuldur
- Veri kümesini indirin çalkalama.csv.
- Veri kümesini şuraya yükleyin: Amazon Basit Depolama Hizmeti (Amazon S3).
- Bir SageMaker Studio etki alanı oluşturun ve Data Wrangler'ı başlatın.
- Veri kümesini Amazon S3'ten Data Wrangler akışına aktarın.
- Veri Kalitesi ve Öngörüler Raporunu oluşturun ve gerekli özellik mühendisliği hakkında sonuçlar çıkarın.
- Data Wrangler'da gerekli veri dönüşümlerini gerçekleştirin.
- Veri Kalitesi ve Öngörüler Raporunu ve dönüştürülmüş veri kümesini indirin.
- Model eğitimi için verileri bir Studio Lab projesine yükleyin.
Aşağıdaki şemada bu iş akışı gösterilmektedir.
Önkoşullar
Data Wrangler ve Studio Lab'ı kullanmak için aşağıdaki ön koşullara ihtiyacınız vardır:
Data Wrangler ile bir veri hazırlama iş akışı oluşturun
Başlamak için aşağıdaki adımları uygulayın:
- Veri kümenizi Amazon S3'e yükleyin.
- SageMaker konsolunda, Kontrol Paneli gezinme bölmesinde öğesini seçin. Stüdyo.
- Üzerinde Uygulamayı başlat kullanıcı profilinizin yanındaki menüyü seçin Stüdyo.
Studio'ya başarıyla giriş yaptıktan sonra aşağıdaki ekran görüntüsü gibi bir geliştirme ortamı görmelisiniz. - Yeni bir Data Wrangler iş akışı oluşturmak için, fileto menü seç yeni, Daha sonra seçmek Veri Düzenleyici Akışı.
Data Wrangler'daki ilk adım, ithalat verileriniz. Amazon S3 gibi birden çok veri kaynağından veri içe aktarabilirsiniz. Amazon Atina, Amazon Kırmızıya Kaydırma, Kar taneciği, ve veri tuğlaları. Bu örnekte Amazon S3 kullanıyoruz. Yalnızca Data Wrangler'ın nasıl çalıştığını görmek istiyorsanız, istediğiniz zaman seçebilirsiniz. Örnek veri kümesini kullan. - Klinik Tarihleri içe aktar.
- Klinik Amazon S3.
- Yüklediğiniz veri kümesini seçin ve ithalat.
Data Wrangler, veri kümesinin tamamını içe aktarmanıza veya bir kısmını örneklemenize olanak tanır. - Veri kümesiyle ilgili bilgileri hızlı bir şekilde almak için İlk K için Örnekleme ve için 50000 girin Örnek boyut.
Veri kalitesini anlayın ve içgörüler edinin
Data Wrangler'a aktardığımız verilerin analizini gerçekleştirmek için Data Quality and Insights Report'u kullanalım. Verilerinizi temizlemek ve işlemek için hangi adımları atmanız gerektiğini anlamak için raporu kullanabilirsiniz. Bu rapor, eksik değerlerin sayısı ve aykırı değerlerin sayısı gibi bilgileri sağlar. Verilerinizle ilgili hedef sızıntısı veya dengesizlik gibi sorunlarınız varsa, içgörü raporu bu sorunları dikkatinize sunabilir.
- yanındaki artı işaretini seçin Veri tipleri Ve seç Veri içgörüleri alın.
- İçin Analiz türü, seçmek Veri Kalitesi ve Öngörüler Raporu.
- İçin Hedef sütun, seçmek Çalık mı?.
- İçin Sorun tipi¸ seç Sınıflandırma.
- Klinik oluşturmak.
İnceleyebileceğiniz ve indirebileceğiniz ayrıntılı bir rapor sunulur. Rapor, hızlı model, özellik özeti, özellik korelasyonu ve veri içgörüleri gibi çeşitli bölümler içerir. Aşağıdaki ekran görüntüleri bu bölümlerin örneklerini sağlar.
Rapordan gözlemler
Rapordan şu gözlemleri yapabiliriz:
- Yinelenen satır bulunamadı.
- The
State
sütun oldukça eşit dağılmış gibi görünüyor, bu nedenle veriler eyalet nüfusu açısından dengeli. - The
Phone
sütun, herhangi bir pratik kullanım için çok fazla benzersiz değer sunuyor. Çok fazla benzersiz değer bu sütunu kullanışlı kılmaz. bırakabilirizPhone
dönüşümümüzdeki sütun. - Raporun özellik korelasyon bölümüne göre,
Mins
veCharge
yüksek oranda ilişkilidir. Bunlardan birini kaldırabiliriz.
Dönüşüm
Gözlemlerimize dayanarak, aşağıdaki dönüşümleri yapmak istiyoruz:
- Kaldır
Phone
sütun çünkü birçok benzersiz değere sahip. - Ayrıca temelde birbiriyle %100 korelasyona sahip birkaç özellik görüyoruz. Bu özellik çiftlerini bazı ML algoritmalarına dahil etmek istenmeyen problemler yaratabilirken, diğerlerinde sadece küçük fazlalık ve yanlılık yaratacaktır. Yüksek korelasyonlu çiftlerin her birinden bir özelliği kaldıralım:
Day Charge
ile çifttenDay Mins
,Night Charge
ile çifttenNight Mins
, veIntl Charge
ile çifttenIntl Mins
. - dönüştürmek
True
orFalse
içindeChurn
sütunun sayısal değeri 1 veya 0 olacaktır.
- Veri akışına dönün ve yanındaki artı işaretini seçin. Veri tipleri.
- Klinik Dönüşüm ekle.
- Klinik Adım ekle.
- Aradığınız dönüşümü arayabilirsiniz (bizim durumumuzda sütunları yönetin).
- Klinik Sütunları yönet.
- İçin DönüştürmekSeç Sütunu bırak.
- İçin Bırakılacak sütunlarSeç
Phone
,Day Charge
,Eve Charge
,Night Charge
, veIntl Charge
. - Klinik Önizleme, Daha sonra seçmek Güncelleme.
Kategorik bir kodlama gerçekleştirmek için başka bir dönüşüm ekleyelim.Churn?
sütun. - Dönüşümü seçin kategorik kodlama.
- İçin Dönüştürmek, seçmek sıralı kodlama.
- İçin Giriş sütunları, seç
Churn?
sütun. - İçin Geçersiz işleme stratejisi, seçmek NaN ile değiştirin.
- Klinik Önizleme, Daha sonra seçmek Güncelleme.
şimdi True
ve False
sırasıyla 1 ve 0'a dönüştürülür.
Artık verileri iyi anladığımıza ve verileri model oluşturma için hazırlayıp dönüştürdüğümüze göre, verileri model oluşturma için Studio Lab'a taşıyabiliriz.
Verileri Studio Lab'e yükleyin
Studio Lab'de verileri kullanmaya başlamak için aşağıdaki adımları tamamlayın:
- Klinik ihracat verileri için ihracat bir S3 kovasına.
- İçin Amazon S3 konumu, S3 yolunuzu girin.
- Dosya türünü belirtin.
- Klinik ihracat verileri.
- Verileri dışa aktardıktan sonra, verileri S3 klasöründen yerel bilgisayarınıza indirebilirsiniz.
- Artık Studio Lab'e gidebilir ve dosyayı Studio Lab'e yükleyebilirsiniz.
Alternatif olarak, Studio Lab'den Amazon S3'e bağlanabilirsiniz. Daha fazla bilgi için bkz. Amazon SageMaker Studio Lab'de harici kaynakları kullanın. - SageMaker'ı yükleyelim ve Pandaları içe aktaralım.
- Tüm kitaplıkları gerektiği gibi içe aktarın.
- Artık CSV dosyasını okuyabiliriz.
- yazdıralım
churn
Veri kümesinin doğru olduğunu onaylamak için.
Artık Studio Lab'de işlenmiş veri kümesine sahip olduğunuza göre, model oluşturma için gereken diğer adımları gerçekleştirebilirsiniz.
Veri Wrangler fiyatlandırması
Bu gönderideki tüm adımları EDA veya Data Wrangler içinde veri hazırlama için gerçekleştirebilir ve ödeme kullanım veya tüketime dayalı basit örnek, işler ve depolama fiyatlandırması için. Ön ödeme veya lisans ücreti gerekmez.
Temizlemek
Data Wrangler'ı kullanmadığınızda, ek ücret ödememek için çalıştığı bulut sunucusunu kapatmak önemlidir. İş kaybetmemek için Data Wrangler'ı kapatmadan önce veri akışınızı kaydedin.
- Studio'da veri akışınızı kaydetmek için fileto, Daha sonra seçmek Veri Wrangler Akışını Kaydet.
Data Wrangler, veri akışınızı her 60 saniyede bir otomatik olarak kaydeder. - Data Wrangler örneğini kapatmak için Studio'da Çalışan Örnekler ve Çekirdekler.
- Altında ÇALIŞAN UYGULAMALARyanındaki kapatma simgesini seçin.
sagemaker-data-wrangler-1.0 app
. - Klinik hepsini kapat onaylamak.
Data Wrangler, bir ml.m5.4xlarge örneği üzerinde çalışır. Bu örnek şuradan kaybolur: ÇALIŞAN ÖRNEKLER Data Wrangler uygulamasını kapattığınızda.
Data Wrangler uygulamasını kapattıktan sonra, Data Wrangler akış dosyasını bir sonraki açışınızda uygulamanın yeniden başlatılması gerekir. Bu birkaç dakika sürebilir.
Sonuç
Bu gönderide, veri kümeniz hakkında nasıl bilgi edinebileceğinizi, keşif amaçlı veri analizi gerçekleştirebileceğinizi, Studio içinde Data Wrangler kullanarak verileri hazırlayıp dönüştürebileceğinizi ve dönüştürülen ve hazırlanan verileri Studio Lab'e nasıl aktarabileceğinizi ve model oluşturma ve diğer adımları nasıl gerçekleştirebileceğinizi gördük.
SageMaker Data Wrangler ile veri hazırlama ve özellik mühendisliği sürecini basitleştirebilir ve tek bir görsel arayüzden veri seçimi, temizleme, keşif ve görselleştirme dahil olmak üzere veri hazırlama iş akışının her adımını tamamlayabilirsiniz.
yazarlar hakkında
Rajakumar Sampathkumar AWS'de Baş Teknik Hesap Yöneticisidir ve müşterilere iş-teknoloji uyumu konusunda rehberlik eder ve bulut operasyon modellerinin ve süreçlerinin yeniden icat edilmesini destekler. Bulut ve makine öğrenimi konusunda tutkulu. Raj aynı zamanda bir makine öğrenimi uzmanıdır ve AWS iş yüklerini ve mimarilerini tasarlamak, dağıtmak ve yönetmek için AWS müşterileriyle birlikte çalışır.
Meenakshisundaram Thandavarayan insan merkezli Veri ve Analitik deneyimlerini tasarlama, oluşturma ve tanıtma tutkusuna sahip Kıdemli bir AI/ML uzmanıdır. AWS Strategic müşterilerinin veri odaklı organizasyona dönüşümlerini destekler.
James Wu AWS'de Kıdemli AI/ML Uzman Çözüm Mimarıdır. müşterilerin AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur. James'in çalışması, bilgisayar vizyonu, derin öğrenme ve kurum genelinde ML'yi ölçeklendirmeye ilgi duyan çok çeşitli ML kullanım durumlarını kapsar. AWS'ye katılmadan önce James, 10 yılı mühendislik ve 6 yılı pazarlama ve reklamcılık sektörlerinde olmak üzere 4 yılı aşkın bir süredir mimar, geliştirici ve teknoloji lideriydi.
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon Adaçayı Yapıcı
- Amazon SageMaker Veri Düzenleyicisi
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- makine öğrenme
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- sözdizimi
- zefirnet