Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

Veri hazırlama için Amazon SageMaker Data Wrangler'ı ve makine öğrenimi öğrenmek ve denemek için Studio Labs'i kullanın

Amazon SageMaker Stüdyo Laboratuvarı herkesin AWS ML bilgi işlem kaynaklarını kullanarak ML öğrenmesi ve denemesi için açık kaynaklı JupyterLab'a dayalı ücretsiz bir makine öğrenimi (ML) geliştirme ortamıdır. ile aynı mimariye ve kullanıcı arayüzüne dayanmaktadır. Amazon SageMaker Stüdyosu, ancak Studio özelliklerinin bir alt kümesiyle.

Makine öğrenimi girişimleri üzerinde çalışmaya başladığınızda, model oluşturmaya devam etmeden önce keşif amaçlı veri analizi (EDA) veya veri hazırlığı yapmanız gerekir. Amazon SageMaker Veri Düzenleyicisi bir yeteneğidir Amazon Adaçayı Yapıcı bu, veri bilimcilerin ve mühendislerin görsel bir arayüz aracılığıyla ML uygulamaları için veri hazırlamasını hızlandırır. Data Wrangler, ML için veri toplamak ve hazırlamak için gereken süreyi haftalardan dakikalara indirir.

Data Wrangler'da özellik hazırlamanın önemli bir hızlandırıcısı, Veri Kalitesi ve Öngörüler Raporu. Bu rapor, veri kalitesini kontrol eder ve verilerinizdeki anormallikleri tespit etmeye yardımcı olur, böylece veri kümenizi düzeltmek için gerekli veri mühendisliğini gerçekleştirebilirsiniz. Eksik değerlerin sayısı ve aykırı değerlerin sayısı gibi veri kümenize ilişkin öngörüler elde etmek için verilerinizin bir analizini gerçekleştirmek için Veri Kalitesi ve Öngörüler Raporunu kullanabilirsiniz. Verilerinizle ilgili hedef sızıntısı veya dengesizlik gibi sorunlarınız varsa, içgörü raporu bu sorunları dikkatinize sunabilir ve gerçekleştirmeniz gereken veri hazırlama adımlarını belirlemenize yardımcı olabilir.

Studio Lab kullanıcıları, veri kalitesi ve özellik mühendisliği, modelinizin tahmine dayalı performansı için kritik öneme sahip olduğundan, Data Wrangler'dan yararlanabilir. Data Wrangler, veri kalitesi sorunları hakkında bilgi vererek ve düşük kodlu bir kullanıcı arayüzü kullanarak hızlı özellik yineleme ve mühendisliğini kolayca sağlayarak veri kalitesi ve özellik mühendisliğine yardımcı olur.

Bu gönderide, keşif amaçlı veri analizinin nasıl gerçekleştirileceğini, Data Wrangler kullanarak verilerin nasıl hazırlanıp dönüştürüleceğini ve dönüştürülen ve hazırlanan verilerin model oluşturmayı gerçekleştirmek için Studio Lab'a nasıl aktarılacağını gösteriyoruz.

Çözüme genel bakış

Çözüm, aşağıdaki üst düzey adımları içerir:

  1. AWS hesabı ve yönetici kullanıcısı oluşturun. Bu bir ön koşuldur
  2. Veri kümesini indirin çalkalama.csv.
  3. Veri kümesini şuraya yükleyin: Amazon Basit Depolama Hizmeti (Amazon S3).
  4. Bir SageMaker Studio etki alanı oluşturun ve Data Wrangler'ı başlatın.
  5. Veri kümesini Amazon S3'ten Data Wrangler akışına aktarın.
  6. Veri Kalitesi ve Öngörüler Raporunu oluşturun ve gerekli özellik mühendisliği hakkında sonuçlar çıkarın.
  7. Data Wrangler'da gerekli veri dönüşümlerini gerçekleştirin.
  8. Veri Kalitesi ve Öngörüler Raporunu ve dönüştürülmüş veri kümesini indirin.
  9. Model eğitimi için verileri bir Studio Lab projesine yükleyin.

Aşağıdaki şemada bu iş akışı gösterilmektedir.

Önkoşullar

Data Wrangler ve Studio Lab'ı kullanmak için aşağıdaki ön koşullara ihtiyacınız vardır:

Data Wrangler ile bir veri hazırlama iş akışı oluşturun

Başlamak için aşağıdaki adımları uygulayın:

  1. Veri kümenizi Amazon S3'e yükleyin.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  2. SageMaker konsolunda, Kontrol Paneli gezinme bölmesinde öğesini seçin. Stüdyo.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  3. Üzerinde Uygulamayı başlat kullanıcı profilinizin yanındaki menüyü seçin Stüdyo.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
    Studio'ya başarıyla giriş yaptıktan sonra aşağıdaki ekran görüntüsü gibi bir geliştirme ortamı görmelisiniz.
  4. Yeni bir Data Wrangler iş akışı oluşturmak için, fileto menü seç yeni, Daha sonra seçmek Veri Düzenleyici Akışı.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
    Data Wrangler'daki ilk adım, ithalat verileriniz. Amazon S3 gibi birden çok veri kaynağından veri içe aktarabilirsiniz. Amazon Atina, Amazon Kırmızıya Kaydırma, Kar taneciği, ve veri tuğlaları. Bu örnekte Amazon S3 kullanıyoruz. Yalnızca Data Wrangler'ın nasıl çalıştığını görmek istiyorsanız, istediğiniz zaman seçebilirsiniz. Örnek veri kümesini kullan.
  5. Klinik Tarihleri ​​içe aktar.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  6. Klinik Amazon S3.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  7. Yüklediğiniz veri kümesini seçin ve ithalat.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
    Data Wrangler, veri kümesinin tamamını içe aktarmanıza veya bir kısmını örneklemenize olanak tanır.
  8. Veri kümesiyle ilgili bilgileri hızlı bir şekilde almak için İlk K için Örnekleme ve için 50000 girin Örnek boyut.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

Veri kalitesini anlayın ve içgörüler edinin

Data Wrangler'a aktardığımız verilerin analizini gerçekleştirmek için Data Quality and Insights Report'u kullanalım. Verilerinizi temizlemek ve işlemek için hangi adımları atmanız gerektiğini anlamak için raporu kullanabilirsiniz. Bu rapor, eksik değerlerin sayısı ve aykırı değerlerin sayısı gibi bilgileri sağlar. Verilerinizle ilgili hedef sızıntısı veya dengesizlik gibi sorunlarınız varsa, içgörü raporu bu sorunları dikkatinize sunabilir.

  1. yanındaki artı işaretini seçin Veri tipleri Ve seç Veri içgörüleri alın.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  2. İçin Analiz türü, seçmek Veri Kalitesi ve Öngörüler Raporu.
  3. İçin Hedef sütun, seçmek Çalık mı?.
  4. İçin Sorun tipi¸ seç Sınıflandırma.
  5. Klinik oluşturmak.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

İnceleyebileceğiniz ve indirebileceğiniz ayrıntılı bir rapor sunulur. Rapor, hızlı model, özellik özeti, özellik korelasyonu ve veri içgörüleri gibi çeşitli bölümler içerir. Aşağıdaki ekran görüntüleri bu bölümlerin örneklerini sağlar.

Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai. Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai. Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

Rapordan gözlemler

Rapordan şu gözlemleri yapabiliriz:

  • Yinelenen satır bulunamadı.
  • The State sütun oldukça eşit dağılmış gibi görünüyor, bu nedenle veriler eyalet nüfusu açısından dengeli.
  • The Phone sütun, herhangi bir pratik kullanım için çok fazla benzersiz değer sunuyor. Çok fazla benzersiz değer bu sütunu kullanışlı kılmaz. bırakabiliriz Phone dönüşümümüzdeki sütun.
  • Raporun özellik korelasyon bölümüne göre, Mins ve Charge yüksek oranda ilişkilidir. Bunlardan birini kaldırabiliriz.

Dönüşüm

Gözlemlerimize dayanarak, aşağıdaki dönüşümleri yapmak istiyoruz:

  • Kaldır Phone sütun çünkü birçok benzersiz değere sahip.
  • Ayrıca temelde birbiriyle %100 korelasyona sahip birkaç özellik görüyoruz. Bu özellik çiftlerini bazı ML algoritmalarına dahil etmek istenmeyen problemler yaratabilirken, diğerlerinde sadece küçük fazlalık ve yanlılık yaratacaktır. Yüksek korelasyonlu çiftlerin her birinden bir özelliği kaldıralım: Day Charge ile çiftten Day Mins, Night Charge ile çiftten Night Mins, ve Intl Charge ile çiftten Intl Mins.
  • dönüştürmek True or False içinde Churn sütunun sayısal değeri 1 veya 0 olacaktır.
  1. Veri akışına dönün ve yanındaki artı işaretini seçin. Veri tipleri.
  2. Klinik Dönüşüm ekle.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  3. Klinik Adım ekle.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  4. Aradığınız dönüşümü arayabilirsiniz (bizim durumumuzda sütunları yönetin).
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  5. Klinik Sütunları yönet.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  6. İçin DönüştürmekSeç Sütunu bırak.
  7. İçin Bırakılacak sütunlarSeç Phone, Day Charge, Eve Charge, Night Charge, ve Intl Charge.
  8. Klinik Önizleme, Daha sonra seçmek Güncelleme.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
    Kategorik bir kodlama gerçekleştirmek için başka bir dönüşüm ekleyelim. Churn? sütun.
  9. Dönüşümü seçin kategorik kodlama.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  10. İçin Dönüştürmek, seçmek sıralı kodlama.
  11. İçin Giriş sütunları, seç Churn? sütun.
  12. İçin Geçersiz işleme stratejisi, seçmek NaN ile değiştirin.
  13. Klinik Önizleme, Daha sonra seçmek Güncelleme.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

şimdi True ve False sırasıyla 1 ve 0'a dönüştürülür.

Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

Artık verileri iyi anladığımıza ve verileri model oluşturma için hazırlayıp dönüştürdüğümüze göre, verileri model oluşturma için Studio Lab'a taşıyabiliriz.

Verileri Studio Lab'e yükleyin

Studio Lab'de verileri kullanmaya başlamak için aşağıdaki adımları tamamlayın:

  1. Klinik ihracat verileri için ihracat bir S3 kovasına.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  2. İçin Amazon S3 konumu, S3 yolunuzu girin.
  3. Dosya türünü belirtin.
  4. Klinik ihracat verileri.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  5. Verileri dışa aktardıktan sonra, verileri S3 klasöründen yerel bilgisayarınıza indirebilirsiniz.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  6. Artık Studio Lab'e gidebilir ve dosyayı Studio Lab'e yükleyebilirsiniz.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
    Alternatif olarak, Studio Lab'den Amazon S3'e bağlanabilirsiniz. Daha fazla bilgi için bkz. Amazon SageMaker Studio Lab'de harici kaynakları kullanın.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  7. SageMaker'ı yükleyelim ve Pandaları içe aktaralım.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  8. Tüm kitaplıkları gerektiği gibi içe aktarın.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  9. Artık CSV dosyasını okuyabiliriz.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.
  10. yazdıralım churn Veri kümesinin doğru olduğunu onaylamak için.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

Artık Studio Lab'de işlenmiş veri kümesine sahip olduğunuza göre, model oluşturma için gereken diğer adımları gerçekleştirebilirsiniz.

Veri Wrangler fiyatlandırması

Bu gönderideki tüm adımları EDA veya Data Wrangler içinde veri hazırlama için gerçekleştirebilir ve ödeme kullanım veya tüketime dayalı basit örnek, işler ve depolama fiyatlandırması için. Ön ödeme veya lisans ücreti gerekmez.

Temizlemek

Data Wrangler'ı kullanmadığınızda, ek ücret ödememek için çalıştığı bulut sunucusunu kapatmak önemlidir. İş kaybetmemek için Data Wrangler'ı kapatmadan önce veri akışınızı kaydedin.

  1. Studio'da veri akışınızı kaydetmek için fileto, Daha sonra seçmek Veri Wrangler Akışını Kaydet.
    Data Wrangler, veri akışınızı her 60 saniyede bir otomatik olarak kaydeder.
  2. Data Wrangler örneğini kapatmak için Studio'da Çalışan Örnekler ve Çekirdekler.
  3. Altında ÇALIŞAN UYGULAMALARyanındaki kapatma simgesini seçin. sagemaker-data-wrangler-1.0 app.
  4. Klinik hepsini kapat onaylamak.
    Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.

Data Wrangler, bir ml.m5.4xlarge örneği üzerinde çalışır. Bu örnek şuradan kaybolur: ÇALIŞAN ÖRNEKLER Data Wrangler uygulamasını kapattığınızda.

Data Wrangler uygulamasını kapattıktan sonra, Data Wrangler akış dosyasını bir sonraki açışınızda uygulamanın yeniden başlatılması gerekir. Bu birkaç dakika sürebilir.

Sonuç

Bu gönderide, veri kümeniz hakkında nasıl bilgi edinebileceğinizi, keşif amaçlı veri analizi gerçekleştirebileceğinizi, Studio içinde Data Wrangler kullanarak verileri hazırlayıp dönüştürebileceğinizi ve dönüştürülen ve hazırlanan verileri Studio Lab'e nasıl aktarabileceğinizi ve model oluşturma ve diğer adımları nasıl gerçekleştirebileceğinizi gördük.

SageMaker Data Wrangler ile veri hazırlama ve özellik mühendisliği sürecini basitleştirebilir ve tek bir görsel arayüzden veri seçimi, temizleme, keşif ve görselleştirme dahil olmak üzere veri hazırlama iş akışının her adımını tamamlayabilirsiniz.


yazarlar hakkında

Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.Rajakumar Sampathkumar AWS'de Baş Teknik Hesap Yöneticisidir ve müşterilere iş-teknoloji uyumu konusunda rehberlik eder ve bulut operasyon modellerinin ve süreçlerinin yeniden icat edilmesini destekler. Bulut ve makine öğrenimi konusunda tutkulu. Raj aynı zamanda bir makine öğrenimi uzmanıdır ve AWS iş yüklerini ve mimarilerini tasarlamak, dağıtmak ve yönetmek için AWS müşterileriyle birlikte çalışır.

Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.Meenakshisundaram Thandavarayan insan merkezli Veri ve Analitik deneyimlerini tasarlama, oluşturma ve tanıtma tutkusuna sahip Kıdemli bir AI/ML uzmanıdır. AWS Strategic müşterilerinin veri odaklı organizasyona dönüşümlerini destekler.

Veri hazırlama için Amazon SageMaker Data Wrangler'ı, ML PlatoBlockchain Veri Zekasını öğrenmek ve denemeler yapmak için Studio Labs'ı kullanın. Dikey Arama. Ai.James Wu AWS'de Kıdemli AI/ML Uzman Çözüm Mimarıdır. müşterilerin AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur. James'in çalışması, bilgisayar vizyonu, derin öğrenme ve kurum genelinde ML'yi ölçeklendirmeye ilgi duyan çok çeşitli ML kullanım durumlarını kapsar. AWS'ye katılmadan önce James, 10 yılı mühendislik ve 6 yılı pazarlama ve reklamcılık sektörlerinde olmak üzere 4 yılı aşkın bir süredir mimar, geliştirici ve teknoloji lideriydi.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi