Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler ile Github Örneklerini Kullanma

Amazon Adaçayır Veri Düzenleyici verileri daha hızlı temizlemeye, dönüştürmeye ve hazırlamaya yönelik özelliklerle veri analizi, ön işleme ve görselleştirmenin gerçekleştirilmesine yardımcı olan kullanıcı arayüzü tabanlı bir veri hazırlama aracıdır. Data Wrangler'ın önceden oluşturulmuş akış şablonları, ortak veri kümelerini kullanan veri akışlarına yönelik en iyi uygulama modellerini hızlandırmanıza ve anlamanıza yardımcı olarak veri bilimcileri ve makine öğrenimi (ML) uygulayıcıları için veri hazırlığının daha hızlı yapılmasına yardımcı olur.

Aşağıdaki görevleri gerçekleştirmek için Data Wrangler akışlarını kullanabilirsiniz:

  • Veri goruntuleme – Veri setindeki her sütun için istatistiksel özelliklerin incelenmesi, histogramların oluşturulması, aykırı değerlerin incelenmesi
  • Veri temizleme – Yinelenenleri kaldırmak, girişleri bırakmak veya eksik değerlerle doldurmak, aykırı değerleri kaldırmak
  • Veri zenginleştirme ve özellik mühendisliği – Daha etkileyici özellikler oluşturmak için sütunları işleme, eğitim için bir özellik alt kümesi seçme

Bu gönderi, aşağıdaki örnek önceden oluşturulmuş akışları kullanarak Data Wrangler'ı anlamanıza yardımcı olacaktır. GitHub. Depo, tablo halinde veri dönüşümünü, zaman serisi veri dönüşümlerini ve birleştirilmiş veri kümesi dönüşümlerini sergiliyor. Her biri temel doğaları gereği farklı türde dönüşümler gerektirir. Standart tablo veya kesitsel veriler zamanın belirli bir noktasında toplanır. Bunun aksine, zaman serisi verileri zaman içinde tekrar tekrar yakalanır ve her ardışık veri noktası geçmiş değerlerine bağlıdır.

Tablo verileri için örnek veri akışını nasıl kullanabileceğimize dair bir örneğe bakalım.

Önkoşullar

Data Wrangler bir Amazon Adaçayı Yapıcı özelliği mevcut Amazon SageMaker Stüdyosu, bu nedenle Studio ortamını ve not defterlerini başlatmak için Studio katılım sürecini izlememiz gerekiyor. Birkaç kimlik doğrulama yöntemi arasından seçim yapabilmenize rağmen Studio alanı oluşturmanın en basit yolu şu adımları takip etmektir: Hızlı başlangıç talimatlar. Hızlı başlangıç, Hızlı Başlangıç ​​ile aynı varsayılan ayarları kullanır. standart Stüdyo kurulumu. Ayrıca şunu kullanarak katılmayı da seçebilirsiniz: AWS IAM Kimlik Merkezi (AWS Single Sign-On'un halefi) kimlik doğrulaması için (bkz. IAM Identity Center'ı Kullanarak Amazon SageMaker Etki Alanında Yerleşik).

Studio'yu kullanarak veri kümesini ve akış dosyalarını Data Wrangler'a aktarın

Aşağıdaki adımlar, Data Wrangler tarafından kullanılacak verilerin SageMaker'a nasıl aktarılacağını özetlemektedir:

Data Wrangler'ı Studio kullanıcı arayüzü aracılığıyla aşağıdakileri seçerek başlatın: Yeni veri akışı.

klonlamak GitHub repo Akış dosyalarını Studio ortamınıza indirmek için.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Klonlama tamamlandığında sol bölmede depo içeriğini görebilmeniz gerekir.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Dosyayı seçin Otel-Rezervasyonları-Sınıflandırma.flow akış dosyasını Data Wrangler'a aktarmak için.

Zaman serisini veya birleştirilmiş veri akışını kullanırsanız akış farklı bir adla görünecektir. Akış içe aktarıldıktan sonra aşağıdaki ekran görüntüsünü görmelisiniz. Bu bize hataları gösterir çünkü akış dosyasının doğru veri kaynağına işaret ettiğinden emin olmamız gerekir. Amazon Basit Depolama Hizmeti (Amazon S3).

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Klinik Veri kümesini düzenle tüm S3 klasörlerinizi getirmek için. Ardından veri kümesini seçin hotel_bookings.csv çalıştırmak için S3 kovanızdan tablo halinde veri akışı.

kullanıyorsanız şunu unutmayın: birleştirilmiş veri akışıbirden fazla veri kümesini Data Wrangler'a aktarmanız gerekebilirGithub Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Sağ bölmede, emin olun VİRGÜL sınırlayıcı olarak seçilir ve Örnekleme ayarlandı İlk K. Veri kümemiz, Data Wrangler dönüşümlerini tüm veri kümesinde çalıştırabilecek kadar küçüktür, ancak veri kümesini nasıl içe aktarabileceğinizi vurgulamak istedik. Büyük bir veri kümeniz varsa örneklemeyi kullanmayı düşünün. Seçmek ithalat Bu veri kümesini Data Wrangler'a aktarmak için.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Veri kümesi içe aktarıldıktan sonra Data Wrangler, veri kümesini otomatik olarak doğrular ve veri türlerini algılar. Doğru veri kümesini işaret ettiğimiz için hataların ortadan kalktığını görebilirsiniz. Akış düzenleyicisi artık verilerin bir kaynaktan içe aktarıldığını ve tanınan veri türlerini gösteren iki blok gösteriyor. Gerekirse veri türlerini de düzenleyebilirsiniz.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Aşağıdaki ekran görüntüsü veri türlerimizi göstermektedir.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Bu tablo akışının bir parçası olarak yapılan bazı dönüşümlere bakalım. Eğer kullanıyorsanız Zaman serisi or katıldı veri akışlarında bazı yaygın dönüşümlere göz atın GitHub repo. Hedef sızıntıyı ve veri kümesindeki özellik eşgüdümünü, tablo özeti analizlerini ve hızlı modelleme yeteneğini inceleyen veri öngörü raporlarını kullanarak bazı temel keşifsel veri analizleri gerçekleştirdik. Şuradaki adımları keşfedin: GitHub repo.

Artık Veri Analizleri ve Kalite Raporu tarafından sağlanan önerilere dayalı olarak sütunları kaldırıyoruz.

  • Hedef sızıntısı için bırakın rezervasyon_durumu.
  • Yedekli sütunlar için bırakın bekleme_listesindeki gün sayısı, otel, ayrılmış_oda_türü, varış_tarihi_ay, rezervasyon_durum_tarihi, bebekler, ve Arrival_date_day_of_month.
  • Doğrusal korelasyon sonuçlarına göre sütunları bırakın Arrival_date_week_number ve varış_tarihi_yıl çünkü bu özellik (sütun) çiftlerinin korelasyon değerleri önerilen eşik olan 0.90'dan daha yüksektir.
  • Doğrusal olmayan korelasyon sonuçlarına dayanarak, düşüş rezervasyon_durumu. Bu sütun zaten hedef sızıntı analizine göre çıkarılmak üzere işaretlenmişti.
  • İşlem sayısal değerleri (min-maks ölçeklendirme) teslim süresi, hafta sonu_gecelerindeki konaklamalar, hafta içi_gecelerdeki konaklamalar, tekrarlanan_misafir, önceki_iptaller, önceki_rezervasyonlar_iptal edilmeyen, rezervasyon_değişiklikleri, adr, toplam_özel_istekler, ve gerekli_car_parking_spaces.
  • Tek sıcak kodlama gibi kategorik değişkenler yemek, tekrarlanan_misafir, pazar_segmenti, tahsis edilen_oda_türü, mevduat_türü, ve müşteri tipi.
  • Hedef değişkeni dengeleyin Sınıf dengesizliği için rastgele aşırı örnekleme. Aykırı değerleri ve eksik değerleri işlemek için hızlı modelleme yeteneğini kullanın.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Amazon S3'e aktar

Artık farklı dönüşümlerden geçtik ve verileri Amazon S3'e aktarmaya hazırız. Bu seçenek, Data Wrangler işleme akışını çalıştıran ve elde edilen veri kümesini belirli bir S3 klasörüne kaydeden bir SageMaker işleme işi oluşturur. Amazon S3'e aktarmayı ayarlamak için sonraki adımları izleyin:

Dönüşüm öğeleri koleksiyonunun yanındaki artı işaretini seçin ve Hedef ekle, Daha sonra Amazon S3.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

  • İçin Veri kümesi adı, yeni veri kümesi için bir ad girin; örneğin NYC_export.
  • İçin Dosya türü, seçmek CSV.
  • İçin Sınırlayıcı, seçmek Virgül.
  • İçin Sıkıştırma, seçmek Hayır.
  • İçin Amazon S3 konumu, daha önce oluşturduğumuz paket adını kullanın.
  • Klinik Hedef ekle.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Klinik İş oluştur.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

İçin İş adı, bir ad girin veya otomatik oluşturulan seçeneği koruyun ve hedef. Tek hedefimiz var, S3:testingtabulardata, ancak iş akışınızdaki farklı adımlardan birden fazla hedefiniz olabilir. Bırak KMS anahtarı ARN alanı boş bırakın ve seçin Sonraki.

Artık bir iş için işlem kapasitesini yapılandırmanız gerekiyor. Bu örnek için tüm varsayılan değerleri koruyabilirsiniz.

  • İçin Örnek türü, ml.m5.4xlarge kullanın.
  • İçin Örnek sayısı, 2'yi kullanın.
  • keşfedebilirsin Ek yapılandırmaancak varsayılan ayarları koruyun.
  • Klinik koşmak.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Artık işiniz başladı ve Data Wrangler işleme akışımıza göre 6 GB verinin işlenmesi biraz zaman alıyor. Bu işin maliyeti yaklaşık 2 ABD Doları olacaktır çünkü ml.m5.4xlarge'ın maliyeti saat başına 0.922 ABD Dolarıdır ve biz bunlardan ikisini kullanıyoruz.

İşin adını seçerseniz iş ayrıntılarının bulunduğu yeni bir pencereye yönlendirilirsiniz.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

İş ayrıntıları sayfasında önceki adımlardaki tüm parametreleri görebilirsiniz.

İş durumu Tamamlandı olarak değiştiğinde ayrıca şunları da kontrol edebilirsiniz: İşlem süresi (saniye) değer. Bu işleme işinin tamamlanması yaklaşık 5-10 dakika sürer.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

İş tamamlandığında eğitim ve test çıktı dosyaları ilgili S3 çıktı klasörlerinde bulunur. Çıkış konumunu işleme işi yapılandırmalarından bulabilirsiniz.

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.

Data Wrangler işleme işi tamamlandıktan sonra S3 klasörümüze kaydedilen sonuçları kontrol edebiliriz. Güncellemeyi unutmayın job_name iş adınızla birlikte değişken.

Artık dışa aktarılan bu verileri makine öğrenimi modellerini çalıştırmak için kullanabilirsiniz.

Temizlemek

S3 paketlerinizi silin ve Veri Wrangler akışı denemeyi tamamladıktan sonra temel kaynakları silmek ve istenmeyen maliyetleri önlemek için.

Sonuç

Bu yazıda, tablo halinde önceden oluşturulmuş veri akışını Data Wrangler'a nasıl aktarabileceğinizi, veri kümemize nasıl bağlayabileceğinizi ve sonuçları Amazon S3'e nasıl aktarabileceğinizi gösterdik. Kullanım senaryolarınız zaman serisi verilerini değiştirmenizi veya birden fazla veri kümesini birleştirmenizi gerektiriyorsa, aşağıdaki önceden oluşturulmuş diğer örnek akışları inceleyebilirsiniz. GitHub repo.

Önceden oluşturulmuş bir veri hazırlama iş akışını içe aktardıktan sonra bunu Amazon SageMaker Processing ile entegre edebilirsiniz. Amazon SageMaker Ardışık Düzenleri, ve Amazon SageMaker Özellik Mağazası ML eğitim verilerinin işlenmesi, paylaşılması ve saklanması görevini basitleştirmek. Ayrıca bu örnek veri akışını bir Python betiğine aktarabilir ve özel bir makine öğrenimi veri hazırlama hattı oluşturarak yayın hızınızı artırabilirsiniz.

Sitemize göz atmanızı öneririz GitHub deposu uygulamalı pratik yapmak ve model doğruluğunu iyileştirmenin yeni yollarını bulmak için! SageMaker hakkında daha fazla bilgi edinmek için şu adresi ziyaret edin: Amazon SageMaker Geliştirici Kılavuzu.


Yazarlar Hakkında

Github Örneklerini Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile kullanın. Dikey Arama. Ai.yatsı duası San Francisco Körfez Bölgesi'nde yerleşik bir Kıdemli Çözüm Mimarıdır. AWS Enterprise müşterilerinin hedeflerini ve zorluklarını anlayarak büyümelerine yardımcı olur ve esnek ve ölçeklenebilir olduklarından emin olarak uygulamalarını bulutta yerel bir şekilde nasıl tasarlayabilecekleri konusunda onlara rehberlik eder. Makine öğrenimi teknolojileri ve çevresel sürdürülebilirlik konusunda tutkulu.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi