Amazon SageMaker Data Wrangler ile Github Örneklerini Kullanma

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Amazon Adaçayı r Veri Düzenleyici verileri daha hızlı temizlemeye, dönüştürmeye ve hazırlamaya yönelik özelliklerle veri analizi, ön işleme ve görselleştirmenin gerçekleştirilmesine yardımcı olan kullanıcı arayüzü tabanlı bir veri hazırlama aracıdır. Data Wrangler'ın önceden oluşturulmuş akış şablonları, ortak veri kümelerini kullanan veri akışlarına yönelik en iyi uygulama modellerini hızlandırmanıza ve anlamanıza yardımcı olarak veri bilimcileri ve makine öğrenimi (ML) uygulayıcıları için veri hazırlığının daha hızlı yapılmasına yardımcı olur.

Aşağıdaki görevleri gerçekleştirmek için Data Wrangler akışlarını kullanabilirsiniz:

Veri goruntuleme – Veri setindeki her sütun için istatistiksel özelliklerin incelenmesi, histogramların oluşturulması, aykırı değerlerin incelenmesi
Veri temizleme – Yinelenenleri kaldırmak, girişleri bırakmak veya eksik değerlerle doldurmak, aykırı değerleri kaldırmak
Veri zenginleştirme ve özellik mühendisliği – Daha etkileyici özellikler oluşturmak için sütunları işleme, eğitim için bir özellik alt kümesi seçme

Bu gönderi, aşağıdaki örnek önceden oluşturulmuş akışları kullanarak Data Wrangler'ı anlamanıza yardımcı olacaktır. GitHub. Depo, tablo halinde veri dönüşümünü, zaman serisi veri dönüşümlerini ve birleştirilmiş veri kümesi dönüşümlerini sergiliyor. Her biri temel doğaları gereği farklı türde dönüşümler gerektirir. Standart tablo veya kesitsel veriler zamanın belirli bir noktasında toplanır. Bunun aksine, zaman serisi verileri zaman içinde tekrar tekrar yakalanır ve her ardışık veri noktası geçmiş değerlerine bağlıdır.

Tablo verileri için örnek veri akışını nasıl kullanabileceğimize dair bir örneğe bakalım.

Önkoşullar

Data Wrangler bir Amazon Adaçayı Yapıcı özelliği mevcut Amazon SageMaker Stüdyosu, bu nedenle Studio ortamını ve not defterlerini başlatmak için Studio katılım sürecini izlememiz gerekiyor. Birkaç kimlik doğrulama yöntemi arasından seçim yapabilmenize rağmen Studio alanı oluşturmanın en basit yolu şu adımları takip etmektir: Hızlı başlangıç talimatlar. Hızlı başlangıç, Hızlı Başlangıç ile aynı varsayılan ayarları kullanır. standart Stüdyo kurulumu. Ayrıca şunu kullanarak katılmayı da seçebilirsiniz: AWS IAM Kimlik Merkezi (AWS Single Sign-On'un halefi) kimlik doğrulaması için (bkz. IAM Identity Center'ı Kullanarak Amazon SageMaker Etki Alanında Yerleşik).

Studio'yu kullanarak veri kümesini ve akış dosyalarını Data Wrangler'a aktarın

Aşağıdaki adımlar, Data Wrangler tarafından kullanılacak verilerin SageMaker'a nasıl aktarılacağını özetlemektedir:

Data Wrangler'ı Studio kullanıcı arayüzü aracılığıyla aşağıdakileri seçerek başlatın: Yeni veri akışı.

klonlamak GitHub repo Akış dosyalarını Studio ortamınıza indirmek için.