Amazon SageMaker Data Wrangler ile Daha Büyük ve Daha Geniş Veri Kümelerini İşleyin

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Amazon SageMaker Veri Düzenleyicisi makine öğrenimi (ML) için veri toplama ve hazırlama süresini haftalardan dakikalara indirir Amazon SageMaker Stüdyosu. Data Wrangler, veri hazırlığınızı basitleştirebilir ve mühendislik süreçlerini öne çıkarabilir ve veri seçimi, temizleme, keşif ve görselleştirme konusunda size yardımcı olabilir. Data Wrangler, PySpark'ta yazılmış 300'den fazla yerleşik dönüşüme sahiptir, böylece varsayılan örnek olan ml.m5.4xlarge üzerinde yüzlerce gigabayta kadar veri kümelerini verimli bir şekilde işleyebilirsiniz.

Ancak, yerleşik dönüştürmeleri kullanarak terabaytlara kadar veri kümeleriyle çalıştığınızda, daha uzun işlem süresi veya olası bellek yetersiz hatalarla karşılaşabilirsiniz. Veri gereksinimlerinize bağlı olarak, artık ek kullanabilirsiniz Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) M5 örnekleri ve R5 örnekleri. Örneğin, varsayılan bir örnekle (ml.m5.4xlarge) başlayabilir ve ardından ml.m5.24xlarge veya ml.r5.24xlarge'a geçebilirsiniz. Farklı bulut sunucusu türleri seçme ve çalıştırma maliyeti ile işlem süreleri arasında en iyi dengeyi bulma seçeneğiniz vardır. Bir dahaki sefere zaman serisi dönüştürme üzerinde çalışırken ve verilerinizi dengelemek için ağır transformatörler çalıştırırken, bu süreçleri daha hızlı çalıştırmak için Data Wrangler örneğinizi doğru boyutlandırabilirsiniz.

Özel bir Pandas dönüşümüyle onlarca gigabayt veya daha fazlasını işlerken, yetersiz bellek hatalarıyla karşılaşabilirsiniz. Varsayılan örnekten (ml.m5.4xlarge) ml.m5.24xlarge'a geçiş yapabilirsiniz ve dönüştürme hatasız bir şekilde tamamlanacaktır. Bir veri kümesi portföyünde örnek boyutunu artırdıkça, kapsamlı bir kıyaslama yaptık ve doğrusal hızlanma gözlemledik.

Bu gönderide, Data Wrangler ile daha büyük ve daha geniş veri kümelerini nasıl işleyebileceğinizi göstermek için iki kıyaslama testinden elde ettiğimiz bulguları paylaşıyoruz.

Data Wrangler kıyaslama testleri

Şimdi, PySpark yerleşik transformatörlerini ve özel Panda dönüşümlerini kullanan farklı örnek türleriyle birlikte çalıştırdığımız iki testi, toplama sorgularını ve tek etkin kodlamayı gözden geçirelim. Toplama gerektirmeyen dönüşümler hızlı bir şekilde tamamlanır ve varsayılan örnek türüyle iyi çalışır, bu nedenle toplama sorgularına ve toplama içeren dönüşümlere odaklandık. Test veri setimizi Amazon Basit Depolama Hizmeti (Amazon S3). Bu veri kümesinin genişletilmiş boyutu, 100 milyon satır ve 80 sütun ile yaklaşık 300 GB'dir. Kıyaslama testlerini zamanlamak ve uçtan uca müşteriye yönelik gecikmeyi ölçmek için UI metriklerini kullandık. Test veri setimizi içe aktarırken, örneklemeyi devre dışı bıraktık. Örnekleme varsayılan olarak etkindir ve Data Wrangler etkinleştirildiğinde yalnızca ilk 100 satırı işler.x

Data Wrangler örnek boyutunu artırdıkça, Data Wrangler yerleşik dönüşümlerinde ve özel Spark SQL'de kabaca doğrusal bir hızlanma gözlemledik. Pandas toplama sorgu testleri, yalnızca ml.m5.16xl'den daha büyük örnekler kullandığımızda sona erdi ve Pandas'ın bu veri kümesi için toplama sorgularını işlemek için 180 GB belleğe ihtiyacı vardı.

Aşağıdaki tablo, toplama sorgusu test sonuçlarını özetlemektedir.

örnek	vCPU	Bellek (GiB)	Data Wrangler yerleşik Spark dönüşüm süresi	Pandalar Zamanı (Özel Dönüşüm)
ml.m5.4xl	16	64	229 saniye	Yetersiz bellek
ml.m5.8xl	32	128	130 saniye	Yetersiz bellek
ml.m5.16xl	64	256	52 saniye	30 dakikadır.

Aşağıdaki tablo, one-hot kodlama testi sonuçlarını özetlemektedir.

örnek	vCPU	Bellek (GiB)	Data Wrangler yerleşik Spark dönüşüm süresi	Pandalar Zamanı (Özel Dönüşüm)
ml.m5.4xl	16	64	228 saniye	Yetersiz bellek
ml.m5.8xl	32	128	130 saniye	Yetersiz bellek
ml.m5.16xl	64	256	52 saniye	Yetersiz bellek

Veri akışının örnek türünü değiştirin

Akışınızın örnek türünü değiştirmek için aşağıdaki adımları tamamlayın:

Amazon SageMaker Data Wrangler konsolunda, kullanmakta olduğunuz veri akışına gidin.
Gezinme çubuğunda örnek türünü seçin.
Kullanmak istediğiniz örnek türünü seçin.
Klinik İndirim.

Bir ilerleme mesajı görünür.

Anahtar tamamlandığında, bir başarı mesajı görünür.

Data Wrangler, veri analizi ve veri dönüştürmeleri için seçilen örnek türünü kullanır. Varsayılan örnek ve geçiş yaptığınız örnek (ml.m5.16xlarge) çalışıyor. Belirli bir dönüşümü çalıştırmadan önce örnek türünü değiştirebilir veya varsayılan örneğe geri dönebilirsiniz.

Kullanılmayan örnekleri kapatın

Çalışan tüm örnekler için ücretlendirilirsiniz. Ek ücret ödememek için kullanmadığınız bulut sunucularını manuel olarak kapatın. Çalışan bir örneği kapatmak için aşağıdaki adımları tamamlayın:

Veri akışı sayfanızda, altındaki kullanıcı arayüzünün sol bölmesindeki örnek simgesini seçin. Çalışan örnekler.
Klinik kapatmak.

Bir akışı çalıştırmak için kullanılan bir örneği kapatırsanız, akışa geçici olarak erişemezsiniz. Daha önce kapattığınız bir örneği çalıştıran akışı açarken hata alırsanız yaklaşık 5 dakika bekleyin ve tekrar açmayı deneyin.

Sonuç

Bu gönderide, bulut sunucularını daha büyük M5 veya R5 bulut sunucusu türlerine değiştirerek Data Wrangler ile giderek daha geniş veri kümelerinin nasıl işleneceğini gösterdik. M5 örnekleri bilgi işlem, bellek ve ağ kaynakları dengesi sunar. R5 örnekleri bellek için optimize edilmiş örneklerdir. Hem M5 hem de R5, iş yükleriniz için maliyet ve performansı optimize etmek için bulut sunucusu türleri sağlar.

Data Wrangler ile veri akışlarını kullanma hakkında daha fazla bilgi için bkz. Veri Wrangler Akışı Oluşturun ve Kullanın ve Amazon SageMaker Fiyatlandırması. Data Wrangler'ı kullanmaya başlamak için bkz. Amazon SageMaker Data Wrangler ile ML Verilerini Hazırlayın.

Yazarlar Hakkında

Haydar Nakvi AWS'de Çözüm Mimarıdır. Kapsamlı yazılım geliştirme ve kurumsal mimari deneyimine sahiptir. Müşterilerin AWS ile iş sonuçları elde etmesini sağlamaya odaklanıyor. New York merkezlidir.

Huong Nguyen AWS'de Kıdemli Ürün Yöneticisidir. Hem kurumsal hem de tüketici alanları için müşteri merkezli ve veriye dayalı ürünler geliştirmede 14 yıllık tecrübesiyle SageMaker için veri ekosistemi entegrasyonuna liderlik ediyor.

Meenakshisundaram Thandavarayan AWS'de kıdemli bir AI/ML uzmanıdır. Yapay zeka ve makine öğrenimi yolculuklarında yüksek teknolojili stratejik hesaplara yardımcı olur. Veriye dayalı yapay zeka konusunda çok tutkulu.

Sriharsha M Sr Amazon Web Services Stratejik Uzman ekibinde bir AI/ML Uzman Çözüm Mimarıdır. Karmaşık iş sorunlarını çözmek için AI/ML'den yararlanan stratejik AWS müşterileriyle çalışır. AI/ML uygulamalarını uygun ölçekte uygulamak için teknik rehberlik ve tasarım tavsiyesi sağlar. Uzmanlığı uygulama mimarisini, büyük verileri, analitiği ve makine öğrenimini kapsar.