Amazon SageMaker Data Wrangler Tarafından Desteklenen Dizüstü Bilgisayarlar İçin Etkileşimli Veri Hazırlama Widget'ı

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Anaconda tarafından 2020 yılında veri bilimcileri arasında yürütülen bir ankete göre, veri hazırlama, makine öğrenimi (ML) ve veri analitiği iş akışlarındaki kritik adımlardan biridir ve veri bilimcileri için genellikle çok zaman alıcıdır. Veri bilimcileri zamanlarının yaklaşık %66'sını yükleme (%19), temizleme (%26) ve verileri görselleştirme (%21) dahil olmak üzere veri hazırlama ve analiz görevlerine harcıyor.

Amazon SageMaker Stüdyosu ML için ilk tam entegre geliştirme ortamıdır (IDE). Tek bir tıklamayla veri bilimcileri ve geliştiriciler hızlı bir şekilde hız kazanabilir Studio not defterleri veri kümelerini keşfetmek ve modeller oluşturmak. GUI tabanlı ve etkileşimli bir arayüz tercih ediyorsanız, Amazon SageMaker Veri DüzenleyicisiSpark tarafından desteklenen verileri tek bir satır kod yazmadan verimli bir şekilde işlemek için 300'den fazla yerleşik görselleştirme, analiz ve dönüşümle.

Veri Düzenleyici artık yerleşik bir veri hazırlama yeteneği sunuyor Amazon SageMaker Studio Dizüstü Bilgisayarları Bu, ML uygulayıcılarının doğrudan not defterlerinde yalnızca birkaç tıklamayla veri özelliklerini görsel olarak incelemesine, sorunları belirlemesine ve veri kalitesi sorunlarını düzeltmesine olanak tanır.

Bu yazıda size nasıl yapılacağını gösteriyoruz. Veri Düzenleyici veri hazırlama widget'ı, veri dağıtımını anlamak, veri kalitesi sorunlarını tespit etmek ve her özellik için aykırı değerler gibi veri öngörülerini yüzeye çıkarmak için Pandas veri çerçevesinin üzerinde otomatik olarak önemli görselleştirmeler oluşturur. Verilerle etkileşime girmeye ve anlık sorgulamayla fark edilmeyebilecek öngörüleri keşfetmeye yardımcı olur. Ayrıca düzeltilecek dönüşümler önerir, kullanıcı arayüzünde veri dönüşümleri uygulamanıza ve not defteri hücrelerinde otomatik olarak kod oluşturmanıza olanak tanır. Bu özellik SageMaker Studio'nun mevcut olduğu tüm bölgelerde mevcuttur.

Çözüme genel bakış

Bu yeni widget'ın veri araştırmasını nasıl önemli ölçüde kolaylaştırdığını ve veri mühendisleri ve uygulayıcıları için genel veri hazırlama deneyimini geliştirmek üzere kusursuz bir deneyim sağladığını daha ayrıntılı olarak anlayalım. Kullanım durumumuz için, değiştirilmiş bir versiyonunu kullanıyoruz. Titanik veri setiML topluluğunda popüler bir veri kümesi olan ve artık bir örnek veri kümesi böylece SageMaker Data Wrangler'ı hızlı bir şekilde kullanmaya başlayabilirsiniz. Orijinal veri seti şuradan elde edildi: OpenMLve bu demo için Amazon tarafından sentetik veri kalitesi sorunları eklenecek şekilde değiştirildi. Veri kümesinin değiştirilmiş sürümünü genel S3 yolundan indirebilirsiniz s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

Önkoşullar

Bu yazıda açıklanan tüm özelliklerle ilgili uygulamalı deneyim elde etmek için aşağıdaki önkoşulları tamamlayın:

AWS hesabınız olduğundan emin olun, hesapta oturum açmak için güvenli erişim AWS Yönetim Konsolu, ve AWS Kimlik ve Erişim Yönetimi (IAM) kullanım izinleri Amazon Adaçayı Yapıcı ve Amazon Basit Depolama Hizmeti (Amazon S3) kaynakları.
Genel S3 yolundaki örnek veri kümesini kullanın s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv ya da seçenek olarak bir S3 kovasına yükleyin izin verir.
Bir SageMaker etki alanına katılın ve not defterlerini kullanmak için Studio'ya erişin. Talimatlar için bkz. Amazon SageMaker Etki Alanında Yerleşik. Mevcut Studio'yu kullanıyorsanız, şu sürüme yükseltin: Studio'nun son sürümü.

Veri araştırma widget'ını etkinleştirin

Pandas veri çerçevelerini kullanırken Studio not defteri kullanıcıları, her sütunun üstünde varsayılan olarak yeni görselleştirmelerin görüntülenmesi için veri araştırma widget'ını manuel olarak etkinleştirebilir. Widget, sayısal veriler için bir histogram ve diğer veri türleri için bir çubuk grafik gösterir. Bu gösterimler, veri dağılımını hızlı bir şekilde anlamanıza ve her bir sütun için standart yöntemler yazmanıza gerek kalmadan eksik değerleri ve aykırı değerleri keşfetmenize olanak tanır. Dağıtımı hızlı bir şekilde anlamak için her görselde çubuğun üzerine gelebilirsiniz.

Studio'yu açın ve yeni bir Python 3 not defteri oluşturun. Seçtiğinizden emin olun Veri Bilimi 3.0 tıklayarak SageMaker resimlerinden resim Ortamı değiştir düğmesine basın.

Veri araştırma widget'ı aşağıdaki resimlerde mevcuttur. Varsayılan SageMaker görüntülerinin listesi için bkz. Kullanılabilir Amazon SageMaker Görüntüleri.

Python 3 ile Python 3.7 (Veri Bilimi)
Python 3 ile Python 2.0 (Veri Bilimi 3.8)
Python 3 ile Python 3.0 (Veri Bilimi 3.10)
Spark Analizi 1.0 ve 2.0

Bu widget'ı kullanmak için içe aktarın SageMaker_DataWrangler kütüphane. Titanic veri kümesinin değiştirilmiş sürümünü şuradan yükleyin: S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv ve CSV'yi Pandas kütüphanesiyle okuyun:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

Verileri görselleştirin

Veriler Pandas veri çerçevesine yüklendikten sonra verileri yalnızca kullanarak görüntüleyebilirsiniz. df or display(df). Veri hazırlama widget'ı, satırı listelemenin yanı sıra veri kalitesine ilişkin öngörüler, görselleştirmeler ve öneriler üretir. Özellik ve hedef öngörüleri oluşturmak, dağıtım bilgileri oluşturmak veya veri kalitesi kontrolleri oluşturmak için herhangi bir ek kod yazmanıza gerek yoktur. Varsa veri kalitesi uyarılarını gösteren istatistiksel özeti görüntülemek için veri çerçevesi tablosunun başlığını seçebilirsiniz.

verileri görselleştir

Her sütun, veri türüne göre bir çubuk grafiği veya histogramı gösterir. Widget, anlamlı içgörüler oluşturmak için varsayılan olarak 10,000'e kadar gözlemi örnekler. Ayrıca veri kümesinin tamamında içgörü analizini çalıştırma seçeneğini de sunar.

Aşağıdaki ekran görüntüsünde gösterildiği gibi bu widget, bir sütunun kategorik veya niceliksel verilere sahip olup olmadığını tanımlar.

kategorik veya niceliksel veriler

Kategorik veriler için widget, tüm kategorileri içeren çubuk grafiği oluşturur. Aşağıdaki ekran görüntüsünde, örneğin, sütun Sex Verilerdeki kategorileri tanımlar. Çubuğun üzerine gelebilirsiniz (erkek bu durumda) değere sahip toplam satır sayısı gibi bu kategorilerin ayrıntılarını görmek için male ve toplam görselleştirilmiş veri kümesindeki dağılımı (bu örnekte %64.07). Ayrıca kategorik veriler için eksik değerlerin toplam yüzdesi farklı bir renkte vurgulanır. gibi niceliksel veriler için ticket sütununda geçersiz değerlerin yüzdesiyle birlikte dağılım gösterilir.

Not defterinde standart bir Pandalar görselleştirmesi görmek istiyorsanız, Pandalar tablosunu görüntüleyin ve aşağıdaki ekran görüntüsünde gösterildiği gibi widget ile Pandalar gösterimi arasında geçiş yapın.

Pandalar tablosunu görüntüleyin

veri yöneticisi tablosunu görüntüle

Sütundaki veriler hakkında daha ayrıntılı bilgi edinmek için sütunun başlığını seçerek sütuna ayrılmış bir yan panel açın. Burada iki sekmeyi görebilirsiniz: Trendleri ve Veri kalitesi.

Analizler ve Veri kalitesi

Aşağıdaki bölümlerde bu iki seçeneği daha ayrıntılı olarak inceleyeceğiz.

Trendleri

The Trendleri sekmesi, her sütun için açıklamalarla birlikte ayrıntılar sağlar. Bu bölümde mod, benzersiz sayısı, oranlar ve eksik/geçersiz değerlere ilişkin sayımlar vb. gibi toplu istatistikler listelenir ve ayrıca bir histogram veya çubuk grafik yardımıyla veri dağılımı görselleştirilir. Aşağıdaki ekran görüntülerinde, seçilen sütun için oluşturulan kolayca anlaşılır görselleştirmelerle görüntülenen veri öngörülerini ve dağıtım bilgilerini kontrol edebilirsiniz. survived.

Veri kalitesi

Stüdyo veri hazırlama widget'ı, başlıktaki uyarı işaretiyle belirlenen veri kalitesi sorunlarını vurgular. Widget, temel bilgilerden (eksik değerler, sabit sütun vb.) ML'ye özgü daha fazlasına (hedef sızıntısı, düşük tahmin puanı özellikleri vb.) kadar veri kalitesi sorunlarının tüm yelpazesini tanımlayabilir. Widget, veri kalitesi sorununa neden olan hücreleri vurgular ve sorunlu hücreleri en üste yerleştirecek şekilde satırları yeniden düzenler. Veri kalitesi sorununu çözmek için widget, tek bir tıklamayla uygulanabilen çeşitli transformatörler sağlar.

Veri kalitesi bölümünü keşfetmek için sütun başlığını seçin ve yan panelde Veri kalitesi sekmesi. Studio ortamınızda aşağıdakileri görmelisiniz.

veri kalitesi sekmesi

Şimdi mevcut farklı seçeneklere bakalım Veri kalitesi sekmesi. Bu örnek için verilere dayalı olarak niceliksel bir sütun olarak tespit edilen yaş sütununu seçiyoruz. Aşağıdaki ekran görüntüsünde görebileceğimiz gibi, bu widget, aşağıdakiler gibi en yaygın eylemler de dahil olmak üzere uygulayabileceğiniz farklı türde dönüşümler önerir: Yeni değerle değiştir, Damla eksik, Medyanla değiştirya da Ortalama ile değiştir. Kullanım durumuna (çözmeye çalıştığınız makine öğrenimi sorunu) bağlı olarak veri kümeniz için bunlardan herhangi birini seçebilirsiniz. Aynı zamanda size şunları sağlar: Sütunu bırak Özelliği tamamen kaldırmak istiyorsanız bu seçeneği kullanın.

yaş

Seçtiğinizde Kodu uygula ve dışa aktar, dönüşüm veri çerçevesinin derin kopyasına uygulanır. Dönüşüm başarıyla uygulandıktan sonra veri tablosu öngörüler ve görselleştirmelerle yenilenir. Dönüşüm kodu, not defterindeki mevcut hücreden sonra oluşturulur. Dışa aktarılan bu kodu daha sonra çalıştırarak dönüşümü veri kümelerinize uygulayabilir ve ihtiyaçlarınıza göre genişletebilirsiniz. Oluşturulan kodu doğrudan değiştirerek dönüşümü özelleştirebilirsiniz. Eğer uygularsak Damla eksik Yaş sütunundaki seçenek kullanıldığında, veri kümesine aşağıdaki dönüşüm kodu uygulanır ve kod ayrıca widget'ın altındaki bir hücrede de oluşturulur:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

Aşağıda başka bir kod pasajı örneği verilmiştir: Medyanla değiştir:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

Şimdi veri hazırlama widget'ının hedef öngörü yeteneğine bakalım. kullanmak istediğinizi varsayalım. survived Bir yolcunun hayatta kalıp kalmayacağını tahmin etme özelliği. Seç survived Sütun başlığı. Yan panelde şunu seçin: Hedef sütun olarak seç. için ideal veri dağılımı survived özelliğin yalnızca iki sınıfı olmalıdır: evet (1) ya da hayır (0), Titanik kazasında hayatta kalma şansını sınıflandırmaya yardımcı olur. Ancak seçilen hedef sütundaki veri tutarsızlıkları nedeniyle hayatta kalan özellik 0, 1, ?, unknown, ve yes.

hedef sütun olarak seç

Seçilen hedef sütuna göre sorun türünü seçin; Sınıflandırma or Gerileme. Hayatta kalan sütun için problem türü sınıflandırmadır. Seçmek koşmak Hedef sütuna ilişkin öngörüler oluşturmak için.

hayatta

Veri hazırlama widget'ı, hedef sütun veri kalitesiyle ilgili sorunları çözmek için hedef sütun öngörülerini öneriler ve örnek açıklamalarla birlikte listeler. Ayrıca sütundaki anormal verileri otomatik olarak vurgular.

önerilerle birlikte hedef sütun öngörüleri

Önerilen dönüşümü seçiyoruz Nadir hedef değerlerini bırakçünkü nadir hedef değerler için daha az gözlem vardır.

Nadir hedef değerini düşür

Seçilen dönüşüm Pandas veri çerçevesine uygulandı ve olağandışı hedef değerler hayatta kalan sütundan çıkarıldı. Aşağıdaki koda bakın:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

Uygulanan dönüşümün sonuçları veri çerçevesinde hemen görünür. Veri hazırlama widget'ı kullanılarak uygulanan veri hazırlama faaliyetlerini izlemek için dönüştürülen kod aşağıdaki not defteri hücresinde de oluşturulur.

Sonuç

Bu yayında, Studio veri hazırlama widget'ının veri dağıtımlarını analiz etmenize, araç tarafından oluşturulan veri kalitesi analizlerini keşfetmenize ve her kritik özellik için aykırı değerler gibi potansiyel sorunları ortaya çıkarmanıza nasıl yardımcı olabileceği konusunda rehberlik sağladık. Bu, yüksek kaliteli modelleri eğitmenize yardımcı olmak için genel veri kalitesinin iyileştirilmesine yardımcı olur ve kullanıcı arayüzündeki verileri dönüştürmenize ve dizüstü bilgisayar hücreleri için otomatik olarak kod oluşturmanıza olanak tanıyarak farklılaşmamış ağır yükleri ortadan kaldırır. Daha sonra bu kodu, tekrarlanabilirlik oluşturmak, tekrarlanan görevlerde zaman kaybetmekten kaçınmak ve veri düzenleme işlem hatlarının oluşturulmasını ve dağıtımını hızlandırarak uyumluluk sorunlarını azaltmak için MLOps işlem hatlarınızda kullanabilirsiniz.

SageMaker Data Wrangler veya Studio'da yeniyseniz bkz. SageMaker Data Wrangler'ı Kullanmaya Başlayın. Bu gönderiyle ilgili herhangi bir sorunuz varsa, lütfen yorumlar bölümüne ekleyin.

Yazarlar Hakkında

Parth Patel San Francisco Körfez Bölgesi'ndeki AWS'de Çözüm Mimarıdır. Parth, müşterilerin buluta olan yolculuklarını hızlandırmalarına ve AWS Cloud'u başarılı bir şekilde benimsemelerine ve büyümelerine yardımcı olmalarına yardımcı olur. Makine öğrenimi, çevresel sürdürülebilirlik ve uygulama modernizasyonu konularına odaklanıyor.

yatsı duası San Francisco Körfez Bölgesi'nde yerleşik Kıdemli Çözüm Mimarıdır. AWS Enterprise müşterilerinin hedeflerini ve zorluklarını anlayarak büyümelerine yardımcı oluyor ve uygulamalarının dayanıklı ve ölçeklenebilir olmasını sağlarken uygulamalarını bulutta yerel bir şekilde nasıl tasarlayabilecekleri konusunda onlara rehberlik ediyor. Makine öğrenimi teknolojileri ve çevresel sürdürülebilirlik konusunda tutkulu.

Hariharan Suresh AWS'de Kıdemli Çözüm Mimarıdır. Veritabanları, makine öğrenimi ve yenilikçi çözümler tasarlama konusunda tutkulu. AWS'ye katılmadan önce Hariharan, ürün mimarı, temel bankacılık uygulama uzmanı ve geliştiriciydi ve 11 yılı aşkın bir süre BFSI kuruluşlarıyla çalıştı. Teknoloji dışında yamaç paraşütü ve bisiklete binmeyi seviyor.

Dani Mitchell Amazon Web Services'te AI/ML Uzman Çözüm Mimarıdır. Görüntü İşleme kullanım senaryolarına ve EMEA genelindeki müşterilerin makine öğrenimi yolculuklarını hızlandırmalarına yardımcı olmaya odaklanmıştır.

Zaman Damgası: 1 Aralık 20221 Aralık 2022

Zaman Damgası: Şubat 16, 2024

Amazon SageMaker Data Wrangler tarafından desteklenen not defterleri için etkileşimli veri hazırlama pencere öğesi

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

Önkoşullar

Veri araştırma widget'ını etkinleştirin

Verileri görselleştirin

Trendleri

Veri kalitesi

Sonuç

Yazarlar Hakkında

Den fazla AWS Makine Öğrenimi

Amazon SageMaker Inference Öneri Aracı kullanılarak iyileştirilmiş makine öğrenimi modeli dağıtımı

AWS'de makine öğrenimi ile çevrimiçi görüşmeler için metin sınıflandırması

Eşzamansız bir uç nokta olarak Amazon SageMaker'da Hugging Face (PyAnnote) konuşmacı günlüğü oluşturma modelini dağıtın | Amazon Web Hizmetleri

Sigorta sektöründe AWS AI ve Analytics hizmetleriyle akıllı belge işleme: Bölüm 2

İki aşamalı Amazon Rekognition Custom Labels modellerini kullanarak yüksek çözünürlüklü görüntülerde hata tespiti | Amazon Web Hizmetleri

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap