Anaconda tarafından 2020 yılında veri bilimcileri arasında yürütülen bir ankete göre, veri hazırlama, makine öğrenimi (ML) ve veri analitiği iş akışlarındaki kritik adımlardan biridir ve veri bilimcileri için genellikle çok zaman alıcıdır. Veri bilimcileri zamanlarının yaklaşık %66'sını yükleme (%19), temizleme (%26) ve verileri görselleştirme (%21) dahil olmak üzere veri hazırlama ve analiz görevlerine harcıyor.
Amazon SageMaker Stüdyosu ML için ilk tam entegre geliştirme ortamıdır (IDE). Tek bir tıklamayla veri bilimcileri ve geliştiriciler hızlı bir şekilde hız kazanabilir Studio not defterleri veri kümelerini keşfetmek ve modeller oluşturmak. GUI tabanlı ve etkileşimli bir arayüz tercih ediyorsanız, Amazon SageMaker Veri DüzenleyicisiSpark tarafından desteklenen verileri tek bir satır kod yazmadan verimli bir şekilde işlemek için 300'den fazla yerleşik görselleştirme, analiz ve dönüşümle.
Veri Düzenleyici artık yerleşik bir veri hazırlama yeteneği sunuyor Amazon SageMaker Studio Dizüstü Bilgisayarları Bu, ML uygulayıcılarının doğrudan not defterlerinde yalnızca birkaç tıklamayla veri özelliklerini görsel olarak incelemesine, sorunları belirlemesine ve veri kalitesi sorunlarını düzeltmesine olanak tanır.
Bu yazıda size nasıl yapılacağını gösteriyoruz. Veri Düzenleyici veri hazırlama widget'ı, veri dağıtımını anlamak, veri kalitesi sorunlarını tespit etmek ve her özellik için aykırı değerler gibi veri öngörülerini yüzeye çıkarmak için Pandas veri çerçevesinin üzerinde otomatik olarak önemli görselleştirmeler oluşturur. Verilerle etkileşime girmeye ve anlık sorgulamayla fark edilmeyebilecek öngörüleri keşfetmeye yardımcı olur. Ayrıca düzeltilecek dönüşümler önerir, kullanıcı arayüzünde veri dönüşümleri uygulamanıza ve not defteri hücrelerinde otomatik olarak kod oluşturmanıza olanak tanır. Bu özellik SageMaker Studio'nun mevcut olduğu tüm bölgelerde mevcuttur.
Çözüme genel bakış
Bu yeni widget'ın veri araştırmasını nasıl önemli ölçüde kolaylaştırdığını ve veri mühendisleri ve uygulayıcıları için genel veri hazırlama deneyimini geliştirmek üzere kusursuz bir deneyim sağladığını daha ayrıntılı olarak anlayalım. Kullanım durumumuz için, değiştirilmiş bir versiyonunu kullanıyoruz. Titanik veri setiML topluluğunda popüler bir veri kümesi olan ve artık bir örnek veri kümesi böylece SageMaker Data Wrangler'ı hızlı bir şekilde kullanmaya başlayabilirsiniz. Orijinal veri seti şuradan elde edildi: OpenMLve bu demo için Amazon tarafından sentetik veri kalitesi sorunları eklenecek şekilde değiştirildi. Veri kümesinin değiştirilmiş sürümünü genel S3 yolundan indirebilirsiniz s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
.
Önkoşullar
Bu yazıda açıklanan tüm özelliklerle ilgili uygulamalı deneyim elde etmek için aşağıdaki önkoşulları tamamlayın:
- AWS hesabınız olduğundan emin olun, hesapta oturum açmak için güvenli erişim AWS Yönetim Konsolu, ve AWS Kimlik ve Erişim Yönetimi (IAM) kullanım izinleri Amazon Adaçayı Yapıcı ve Amazon Basit Depolama Hizmeti (Amazon S3) kaynakları.
- Genel S3 yolundaki örnek veri kümesini kullanın
s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
ya da seçenek olarak bir S3 kovasına yükleyin izin verir. - Bir SageMaker etki alanına katılın ve not defterlerini kullanmak için Studio'ya erişin. Talimatlar için bkz. Amazon SageMaker Etki Alanında Yerleşik. Mevcut Studio'yu kullanıyorsanız, şu sürüme yükseltin: Studio'nun son sürümü.
Veri araştırma widget'ını etkinleştirin
Pandas veri çerçevelerini kullanırken Studio not defteri kullanıcıları, her sütunun üstünde varsayılan olarak yeni görselleştirmelerin görüntülenmesi için veri araştırma widget'ını manuel olarak etkinleştirebilir. Widget, sayısal veriler için bir histogram ve diğer veri türleri için bir çubuk grafik gösterir. Bu gösterimler, veri dağılımını hızlı bir şekilde anlamanıza ve her bir sütun için standart yöntemler yazmanıza gerek kalmadan eksik değerleri ve aykırı değerleri keşfetmenize olanak tanır. Dağıtımı hızlı bir şekilde anlamak için her görselde çubuğun üzerine gelebilirsiniz.
Studio'yu açın ve yeni bir Python 3 not defteri oluşturun. Seçtiğinizden emin olun Veri Bilimi 3.0 tıklayarak SageMaker resimlerinden resim Ortamı değiştir düğmesine basın.
Veri araştırma widget'ı aşağıdaki resimlerde mevcuttur. Varsayılan SageMaker görüntülerinin listesi için bkz. Kullanılabilir Amazon SageMaker Görüntüleri.
- Python 3 ile Python 3.7 (Veri Bilimi)
- Python 3 ile Python 2.0 (Veri Bilimi 3.8)
- Python 3 ile Python 3.0 (Veri Bilimi 3.10)
- Spark Analizi 1.0 ve 2.0
Bu widget'ı kullanmak için içe aktarın SageMaker_DataWrangler
kütüphane. Titanic veri kümesinin değiştirilmiş sürümünü şuradan yükleyin: S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
ve CSV'yi Pandas kütüphanesiyle okuyun:
Verileri görselleştirin
Veriler Pandas veri çerçevesine yüklendikten sonra verileri yalnızca kullanarak görüntüleyebilirsiniz. df
or display(df)
. Veri hazırlama widget'ı, satırı listelemenin yanı sıra veri kalitesine ilişkin öngörüler, görselleştirmeler ve öneriler üretir. Özellik ve hedef öngörüleri oluşturmak, dağıtım bilgileri oluşturmak veya veri kalitesi kontrolleri oluşturmak için herhangi bir ek kod yazmanıza gerek yoktur. Varsa veri kalitesi uyarılarını gösteren istatistiksel özeti görüntülemek için veri çerçevesi tablosunun başlığını seçebilirsiniz.
Her sütun, veri türüne göre bir çubuk grafiği veya histogramı gösterir. Widget, anlamlı içgörüler oluşturmak için varsayılan olarak 10,000'e kadar gözlemi örnekler. Ayrıca veri kümesinin tamamında içgörü analizini çalıştırma seçeneğini de sunar.
Aşağıdaki ekran görüntüsünde gösterildiği gibi bu widget, bir sütunun kategorik veya niceliksel verilere sahip olup olmadığını tanımlar.
Kategorik veriler için widget, tüm kategorileri içeren çubuk grafiği oluşturur. Aşağıdaki ekran görüntüsünde, örneğin, sütun Sex
Verilerdeki kategorileri tanımlar. Çubuğun üzerine gelebilirsiniz (erkek bu durumda) değere sahip toplam satır sayısı gibi bu kategorilerin ayrıntılarını görmek için male
ve toplam görselleştirilmiş veri kümesindeki dağılımı (bu örnekte %64.07). Ayrıca kategorik veriler için eksik değerlerin toplam yüzdesi farklı bir renkte vurgulanır. gibi niceliksel veriler için ticket
sütununda geçersiz değerlerin yüzdesiyle birlikte dağılım gösterilir.
Not defterinde standart bir Pandalar görselleştirmesi görmek istiyorsanız, Pandalar tablosunu görüntüleyin ve aşağıdaki ekran görüntüsünde gösterildiği gibi widget ile Pandalar gösterimi arasında geçiş yapın.
Sütundaki veriler hakkında daha ayrıntılı bilgi edinmek için sütunun başlığını seçerek sütuna ayrılmış bir yan panel açın. Burada iki sekmeyi görebilirsiniz: Trendleri ve Veri kalitesi.
Aşağıdaki bölümlerde bu iki seçeneği daha ayrıntılı olarak inceleyeceğiz.
Trendleri
The Trendleri sekmesi, her sütun için açıklamalarla birlikte ayrıntılar sağlar. Bu bölümde mod, benzersiz sayısı, oranlar ve eksik/geçersiz değerlere ilişkin sayımlar vb. gibi toplu istatistikler listelenir ve ayrıca bir histogram veya çubuk grafik yardımıyla veri dağılımı görselleştirilir. Aşağıdaki ekran görüntülerinde, seçilen sütun için oluşturulan kolayca anlaşılır görselleştirmelerle görüntülenen veri öngörülerini ve dağıtım bilgilerini kontrol edebilirsiniz. survived
.
Veri kalitesi
Stüdyo veri hazırlama widget'ı, başlıktaki uyarı işaretiyle belirlenen veri kalitesi sorunlarını vurgular. Widget, temel bilgilerden (eksik değerler, sabit sütun vb.) ML'ye özgü daha fazlasına (hedef sızıntısı, düşük tahmin puanı özellikleri vb.) kadar veri kalitesi sorunlarının tüm yelpazesini tanımlayabilir. Widget, veri kalitesi sorununa neden olan hücreleri vurgular ve sorunlu hücreleri en üste yerleştirecek şekilde satırları yeniden düzenler. Veri kalitesi sorununu çözmek için widget, tek bir tıklamayla uygulanabilen çeşitli transformatörler sağlar.
Veri kalitesi bölümünü keşfetmek için sütun başlığını seçin ve yan panelde Veri kalitesi sekmesi. Studio ortamınızda aşağıdakileri görmelisiniz.
Şimdi mevcut farklı seçeneklere bakalım Veri kalitesi sekmesi. Bu örnek için verilere dayalı olarak niceliksel bir sütun olarak tespit edilen yaş sütununu seçiyoruz. Aşağıdaki ekran görüntüsünde görebileceğimiz gibi, bu widget, aşağıdakiler gibi en yaygın eylemler de dahil olmak üzere uygulayabileceğiniz farklı türde dönüşümler önerir: Yeni değerle değiştir, Damla eksik, Medyanla değiştirya da Ortalama ile değiştir. Kullanım durumuna (çözmeye çalıştığınız makine öğrenimi sorunu) bağlı olarak veri kümeniz için bunlardan herhangi birini seçebilirsiniz. Aynı zamanda size şunları sağlar: Sütunu bırak Özelliği tamamen kaldırmak istiyorsanız bu seçeneği kullanın.
Seçtiğinizde Kodu uygula ve dışa aktar, dönüşüm veri çerçevesinin derin kopyasına uygulanır. Dönüşüm başarıyla uygulandıktan sonra veri tablosu öngörüler ve görselleştirmelerle yenilenir. Dönüşüm kodu, not defterindeki mevcut hücreden sonra oluşturulur. Dışa aktarılan bu kodu daha sonra çalıştırarak dönüşümü veri kümelerinize uygulayabilir ve ihtiyaçlarınıza göre genişletebilirsiniz. Oluşturulan kodu doğrudan değiştirerek dönüşümü özelleştirebilirsiniz. Eğer uygularsak Damla eksik Yaş sütunundaki seçenek kullanıldığında, veri kümesine aşağıdaki dönüşüm kodu uygulanır ve kod ayrıca widget'ın altındaki bir hücrede de oluşturulur:
Aşağıda başka bir kod pasajı örneği verilmiştir: Medyanla değiştir:
Şimdi veri hazırlama widget'ının hedef öngörü yeteneğine bakalım. kullanmak istediğinizi varsayalım. survived
Bir yolcunun hayatta kalıp kalmayacağını tahmin etme özelliği. Seç survived
Sütun başlığı. Yan panelde şunu seçin: Hedef sütun olarak seç. için ideal veri dağılımı survived
özelliğin yalnızca iki sınıfı olmalıdır: evet (1
) ya da hayır (0
), Titanik kazasında hayatta kalma şansını sınıflandırmaya yardımcı olur. Ancak seçilen hedef sütundaki veri tutarsızlıkları nedeniyle hayatta kalan özellik 0
, 1
, ?
, unknown
, ve yes
.
Seçilen hedef sütuna göre sorun türünü seçin; Sınıflandırma or Gerileme. Hayatta kalan sütun için problem türü sınıflandırmadır. Seçmek koşmak Hedef sütuna ilişkin öngörüler oluşturmak için.
Veri hazırlama widget'ı, hedef sütun veri kalitesiyle ilgili sorunları çözmek için hedef sütun öngörülerini öneriler ve örnek açıklamalarla birlikte listeler. Ayrıca sütundaki anormal verileri otomatik olarak vurgular.
Önerilen dönüşümü seçiyoruz Nadir hedef değerlerini bırakçünkü nadir hedef değerler için daha az gözlem vardır.
Seçilen dönüşüm Pandas veri çerçevesine uygulandı ve olağandışı hedef değerler hayatta kalan sütundan çıkarıldı. Aşağıdaki koda bakın:
Uygulanan dönüşümün sonuçları veri çerçevesinde hemen görünür. Veri hazırlama widget'ı kullanılarak uygulanan veri hazırlama faaliyetlerini izlemek için dönüştürülen kod aşağıdaki not defteri hücresinde de oluşturulur.
Sonuç
Bu yayında, Studio veri hazırlama widget'ının veri dağıtımlarını analiz etmenize, araç tarafından oluşturulan veri kalitesi analizlerini keşfetmenize ve her kritik özellik için aykırı değerler gibi potansiyel sorunları ortaya çıkarmanıza nasıl yardımcı olabileceği konusunda rehberlik sağladık. Bu, yüksek kaliteli modelleri eğitmenize yardımcı olmak için genel veri kalitesinin iyileştirilmesine yardımcı olur ve kullanıcı arayüzündeki verileri dönüştürmenize ve dizüstü bilgisayar hücreleri için otomatik olarak kod oluşturmanıza olanak tanıyarak farklılaşmamış ağır yükleri ortadan kaldırır. Daha sonra bu kodu, tekrarlanabilirlik oluşturmak, tekrarlanan görevlerde zaman kaybetmekten kaçınmak ve veri düzenleme işlem hatlarının oluşturulmasını ve dağıtımını hızlandırarak uyumluluk sorunlarını azaltmak için MLOps işlem hatlarınızda kullanabilirsiniz.
SageMaker Data Wrangler veya Studio'da yeniyseniz bkz. SageMaker Data Wrangler'ı Kullanmaya Başlayın. Bu gönderiyle ilgili herhangi bir sorunuz varsa, lütfen yorumlar bölümüne ekleyin.
Yazarlar Hakkında
Parth Patel San Francisco Körfez Bölgesi'ndeki AWS'de Çözüm Mimarıdır. Parth, müşterilerin buluta olan yolculuklarını hızlandırmalarına ve AWS Cloud'u başarılı bir şekilde benimsemelerine ve büyümelerine yardımcı olmalarına yardımcı olur. Makine öğrenimi, çevresel sürdürülebilirlik ve uygulama modernizasyonu konularına odaklanıyor.
yatsı duası San Francisco Körfez Bölgesi'nde yerleşik Kıdemli Çözüm Mimarıdır. AWS Enterprise müşterilerinin hedeflerini ve zorluklarını anlayarak büyümelerine yardımcı oluyor ve uygulamalarının dayanıklı ve ölçeklenebilir olmasını sağlarken uygulamalarını bulutta yerel bir şekilde nasıl tasarlayabilecekleri konusunda onlara rehberlik ediyor. Makine öğrenimi teknolojileri ve çevresel sürdürülebilirlik konusunda tutkulu.
Hariharan Suresh AWS'de Kıdemli Çözüm Mimarıdır. Veritabanları, makine öğrenimi ve yenilikçi çözümler tasarlama konusunda tutkulu. AWS'ye katılmadan önce Hariharan, ürün mimarı, temel bankacılık uygulama uzmanı ve geliştiriciydi ve 11 yılı aşkın bir süre BFSI kuruluşlarıyla çalıştı. Teknoloji dışında yamaç paraşütü ve bisiklete binmeyi seviyor.
Dani Mitchell Amazon Web Services'te AI/ML Uzman Çözüm Mimarıdır. Görüntü İşleme kullanım senaryolarına ve EMEA genelindeki müşterilerin makine öğrenimi yolculuklarını hızlandırmalarına yardımcı olmaya odaklanmıştır.
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon Adaçayı Yapıcı
- Amazon SageMaker Veri Düzenleyicisi
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- Orta (200)
- makine öğrenme
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- sözdizimi
- zefirnet