Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleriyle tanışın

Veri kalitesini manuel olarak incelemek ve verileri temizlemek, bir projede bir veri bilimcinin zamanının büyük bir kısmını alabilen sancılı ve zaman alan bir süreçtir. Anaconda tarafından yürütülen 2020 veri bilimci anketine göre, veri bilimcileri zamanlarının yaklaşık %66'sını yükleme (%19), temizleme (%26) ve verileri görselleştirme (%21) dahil olmak üzere veri hazırlama ve analiz görevlerine harcıyor. Amazon Adaçayı Yapıcı farklı müşteri ihtiyaçlarını ve tercihlerini karşılamak için bir dizi veri hazırlama aracı sunar. GUI tabanlı etkileşimli arayüzü tercih eden kullanıcılar için, SageMaker Veri Wrangler Spark tarafından desteklenen verileri tek bir kod satırı yazmadan verimli bir şekilde işlemek için 300'den fazla yerleşik görselleştirme, analiz ve dönüşüm sunar.

Makine öğreniminde (ML) veri görselleştirme yinelemeli bir süreçtir ve keşif, araştırma ve doğrulama için veri kümesinin sürekli olarak görselleştirilmesini gerektirir. Verileri perspektife oturtmak, olası veri hatalarını, eksik değerleri, yanlış veri türlerini, yanıltıcı/yanlış verileri, aykırı verileri ve daha fazlasını anlamak için sütunların her birini görmeyi gerektirir.

Bu yazıda, size nasıl olduğunu göstereceğiz Amazon SageMaker Veri Düzenleyicisi veri dağıtımının temel görselleştirmelerini otomatik olarak oluşturur, veri kalitesi sorunlarını tespit eder ve tek bir kod satırı yazmadan her özellik için aykırı değerler gibi veri içgörülerini ortaya çıkarır. Otomatik kalite uyarılarıyla (örneğin, eksik değerler veya geçersiz değerler) veri ızgarası deneyiminin iyileştirilmesine yardımcı olur. Otomatik olarak oluşturulan görselleştirmeler de etkileşimlidir. Örneğin, en sık kullanılan ilk beş öğenin yüzdeye göre sıralanmış bir tablosunu gösterebilir ve sayı ile yüzde arasında geçiş yapmak için çubuğun üzerine gelin.

Önkoşullar

Amazon SageMaker Data Wrangler, SageMaker Studio'da sunulan bir SageMaker özelliğidir. Takip edebilirsin Studio katılım süreci Studio ortamını ve not defterlerini hızlandırmak için. Birkaç kimlik doğrulama yönteminden birini seçebilseniz de, bir Studio etki alanı oluşturmanın en basit yolu şu adımları izlemektir: Hızlı başlangıç ​​talimatları. Hızlı başlangıç, standart Studio kurulumuyla aynı varsayılan ayarları kullanır. Ayrıca şunu kullanarak katılmayı da seçebilirsiniz: AWS Kimlik ve Erişim Yönetimi (IAM) Kimlik Merkezi (AWS Single Sign-On'un halefi) kimlik doğrulaması için (bkz. IAM Identity Center'ı Kullanarak Amazon SageMaker Etki Alanında Yerleşik).

Çözüm İzlenecek Yol

başlangıç Adaçayı Yapıcı Stüdyo Çevre ve yeni bir ortam oluşturun Veri Wrangler akışı. Kendi veri kümenizi içe aktarabilir veya örnek bir veri kümesi kullanabilirsiniz (Titanik) aşağıdaki resimde görüldüğü gibi. Bu iki düğüm ( kaynak düğüm ve veri tip düğüm) tıklanabilir - bu iki düğümü çift tıklattığınızda, Data Wrangler tabloyu görüntüler.

Bizim durumumuzda, sağ tıklayın Veri tipleri simge ve dönüşüm ekle:

Artık her sütunun üstünde görselleştirmeler görmelisiniz. Grafiklerin yüklenmesi için lütfen biraz bekleyin. Gecikme, veri kümesinin boyutuna bağlıdır (Titanic veri kümesi için, varsayılan örnekte 1-2 saniye sürmelidir).

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Araç ipucunun üzerine gelerek yatay üst çubuğa ilerleyin. Artık grafikler yüklendiğine göre veri dağılımını, geçersiz değerleri ve eksik değerleri görebilirsiniz. Aykırı değerler ve eksik değerler, hatalı verilerin özellikleridir ve sonuçlarınızı etkileyebileceklerinden bunları belirlemek çok önemlidir. Bu, verileriniz temsili olmayan bir örneklemden geldiği için bulgularınızın çalışmanızın dışındaki durumlara genellenemeyebileceği anlamına gelir. Değerlerin sınıflandırılması aşağıdaki tablolarda görülebilir. geçerli değerler beyazla gösterilir, geçersiz mavi değerler ve eksik mor değerler. Ayrıca şuraya da bakabilirsiniz: aykırı grafiğin solunda veya sağında mavi noktalarla gösterilir.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Tüm görselleştirmeler histogramlar biçiminde gelir. Kategorik olmayan veriler için, her bölme için bir kova seti tanımlanır. Kategorik veriler için, her benzersiz değer bir bölme olarak değerlendirilir. Histogramın üstünde, geçersiz ve eksik değerleri gösteren bir çubuk grafik vardır. Numeric, Categorical, Binary, Text ve Datetime türleri için geçerli değerlerin oranının yanı sıra toplam boş ve boş hücrelere dayalı eksik değerlerin oranını ve son olarak geçersiz değerlerin oranını görebiliriz. Bunları kullanarak nasıl görebileceğinizi anlamak için bazı örneklere bakalım. Data Wrangler'ın önceden yüklenmiş örneği Titanic Dataset.

Örnek 1 – için %20 eksik değerlere bakabiliriz. YAŞ özellik/sütun. Veriyle ilgili araştırma/ML alanındaki eksik verileri ya kaldırarak ya da atfederek (eksik değerleri bir miktar tahminle ele alarak) ele almak çok önemlidir.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.
kullanarak eksik değerleri işleyebilirsiniz. Eksik değerleri işle grubu dönüştür. Kullan İkna eksik giriş sütununda eksik değerlerin bulunduğu yerlerde emsal değerler oluşturmak için dönüştürün. Yapılandırma, veri türünüze bağlıdır.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Bu örnekte, YAŞ sütun sayısal veri türüne sahiptir. Atama stratejisi için, ortalama ya da yaklaşık medyan veri kümenizde bulunan değerlerin üzerinde.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Şimdi dönüşümü eklediğimize göre, YAŞ sütununda artık eksik değerler yok.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Örnek 2 – için %27 geçersiz değerlere bakabiliriz. BİLET özellik/sütun STRING tip. Geçersiz veriler, bir modelin doğruluğunu azaltabilecek ve yanlış sonuçlara yol açabilecek önyargılı tahminler üretebilir. Geçersiz verileri işlemek için kullanabileceğimiz bazı dönüşümleri keşfedelim. BİLET sütun.

Ekran görüntüsüne baktığımızda bazı girişlerin rakamlardan önce harfleri içeren bir formatta yazıldığını görüyoruz”PC 17318” ve diğerleri sadece “ gibi rakamlardır.11769 anlayışının sonucu olarak, buzdolabında iki üç günden fazla durmayan küçük şişeler elinizin altında bulunur.

"" gibi dizeler içindeki belirli kalıpları aramak ve düzenlemek için bir dönüşüm uygulamayı seçebiliriz.bilgisayar” ve değiştirin. Ardından, dizi sütun gibi yeni bir türe Uzun kullanım kolaylığı için.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Bu bize hala %19 eksik değerler bırakıyor. BİLET özellik. Örnek 1'e benzer şekilde, artık eksik değerleri ortalama veya yaklaşık medyan kullanarak hesaplayabiliriz. özellik BİLET aşağıdaki görüntüye göre artık geçersiz veya eksik değerlere sahip olmamalıdır.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.

Bu eğiticiyi izledikten sonra ücrete tabi tutulmadığınızdan emin olmak için şunları yaptığınızdan emin olun: Data Wrangler uygulamasını kapatın.

Sonuç 

Bu yazımızda sizlere yeni Amazon Sagemaker Veri Düzenleyicisi kaldırılmasına yardımcı olacak widget farklılaşmamış ağır kaldırma her özellik için otomatik olarak ortaya çıkan görselleştirmeler ve veri profili oluşturma içgörüleri ile veri hazırlığı sırasında son kullanıcılar için. Bu pencere öğesi, verileri görselleştirmeyi (örneğin, kategorik/kategorik olmayan histogram), veri kalitesi sorunlarını (örneğin, eksik değerler ve geçersiz değerler) tespit etmeyi ve veri öngörülerini (örneğin, aykırı değerler ve ilk N öğe) ortaya çıkarmayı kolaylaştırır.

SageMaker Studio'nun kullanıma sunulduğu tüm bölgelerde bu yeteneği bugünden kullanmaya başlayabilirsiniz. Denemekve ne düşündüğünüzü bize bildirin. Her zaman AWS destek kişileriniz aracılığıyla veya AWS Forumu SageMaker için.


Yazarlar Hakkında

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.yatsı duası San Francisco Körfez Bölgesi'nde yerleşik bir Kıdemli Çözüm Mimarıdır. AWS Enterprise müşterilerinin hedeflerini ve zorluklarını anlayarak büyümelerine yardımcı olur ve esnek ve ölçeklenebilir olduklarından emin olarak uygulamalarını bulutta yerel bir şekilde nasıl tasarlayabilecekleri konusunda onlara rehberlik eder. Makine öğrenimi teknolojileri ve çevresel sürdürülebilirlik konusunda tutkulu.

Amazon SageMaker Data Wrangler'ın yeni yerleşik görselleştirmeleri PlatoBlockchain Data Intelligence ile tanışın. Dikey Arama. Ai.Parth Patel San Francisco Körfez Bölgesi'ndeki AWS'de Çözüm Mimarıdır. Parth, müşterilere buluta olan yolculuklarını hızlandırmaları için rehberlik eder ve AWS Cloud'u başarılı bir şekilde benimsemelerine yardımcı olur. Makine öğrenimi ve uygulama modernizasyonuna odaklanmaktadır.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi