Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler ile rastgele ve katmanlara ayrılmış veri örnekleri oluşturun

Bu yazıda, iki örnekleme tekniğinde size yol göstereceğiz. Amazon SageMaker Veri Düzenleyicisi böylece verileriniz için hızlı bir şekilde işleme iş akışları oluşturabilirsiniz. Verilerinizi özel gereksinimlerinize göre örneklemenize yardımcı olmak için hem rastgele örnekleme hem de tabakalı örnekleme tekniklerini ele alıyoruz.

Data Wrangler, verileri toplamak ve makine öğrenimi (ML) için hazırlamak için gereken süreyi haftalardan dakikalara indirir. Veri hazırlama ve özellik mühendisliği sürecini basitleştirebilir ve veri seçimi, temizleme, keşif ve görselleştirme dahil olmak üzere veri hazırlama iş akışının her adımını tek bir görsel arayüzden tamamlayabilirsiniz. Data Wrangler'ın veri seçim aracı ile çeşitli veri kaynaklarından istediğiniz verileri seçip tek tıkla içe aktarabilirsiniz. Data Wrangler, herhangi bir kod yazmak zorunda kalmadan özellikleri hızla normalleştirebilmeniz, dönüştürebilmeniz ve birleştirebilmeniz için 300'ün üzerinde yerleşik veri dönüşümü içerir. Data Wrangler'ın görselleştirme şablonları ile hızlı bir şekilde ön izleme yapabilir ve bu dönüşümlerin istediğiniz gibi tamamlanıp tamamlanmadığını inceleyebilirsiniz. Amazon SageMaker StüdyosuML için ilk tam entegre geliştirme ortamı (IDE). Verileriniz hazırlandıktan sonra, tam otomatik makine öğrenimi iş akışları oluşturabilirsiniz. Amazon SageMaker Ardışık Düzenleri ve yeniden kullanmak üzere kaydedin Amazon SageMaker Özellik Mağazası.

Örnekleme nedir ve nasıl yardımcı olabilir?

İstatistiksel analizde, toplam gözlem seti olarak bilinir. nüfus. Verilerle çalışırken, popülasyondan alınan her gözlemi ölçmek genellikle hesaplama açısından mümkün değildir. İstatistiksel örnekleme popülasyondan alt kümeler seçerek verilerinizi anlamanızı sağlayan bir prosedürdür.

Örnekleme, pratiklik ve kolaylık adına doğruluktan biraz ödün veren pratik bir çözüm sunar. Örneğinizin genel popülasyonu iyi bir şekilde temsil etmesini sağlamak için örnekleme stratejileri kullanabilirsiniz. Data Wrangler, en yaygın iki stratejiyi destekler: rastgele örnekleme ve tabakalı örnekleme.

Rasgele örnekleme

Büyük bir veri kümeniz varsa, bu veri kümesi üzerinde deneme yapmak zaman alabilir. Data Wrangler, verilerinizi verimli bir şekilde işleyebilmeniz ve görselleştirebilmeniz için rastgele örnekleme sağlar. Örneğin, bir müşteri için bir zaman çerçevesindeki ortalama satın alma sayısını hesaplamak isteyebilirsiniz veya bir abonenin yıpranma oranını hesaplamak isteyebilirsiniz. Bu metriklere yönelik yaklaşımları görselleştirmek için rastgele bir örnek kullanabilirsiniz.

Veri kümenizden rastgele bir örnek seçilir, böylece her öğenin seçilme olasılığı eşit olur. Bu işlem, büyük veri kümelerine uygun verimli bir şekilde gerçekleştirilir, bu nedenle döndürülen örnek boyutu yaklaşık olarak istenen boyuttur ve istenen boyuta eşit olması gerekmez.

Veri kümenizi anlamak için hızlı yaklaşık hesaplamalar yapmak istiyorsanız rastgele örneklemeyi kullanabilirsiniz. Örnek boyutu büyüdükçe, rastgele örnek tüm veri kümesine daha iyi yaklaşabilir, ancak tüm veri noktalarını dahil etmediğiniz sürece, rastgele örneğiniz tüm aykırı değerleri ve uç durumları içermeyebilir. Tüm veri kümenizi etkileşimli olarak hazırlamak istiyorsanız daha büyük bir örnek türüne de geçebilirsiniz.

Genel bir kural olarak, rastgele bir örnek kullanarak popülasyon ortalamasını hesaplamadaki örnekleme hatası, örneklem büyüdükçe 0'a eğilim gösterir. Örnek boyutu arttıkça, örnek boyutunun karekökünün tersi olarak hata azalır. Örneklem ne kadar büyük olursa, yaklaşım o kadar iyi olur.

Tabakalı örnekleme

Bazı durumlarda, nüfusunuz katmanlara veya adreslerin coğrafi konumu, şarkıların yayınlanma yılı veya gelirler için vergi dilimleri gibi birbirini dışlayan bölümlere ayrılabilir. Rastgele örnekleme en popüler örnekleme tekniğidir, ancak popülasyonunuzda bazı katmanlar yaygın değilse, her katmanın örnekleminizde orantılı olarak temsil edilmesini sağlamak için Veri Wrangler'da katmanlara ayrılmış örneklemeyi kullanabilirsiniz. Bu, örnekleme hatalarını azaltmak ve denemeniz sırasında uç vakaları yakaladığınızdan emin olmak için yararlı olabilir.

Gerçek dünyada, sahte kredi kartı işlemleri nadir görülen olaylardır ve genellikle verilerinizin %1'inden daha azını oluşturur. Rastgele numune alacak olsaydık, numunenin çok az sayıda hileli işlem içermesi veya hiç içermemesi nadir görülen bir durum değildir. Sonuç olarak, bir modeli eğitirken, doğru bir model öğrenmek için çok az sayıda sahte örneğe sahip oluruz. Hileli işlemlerin orantılı temsiline sahip olduğumuzdan emin olmak için tabakalı örnekleme kullanabiliriz.

Tabakalı örneklemede, numunedeki her tabakanın büyüklüğü, popülasyondaki tabakaların büyüklüğü ile orantılıdır. Bu, verilerinizi belirttiğiniz sütuna göre katmanlara bölerek, her katmandan doğru orantı ile rastgele örnekler seçerek ve bu örnekleri popülasyonun katmanlara ayrılmış bir örneğinde birleştirerek çalışır.

Tabakalı örnekleme, verilerinizdeki farklı grupların birbirleriyle nasıl karşılaştırıldığını anlamak istediğinizde ve her gruptan uygun temsili aldığınızdan emin olmak istediğinizde yararlı bir tekniktir.

Amazon S3'ten içe aktarırken rastgele örnekleme

Bu bölümde, dolandırıcılık tespit sistemimizden hem dolandırıcılık hem de dolandırıcılık dışı olaylardan oluşan bir veri seti ile rastgele örnekleme kullanıyoruz. Yapabilirsin indir bu gönderiyle birlikte izlenecek veri kümesi (CC 4.0 uluslararası atıf lisansı).

Bu yazı yazılırken, veri kümelerini şu adresten içe aktarabilirsiniz: Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, Amazon Kırmızıya Kaydırma, ve Kar tanesi. Veri kümemiz çok büyük, 1 milyon satır içeriyor. Bu durumda, Data Wrangler'da bazı etkileşimli deneyler için Amazon S1,0000'ten içe aktarılan 3 satırı örneklemek istiyoruz.

  1. SageMaker Studio'yu açın ve yeni bir Data Wrangler akışı oluşturun.
  2. Altında Tarihleri ​​içe aktar, seçmek Amazon S3.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.
  3. İçe aktarılacak veri kümesini seçin.
  4. içinde - Detaylar bölmesinde veri kümesi adınızı ve dosya türünüzü sağlayın.
  5. İçin Örnekleme, seçmek Rasgele.
  6. İçin Örnek boyut, girmek 10000.
  7. Klinik ithalat veri kümesini Data Wrangler'a yüklemek için.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Data Wrangler'daki veri akışı sayfasında iki farklı adımı görselleştirebilirsiniz. İlk adım, tanımladığınız örnekleme stratejisine dayalı olarak örnek veri kümesinin yüklenmesini gösterir. Veriler yüklendikten sonra Data Wrangler, veri kümesindeki sütunların her biri için veri türlerinin otomatik olarak algılanmasını gerçekleştirir. Bu adım, tüm veri kümeleri için varsayılan olarak eklenir.

Artık bir analiz ekleyerek Data Wrangler'da rastgele örneklenmiş verileri inceleyebilirsiniz.

  1. yanındaki artı işaretini seçin Veri tipleri Ve seç Analiz.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.
  2. İçin Analiz türüSeç Dağılım grafiği.
  3. Klinik ustalık_1 ve ustalık_2 olduğu gibi X ekseni ve Y ekseni, Sırasıyla.
  4. İçin Renk, seçmek is_dolandırıcılık.

Veri kümesinden memnun kaldığınızda, verilerinizi makine öğrenimi için hazırlamak için iş gereksinimlerinize göre daha fazla veri dönüşümü yapmaya devam edin.

Aşağıdaki ekran görüntüsünde hileli (lacivert) ve hileli olmayan (açık mavi) işlemleri analizimizde gözlemleyebiliriz.
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Bir sonraki bölümde, hileli vakaların orantılı olarak seçilmesini sağlamak için tabakalı örneklemeyi kullanmayı tartışacağız.

Dönüşümlü tabakalı örnekleme

Data Wrangler, bir dönüşüm yoluyla örneklemenin yanı sıra içe aktarma sırasında örnekleme yapmanızı sağlar. Bu bölümde, veri kümenizi Data Wrangler'a aktardıktan sonra bir dönüşüm yoluyla tabakalı örneklemeyi kullanmayı tartışacağız.

  1. Örneklemeyi başlatmak için, Veri akışı sekmesinde, içe aktarılan veri kümesinin yanındaki artı işaretini seçin ve Dönüşüm Ekle.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Bu yazının yazıldığı sırada, Data Wrangler aşağıdakilerden daha fazlasını sağlar: 300 yerleşik dönüşüm. Yerleşik dönüşümlere ek olarak, Pandas veya PySpark'ta kendi özel dönüşümlerinizi yazabilirsiniz.

  1. itibaren Dönüşüm ekle listeyi seç Örnekleme.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Artık üç farklı örnekleme stratejisi kullanabilirsiniz: limitli, rastgele ve tabakalı.
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

  1. İçin Örnekleme yöntemi, seçmek tabakalı.
  2. Kullan is_fraud sütun, tabakalandırma sütunu olarak.
  3. Klinik Önizleme dönüşümü önizlemek için, ardından Ekle bu dönüşümü dönüşüm tarifinize bir adım olarak eklemek için.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Veri akışınız artık eklenen örnekleme adımını yansıtıyor.
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Artık rastgele örneklenen verileri bir analiz ekleyerek gözden geçirebiliriz.

  1. Artı işaretini seçin ve seçin Analiz.
  2. İçin Analiz türüSeç Histogram.
  3. Klinik is_dolandırıcılık her ikisi için X ekseni ve Renk.
  4. Klinik Önizleme.

Aşağıdaki ekran görüntüsünde, tabakalı örnekleme yoluyla seçilen hileli (lacivert) ve hileli olmayan (açık mavi) vakaların %20 hileli ve %80 hileli olmayan doğru oranlarda kırılımını görebiliriz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.

Sonuç

Son derece büyük veri kümeleriyle çalışırken verileri doğru şekilde örneklemek ve iş gereksinimlerinizi karşılamak için doğru örnekleme stratejisini seçmek çok önemlidir. Örneklemenizin etkinliği, iş sonucu, veri kullanılabilirliği ve dağıtım dahil olmak üzere çeşitli faktörlere bağlıdır. Bu gönderide, verilerinizi hazırlamak için Data Wrangler'ı ve yerleşik örnekleme stratejilerini nasıl kullanacağınızı ele aldık.

Bu özelliği bugün SageMaker Studio'nun kullanılabildiği tüm Bölgelerde kullanmaya başlayabilirsiniz. Başlamak için ziyaret edin Amazon SageMaker Data Wrangler ile ML Verilerini Hazırlayın.

Teşekkür

Yazarlar, Jonathan Chung'a (Applied Scientist) bu makaleyle ilgili incelemesi ve değerli geri bildirimi için teşekkür eder.


Yazarlar Hakkında

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.Ben Harris çeşitli alanlarda ölçeklenebilir veri boru hatları ve makine öğrenimi çözümleri tasarlama, dağıtma ve sürdürme deneyimine sahip bir yazılım mühendisidir.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.Vişaal Kapoor AWS AI ile Kıdemli Uygulamalı Bilim Adamıdır. Müşterilerin Data Wrangler'daki verilerini anlamalarına yardımcı olma konusunda tutkulu. Boş zamanlarında dağ bisikleti, snowboard ve ailesiyle vakit geçiriyor.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.Meenakshisundaram Thandavarayan AWS'de kıdemli bir AI/ML uzmanıdır. Hi-Tech stratejik hesaplarının AI ve ML yolculuklarında yardımcı olur. Veriye dayalı yapay zeka konusunda çok tutkulu.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile rastgele ve katmanlı veri örnekleri oluşturun. Dikey Arama. Ai.Ajai Sharma Amazon SageMaker'ın Baş Ürün Yöneticisi ve burada veri bilimcileri için görsel bir veri hazırlama aracı olan Data Wrangler'a odaklanıyor. Ajai, AWS'den önce McKinsey and Company'de Veri Bilimi Uzmanıydı ve burada dünya çapında önde gelen finans ve sigorta firmaları için ML odaklı anlaşmaları yönetti. Ajai, veri bilimi konusunda tutkulu ve en yeni algoritmaları ve makine öğrenimi tekniklerini keşfetmeyi seviyor.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi