Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.

Amazon SageMaker Canvas ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma

İş analistleri verilerle çalışır ve etkili iş sonuçları elde etmek için verileri analiz etmeyi, keşfetmeyi ve anlamayı sever. İş sorunlarını ele almak için, mevcut verileri kullanarak modeller oluşturmak ve tahminler oluşturmak için makine öğrenimi kullanmak gibi tekniklere yardımcı olmaları için genellikle veri bilimcileri gibi makine öğrenimi (ML) uygulayıcılarına güvenirler. Ancak, veri bilimcileri tipik olarak görevlerine bağlı olduğundan ve analistlere yardımcı olacak bant genişliğine sahip olmadığından, bu her zaman mümkün değildir.

Bir iş analisti olarak bağımsız olmak ve hedeflerinize ulaşmak için ayrıntıları bilmeye ve kod kullanmaya gerek kalmadan makine öğrenimi kullanan kullanımı kolay, sezgisel ve görsel araçlarla çalışmak ideal olacaktır. Bu araçları kullanmak, iş sorunlarınızı çözmenize ve istenen sonuçları elde etmenize yardımcı olacaktır.

Sizin ve kuruluşunuzun daha etkili olmasına ve kod yazmadan makine öğrenimi kullanmanıza yardımcı olmak amacıyla, Amazon SageMaker Canvas'ı tanıttı. Bu, makine öğrenimi algoritmaları ve değerlendirme ölçütleri gibi teknik ayrıntıları öğrenmenize gerek kalmadan doğru makine öğrenimi modelleri oluşturmanıza yardımcı olan kodsuz bir makine öğrenimi çözümüdür. SageMaker Canvas, tek bir satır kod yazmadan verileri içe aktarmanıza, makine öğrenimi modellerini eğitmenize, model analizi gerçekleştirmenize ve makine öğrenimi tahminleri oluşturmanıza olanak tanıyan görsel, sezgisel bir arabirim sunar.

SageMaker Canvas'ı deney yapmak için kullanırken, eksik değerler veya yanlış problem türü gibi veri kalitesi sorunlarıyla karşılaşabilirsiniz. Bu sorunlar, bir makine öğrenimi modelini eğittikten sonraki süreçte çok geç olana kadar keşfedilmeyebilir. Bu zorluğu hafifletmek için SageMaker Canvas artık veri doğrulamayı desteklemektedir. Bu özellik, verilerinizdeki sorunları proaktif olarak kontrol eder ve çözümler konusunda rehberlik sağlar.

Bu gönderide, model oluşturmadan önce SageMaker Canvas içindeki veri doğrulama özelliğini nasıl kullanabileceğinizi göstereceğiz. Adından da anlaşılacağı gibi, bu özellik veri kümenizi doğrular, sorunları bildirir ve bunları düzeltmek için yararlı işaretçiler sağlar. Daha kaliteli veriler kullanarak, daha iyi performans gösteren bir makine öğrenimi modeli elde edeceksiniz.

SageMaker Canvas'ta verileri doğrulayın

Veri Doğrulama, potansiyel veri kalitesi sorunlarını proaktif olarak kontrol etmek için SageMaker Canvas'taki yeni bir özelliktir. Verileri içe aktardıktan ve bir hedef sütun seçtikten sonra, burada gösterildiği gibi size verilerinizi doğrulama seçeneği sunulur:

Verilerinizi doğrulamayı seçerseniz Canvas, verilerinizi aşağıdakiler de dahil olmak üzere çok sayıda koşul için analiz eder:

  • Hedef sütununuzda çok fazla benzersiz etiket var – kategori tahmin modeli türü için
  • Verilerinizdeki satır sayısına göre hedef sütununuzda çok fazla benzersiz etiket var – kategori tahmin modeli türü için
  • Verileriniz için yanlış model türü – model tipi, Hedef sütununda tahmin ettiğiniz verilere uymuyor
  • Çok fazla geçersiz satır – hedef sütununuzdaki eksik değerler
  • Tüm özellik sütunları metin sütunlarıdır – standart yapılar için bırakılacaklar
  • Çok az sütun – verilerinizde çok az sütun var
  • Tam satır yok – verilerinizdeki tüm satırlar eksik değerler içeriyor
  • Bir veya daha fazla sütun adı çift alt çizgi içeriyor – SageMaker, sütun başlığındaki (__) işaretini işleyemez

Her doğrulama kriteri için ayrıntılar bu gönderinin sonraki bölümlerinde verilecektir.

Tüm kontrollerden geçilirse aşağıdaki onayı alırsınız: "Veri kümenizde hiçbir sorun bulunamadı".

Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.

Herhangi bir sorun bulunursa, görüntülemeniz ve anlamanız için bir bildirim alırsınız. Bu, veri kalitesi sorunlarını erken ortaya çıkarır ve süreçte daha fazla zaman ve kaynak israf etmeden önce bunları hemen çözmenize olanak tanır.

Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai. Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.

Ayarlamalarınızı yapabilir ve tüm sorunlar çözülene kadar veri kümenizi doğrulamaya devam edebilirsiniz.

Hedef sütunu ve model türlerini doğrulayın

SageMaker Canvas'ta bir makine öğrenimi modeli oluştururken, makine öğrenimi ile ilgili çeşitli veri kalitesi sorunları hedef sütun model yapınızın başarısız olmasına neden olabilir. SageMaker Canvas, çalışmanızı etkileyebilecek farklı türden sorunları kontrol eder. hedef sütun.

Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.

  1. Hedef sütununuz için kontrol edin Verileriniz için yanlış model türü. Örneğin, 2 kategorili bir tahmin modeli seçilirse ancak hedef sütununuzda 2'den fazla benzersiz etiket varsa, SageMaker Canvas aşağıdaki doğrulama uyarısını verir.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.
  2. Model tipi 2 veya 3+ kategori tahmini ise doğrulamanız gerekir çok fazla benzersiz etiket hedef sütununuz için. Maksimum benzersiz sınıf sayısı 2000'dir. Hedef sütununuzda 2000'den fazla benzersiz değere sahip bir sütun seçerseniz, Canvas aşağıdaki doğrulama uyarısını verir.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.
  3. Çok fazla benzersiz hedef etiketine ek olarak, şunlara da dikkat etmelisiniz: verilerinizdeki satır sayısı için birçok benzersiz hedef etiketi. SageMaker Canvas, hedef etiketin toplam satır sayısına oranının %10'dan az olmasını zorunlu kılar. Bu, yüksek kaliteli bir model için her kategori için yeterli temsile sahip olmanızı sağlar ve fazla takma olasılığını azaltır. Modeliniz, eğitim verileri üzerinde iyi tahminde bulunurken daha önce görmediği yeni veriler üzerinde öngörüde bulunmadığında, fazla uygun olarak kabul edilir. Bahsetmek okuyun daha fazla öğrenmek için.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.
  4. Son olarak, hedef sütun için son kontrol çok fazla geçersiz satır. Hedef sütununuzda verilerin %10'dan fazlası eksik veya geçersizse bu, model performansınızı etkiler ve bazı durumlarda model oluşturma işleminizin başarısız olmasına neden olur. Aşağıdaki örnekte, hedef sütununda birçok eksik değer (>%90 eksik) var ve aşağıdaki doğrulama uyarısını alıyorsunuz.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.

Hedef sütununuz için yukarıdaki uyarılardan herhangi birini alırsanız sorunları azaltmak için aşağıdaki adımları kullanın:

  1. Doğru hedef sütunu mu kullanıyorsunuz?
  2. Doğru model tipini seçtiniz mi?
  3. Hedef etiket başına veri kümenizdeki satır sayısını artırabilir misiniz?
  4. Benzer etiketleri birleştirebilir/gruplandırabilir misiniz?
  5. Eksik/geçersiz değerleri doldurabilir misiniz?
  6. Eksik/geçersiz değerleri bırakabileceğiniz yeterli veriye sahip misiniz?
  7. Yukarıdaki seçeneklerin hiçbiri uyarıyı temizlemiyorsa, farklı bir veri kümesi kullanmayı düşünmelisiniz.

Bakın SageMaker Canvas veri dönüştürme belgeleri yukarıda belirtilen atama adımlarını gerçekleştirmek için.

Tüm sütunları doğrula

Hedef sütun dışında, diğer veri sütunlarında (özellik sütunlarında) da veri kalitesi sorunlarıyla karşılaşabilirsiniz. Özellikler sütunları, makine öğrenimi tahmini yapmak için kullanılan girdi verileridir.

  • Her veri kümesinde en az 1 özellik sütunu ve 1 hedef sütun (toplamda 2 sütun) bulunmalıdır. Aksi takdirde, SageMaker Canvas size bir Verilerinizde çok az sütun var uyarı. Bir model oluşturmaya devam etmeden önce bu gereksinimi karşılamanız gerekir.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.
  • Bundan sonra, verilerinizde en az 1 sayısal sütun olduğundan emin olmalısınız. Değilse, o zaman alacaksınız tüm özellik sütunları metin sütunlarıdır uyarı. Bunun nedeni, standart derlemeler sırasında metin sütunlarının genellikle bırakılması ve böylece modelin eğitilecek hiçbir özellik bırakmamasıdır. Bu nedenle, bu, model oluşturma işleminizin başarısız olmasına neden olacaktır. Bazı metin sütunlarını sayılara kodlamak için SageMaker Canvas'ı kullanabilir veya standart derleme yerine hızlı oluşturmayı kullanabilirsiniz.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.
  • Özellik sütunları için alabileceğiniz üçüncü uyarı türü, Tam satır yok. Bu doğrulama, eksik değer içermeyen en az bir satırınız olup olmadığını kontrol eder. SageMaker Canvas en az bir tam satır gerektirir, aksi halde hızlı inşa başaramayacak. Modeli oluşturmadan önce eksik değerleri doldurmaya çalışın.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.
  • Son doğrulama türü Bir veya daha fazla sütun adı çift alt çizgi içeriyor. Bu, SageMaker Canvas'a özgü bir gerekliliktir. Sütun başlıklarınızda çift alt çizgi (__) varsa, bu durum hızlı inşa başaramamak. Çift alt çizgileri kaldırmak için sütunları yeniden adlandırın ve yeniden deneyin.
    Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.

Temizlemek

Gelecekle karşılaşmamak için seans ücretleri, SageMaker Canvas oturumunu kapatın.

Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.

Sonuç

SageMaker Canvas, iş analistlerinin doğru makine öğrenimi modelleri oluşturmasına ve görsel, işaretle ve tıkla arabirimi aracılığıyla tahminler oluşturmasına olanak tanıyan kodsuz bir makine öğrenimi çözümüdür. SageMaker Canvas'ın, veri setini proaktif olarak doğrulayarak veri kalitesinden emin olmanıza ve veri sorunlarını azaltmanıza nasıl yardımcı olduğunu gösterdik. SageMaker Canvas, sorunları erkenden belirleyerek kaliteli makine öğrenimi modelleri oluşturmanıza ve veri bilimi ve programlama uzmanlığı olmadan derleme yinelemelerini azaltmanıza yardımcı olur. Bu yeni özellik hakkında daha fazla bilgi edinmek için bkz. SageMaker Canvas belgeleri.

Başlamak ve SageMaker Canvas hakkında daha fazla bilgi edinmek için aşağıdaki kaynaklara bakın:


yazarlar hakkında

Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai. Hariharan Suresh AWS'de Kıdemli Çözüm Mimarıdır. Veritabanları, makine öğrenimi ve yenilikçi çözümler tasarlama konusunda tutkulu. AWS'ye katılmadan önce Hariharan, ürün mimarı, temel bankacılık uygulama uzmanı ve geliştiriciydi ve 11 yılı aşkın bir süre BFSI kuruluşlarıyla çalıştı. Teknoloji dışında yamaç paraşütü ve bisiklete binmeyi seviyor.

Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.Sainath Miryala AWS'de ABD'deki otomotiv müşterileri için çalışan Kıdemli Teknik Müşteri Yöneticisidir. Sainath, AI/ML kullanarak büyük ölçekli dağıtılmış uygulamalar tasarlama ve oluşturma konusunda tutkulu. Sainath boş zamanlarında ailesi ve arkadaşlarıyla vakit geçirir.

Amazon SageMaker Canvas PlatoBlockchain Veri Zekası ile kodsuz makine öğrenimi modelleri oluştururken yaygın veri sorunlarını belirleme ve bunlardan kaçınma. Dikey Arama. Ai.James Wu AWS'de Kıdemli AI/ML Uzman Çözüm Mimarıdır. müşterilerin AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur. James'in çalışması, bilgisayar vizyonu, derin öğrenme ve kurum genelinde ML'yi ölçeklendirmeye ilgi duyan çok çeşitli ML kullanım durumlarını kapsar. AWS'ye katılmadan önce James, 10 yılı mühendislik ve 6 yılı pazarlama ve reklamcılık sektörlerinde olmak üzere 4 yılı aşkın bir süredir mimar, geliştirici ve teknoloji lideriydi.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi