Bu yazımızda yeni bir analiz sunuyoruz. Veri Kalitesi ve Öngörüler Raporu of Amazon SageMaker Veri Düzenleyicisi. Bu analiz, metin özelliklerinin doğruluğunu doğrulamanıza ve onarım veya ihmal nedeniyle geçersiz satırları ortaya çıkarmanıza yardımcı olur.
Data Wrangler, verileri makine öğrenimi (ML) için toplamak ve hazırlamak için gereken süreyi haftalardan dakikalara indirir. Veri hazırlama ve özellik mühendisliği sürecini basitleştirebilir ve veri seçimi, temizleme, keşfetme ve görselleştirme dahil olmak üzere veri hazırlama iş akışının her adımını tek bir görsel arayüzden tamamlayabilirsiniz.
Çözüme genel bakış
Veri ön işleme genellikle e-posta adresleri, telefon numaraları ve ürün adları gibi metin verilerinin temizlenmesini içerir. Bu veriler, normal ifadelerle tanımlanabilecek temel bütünlük kısıtlamalarına sahip olabilir. Örneğin, yerel bir telefon numarasının geçerli sayılması için aşağıdaki gibi bir modeli izlemesi gerekebilir: [1-9][0-9]{2}-[0-9]{4}
, sıfırdan farklı bir rakamla eşleşir, ardından iki rakam daha gelir, ardından bir tire gelir ve ardından dört rakam daha gelir.
Geçersiz verilerle sonuçlanan yaygın senaryolar, örneğin çeşitli formatlardaki telefon numaraları (5551234 vs. 555 1234 vs. 555-1234) veya 0, 911 veya 411 gibi beklenmedik veriler gibi tutarsız insan girişlerini içerebilir. Bir müşteri çağrı merkezi için, 0, 911 veya 411 gibi sayıları atlamak ve 5551234 veya 555 1234 gibi girişleri doğrulamak (ve muhtemelen düzeltmek) önemlidir.
Ne yazık ki, metinsel kısıtlamalar mevcut olmasına rağmen verilerle birlikte sağlanamayabilir. Bu nedenle veri seti hazırlayan bir veri bilimcinin verilere bakarak kısıtlamaları manuel olarak ortaya çıkarması gerekir. Bu sıkıcı, hataya açık ve zaman alıcı olabilir.
Desen öğrenme, verilerinizi otomatik olarak analiz eder ve veri kümeniz için geçerli olabilecek metin kısıtlamalarını ortaya çıkarır. Örneğin telefon numaralarıyla ilgili olarak, model öğrenme verileri analiz edebilir ve telefon numaralarının büyük çoğunluğunun metinsel kısıtlamaya uyduğunu belirleyebilir. [1-9][0-9]{2}-[0-9][4]
. Ayrıca, geçersiz veri örneklerinin olduğu konusunda sizi uyarabilir, böylece bunları hariç tutabilir veya düzeltebilirsiniz.
Aşağıdaki bölümlerde, ürün kategorileri ve SKU (stok tutma birimi) kodlarından oluşan kurgusal bir veri kümesi kullanarak Data Wrangler'da model öğrenmenin nasıl kullanılacağını gösteriyoruz.
Bu veri kümesi, ürünleri şirkete, markaya ve enerji tüketimine göre tanımlayan özellikler içerir. Özellikle, hatalı biçimlendirilmiş bir özellik SKU'su içerir. Bu veri setindeki tüm veriler kurgusaldır ve rastgele marka adları ve cihaz adları kullanılarak rastgele oluşturulmuştur.
Önkoşullar
Data Wrangler'ı kullanmaya başlamadan önce, indir örnek veri kümesini oluşturun ve içindeki bir konuma yükleyin. Amazon Basit Depolama Hizmeti (Amazon S3). Talimatlar için bkz. Nesneleri yükleme.
Veri kümenizi içe aktarın
Veri kümenizi içe aktarmak için aşağıdaki adımları tamamlayın:
- Data Wrangler'da şunu seçin: ML için Verileri İçe Aktarın ve Keşfedin.
- Klinik ithalat.
- İçin Tarihleri içe aktar, seçmek Amazon S3.
- Dosyayı Amazon S3'te bulun ve seçin ithalat.
İçe aktarmanın ardından veri akışına geçebiliriz.
Veri içgörüleri alın
Bu adımda veri kalitesiyle ilgili bilgileri içeren bir veri öngörüleri raporu oluşturuyoruz. Daha fazla bilgi için bkz. Veri ve Veri Kalitesi Hakkında Öngörüler Alın. Aşağıdaki adımları tamamlayın:
- Üzerinde Veri akışı sekmesinde yanındaki artı işaretini seçin Veri tipleri.
- Klinik Veri içgörüleri alın.
- İçin Analiz türü, seçmek Veri Kalitesi ve Öngörüler Raporu.
- Bu yazı için ayrılın Hedef sütun ve Sorun tipi boş.Veri kümenizi hedef özelliğe sahip bir regresyon veya sınıflandırma görevi için kullanmayı planlıyorsanız, bu seçenekleri seçebilirsiniz; rapor, giriş özelliklerinizin hedefinizle nasıl ilişkili olduğuna ilişkin analizleri içerecektir. Örneğin hedef sızıntıya ilişkin raporlar üretebilmektedir. Daha fazla bilgi için bkz. Hedef sütun.
- Klinik oluşturmak.
Artık bir Veri Kalitesi ve Veri Analizleri Raporumuz var. Aşağı doğru kaydırırsak SKU bölümünde SKU'yu açıklayan bir model öğrenme örneğini görebiliriz. Bu özellikte bazı geçersiz veriler var gibi görünüyor ve işlem yapılabilir bir düzeltme yapılması gerekiyor.
SKU özelliğini temizlemeden önce yukarı kaydıralım. Marka Daha fazla bilgi görmek için bölüme bakın. Burada, marka adlarının çoğunluğunun kelime karakterlerinden veya alfabetik karakterlerden oluşan tek kelimelerden oluştuğunu gösteren iki modelin ortaya çıkarıldığını görüyoruz. A kelime karakteri herhangi bir dildeki bir sözcükte bulunabilen bir alt çizgi veya karakterdir. Örneğin, dizeler Hello_world
ve écoute
her ikisi de kelime karakterlerinden oluşur: H
ve é
.
Bu yazı için bu özelliği temizlemiyoruz.
Desen öğrenme öngörülerini görüntüleyin
SKU'ları temizlemeye dönelim ve deseni ve uyarı mesajını yakınlaştıralım.
Aşağıdaki ekran görüntüsünde gösterildiği gibi, model öğrenme, verilerin %97.78'iyle eşleşen yüksek doğrulukta bir modeli ortaya çıkarır. Ayrıca kalıpla eşleşen bazı örneklerin yanı sıra kalıpla eşleşmeyen örnekleri de görüntüler. Eşleşme olmayanlarda bazı geçersiz SKU'lar görüyoruz.
Ortaya çıkan modellere ek olarak, yüksek doğruluklu bir modelin yanı sıra kalıba uymayan bazı veriler olması durumunda verileri temizlemeye yönelik olası bir eylemi belirten bir uyarı görünebilir.
Geçersiz verileri atlayabiliriz. Normal ifadeyi seçersek (sağ tıklarsak) ifadeyi kopyalayabiliriz [A-Z]{3}-[0-9]{4,5}
.
Geçersiz verileri kaldır
Bu kalıba uymayan, uyumsuz verileri atlamak için bir dönüşüm oluşturalım.
- Üzerinde Veri akışı sekmesinde yanındaki artı işaretini seçin Veri tipleri.
- Klinik Dönüşüm ekle.
- Klinik Adım ekle.
- Aramak
regex
Ve seç Ara ve düzenle. - İçin Dönüştürmek, seçmek Eşleşmeyenleri eksiklere dönüştür.
- İçin Giriş sütunları, seçmek
SKU
. - İçin model, normal ifademizi girin.
- Klinik Önizleme, Daha sonra seçmek Ekle.
Artık yabancı veriler özelliklerden kaldırıldı. - Satırları kaldırmak için adımı ekleyin Kolu eksik ve dönüşümü seçin Damla eksik.
- Klinik
SKU
giriş sütunu olarak.
Hatalı verilerin kaldırılmasıyla veri akışımıza geri dönüyoruz.
Sonuç
Bu gönderide, veri kümenizdeki geçersiz metin verilerini bulmak için veri analizlerindeki kalıp öğrenme özelliğini nasıl kullanacağınızı ve bu verileri nasıl düzelteceğinizi veya atlayacağınızı gösterdik.
Artık bir metin sütununu temizlediğinize göre, veri kümenizi bir analiz veya başvurabilirsiniz yerleşik dönüşümler verilerinizi daha fazla işlemek için. Verilerinizden memnun olduğunuzda şunları yapabilirsiniz: model eğitmek ile Amazon SageMaker Otomatik Pilotya da verilerinizi dışa aktarın Amazon S3 gibi bir veri kaynağına.
Düşünceli incelemesi için Nikita Ivkin'e teşekkür ederiz.
yazarlar hakkında
Vişaal Kapoor AWS AI ile Kıdemli Uygulamalı Bilim Adamıdır. Müşterilerin Data Wrangler'daki verilerini anlamalarına yardımcı olma konusunda tutkulu. Boş zamanlarında dağ bisikleti, snowboard ve ailesiyle vakit geçiriyor.
Zohar Karnin Amazon AI'da Baş Bilim Adamıdır. Araştırma ilgi alanları büyük ölçekli ve çevrimiçi makine öğrenimi algoritmaları alanlarındadır. Amazon SageMaker için sonsuz ölçeklenebilir makine öğrenimi algoritmaları geliştiriyor.
Ajai Sharma Amazon SageMaker'ın Baş Ürün Yöneticisi ve burada veri bilimcileri için görsel bir veri hazırlama aracı olan Data Wrangler'a odaklanıyor. Ajai, AWS'den önce McKinsey and Company'de Veri Bilimi Uzmanıydı ve burada dünya çapında önde gelen finans ve sigorta firmaları için ML odaklı anlaşmaları yönetti. Ajai, veri bilimi konusunda tutkulu ve en yeni algoritmaları ve makine öğrenimi tekniklerini keşfetmeyi seviyor.
Derek Baron Amazon SageMaker Data Wrangler'ın yazılım geliştirme yöneticisidir
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon Adaçayı Yapıcı
- Amazon SageMaker Veri Düzenleyicisi
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- derin öğrenme
- google ai
- Orta (200)
- makine öğrenme
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- sözdizimi
- zefirnet