Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler ile metin verilerindeki kalıpları tespit edin

Bu yazımızda yeni bir analiz sunuyoruz. Veri Kalitesi ve Öngörüler Raporu of Amazon SageMaker Veri Düzenleyicisi. Bu analiz, metin özelliklerinin doğruluğunu doğrulamanıza ve onarım veya ihmal nedeniyle geçersiz satırları ortaya çıkarmanıza yardımcı olur.

Data Wrangler, verileri makine öğrenimi (ML) için toplamak ve hazırlamak için gereken süreyi haftalardan dakikalara indirir. Veri hazırlama ve özellik mühendisliği sürecini basitleştirebilir ve veri seçimi, temizleme, keşfetme ve görselleştirme dahil olmak üzere veri hazırlama iş akışının her adımını tek bir görsel arayüzden tamamlayabilirsiniz.

Çözüme genel bakış

Veri ön işleme genellikle e-posta adresleri, telefon numaraları ve ürün adları gibi metin verilerinin temizlenmesini içerir. Bu veriler, normal ifadelerle tanımlanabilecek temel bütünlük kısıtlamalarına sahip olabilir. Örneğin, yerel bir telefon numarasının geçerli sayılması için aşağıdaki gibi bir modeli izlemesi gerekebilir: [1-9][0-9]{2}-[0-9]{4}, sıfırdan farklı bir rakamla eşleşir, ardından iki rakam daha gelir, ardından bir tire gelir ve ardından dört rakam daha gelir.

Geçersiz verilerle sonuçlanan yaygın senaryolar, örneğin çeşitli formatlardaki telefon numaraları (5551234 vs. 555 1234 vs. 555-1234) veya 0, 911 veya 411 gibi beklenmedik veriler gibi tutarsız insan girişlerini içerebilir. Bir müşteri çağrı merkezi için, 0, 911 veya 411 gibi sayıları atlamak ve 5551234 veya 555 1234 gibi girişleri doğrulamak (ve muhtemelen düzeltmek) önemlidir.

Ne yazık ki, metinsel kısıtlamalar mevcut olmasına rağmen verilerle birlikte sağlanamayabilir. Bu nedenle veri seti hazırlayan bir veri bilimcinin verilere bakarak kısıtlamaları manuel olarak ortaya çıkarması gerekir. Bu sıkıcı, hataya açık ve zaman alıcı olabilir.

Desen öğrenme, verilerinizi otomatik olarak analiz eder ve veri kümeniz için geçerli olabilecek metin kısıtlamalarını ortaya çıkarır. Örneğin telefon numaralarıyla ilgili olarak, model öğrenme verileri analiz edebilir ve telefon numaralarının büyük çoğunluğunun metinsel kısıtlamaya uyduğunu belirleyebilir. [1-9][0-9]{2}-[0-9][4]. Ayrıca, geçersiz veri örneklerinin olduğu konusunda sizi uyarabilir, böylece bunları hariç tutabilir veya düzeltebilirsiniz.

Aşağıdaki bölümlerde, ürün kategorileri ve SKU (stok tutma birimi) kodlarından oluşan kurgusal bir veri kümesi kullanarak Data Wrangler'da model öğrenmenin nasıl kullanılacağını gösteriyoruz.

Bu veri kümesi, ürünleri şirkete, markaya ve enerji tüketimine göre tanımlayan özellikler içerir. Özellikle, hatalı biçimlendirilmiş bir özellik SKU'su içerir. Bu veri setindeki tüm veriler kurgusaldır ve rastgele marka adları ve cihaz adları kullanılarak rastgele oluşturulmuştur.

Önkoşullar

Data Wrangler'ı kullanmaya başlamadan önce, indir örnek veri kümesini oluşturun ve içindeki bir konuma yükleyin. Amazon Basit Depolama Hizmeti (Amazon S3). Talimatlar için bkz. Nesneleri yükleme.

Veri kümenizi içe aktarın

Veri kümenizi içe aktarmak için aşağıdaki adımları tamamlayın:

  1. Data Wrangler'da şunu seçin: ML için Verileri İçe Aktarın ve Keşfedin.
  2. Klinik ithalat.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.
  3. İçin Tarihleri ​​içe aktar, seçmek Amazon S3.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.
  4. Dosyayı Amazon S3'te bulun ve seçin ithalat.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

İçe aktarmanın ardından veri akışına geçebiliriz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Veri içgörüleri alın

Bu adımda veri kalitesiyle ilgili bilgileri içeren bir veri öngörüleri raporu oluşturuyoruz. Daha fazla bilgi için bkz. Veri ve Veri Kalitesi Hakkında Öngörüler Alın. Aşağıdaki adımları tamamlayın:

  1. Üzerinde Veri akışı sekmesinde yanındaki artı işaretini seçin Veri tipleri.
  2. Klinik Veri içgörüleri alın.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.
  3. İçin Analiz türü, seçmek Veri Kalitesi ve Öngörüler Raporu.
  4. Bu yazı için ayrılın Hedef sütun ve Sorun tipi boş.Veri kümenizi hedef özelliğe sahip bir regresyon veya sınıflandırma görevi için kullanmayı planlıyorsanız, bu seçenekleri seçebilirsiniz; rapor, giriş özelliklerinizin hedefinizle nasıl ilişkili olduğuna ilişkin analizleri içerecektir. Örneğin hedef sızıntıya ilişkin raporlar üretebilmektedir. Daha fazla bilgi için bkz. Hedef sütun.
  5. Klinik oluşturmak.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Artık bir Veri Kalitesi ve Veri Analizleri Raporumuz var. Aşağı doğru kaydırırsak SKU bölümünde SKU'yu açıklayan bir model öğrenme örneğini görebiliriz. Bu özellikte bazı geçersiz veriler var gibi görünüyor ve işlem yapılabilir bir düzeltme yapılması gerekiyor.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

SKU özelliğini temizlemeden önce yukarı kaydıralım. Marka Daha fazla bilgi görmek için bölüme bakın. Burada, marka adlarının çoğunluğunun kelime karakterlerinden veya alfabetik karakterlerden oluşan tek kelimelerden oluştuğunu gösteren iki modelin ortaya çıkarıldığını görüyoruz. A kelime karakteri herhangi bir dildeki bir sözcükte bulunabilen bir alt çizgi veya karakterdir. Örneğin, dizeler Hello_world ve écoute her ikisi de kelime karakterlerinden oluşur: H ve é.

Bu yazı için bu özelliği temizlemiyoruz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Desen öğrenme öngörülerini görüntüleyin

SKU'ları temizlemeye dönelim ve deseni ve uyarı mesajını yakınlaştıralım.

Aşağıdaki ekran görüntüsünde gösterildiği gibi, model öğrenme, verilerin %97.78'iyle eşleşen yüksek doğrulukta bir modeli ortaya çıkarır. Ayrıca kalıpla eşleşen bazı örneklerin yanı sıra kalıpla eşleşmeyen örnekleri de görüntüler. Eşleşme olmayanlarda bazı geçersiz SKU'lar görüyoruz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Ortaya çıkan modellere ek olarak, yüksek doğruluklu bir modelin yanı sıra kalıba uymayan bazı veriler olması durumunda verileri temizlemeye yönelik olası bir eylemi belirten bir uyarı görünebilir.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Geçersiz verileri atlayabiliriz. Normal ifadeyi seçersek (sağ tıklarsak) ifadeyi kopyalayabiliriz [A-Z]{3}-[0-9]{4,5}.

Geçersiz verileri kaldır

Bu kalıba uymayan, uyumsuz verileri atlamak için bir dönüşüm oluşturalım.

  1. Üzerinde Veri akışı sekmesinde yanındaki artı işaretini seçin Veri tipleri.
  2. Klinik Dönüşüm ekle.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.
  3. Klinik Adım ekle.
  4. Aramak regex Ve seç Ara ve düzenle.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.
  5. İçin Dönüştürmek, seçmek Eşleşmeyenleri eksiklere dönüştür.
  6. İçin Giriş sütunları, seçmek SKU.
  7. İçin model, normal ifademizi girin.
  8. Klinik Önizleme, Daha sonra seçmek Ekle.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.
    Artık yabancı veriler özelliklerden kaldırıldı.
  9. Satırları kaldırmak için adımı ekleyin Kolu eksik ve dönüşümü seçin Damla eksik.
  10. Klinik SKU giriş sütunu olarak.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Hatalı verilerin kaldırılmasıyla veri akışımıza geri dönüyoruz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.

Sonuç

Bu gönderide, veri kümenizdeki geçersiz metin verilerini bulmak için veri analizlerindeki kalıp öğrenme özelliğini nasıl kullanacağınızı ve bu verileri nasıl düzelteceğinizi veya atlayacağınızı gösterdik.

Artık bir metin sütununu temizlediğinize göre, veri kümenizi bir analiz veya başvurabilirsiniz yerleşik dönüşümler verilerinizi daha fazla işlemek için. Verilerinizden memnun olduğunuzda şunları yapabilirsiniz: model eğitmek ile Amazon SageMaker Otomatik Pilotya da verilerinizi dışa aktarın Amazon S3 gibi bir veri kaynağına.

Düşünceli incelemesi için Nikita Ivkin'e teşekkür ederiz.


yazarlar hakkında

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.Vişaal Kapoor AWS AI ile Kıdemli Uygulamalı Bilim Adamıdır. Müşterilerin Data Wrangler'daki verilerini anlamalarına yardımcı olma konusunda tutkulu. Boş zamanlarında dağ bisikleti, snowboard ve ailesiyle vakit geçiriyor.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.Zohar Karnin Amazon AI'da Baş Bilim Adamıdır. Araştırma ilgi alanları büyük ölçekli ve çevrimiçi makine öğrenimi algoritmaları alanlarındadır. Amazon SageMaker için sonsuz ölçeklenebilir makine öğrenimi algoritmaları geliştiriyor.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai.Ajai Sharma Amazon SageMaker'ın Baş Ürün Yöneticisi ve burada veri bilimcileri için görsel bir veri hazırlama aracı olan Data Wrangler'a odaklanıyor. Ajai, AWS'den önce McKinsey and Company'de Veri Bilimi Uzmanıydı ve burada dünya çapında önde gelen finans ve sigorta firmaları için ML odaklı anlaşmaları yönetti. Ajai, veri bilimi konusunda tutkulu ve en yeni algoritmaları ve makine öğrenimi tekniklerini keşfetmeyi seviyor.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence ile metin verilerindeki kalıpları tespit edin. Dikey Arama. Ai. Derek Baron Amazon SageMaker Data Wrangler'ın yazılım geliştirme yöneticisidir

Zaman Damgası:

Den fazla AWS Makine Öğrenimi