Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler kullanarak büyük veri kümelerinde eğitilmiş parametreleri yeniden takın

Amazon SageMaker Veri Düzenleyicisi tek bir görsel arabirimden makine öğrenimi (ML) için verileri anlamanıza, toplamanıza, dönüştürmenize ve hazırlamanıza yardımcı olur. 300'den fazla yerleşik veri dönüşümü içerir, böylece herhangi bir kod yazmak zorunda kalmadan özellikleri hızla normalleştirebilir, dönüştürebilir ve birleştirebilirsiniz.

Veri bilimi uygulayıcıları, dönüştürmeleri ve veri kümelerinden özellikleri çıkarmaları gereken iş sorunlarını çözmek için verileri üretir, gözlemler ve işler. Sıralı kodlama veya tek-sıcak kodlama gibi dönüşümler, veri kümenizdeki kodlamaları öğrenir. Bu kodlanmış çıktılar, eğitilmiş parametreler olarak adlandırılır. Veri kümeleri zaman içinde değiştikçe, dönüşüm akışını verilerinizle alakalı tutmak için kodlamaları daha önce görülmemiş veriler üzerine yeniden yerleştirmek gerekebilir.

Önceden eğitilmiş parametreleri kullanmanıza ve bunları istediğiniz gibi yeniden takmanıza olanak tanıyan, yeniden takma eğitimli parametre özelliğini duyurmaktan heyecan duyuyoruz. Bu yazıda, bu özelliğin nasıl kullanılacağını gösteriyoruz.

Data Wrangler tamir özelliğine genel bakış

Onarım eğitimli parametre özelliğinin özelliklerine dalmadan önce, bu özelliğin aşağıdaki örnekle nasıl çalıştığını gösteriyoruz.

Müşteri veri kümenizin aşağıdakiler için kategorik bir özelliğe sahip olduğunu varsayalım: country gibi dizeler olarak temsil edilir Australia ve Singapore. ML algoritmaları sayısal girdiler gerektirir; bu nedenle, bu kategorik değerlerin sayısal değerlere kodlanması gerekir. Kategorik verileri kodlama, kategoriler için sayısal bir temsil oluşturma işlemidir. Örneğin, kategori ülkenizin değerleri varsa Australia ve Singapore, bu bilgiyi iki vektöre kodlayabilirsiniz: [1, 0] temsil etmek için Australia ve [0, 1] temsil etmek için Singapore. Burada kullanılan dönüşüm tek-sıcak kodlamadır ve yeni kodlanmış çıktı eğitilmiş parametreleri yansıtır.

Modeli eğittikten sonra zamanla müşterileriniz artabilir ve ülke listesinde daha belirgin değerleriniz olabilir. Yeni veri kümesi başka bir kategori içerebilir, Indiaorijinal veri kümesinin bir parçası olmayan ve model doğruluğunu etkileyebilecek olan . Bu nedenle, zaman içinde toplanan yeni verilerle modelinizi yeniden eğitmeniz gerekir.

Bu sorunun üstesinden gelmek için, yeni kategoriyi dahil etmek için kodlamayı yenilemeniz ve vektör gösterimini en son veri kümenize göre güncellemeniz gerekir. Örneğimizde, kodlama yeni kategoriyi yansıtmalıdır. country, Olduğu bir India. Bir kodlamayı yenileme işlemine genellikle yeniden yerleştirme işlemi adını veririz. Yeniden yerleştirme işlemini gerçekleştirdikten sonra yeni kodlamayı alırsınız: Australia: [1], Singapore: [0, 1, 0] ve India: [0, 0, 1]. One-hot kodlamayı yeniden yerleştirmek ve ardından modeli yeni veri kümesi üzerinde yeniden eğitmek, daha kaliteli tahminler sağlar.

Data Wrangler'ın tamir eğitimli parametre özelliği aşağıdaki durumlarda faydalıdır:

  • Veri kümesine yeni veriler eklenir – Veri seti yeni verilerle zenginleştirildiğinde ML modelinin yeniden eğitilmesi gereklidir. En iyi sonuçları elde etmek için, yeni veri kümesinde eğitilmiş parametreleri yeniden ayarlamamız gerekir.
  • Örnek veriler üzerinde özellik mühendisliği gerçekleştirdikten sonra tam bir veri kümesi üzerinde eğitim – Büyük bir veri kümesi için, eğitimli parametreleri öğrenmek için veri kümesinin bir örneği dikkate alınır ve bu veri kümenizin tamamını temsil etmeyebilir. Tüm veri setinde eğitilmiş parametreleri yeniden öğrenmemiz gerekiyor.

Aşağıdakiler, yeniden yerleştirme eğitimli parametre seçeneğinden yararlanan veri kümesinde gerçekleştirilen en yaygın Data Wrangler dönüşümlerinden bazılarıdır:

Data Wrangler'daki dönüşümler hakkında daha fazla bilgi için bkz. Verileri Dönüştür.

Bu gönderide, Data Wrangler kullanarak bu eğitilmiş parametrelerin veri kümelerinde nasıl işleneceğini gösteriyoruz. Verilerinizi büyüdükçe ve değiştikçe yeniden işlemek için üretim işlerinde Data Wrangler akışlarını kullanabilirsiniz.

Çözüme genel bakış

Bu gönderi için, Data Wrangler'ın tamir eğitimli parametre özelliğinin, üzerinde halka açık veri kümesiyle nasıl kullanılacağını gösteriyoruz. Kaggle: Zillow'dan ABD Konut Verileri, Amerika Birleşik Devletleri'ndeki Satılık Emlaklar. Evlerin çeşitli coğrafi dağılımlarında ev satış fiyatlarına sahiptir.

Aşağıdaki şema, yeniden takma eğitimli parametre özelliğini kullanan Data Wrangler'ın üst düzey mimarisini göstermektedir. Ayrıca, yeniden takma eğitimli parametre olmadan veri kalitesi üzerindeki etkiyi gösterir ve sonunda sonuçları karşılaştırırız.

İş akışı aşağıdaki adımları içerir:

  1. Keşfedici veri analizi gerçekleştirin – Keşifsel veri analizini (EDA) başlatmak için Data Wrangler'da yeni bir akış oluşturun. Verilerinizi anlamak, temizlemek, toplamak, dönüştürmek ve eğitime hazırlamak için iş verilerini içe aktarın. bkz. Örnek veri kümeleriyle Amazon SageMaker Data Wrangler özelliklerini keşfedin Data Wrangler ile EDA gerçekleştirme hakkında daha fazla ayrıntı için.
  2. Bir veri işleme işi oluşturun – Bu adım, veri kümesinde yaptığınız tüm dönüşümleri, yapılandırılan kümede depolanan bir akış dosyası olarak dışa aktarır. Amazon Basit Depolama Hizmeti (Amazon S3) konumu. Data Wrangler tarafından oluşturulan akış dosyasıyla veri işleme işi, veri kümenizde öğrenilen dönüşümleri ve eğitilmiş parametreleri uygular. Veri işleme işi tamamlandığında çıktı dosyaları, hedef düğümde yapılandırılan Amazon S3 konumuna yüklenir. Yeniden takma seçeneğinin varsayılan olarak kapalı olduğunu unutmayın. İşleme işini anında yürütmeye alternatif olarak, bir işleme işi zamanlamak Veri Wrangler'ı kullanarak birkaç tıklamayla - belirli zamanlarda çalıştırmak için İş Oluşturun.
  3. Yeniden takma eğitimli parametre özelliğiyle bir veri işleme işi oluşturun – Tam veya güçlendirilmiş veri kümenizde eğitilmiş parametrelerinizin yeniden öğrenilmesini zorunlu kılmak için işi oluştururken yeni yeniden takma eğitilmiş parametre özelliğini seçin. Akış dosyasını depolamak için Amazon S3 konum yapılandırmasına göre, veri işleme işi yeni akış dosyasını oluşturur veya günceller. 3. Adımdakiyle aynı Amazon S2 konumunu yapılandırırsanız veri işleme işi, 2. Adımda oluşturulan akış dosyasını günceller ve bu dosya, akışınızın verilerinizle alakalı olmasını sağlamak için kullanılabilir. İşleme işinin tamamlanmasının ardından çıktı dosyaları, hedef düğümde yapılandırılan S3 klasörüne yüklenir. Bir üretim iş akışı için tüm veri kümenizdeki güncellenmiş akışı kullanabilirsiniz.

Önkoşullar

Başlamadan önce, veri kümesini bir S3 klasörüne yükleyin ve ardından Veri Yönlendiricisi'ne aktarın. Talimatlar için bkz. Amazon S3'ten verileri içe aktarın.

Şimdi mimari diyagramda belirtilen adımları inceleyelim.

Veri Wrangler'da EDA gerçekleştirin

Onarım eğitimli parametre özelliğini denemek için Data Wrangler'da aşağıdaki analizi ve dönüşümü kurun. EDA kurulumunun sonunda Data Wrangler, veri kümesinden eğitilmiş parametrelerle yakalanan bir akış dosyası oluşturur.

  1. Keşif amaçlı veri analizi için Amazon SageMaker Data Wrangler'da yeni bir akış oluşturun.
  2. Amazon S3'e yüklediğiniz iş verilerini içe aktarın.
  3. Dosya türünü, sınırlayıcıyı, örneklemeyi vb. seçmek için verileri ve seçenekleri önizleyebilirsiniz. Bu örnek için kullandığımız İlk K Veri kümesinden ilk 50,000 kaydı içe aktarmak için Data Wrangler tarafından sağlanan örnekleme seçeneği.
  4. Klinik ithalat.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Data Wrangler tarafından uygulanan veri tipi eşleşmesini kontrol ettikten sonra yeni bir analiz ekleyin.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. İçin Analiz türü, seçmek Veri Kalitesi ve Öngörüler Raporu.
  2. Klinik oluşturmak.

Veri Kalitesi ve Öngörüler Raporu ile eksik değerler, geçersiz değerler, özellik türleri, aykırı değer sayıları ve daha fazlası gibi genel bilgiler içeren veri kümesinin kısa bir özetini alırsınız. özellikleri seçebilirsiniz property_type ve city yeniden takma eğitimli parametre özelliğini anlamak için veri kümesinde dönüşümler uygulamak için.

Özelliğe odaklanalım property_type veri kümesinden. Raporun içinde Özellik Detayları bölümünde görebilirsiniz property_typekategorik bir özellik olan , ve Data Wrangler tarafından 50,000 örneklenmiş veri kümesinden türetilen altı benzersiz değer. Tam veri kümesi, özellik için daha fazla kategoriye sahip olabilir property_type. Birçok benzersiz değere sahip bir özellik için sıralı kodlamayı tercih edebilirsiniz. Özelliğin birkaç benzersiz değeri varsa, tek etkin kodlama yaklaşımı kullanılabilir. Bu örnek için, on-hot kodlamayı tercih ediyoruz. property_type.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Benzer şekilde, için city Çok sayıda benzersiz değere sahip bir metin veri türü olan özellik, bu özelliğe sıralı kodlama uygulayalım.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Data Wrangler akışına gidin, artı işaretini seçin ve Dönüşüm ekle.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Seçin kategorik kodlama kategorik özellikleri dönüştürme seçeneği.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Veri Kalitesi ve Öngörüler Raporundan, özellik property_type altı benzersiz kategori gösterir: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, ve TOWNHOUSE.

  1. İçin Dönüştürmek, seçmek Tek sıcak kodlama.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Özelliğe one-hot kodlamayı uyguladıktan sonra property_type, altı kategorinin tümünü yeni sütunlar olarak eklenen ayrı özellikler olarak önizleyebilirsiniz. Bu önizlemeyi oluşturmak için veri kümenizden 50,000 kaydın örneklendiğini unutmayın. Bu akışla bir Data Wrangler işleme işi çalıştırılırken, bu dönüşümler tüm veri kümenize uygulanır.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Yeni bir dönüşüm ekleyin ve seçin Kategorik Kodlama özellik üzerinde bir dönüşüm uygulamak için city, daha fazla sayıda benzersiz kategorik metin değerine sahip.
  2. Bu özelliği sayısal bir temsile kodlamak için sıralı kodlama için Dönüştürmek.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Bu dönüşümde Önizleme'yi seçin.

Kategorik özelliğin olduğunu görebilirsiniz. city çıktı sütunundaki sıralı değerlere eşlenir e_city.

  1. Seçerek bu adımı ekleyin Güncelleme.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Çıktıyı CSV dosyası olarak oluşturmak üzere uygulanan dönüşümleri veri kümesinde depolamak için hedefi Amazon S3 olarak ayarlayabilirsiniz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Data Wrangler, kullanıcı arabiriminde tanımladığınız iş akışını bir akış dosyası olarak saklar ve yapılandırılmış veri işleme işinin Amazon S3 konumuna yükler. Bu akış dosyası, dönüşümleri daha büyük veri kümelerine uygulamak veya modeli yeniden eğitmek için yeni takviye verilerini dönüştürmek için Veri Düzenleyici işleme işleri oluşturduğunuzda kullanılır.

Yeniden takma etkinleştirilmeden bir Data Wrangler veri işleme işi başlatın

Artık tamir seçeneğinin yeni veri kümelerinde eğitilmiş parametreleri nasıl kullandığını görebilirsiniz. Bu gösterim için, aynı veriler üzerinde çalışan iki Data Wrangler işleme işi tanımlıyoruz. İlk işleme işi, yeniden takmayı etkinleştirmez; ikinci işleme işi için tamir kullanıyoruz. Sonunda etkileri karşılaştırıyoruz.

  1. Klinik İş oluştur Data Wrangler ile bir veri işleme işi başlatmak için.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. İçin İş adı, isim girin.
  2. Altında eğitilmiş parametreler, seçme tamir.
  3. Klinik İşi yapılandır.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Çıkış akışı dosyasını depolamak için bulut sunucusu türleri, birim boyutu ve Amazon S3 konumu gibi iş parametrelerini yapılandırın.
  2. Data Wrangler, akış dosyası S3 konumunda bir akış dosyası oluşturur. Akış, parametreleri eğitmek için dönüşümleri kullanır ve daha sonra bu parametreleri yeniden eğitmek için yeniden yerleştirme seçeneğini kullanırız.
  3. Klinik oluşturmak.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Hedef düğümde yapılandırılmış S3 klasöründeki dönüştürülmüş verileri görmek için veri işleme işinin tamamlanmasını bekleyin.

Yeniden takma etkinleştirilmiş bir Veri Wrangler veri işleme işi başlatın

Yeniden takma eğitimli parametre özelliği etkinken etkinleştirilmiş başka bir işleme işi oluşturalım. Bu seçenek, tüm veri kümesinde yeniden öğrenilen eğitilmiş parametreleri zorlar. Bu veri işleme işi tamamlandığında, bir akış dosyası oluşturulur veya yapılandırılan Amazon S3 konumuna güncellenir.

  1. Klinik İş oluştur.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. İçin İş adı, isim girin.
  2. İçin eğitilmiş parametrelerseçin tamir.
  3. Eğer seçerseniz Hepsini gör, tüm eğitilmiş parametreleri inceleyebilirsiniz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Klinik İşi yapılandır.
  2. Amazon S3 akış dosyası konumunu girin.
  3. Klinik oluşturmak.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Veri işleme işinin tamamlanmasını bekleyin.

Tanımlanmış dönüşümleri çalıştıran veri işleme işi tarafından oluşturulan verileri görüntülemek için hedef düğümdeki yapılandırılmış S3 klasörüne bakın.

Data Wrangler işleme işlerini çalıştırmak için Python koduna aktarın

Data Wrangler'daki İş oluştur seçeneğini kullanarak işleri işlemeye başlamaya bir alternatif olarak, Data Wrangler akışını bir Jupyter not defterine aktararak veri işleme işlerini tetikleyebilirsiniz. Data Wrangler, girişler, çıkışlar, iş yapılandırmaları ve iş durumu kontrolleri için kod içeren bir Jupyter not defteri oluşturur. Veri dönüştürme gereksinimlerinize göre parametreleri değiştirebilir veya güncelleyebilirsiniz.

  1. Finalin yanındaki artı işaretini seçin Dönüştürmek düğümü.
  2. Klinik Ihracat ve Amazon S3 (Jupyter Notebook Üzerinden).

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Girişler, çıkışlar, iş yapılandırmalarını işleme ve iş durumu kontrolleri için kod ile açılmış bir Jupyter not defteri görebilirsiniz.

  1. Onarım eğitimli parametreler seçeneğini kod aracılığıyla zorlamak için, refit parametresi True.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.Veri işleme işi sonuçlarını karşılaştırın

Data Wrangler işleme işleri tamamlandıktan sonra, yapılandırılmış Amazon S3 hedefinde depolanan veri işleme işleri tarafından oluşturulan çıktıyla iki yeni Data Wrangler akışı oluşturmanız gerekir.

Veri işleme işlerinin çıktılarını gözden geçirmek için Amazon S3 hedef klasöründe yapılandırılan konuma başvurabilirsiniz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

İşleme işi sonuçlarını incelemek için, dönüştürme sonuçlarını karşılaştırmak için Veri Kalitesi ve Öngörüler Raporunu kullanarak iki yeni Veri Düzenleyici akışı oluşturun.

  1. Amazon SageMaker Data Wrangler'da yeni bir akış oluşturun.
  2. Veri işleme işini, yeniden takma etkinleştirilmiş çıktı dosyası olmadan Amazon S3'ten içe aktarın.
  3. Yeni bir analiz ekleyin.
  4. İçin Analiz türü, seçmek Veri Kalitesi ve Öngörüler Raporu.
  5. Klinik oluşturmak.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.
Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Yeniden takma etkinken veri işleme işi çıktısını analiz etmek için yukarıdaki adımları tekrarlayın ve yeni veri düzenleyici akışı oluşturun.

Şimdi özellik için işlenen işlerin çıktılarına bakalım property_type Veri Kalitesi ve Öngörü Raporlarını kullanma. Veri ve Öngörü Raporları listesindeki özellik ayrıntılarına gidin feature_type.

Yeniden takma eğitimli parametre işleme işi, eğitilmiş parametreleri tüm veri kümesine yeniden yerleştirdi ve yeni değeri kodladı APARTMENT tam veri kümesinde yedi farklı değerle.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Normal işleme işi, örnek veri kümesi için yalnızca altı farklı değere sahip eğitilmiş parametreleri uyguladı. property_type özellik. ile veriler için feature_type APARTMENT, geçersiz işleme stratejisi Atla uygulanır ve veri işleme işi bu yeni kategoriyi öğrenmez. Tek-sıcak kodlama, yeni verilerde bulunan bu yeni kategoriyi atladı ve kodlama, kategoriyi atladı APARTMENT.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Şimdi başka bir özelliğe odaklanalım, city. Onarım eğitimli parametre işleme işi, mevcut tüm değerleri yeniden öğrendi. city özellik, yeni veriler göz önüne alındığında.

Gösterildiği gibi Özellik Özeti raporun bölümü, yeni kodlanmış özellik sütunu e_city yeniden takma eğitimli parametre özelliğini kullanarak %100 geçerli parametrelere sahiptir.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Buna karşılık, normal işleme işi, yeni kodlanmış özellik sütununda eksik değerlerin %82.4'üne sahiptir. e_city. Bunun nedeni, tüm veri kümesine yalnızca öğrenilen eğitilmiş parametrelerin örnek kümesinin uygulanması ve veri işleme işi tarafından yeniden yerleştirme uygulanmamasıdır.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Aşağıdaki histogramlar sıralı kodlanmış özelliği gösterir e_city. İlk histogram, tamir seçeneğiyle dönüştürülen özelliğe aittir.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Sonraki histogram, tamir seçeneği olmadan dönüştürülen özelliktir. Turuncu sütun, Veri Kalitesi ve Öngörüler Raporunda eksik değerleri (NaN) gösterir. Örnek veri kümesinden öğrenilmeyen yeni değerler, Veri Wrangler Kullanıcı Arayüzü'nde yapılandırıldığı gibi Sayı Değil (NaN) olarak değiştirilir. geçersiz işleme stratejisi.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Onarım eğitimli parametre ile veri işleme işi, property_type ve city tüm veri kümesindeki yeni değerleri dikkate alan özellikler. Yeniden takma eğitilmiş parametre olmadan, veri işleme işi yalnızca örneklenen veri kümesinin önceden öğrenilmiş eğitilmiş parametrelerini kullanır. Daha sonra bunları yeni verilere uygular, ancak yeni değerler kodlama için dikkate alınmaz. Bunun model doğruluğu üzerinde etkileri olacaktır.

Temizlemek

Data Wrangler'ı kullanmadığınızda, ek ücret ödememek için çalıştığı bulut sunucusunu kapatmak önemlidir.

İş kaybetmemek için Data Wrangler'ı kapatmadan önce veri akışınızı kaydedin.

  1. Veri akışınızı kaydetmek için Amazon SageMaker Stüdyosu, seçmek fileto, Daha sonra seçmek Veri Wrangler Akışını Kaydet. Data Wrangler, veri akışınızı her 60 saniyede bir otomatik olarak kaydeder.
  2. Data Wrangler örneğini kapatmak için Studio'da Çalışan Örnekler ve Çekirdekler.
  3. Altında ÇALIŞAN UYGULAMALAR, sagemaker-data-wrangler-1.0 uygulamasının yanındaki kapatma simgesini seçin.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

  1. Klinik hepsini kapat onaylamak.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.

Data Wrangler, bir ml.m5.4xlarge örneği üzerinde çalışır. Bu örnek şuradan kaybolur: ÇALIŞAN ÖRNEKLER Data Wrangler uygulamasını kapattığınızda.

Data Wrangler uygulamasını kapattıktan sonra, Data Wrangler akış dosyasını bir sonraki açışınızda uygulamanın yeniden başlatılması gerekir. Bu birkaç dakika sürebilir.

Sonuç

Bu gönderide, Data Wrangler'daki tamir eğitimli parametre özelliğine genel bir bakış sağladık. Bu yeni özellik ile, Data Wrangler akışında eğitilmiş parametreleri saklayabilirsiniz ve veri işleme işleri, öğrenilen dönüşümleri büyük veri kümelerine veya takviye veri kümelerine uygulamak için eğitilmiş parametreleri kullanır. Bu seçeneği, metin özelliklerini, sayısal verileri vektörleştirmeye ve aykırı değerleri işlemeye uygulayabilirsiniz.

ML yaşam döngüsünün veri işlemesi boyunca eğitilmiş parametreleri korumak, veri işleme adımlarını basitleştirir ve azaltır, sağlam özellik mühendisliğini destekler ve model eğitimini ve yeni veriler üzerinde güçlendirme eğitimini destekler.

Veri işleme gereksinimleriniz için bu yeni özelliği denemenizi öneririz.


yazarlar hakkında

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai. Hariharan Suresh AWS'de Kıdemli Çözüm Mimarıdır. Veritabanları, makine öğrenimi ve yenilikçi çözümler tasarlama konusunda tutkulu. AWS'ye katılmadan önce Hariharan, ürün mimarı, temel bankacılık uygulama uzmanı ve geliştiriciydi ve 11 yılı aşkın bir süre BFSI kuruluşlarıyla çalıştı. Teknoloji dışında yamaç paraşütü ve bisiklete binmeyi seviyor.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.Santosh Kulkarni Avustralya'daki spor müşterileriyle çalışan Amazon Web Services'de Kurumsal Çözümler Mimarıdır. AI/ML, büyük veri ve yazılım geliştirme konusundaki bilgilerini kullanarak iş sorunlarını çözmek için büyük ölçekli dağıtılmış uygulamalar oluşturma konusunda tutkulu.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.Vişaal Kapoor AWS AI ile Kıdemli Uygulamalı Bilim Adamıdır. Müşterilerin Data Wrangler'daki verilerini anlamalarına yardımcı olma konusunda tutkulu. Boş zamanlarında dağ bisikleti, snowboard ve ailesiyle vakit geçiriyor.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'ı kullanarak eğitimli parametreleri büyük veri kümelerine yeniden yerleştirin. Dikey Arama. Ai.aniketh manjunath Amazon SageMaker'da Yazılım Geliştirme Mühendisi. Amazon SageMaker Data Wrangler'ın desteklenmesine yardımcı olur ve dağıtılmış makine öğrenimi sistemleri konusunda tutkuludur. İş dışında yürüyüş yapmaktan, film izlemekten ve kriket oynamaktan hoşlanıyor.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi