Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Parametreli veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun

Veriler her alanı ve her işi dönüştürüyor. Ancak, çoğu şirketin takip edebileceğinden daha hızlı büyüyen verilerle, veri toplamak ve bu verilerden değer elde etmek, yapılması zor bir iştir. A modern veri stratejisi verilerle daha iyi iş sonuçları elde etmenize yardımcı olabilir. AWS, aşağıdakiler için en eksiksiz hizmet setini sağlar: uçtan uca veri yolculuğu size yardımcı olmak için verilerinizden değerin kilidini açın ve onu içgörüye dönüştürün.

Veri bilimcileri, zamanlarının %80'e kadarını makine öğrenimi (ML) projeleri için veri hazırlayarak geçirebilirler. Bu hazırlık süreci büyük ölçüde farklılaşmamış ve sıkıcı bir iştir ve birden çok programlama API'sini ve özel kitaplıkları içerebilir. Amazon SageMaker Veri Düzenleyicisi veri bilimcilerin ve veri mühendislerinin görsel bir arayüz aracılığıyla tablo ve zaman serisi veri hazırlığını ve özellik mühendisliğini basitleştirmesine ve hızlandırmasına yardımcı olur. gibi birden çok veri kaynağından veri alabilirsiniz. Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, Amazon Kırmızıya Kaydırma, hatta üçüncü taraf çözümler gibi Kar taneciği or DataBrick'lerve 300'den fazla yerleşik veri dönüştürmesi ve bir kod parçacığı kitaplığı ile verilerinizi işleyin, böylece herhangi bir kod yazmadan özellikleri hızla normalleştirebilir, dönüştürebilir ve birleştirebilirsiniz. Özel dönüşümlerinizi PySpark, SQL veya Panda'lara da getirebilirsiniz.

Bu gönderi, veri hazırlama işlerinizi otomatik olarak çalışacak şekilde nasıl planlayabileceğinizi gösterir. Ayrıca, parametreleştirilmiş URI'ler aracılığıyla bir veri akışına dahil edilecek dosyaları belirtmenize izin veren, parametreleştirilmiş veri kümelerinin yeni Data Wrangler özelliğini de araştırıyoruz.

Çözüme genel bakış

Data Wrangler artık parametreleştirilmiş bir URI kullanarak veri içe aktarmayı destekliyor. Bu, daha fazla esneklik sağlar, çünkü artık URI'de Dize, Sayı, Tarih, Saat ve Desen türünde olabilen belirtilen parametrelerle eşleşen tüm veri kümelerini içe aktarabilirsiniz. Ek olarak, artık Data Wrangler dönüştürme işlerinizi bir zamanlamaya göre tetikleyebilirsiniz.

Bu gönderide, Data Wrangler'ın bu iki yeni özelliğini nasıl deneyebileceğinizi göstermek için Titanic veri kümesiyle örnek bir akış oluşturuyoruz. Veri setini indirmek için bkz. Titanik – Felaketten Makine Öğrenimi.

Önkoşullar

Bu yayında açıklanan tüm özellikleri elde etmek için Data Wrangler'ın en son çekirdek sürümünü çalıştırıyor olmanız gerekir. Daha fazla bilgi için bkz. Data Wrangler'ı Güncelle. Ek olarak, çalışıyor olmanız gerekir Amazon SageMaker Stüdyosu JupyterLab 3. Geçerli sürümü görüntülemek ve güncellemek için bkz. JupyterLab Sürüm Oluşturma.

Dosya yapısı

Bu gösteri için, bu gönderide özetlenen adımları yeniden oluşturmak için çoğaltmanız gereken basit bir dosya yapısını izliyoruz.

  1. Stüdyoda, yeni bir not defteri oluştur.
  2. Kullandığımız klasör yapısını oluşturmak için aşağıdaki kod parçacığını çalıştırın (dosya ağacınızda istediğiniz klasörde olduğunuzdan emin olun):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. Kopya train.csv ve test.csv dosyaları orijinal Titanic veri kümesinden klasörlere titanic_dataset/train ve titanic_dataset/test, Sırasıyla.
  4. Klasörleri gerekli dosyalarla doldurmak için aşağıdaki kod parçacığını çalıştırın:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Biz ayırdık train.csv Titanic veri setinin dosyasını dokuz farklı dosyaya bölün. part_x, burada x, parçanın numarasıdır. 0. Kısım ilk 100 kaydı içerir, 1. Kısım sonraki 100 kaydı içerir ve 8. Kısma kadar böyle devam eder. Dosya ağacının her düğüm klasörü eğitim verilerinin dokuz bölümünün bir kopyasını içerir. train ve test içeren klasörler train.csv ve test.csv.

parametreli veri kümeleri

Data Wrangler kullanıcıları artık Amazon S3'ten içe aktarılan veri kümeleri için parametreler belirtebilir. Veri kümesi parametreleri, kaynakların URI'sinde belirtilir ve değeri, içe aktarmak istediğimiz dosyaları seçme konusunda daha fazla esneklik sağlayacak şekilde dinamik olarak değiştirilebilir. Parametreler dört veri tipinde olabilir:

  • Numara – Herhangi bir tamsayının değerini alabilir
  • dizi – Herhangi bir metin dizisinin değerini alabilir
  • model – Herhangi bir normal ifadenin değerini alabilir
  • Tarih saat – Desteklenen tarih/saat biçimlerinden herhangi birinin değerini alabilir

Bu bölümde, bu yeni özelliğin bir adım adım açıklamasını sunuyoruz. Bu, yalnızca veri kümenizi mevcut akışınıza aktardıktan sonra ve yalnızca Amazon S3'ten içe aktarılan veri kümeleri için kullanılabilir.

  1. Veri akışınızdan içe aktarma adımının yanındaki artı (+) işaretini seçin ve Veri kümesini düzenle.
  2. Yeni parametreler oluşturmanın tercih edilen (ve en kolay) yöntemi, URI'nizin bir bölümünü vurgulamak ve Özel parametre oluştur açılır menüde Oluşturmak istediğiniz her parametre için dört şey belirtmeniz gerekir:
    1. Name
    2. Tip
    3. Varsayılan değer
    4. Açıklama

    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
    Burada, adında bir String tipi parametre oluşturduk. filename_param varsayılan değeri ile train.csv. Şimdi, URI'nin daha önce vurguladığımız kısmının yerini alan parametre adını çift parantez içinde görebilirsiniz. Çünkü bu parametre için tanımlanan değer train.csv, şimdi dosyayı görüyoruz train.csv içe aktarma tablosunda listelenir.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

  3. Bir dönüşüm işi oluşturmaya çalıştığımızda, İşi yapılandır adım, şimdi görüyoruz parametreler tanımladığımız tüm parametrelerin bir listesini görebileceğimiz bölüm.
  4. Parametreyi seçmek bize parametrenin değerini değiştirme seçeneği sunar, bu durumda, tanımlanan akışa göre dönüştürülecek giriş veri setini değiştirir.
    değerini değiştirdiğimizi varsayarsak filename_param itibaren train.csv için part_0.csv, dönüşüm işi şimdi alıyor part_0.csv (adına sahip bir dosya olması şartıyla) part_0.csv yeni giriş verileriyle aynı klasör altında bulunur).
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  5. Ayrıca, akışınızı bir Amazon S3 hedefine (bir Jupyter not defteri aracılığıyla) aktarmaya çalışırsanız, artık tanımladığınız parametreleri içeren yeni bir hücre görürsünüz.
    Parametrenin varsayılan değerini aldığını unutmayın, ancak değerini değiştirerek değiştirebilirsiniz. parameter_overrides sözlük (sözlüğün tuşlarını değiştirmeden bırakırken).
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
    Ek olarak, yeni parametreler oluşturabilirsiniz. parametreler UI.
  6. Parametre simgesini seçerek açın ({{}}) yanında yer alır Go seçenek; her ikisi de URI yolu değerinin yanında bulunur.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Akış dosyanızda mevcut olan tüm parametreleri içeren bir tablo açılır (filename_param Bu noktada).
  7. seçerek akışınız için yeni parametreler oluşturabilirsiniz. Parametre Oluştur.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
    Yeni bir özel parametre oluşturmanıza izin veren bir açılır pencere açılır.
  8. Burada yeni bir tane oluşturduk. example_parameter Varsayılan değeri 0 olan Sayı türü olarak. Bu yeni oluşturulan parametre artık parametreler masa. Parametrenin üzerine gelindiğinde seçenekler görüntülenir Düzenle, Sil, ve Ekle.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  9. İçinden parametreler UI, istediğiniz parametreyi seçip seçerek parametrelerinizden birini URI'ye ekleyebilirsiniz. Ekle.
    Bu, parametreyi URI'nizin sonuna ekler. URI'nizde istediğiniz bölüme taşımanız gerekir.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  10. Parametrenin varsayılan değerini değiştirin, değişikliği uygulayın (moddan), seçin Go, ve yeni tanımlanan parametrenin değerine göre seçilen veri kümesini kullanarak önizleme listesini güncellemek için yenile simgesini seçin.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Şimdi diğer parametre türlerini keşfedelim. Şimdi, her dosyanın bir parça numarasına sahip olduğu birden çok parçaya bölünmüş bir veri kümemiz olduğunu varsayalım.
  11. Dosya numarasını dinamik olarak değiştirmek istiyorsak, aşağıdaki ekran görüntüsünde gösterildiği gibi bir Number parametresi tanımlayabiliriz.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Seçilen dosyanın, parametrede belirtilen sayıyla eşleşen dosya olduğuna dikkat edin.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Şimdi bir Pattern parametresinin nasıl kullanılacağını gösterelim. Tümünü içe aktarmak istediğimizi varsayalım. part_1.csv altındaki tüm klasörlerdeki dosyalar titanic-dataset/ dosya. Kalıp parametreleri herhangi bir geçerli normal ifadeyi alabilir; örnek olarak gösterilen bazı normal ifade kalıpları vardır.
  12. adlı bir Desen parametresi oluşturun. any_pattern altındaki herhangi bir klasör veya dosyayı eşleştirmek için titanic-dataset/ varsayılan değere sahip klasör .*.Joker karakterin tek bir * (yıldız) olmadığına, ayrıca bir nokta içerdiğine dikkat edin.
  13. Vurgulayın titanic-dataset/ yolunun bir parçası ve özel bir parametre oluşturun. bu sefer seçiyoruz model yazın.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Bu model, adı verilen tüm dosyaları seçer. part-1.csv altındaki herhangi bir klasörden titanic-dataset/.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Bir parametre, bir yolda birden çok kez kullanılabilir. Aşağıdaki örnekte yeni oluşturduğumuz parametremizi kullanıyoruz. any_pattern altındaki klasörlerin herhangi birindeki parça dosyalarından herhangi birini eşleştirmek için URI'mizde iki kez titanic-dataset/.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Son olarak bir Datetime parametresi oluşturalım. Datetime parametreleri, tarafından oluşturulanlar gibi tarih ve saate göre bölümlenmiş yollarla uğraşırken kullanışlıdır. Amazon Kinesis Veri İtfaiyesi (görmek Kinesis Data Firehose'ta Dinamik Bölümleme). Bu gösterim için, datetime-data klasörü altındaki verileri kullanıyoruz.
  14. Yolunuzun tarih/saat olan kısmını seçin ve özel bir parametre oluşturun. Seç Tarih saat parametre türü.
    Datetime veri türünü seçerken, daha fazla ayrıntı doldurmanız gerekir.
  15. Her şeyden önce, bir tarih formatı sağlamalısınız. Önceden tanımlanmış tarih/saat biçimlerinden herhangi birini seçebilir veya özel bir tane oluşturabilirsiniz.
    Önceden tanımlanmış tarih/saat biçimleri için gösterge, seçilen biçimle eşleşen bir tarih örneği sağlar. Bu gösteri için biçimi seçiyoruz yyyy/AA/gg.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  16. Ardından, tarih/saat değerleri için bir saat dilimi belirtin.
    Örneğin, bir saat diliminde geçerli tarih 1 Ocak 2022 olabilirken başka bir saat diliminde 2 Ocak 2022 olabilir.
  17. Son olarak, veri akışınıza dahil etmek istediğiniz dosya aralığını seçmenizi sağlayan zaman aralığını seçebilirsiniz.
    Zaman aralığınızı saat, gün, hafta, ay veya yıl olarak belirtebilirsiniz. Bu örnek için, geçen yılın tüm dosyalarını almak istiyoruz.
  18. Parametrenin açıklamasını girin ve seçin oluşturmak.
    Farklı saat dilimlerine sahip birden çok veri kümesi kullanıyorsanız saat otomatik olarak dönüştürülmez; tek bir saat dilimine dönüştürmek için her dosyayı veya kaynağı önceden işlemeniz gerekir.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Seçilen dosyalar, geçen yılın verilerine karşılık gelen klasörlerin altındaki tüm dosyalardır.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  19. Şimdi bir veri dönüştürme işi oluşturursak, tanımlı tüm parametrelerimizin bir listesini görebilir ve bunların varsayılan değerlerini geçersiz kılarak dönüştürme işlerimizin belirtilen dosyaları seçmesini sağlayabiliriz.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

İşleme işlerini planla

Artık veri dönüştürme işlerini çalıştırmayı ve dönüştürülmüş verilerinizi Amazon S3'e veya Amazon SXNUMX'e dışa aktarmayı otomatikleştirmek için işleme işlerini planlayabilirsiniz. Amazon SageMaker Özellik Mağazası. İşleri ihtiyaçlarınıza uygun zaman ve periyotlarla planlayabilirsiniz.

Zamanlanmış işleme işleri kullanımı Amazon EventBridge kurallar İşin çalışmasını zamanlamak için. Bu nedenle, bir ön koşul olarak, AWS Kimlik ve Erişim Yönetimi Data Wrangler tarafından kullanılan (IAM) rolü, yani Amazon Adaçayı Yapıcı yürütme rolü Studio örneğinin, EventBridge kuralları oluşturma izinleri vardır.

IAM'yi yapılandırın

Data Wrangler akışının çalıştığı Studio örneğine karşılık gelen IAM SageMaker yürütme rolünde aşağıdaki güncellemelerle devam edin:

  1. Takın AmazonEventBridgeTam Erişim yönetilen politika
  2. İşleme işi oluşturma izni vermek için bir ilke ekleyin:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Aşağıdaki güven ilkesini ekleyerek EventBridge'e rolü üstlenmesi için izin verin:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

Alternatif olarak, işleme işini çalıştırmak için farklı bir rol kullanıyorsanız, 2. ve 3. adımlarda belirtilen ilkeleri bu role uygulayın. IAM yapılandırmasıyla ilgili ayrıntılar için bkz. Yeni Verileri Otomatik Olarak İşlemek İçin Bir Program Oluşturun.

Bir program oluşturun

Zamanlama oluşturmak için akışınızı Data Wrangler akış düzenleyicisinde açın.

  1. Üzerinde Veri akışı sekmesini seçin İş oluştur.
  2. Gerekli alanları yapılandırın ve seçin Sonraki, 2. İşi yapılandırın.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  3. Genişletmek Ortak Programlar.
  4. Klinik Yeni program oluştur.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
    The Yeni program oluştur işleme işi zamanlamasının ayrıntılarını tanımladığınız iletişim kutusu açılır.
    İletişim kutusu, programı tanımlamanıza yardımcı olmak için büyük esneklik sunar. Örneğin, haftanın belirli günlerinde, belirli bir zamanda veya X saatte bir çalışan işleme işine sahip olabilirsiniz.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
    Periyodiklik, dakika düzeyine kadar granüler olabilir.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  5. Program adını ve periyodunu tanımlayın, ardından oluşturmak programı kaydetmek için
  6. Gelecekteki çalıştırmalarla ilgilenen planlamayla birlikte işleme işini hemen başlatma veya işi yalnızca programa göre çalışacak şekilde bırakma seçeneğiniz vardır.
  7. Aynı işleme işi için ek bir zamanlama da tanımlayabilirsiniz.
    Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  8. İşleme işinin zamanlamasını bitirmek için, öğesini seçin. oluşturmak.
    "İş başarıyla planlandı" mesajını görüyorsunuz. Ayrıca, işten yalnızca zamanlamaya göre çalışacak şekilde ayrılmayı seçerseniz az önce oluşturduğunuz EventBridge kuralına bir bağlantı görürsünüz.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Zamanlama bağlantısını seçerseniz, tarayıcıda EventBridge kuralını gösteren yeni bir sekme açılır. Bu sayfada, kuralda daha fazla değişiklik yapabilir ve çağırma geçmişini takip edebilirsiniz. Zamanlanan işleme işinizin çalışmasını durdurmak için, zamanlama adını içeren olay kuralını silin.

Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

EventBridge kuralı, hedefi olarak tanımlanan programa göre tetiklenen bir SageMaker işlem hattını ve işlem hattının bir parçası olarak çağrılan işleme işini gösterir.

Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

SageMaker ardışık düzeninin çalıştırmalarını izlemek için Studio'ya geri dönebilir, SageMaker kaynakları simgesini seçin Boru Hatları, ve izlemek istediğiniz ardışık düzen adını seçin. Artık tüm geçerli ve geçmiş çalıştırmaları ve söz konusu işlem hattının durumunu içeren bir tablo görebilirsiniz.

Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Belirli bir girişi çift tıklatarak daha fazla ayrıntı görebilirsiniz.

Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Temizlemek

Data Wrangler'ı kullanmadığınızda, ek ücret ödememek için üzerinde çalıştığı bulut sunucusunu kapatmanız önerilir.

İş kaybetmemek için Data Wrangler'ı kapatmadan önce veri akışınızı kaydedin.

  1. Studio'da veri akışınızı kaydetmek için fileto, Daha sonra seçmek Veri Wrangler Akışını Kaydet. Data Wrangler, veri akışınızı her 60 saniyede bir otomatik olarak kaydeder.
  2. Data Wrangler örneğini kapatmak için Studio'da Çalışan Örnekler ve Çekirdekler.
  3. Altında ÇALIŞAN UYGULAMALARyanındaki kapatma simgesini seçin. sagemaker-data-wrangler-1.0 app.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.
  4. Klinik hepsini kapat onaylamak.Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Data Wrangler, bir ml.m5.4xlarge örneği üzerinde çalışır. Bu örnek şuradan kaybolur: ÇALIŞAN ÖRNEKLER Data Wrangler uygulamasını kapattığınızda.

Data Wrangler uygulamasını kapattıktan sonra, Data Wrangler akış dosyasını bir sonraki açışınızda uygulamanın yeniden başlatılması gerekir. Bu birkaç dakika sürebilir.

Sonuç

Bu gönderide, Data Wrangler akışlarını kullanarak veri kümelerinizi içe aktarmak ve bunlar üzerinde veri dönüştürme işleri oluşturmak için parametreleri nasıl kullanabileceğinizi gösterdik. Parametreli veri kümeleri, kullandığınız veri kümelerinde daha fazla esneklik sağlar ve akışlarınızı yeniden kullanmanıza olanak tanır. Ayrıca, doğrudan Data Wrangler'ın kullanıcı arabiriminden ihtiyaçlarınıza uygun zaman ve aralıklarla Amazon S3'e veya Feature Store'a veri dönüşümlerinizi ve dışa aktarımlarınızı otomatikleştirmek için planlanmış işleri nasıl ayarlayabileceğinizi de gösterdik.

Data Wrangler ile veri akışlarını kullanma hakkında daha fazla bilgi için bkz. Veri Wrangler Akışı Oluşturun ve Kullanın ve Amazon SageMaker Fiyatlandırması. Data Wrangler'ı kullanmaya başlamak için bkz. Amazon SageMaker Data Wrangler ile ML Verilerini Hazırlayın.


yazarlar hakkında

Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.david laredo AWS müşterileri için birden çok makine öğrenimi prototipinin geliştirilmesine yardımcı olduğu Amazon Web Services'ta Prototipleme ve Bulut Mühendisliği ekibi için Prototipleme Mimarıdır. Son 6 yıldır makine öğreniminde çalışıyor, makine öğrenimi modellerini eğitiyor ve ince ayar yapıyor ve bu modelleri üretmek için uçtan uca işlem hatları uyguluyor. İlgi alanları NLP, ML uygulamaları ve uçtan uca ML'dir.

Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Givanildo Alves Amazon Web Services'ta Prototipleme ve Bulut Mühendisliği ekibinde Prototipleme Mimarı olup, halihazırda yapay zeka etrafında birkaç prototip uygulamış olan müşterilerin AWS'de mümkün olan sanatı göstererek yenilik yapmasına ve hızlandırmasına yardımcı olmaktadır. Yazılım mühendisliği alanında uzun bir kariyere sahiptir ve daha önce Amazon.com.br'de Yazılım Geliştirme Mühendisi olarak çalışmıştır.

Parametrelendirilmiş veri kümeleri ve planlanmış işlerle Amazon SageMaker Data Wrangler iş yükleriniz üzerinde daha fazla kontrol sahibi olun PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Adrian Fuentes Amazon Web Services'ta Prototipleme ve Bulut Mühendisliği ekibinde makine öğrenimi, Nesnelerin İnterneti ve blok zincirinde müşteriler için yenilikler yapan bir Program Yöneticisidir. Projeleri yönetme ve uygulama konusunda 15 yıldan fazla deneyime ve AWS'de 1 yıllık görev süresine sahiptir.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi