Veriler her alanı ve her işi dönüştürüyor. Ancak, çoğu şirketin takip edebileceğinden daha hızlı büyüyen verilerle, veri toplamak ve bu verilerden değer elde etmek, yapılması zor bir iştir. A modern veri stratejisi verilerle daha iyi iş sonuçları elde etmenize yardımcı olabilir. AWS, aşağıdakiler için en eksiksiz hizmet setini sağlar: uçtan uca veri yolculuğu size yardımcı olmak için verilerinizden değerin kilidini açın ve onu içgörüye dönüştürün.
Veri bilimcileri, zamanlarının %80'e kadarını makine öğrenimi (ML) projeleri için veri hazırlayarak geçirebilirler. Bu hazırlık süreci büyük ölçüde farklılaşmamış ve sıkıcı bir iştir ve birden çok programlama API'sini ve özel kitaplıkları içerebilir. Amazon SageMaker Veri Düzenleyicisi veri bilimcilerin ve veri mühendislerinin görsel bir arayüz aracılığıyla tablo ve zaman serisi veri hazırlığını ve özellik mühendisliğini basitleştirmesine ve hızlandırmasına yardımcı olur. gibi birden çok veri kaynağından veri alabilirsiniz. Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Atina, Amazon Kırmızıya Kaydırma, hatta üçüncü taraf çözümler gibi Kar taneciği or DataBrick'lerve 300'den fazla yerleşik veri dönüştürmesi ve bir kod parçacığı kitaplığı ile verilerinizi işleyin, böylece herhangi bir kod yazmadan özellikleri hızla normalleştirebilir, dönüştürebilir ve birleştirebilirsiniz. Özel dönüşümlerinizi PySpark, SQL veya Panda'lara da getirebilirsiniz.
Bu gönderi, veri hazırlama işlerinizi otomatik olarak çalışacak şekilde nasıl planlayabileceğinizi gösterir. Ayrıca, parametreleştirilmiş URI'ler aracılığıyla bir veri akışına dahil edilecek dosyaları belirtmenize izin veren, parametreleştirilmiş veri kümelerinin yeni Data Wrangler özelliğini de araştırıyoruz.
Çözüme genel bakış
Data Wrangler artık parametreleştirilmiş bir URI kullanarak veri içe aktarmayı destekliyor. Bu, daha fazla esneklik sağlar, çünkü artık URI'de Dize, Sayı, Tarih, Saat ve Desen türünde olabilen belirtilen parametrelerle eşleşen tüm veri kümelerini içe aktarabilirsiniz. Ek olarak, artık Data Wrangler dönüştürme işlerinizi bir zamanlamaya göre tetikleyebilirsiniz.
Bu gönderide, Data Wrangler'ın bu iki yeni özelliğini nasıl deneyebileceğinizi göstermek için Titanic veri kümesiyle örnek bir akış oluşturuyoruz. Veri setini indirmek için bkz. Titanik – Felaketten Makine Öğrenimi.
Önkoşullar
Bu yayında açıklanan tüm özellikleri elde etmek için Data Wrangler'ın en son çekirdek sürümünü çalıştırıyor olmanız gerekir. Daha fazla bilgi için bkz. Data Wrangler'ı Güncelle. Ek olarak, çalışıyor olmanız gerekir Amazon SageMaker Stüdyosu JupyterLab 3. Geçerli sürümü görüntülemek ve güncellemek için bkz. JupyterLab Sürüm Oluşturma.
Dosya yapısı
Bu gösteri için, bu gönderide özetlenen adımları yeniden oluşturmak için çoğaltmanız gereken basit bir dosya yapısını izliyoruz.
- Stüdyoda, yeni bir not defteri oluştur.
- Kullandığımız klasör yapısını oluşturmak için aşağıdaki kod parçacığını çalıştırın (dosya ağacınızda istediğiniz klasörde olduğunuzdan emin olun):
- Kopya
train.csv
vetest.csv
dosyaları orijinal Titanic veri kümesinden klasörleretitanic_dataset/train
vetitanic_dataset/test
, Sırasıyla. - Klasörleri gerekli dosyalarla doldurmak için aşağıdaki kod parçacığını çalıştırın:
Biz ayırdık train.csv
Titanic veri setinin dosyasını dokuz farklı dosyaya bölün. part_x
, burada x, parçanın numarasıdır. 0. Kısım ilk 100 kaydı içerir, 1. Kısım sonraki 100 kaydı içerir ve 8. Kısma kadar böyle devam eder. Dosya ağacının her düğüm klasörü eğitim verilerinin dokuz bölümünün bir kopyasını içerir. train
ve test
içeren klasörler train.csv
ve test.csv
.
parametreli veri kümeleri
Data Wrangler kullanıcıları artık Amazon S3'ten içe aktarılan veri kümeleri için parametreler belirtebilir. Veri kümesi parametreleri, kaynakların URI'sinde belirtilir ve değeri, içe aktarmak istediğimiz dosyaları seçme konusunda daha fazla esneklik sağlayacak şekilde dinamik olarak değiştirilebilir. Parametreler dört veri tipinde olabilir:
- Numara – Herhangi bir tamsayının değerini alabilir
- dizi – Herhangi bir metin dizisinin değerini alabilir
- model – Herhangi bir normal ifadenin değerini alabilir
- Tarih saat – Desteklenen tarih/saat biçimlerinden herhangi birinin değerini alabilir
Bu bölümde, bu yeni özelliğin bir adım adım açıklamasını sunuyoruz. Bu, yalnızca veri kümenizi mevcut akışınıza aktardıktan sonra ve yalnızca Amazon S3'ten içe aktarılan veri kümeleri için kullanılabilir.
- Veri akışınızdan içe aktarma adımının yanındaki artı (+) işaretini seçin ve Veri kümesini düzenle.
- Yeni parametreler oluşturmanın tercih edilen (ve en kolay) yöntemi, URI'nizin bir bölümünü vurgulamak ve Özel parametre oluştur açılır menüde Oluşturmak istediğiniz her parametre için dört şey belirtmeniz gerekir:
- Name
- Tip
- Varsayılan değer
- Açıklama
Burada, adında bir String tipi parametre oluşturduk.filename_param
varsayılan değeri iletrain.csv
. Şimdi, URI'nin daha önce vurguladığımız kısmının yerini alan parametre adını çift parantez içinde görebilirsiniz. Çünkü bu parametre için tanımlanan değertrain.csv
, şimdi dosyayı görüyoruztrain.csv
içe aktarma tablosunda listelenir. - Bir dönüşüm işi oluşturmaya çalıştığımızda, İşi yapılandır adım, şimdi görüyoruz parametreler tanımladığımız tüm parametrelerin bir listesini görebileceğimiz bölüm.
- Parametreyi seçmek bize parametrenin değerini değiştirme seçeneği sunar, bu durumda, tanımlanan akışa göre dönüştürülecek giriş veri setini değiştirir.
değerini değiştirdiğimizi varsayarsakfilename_param
itibarentrain.csv
içinpart_0.csv
, dönüşüm işi şimdi alıyorpart_0.csv
(adına sahip bir dosya olması şartıyla)part_0.csv
yeni giriş verileriyle aynı klasör altında bulunur). - Ayrıca, akışınızı bir Amazon S3 hedefine (bir Jupyter not defteri aracılığıyla) aktarmaya çalışırsanız, artık tanımladığınız parametreleri içeren yeni bir hücre görürsünüz.
Parametrenin varsayılan değerini aldığını unutmayın, ancak değerini değiştirerek değiştirebilirsiniz.parameter_overrides
sözlük (sözlüğün tuşlarını değiştirmeden bırakırken).
Ek olarak, yeni parametreler oluşturabilirsiniz. parametreler UI. - Parametre simgesini seçerek açın ({{}}) yanında yer alır Go seçenek; her ikisi de URI yolu değerinin yanında bulunur.
Akış dosyanızda mevcut olan tüm parametreleri içeren bir tablo açılır (filename_param
Bu noktada). - seçerek akışınız için yeni parametreler oluşturabilirsiniz. Parametre Oluştur.
Yeni bir özel parametre oluşturmanıza izin veren bir açılır pencere açılır. - Burada yeni bir tane oluşturduk.
example_parameter
Varsayılan değeri 0 olan Sayı türü olarak. Bu yeni oluşturulan parametre artık parametreler masa. Parametrenin üzerine gelindiğinde seçenekler görüntülenir Düzenle, Sil, ve Ekle. - İçinden parametreler UI, istediğiniz parametreyi seçip seçerek parametrelerinizden birini URI'ye ekleyebilirsiniz. Ekle.
Bu, parametreyi URI'nizin sonuna ekler. URI'nizde istediğiniz bölüme taşımanız gerekir. - Parametrenin varsayılan değerini değiştirin, değişikliği uygulayın (moddan), seçin Go, ve yeni tanımlanan parametrenin değerine göre seçilen veri kümesini kullanarak önizleme listesini güncellemek için yenile simgesini seçin.Şimdi diğer parametre türlerini keşfedelim. Şimdi, her dosyanın bir parça numarasına sahip olduğu birden çok parçaya bölünmüş bir veri kümemiz olduğunu varsayalım.
- Dosya numarasını dinamik olarak değiştirmek istiyorsak, aşağıdaki ekran görüntüsünde gösterildiği gibi bir Number parametresi tanımlayabiliriz.Seçilen dosyanın, parametrede belirtilen sayıyla eşleşen dosya olduğuna dikkat edin.
Şimdi bir Pattern parametresinin nasıl kullanılacağını gösterelim. Tümünü içe aktarmak istediğimizi varsayalım.part_1.csv
altındaki tüm klasörlerdeki dosyalartitanic-dataset/
dosya. Kalıp parametreleri herhangi bir geçerli normal ifadeyi alabilir; örnek olarak gösterilen bazı normal ifade kalıpları vardır. - adlı bir Desen parametresi oluşturun.
any_pattern
altındaki herhangi bir klasör veya dosyayı eşleştirmek içintitanic-dataset/
varsayılan değere sahip klasör.*
.Joker karakterin tek bir * (yıldız) olmadığına, ayrıca bir nokta içerdiğine dikkat edin. - Vurgulayın
titanic-dataset/
yolunun bir parçası ve özel bir parametre oluşturun. bu sefer seçiyoruz model yazın.Bu model, adı verilen tüm dosyaları seçer.part-1.csv
altındaki herhangi bir klasördentitanic-dataset/
.
Bir parametre, bir yolda birden çok kez kullanılabilir. Aşağıdaki örnekte yeni oluşturduğumuz parametremizi kullanıyoruz.any_pattern
altındaki klasörlerin herhangi birindeki parça dosyalarından herhangi birini eşleştirmek için URI'mizde iki keztitanic-dataset/
.
Son olarak bir Datetime parametresi oluşturalım. Datetime parametreleri, tarafından oluşturulanlar gibi tarih ve saate göre bölümlenmiş yollarla uğraşırken kullanışlıdır. Amazon Kinesis Veri İtfaiyesi (görmek Kinesis Data Firehose'ta Dinamik Bölümleme). Bu gösterim için, datetime-data klasörü altındaki verileri kullanıyoruz. - Yolunuzun tarih/saat olan kısmını seçin ve özel bir parametre oluşturun. Seç Tarih saat parametre türü.
Datetime veri türünü seçerken, daha fazla ayrıntı doldurmanız gerekir. - Her şeyden önce, bir tarih formatı sağlamalısınız. Önceden tanımlanmış tarih/saat biçimlerinden herhangi birini seçebilir veya özel bir tane oluşturabilirsiniz.
Önceden tanımlanmış tarih/saat biçimleri için gösterge, seçilen biçimle eşleşen bir tarih örneği sağlar. Bu gösteri için biçimi seçiyoruz yyyy/AA/gg. - Ardından, tarih/saat değerleri için bir saat dilimi belirtin.
Örneğin, bir saat diliminde geçerli tarih 1 Ocak 2022 olabilirken başka bir saat diliminde 2 Ocak 2022 olabilir. - Son olarak, veri akışınıza dahil etmek istediğiniz dosya aralığını seçmenizi sağlayan zaman aralığını seçebilirsiniz.
Zaman aralığınızı saat, gün, hafta, ay veya yıl olarak belirtebilirsiniz. Bu örnek için, geçen yılın tüm dosyalarını almak istiyoruz. - Parametrenin açıklamasını girin ve seçin oluşturmak.
Farklı saat dilimlerine sahip birden çok veri kümesi kullanıyorsanız saat otomatik olarak dönüştürülmez; tek bir saat dilimine dönüştürmek için her dosyayı veya kaynağı önceden işlemeniz gerekir.Seçilen dosyalar, geçen yılın verilerine karşılık gelen klasörlerin altındaki tüm dosyalardır. - Şimdi bir veri dönüştürme işi oluşturursak, tanımlı tüm parametrelerimizin bir listesini görebilir ve bunların varsayılan değerlerini geçersiz kılarak dönüştürme işlerimizin belirtilen dosyaları seçmesini sağlayabiliriz.
İşleme işlerini planla
Artık veri dönüştürme işlerini çalıştırmayı ve dönüştürülmüş verilerinizi Amazon S3'e veya Amazon SXNUMX'e dışa aktarmayı otomatikleştirmek için işleme işlerini planlayabilirsiniz. Amazon SageMaker Özellik Mağazası. İşleri ihtiyaçlarınıza uygun zaman ve periyotlarla planlayabilirsiniz.
Zamanlanmış işleme işleri kullanımı Amazon EventBridge kurallar İşin çalışmasını zamanlamak için. Bu nedenle, bir ön koşul olarak, AWS Kimlik ve Erişim Yönetimi Data Wrangler tarafından kullanılan (IAM) rolü, yani Amazon Adaçayı Yapıcı yürütme rolü Studio örneğinin, EventBridge kuralları oluşturma izinleri vardır.
IAM'yi yapılandırın
Data Wrangler akışının çalıştığı Studio örneğine karşılık gelen IAM SageMaker yürütme rolünde aşağıdaki güncellemelerle devam edin:
- Takın AmazonEventBridgeTam Erişim yönetilen politika
- İşleme işi oluşturma izni vermek için bir ilke ekleyin:
- Aşağıdaki güven ilkesini ekleyerek EventBridge'e rolü üstlenmesi için izin verin:
Alternatif olarak, işleme işini çalıştırmak için farklı bir rol kullanıyorsanız, 2. ve 3. adımlarda belirtilen ilkeleri bu role uygulayın. IAM yapılandırmasıyla ilgili ayrıntılar için bkz. Yeni Verileri Otomatik Olarak İşlemek İçin Bir Program Oluşturun.
Bir program oluşturun
Zamanlama oluşturmak için akışınızı Data Wrangler akış düzenleyicisinde açın.
- Üzerinde Veri akışı sekmesini seçin İş oluştur.
- Gerekli alanları yapılandırın ve seçin Sonraki, 2. İşi yapılandırın.
- Genişletmek Ortak Programlar.
- Klinik Yeni program oluştur.
The Yeni program oluştur işleme işi zamanlamasının ayrıntılarını tanımladığınız iletişim kutusu açılır.
İletişim kutusu, programı tanımlamanıza yardımcı olmak için büyük esneklik sunar. Örneğin, haftanın belirli günlerinde, belirli bir zamanda veya X saatte bir çalışan işleme işine sahip olabilirsiniz.
Periyodiklik, dakika düzeyine kadar granüler olabilir. - Program adını ve periyodunu tanımlayın, ardından oluşturmak programı kaydetmek için
- Gelecekteki çalıştırmalarla ilgilenen planlamayla birlikte işleme işini hemen başlatma veya işi yalnızca programa göre çalışacak şekilde bırakma seçeneğiniz vardır.
- Aynı işleme işi için ek bir zamanlama da tanımlayabilirsiniz.
- İşleme işinin zamanlamasını bitirmek için, öğesini seçin. oluşturmak.
"İş başarıyla planlandı" mesajını görüyorsunuz. Ayrıca, işten yalnızca zamanlamaya göre çalışacak şekilde ayrılmayı seçerseniz az önce oluşturduğunuz EventBridge kuralına bir bağlantı görürsünüz.
Zamanlama bağlantısını seçerseniz, tarayıcıda EventBridge kuralını gösteren yeni bir sekme açılır. Bu sayfada, kuralda daha fazla değişiklik yapabilir ve çağırma geçmişini takip edebilirsiniz. Zamanlanan işleme işinizin çalışmasını durdurmak için, zamanlama adını içeren olay kuralını silin.
EventBridge kuralı, hedefi olarak tanımlanan programa göre tetiklenen bir SageMaker işlem hattını ve işlem hattının bir parçası olarak çağrılan işleme işini gösterir.
SageMaker ardışık düzeninin çalıştırmalarını izlemek için Studio'ya geri dönebilir, SageMaker kaynakları simgesini seçin Boru Hatları, ve izlemek istediğiniz ardışık düzen adını seçin. Artık tüm geçerli ve geçmiş çalıştırmaları ve söz konusu işlem hattının durumunu içeren bir tablo görebilirsiniz.
Belirli bir girişi çift tıklatarak daha fazla ayrıntı görebilirsiniz.
Temizlemek
Data Wrangler'ı kullanmadığınızda, ek ücret ödememek için üzerinde çalıştığı bulut sunucusunu kapatmanız önerilir.
İş kaybetmemek için Data Wrangler'ı kapatmadan önce veri akışınızı kaydedin.
- Studio'da veri akışınızı kaydetmek için fileto, Daha sonra seçmek Veri Wrangler Akışını Kaydet. Data Wrangler, veri akışınızı her 60 saniyede bir otomatik olarak kaydeder.
- Data Wrangler örneğini kapatmak için Studio'da Çalışan Örnekler ve Çekirdekler.
- Altında ÇALIŞAN UYGULAMALARyanındaki kapatma simgesini seçin.
sagemaker-data-wrangler-1.0
app. - Klinik hepsini kapat onaylamak.
Data Wrangler, bir ml.m5.4xlarge örneği üzerinde çalışır. Bu örnek şuradan kaybolur: ÇALIŞAN ÖRNEKLER Data Wrangler uygulamasını kapattığınızda.
Data Wrangler uygulamasını kapattıktan sonra, Data Wrangler akış dosyasını bir sonraki açışınızda uygulamanın yeniden başlatılması gerekir. Bu birkaç dakika sürebilir.
Sonuç
Bu gönderide, Data Wrangler akışlarını kullanarak veri kümelerinizi içe aktarmak ve bunlar üzerinde veri dönüştürme işleri oluşturmak için parametreleri nasıl kullanabileceğinizi gösterdik. Parametreli veri kümeleri, kullandığınız veri kümelerinde daha fazla esneklik sağlar ve akışlarınızı yeniden kullanmanıza olanak tanır. Ayrıca, doğrudan Data Wrangler'ın kullanıcı arabiriminden ihtiyaçlarınıza uygun zaman ve aralıklarla Amazon S3'e veya Feature Store'a veri dönüşümlerinizi ve dışa aktarımlarınızı otomatikleştirmek için planlanmış işleri nasıl ayarlayabileceğinizi de gösterdik.
Data Wrangler ile veri akışlarını kullanma hakkında daha fazla bilgi için bkz. Veri Wrangler Akışı Oluşturun ve Kullanın ve Amazon SageMaker Fiyatlandırması. Data Wrangler'ı kullanmaya başlamak için bkz. Amazon SageMaker Data Wrangler ile ML Verilerini Hazırlayın.
yazarlar hakkında
david laredo AWS müşterileri için birden çok makine öğrenimi prototipinin geliştirilmesine yardımcı olduğu Amazon Web Services'ta Prototipleme ve Bulut Mühendisliği ekibi için Prototipleme Mimarıdır. Son 6 yıldır makine öğreniminde çalışıyor, makine öğrenimi modellerini eğitiyor ve ince ayar yapıyor ve bu modelleri üretmek için uçtan uca işlem hatları uyguluyor. İlgi alanları NLP, ML uygulamaları ve uçtan uca ML'dir.
Givanildo Alves Amazon Web Services'ta Prototipleme ve Bulut Mühendisliği ekibinde Prototipleme Mimarı olup, halihazırda yapay zeka etrafında birkaç prototip uygulamış olan müşterilerin AWS'de mümkün olan sanatı göstererek yenilik yapmasına ve hızlandırmasına yardımcı olmaktadır. Yazılım mühendisliği alanında uzun bir kariyere sahiptir ve daha önce Amazon.com.br'de Yazılım Geliştirme Mühendisi olarak çalışmıştır.
Adrian Fuentes Amazon Web Services'ta Prototipleme ve Bulut Mühendisliği ekibinde makine öğrenimi, Nesnelerin İnterneti ve blok zincirinde müşteriler için yenilikler yapan bir Program Yöneticisidir. Projeleri yönetme ve uygulama konusunda 15 yıldan fazla deneyime ve AWS'de 1 yıllık görev süresine sahiptir.
- AI
- yapay zeka
- AI sanat üreteci
- yapay zeka robotu
- Amazon Makine Öğrenimi
- Amazon SageMaker Veri Düzenleyicisi
- Duyurular
- yapay zeka
- yapay zeka sertifikası
- bankacılıkta yapay zeka
- yapay zeka robotu
- yapay zeka robotları
- yapay zeka yazılımı
- AWS Makine Öğrenimi
- blockchain
- blockchain konferans ai
- zeka
- konuşma yapay zekası
- kripto konferans ai
- dal-e
- veri işleme
- derin öğrenme
- google ai
- Orta (200)
- makine öğrenme
- parametreli veri kümeleri
- Platon
- plato yapay zekası
- Plato Veri Zekası
- Plato Oyunu
- PlatoVeri
- plato oyunu
- ölçek ai
- Planlanmış işler
- sözdizimi
- Teknik Nasıl Yapılır
- zefirnet