Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıktı konumu ve veri saklama ilkesi yapılandırın

Amazon SageMaker Veri Düzenleyicisi Makine öğrenimi (ML) için verileri toplamak ve hazırlamak için gereken süreyi haftalardan dakikalara indirir. Amazon SageMaker StüdyosuML için ilk tam entegre geliştirme ortamı (IDE). Data Wrangler ile veri hazırlama ve özellik mühendisliği sürecini basitleştirebilir ve veri seçimi, temizleme, keşif ve görselleştirme dahil olmak üzere veri hazırlama iş akışının her adımını tek bir görsel arayüzden tamamlayabilirsiniz. gibi birden çok veri kaynağından veri içe aktarabilirsiniz. Amazon Basit Depolama Hizmeti (Amazon S3), Amazon Kırmızıya Kaydırma, Kar taneciği, ve 26 birleşik sorgu veri kaynağı Tarafından desteklenen Amazon Atina.

Bugünden itibaren, Athena veri kaynaklarından veri içe aktarırken, Athena'nın aracı verileri nerede ve ne kadar süreyle sakladığını kontrol etmek için verileri Data Wrangler'a aktarmak için S3 sorgu çıktı konumunu ve veri saklama süresini yapılandırabilirsiniz. Bu gönderide, size bu yeni özellikte yol gösteriyoruz.

Çözüme genel bakış

Athena, internette gezinmeyi kolaylaştıran etkileşimli bir sorgu hizmetidir. AWS Tutkal Veri Kataloğu ve standart SQL kullanarak Amazon S3 ve 26 birleştirilmiş sorgu veri kaynağındaki verileri analiz edin. Athena'yı verileri içe aktarmak için kullandığınızda, Athena sorgu çıktısı için Data Wrangler'ın varsayılan S3 konumunu kullanabilir veya özel bir S3 konumunu zorlamak için bir Athena çalışma grubu belirtebilirsiniz. Önceden, bu aracı verileri kaldırmak için temizleme iş akışları uygulamanız veya depolama maliyetini kontrol etmek ve kuruluşunuzun veri güvenliği gereksinimlerini karşılamak için S3 yaşam döngüsü yapılandırmasını manuel olarak ayarlamanız gerekiyordu. Bu büyük bir operasyonel ek yüktür ve ölçeklenebilir değildir.

Data Wrangler artık Athena sorgu çıktınız için özel S3 konumlarını ve veri saklama sürelerini destekliyor. Bu yeni özellikle, Athena sorgu çıktı konumunu özel bir S3 kovası olarak değiştirebilirsiniz. Artık Athena sorgu çıktısı için 5 günlük bir varsayılan veri saklama politikanız var ve bunu kuruluşunuzun veri güvenliği gereksinimlerini karşılayacak şekilde değiştirebilirsiniz. Tutma süresine bağlı olarak, S3 kovasındaki Athena sorgu çıktısı otomatik olarak temizlenir. Verileri içe aktardıktan sonra bu veri kümesinde keşif amaçlı veri analizi yapabilir ve temiz verileri Amazon S3'te depolayabilirsiniz.

Aşağıdaki şema bu mimariyi göstermektedir.

Kullanım durumumuz için çözümde gezinmek için örnek bir banka veri kümesi kullanıyoruz. İş akışı aşağıdaki adımlardan oluşur:

  1. Atomic Cüzdanı indirin : örnek veri kümesi ve bir S3 kovasına yükleyin.
  2. Bir AWS Glue kurun paletli şemayı taramak ve meta veri şemasını AWS Glue Data Catalog'da depolamak için.
  3. S3 klasöründeki verileri sorgulamak üzere Veri Kataloğuna erişmek için Athena'yı kullanın.
  4. Athena'ya bağlanmak için yeni bir Data Wrangler akışı oluşturun.
  5. Bağlantıyı oluştururken, veri kümesi için saklama TTL'sini ayarlayın.
  6. Bu bağlantıyı iş akışında kullanın ve temiz verileri başka bir S3 klasöründe saklayın.

Basit olması için, Athena ortamını zaten kurduğunuzu varsayıyoruz (1–3. adımlar). Sonraki adımları bu gönderide detaylandırıyoruz.

Önkoşullar

Athena ortamını kurmak için bkz. Kullanıcı Rehberi adım adım talimatlar için ve önceki bölümde özetlendiği gibi 1-3 arasındaki adımları tamamlayın.

Verilerinizi Athena'dan Data Wrangler'a aktarın

Verilerinizi içe aktarmak için aşağıdaki adımları tamamlayın:

  1. Studio konsolunda, Kaynaklar gezinme bölmesindeki simgesi.
  2. Klinik Veri Düzenleyici Açılır menüde.
  3. Klinik Yeni akış.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
  4. Üzerinde ithalat sekmesini seçin Amazon Atina.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
    Athena'ya bağlanabileceğiniz ve veritabanından içe aktarmak için bir SQL sorgusu yazabileceğiniz bir ayrıntı sayfası açılır.
  5. Bağlantınız için bir ad girin.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
  6. Genişletmek Gelişmiş yapılandırma.
    Athena'ya bağlanırken Data Wrangler, sorgulanan verileri aşamalandırmak için Amazon S3'ü kullanır. Varsayılan olarak, bu veriler S3 konumunda hazırlanır s3://sagemaker-{region}-{account_id}/athena/ 5 günlük saklama süresi ile.
  7. İçin Amazon S3 sorgu sonuçlarının konumu, S3 konumunuzu girin.
  8. seç Veri saklama süresi ve veri saklama süresini ayarlayın (bu gönderi için 1 gün).
    Bu seçeneğin seçimini kaldırırsanız, veriler süresiz olarak kalır.Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.Perde arkasında, Data Wrangler, otomatik olarak temizlemek için bu S3 konumuna bir S3 yaşam döngüsü yapılandırma ilkesi ekler. Aşağıdaki örnek politikaya bakın:
     "Rules": [
            {
                "Expiration": {
                    "Days": 1
                },
                "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
                "Filter": {
                    "Prefix": "athena/test"
                },
                "Status": "Enabled"
            }
        ]

    ihtiyacınız olan s3:GetLifecycleConfiguration ve s3:PutLifecycleConfiguration SageMaker yürütme rolünüzün yaşam döngüsü yapılandırma ilkelerini doğru şekilde uygulaması için. Bu izinler olmadan verileri içe aktarmaya çalıştığınızda hata mesajları alırsınız.

    Aşağıdaki hata mesajı, eksik bir örnektir. GetLifecycleConfiguration izni.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.

    Aşağıdaki hata mesajı, eksik bir örnektir. PutLifecycleConfiguration izni.

    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.

  9. İsteğe bağlı olarak Çalışma grubu, bir Athena çalışma grubu belirtebilirsiniz.
    Athena çalışma grubu, kullanıcıları, ekipleri, uygulamaları veya iş yüklerini, her biri kendi izinlerine ve yapılandırma ayarlarına sahip olan gruplara ayırır. Bir çalışma grubu belirttiğinizde Data Wrangler, Athena'da tanımlanan çalışma grubu ayarını devralır. Örneğin, bir çalışma grubunun sorgu sonuçlarını depolamak için tanımlanmış bir S3 konumu varsa ve İstemci tarafını geçersiz kıl ayarlarında S3 sorgu sonucu konumunu düzenleyemezsiniz.Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.Varsayılan olarak, Data Wrangler sizin için Athena bağlantısını da kaydeder. Bu, ekranda yeni bir Athena döşemesi olarak görüntülenir. ithalat sekme. Sorgulamak ve farklı verileri Data Wrangler'a getirmek için bu bağlantıyı her zaman yeniden açabilirsiniz.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
  10. Kaldırın Bağlantıyı kaydet Bağlantıyı kaydetmek istemiyorsanız.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
  11. Athena bağlantısını yapılandırmak için Hayır için Örnekleme tüm veri kümesini içe aktarmak için.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
    Büyük veri kümeleri için Data Wrangler, dönüştürme iş akışınızı oluşturmak için verilerinizin bir alt kümesini içe aktarmanıza ve yalnızca hazır olduğunuzda tüm veri kümesini işlemenize olanak tanır. Bu, yineleme döngüsünü hızlandırır ve işlem süresi ve maliyetinden tasarruf sağlar. Mevcut farklı veri örnekleme seçenekleri hakkında daha fazla bilgi edinmek için şu adresi ziyaret edin: Amazon SageMaker Data Wrangler artık rastgele örneklemeyi ve katmanlara ayrılmış örneklemeyi destekliyor.
  12. İçin Veri kataloğuSeç AwsDataKatalog.
  13. İçin veritabanı, veritabanınızı seçin.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
    Data Wrangler, mevcut tabloları görüntüler. Şemayı kontrol etmek ve verileri önizlemek için her tabloyu seçebilirsiniz.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
  14. Sorgu alanına aşağıdaki kodu girin:
    Select *
    From bank_additional_full

  15. Klinik koşmak Verileri önizlemek için
  16. Her şey yolunda görünüyorsa, seçin ithalat.
  17. Bir veri kümesi adı girin ve seçin Ekle Verileri Data Wrangler çalışma alanınıza aktarmak için.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.

Data Wrangler ile verileri analiz edin ve işleyin

Verileri Data Wrangler'a yükledikten sonra keşifsel veri analizi (EDA) yapabilir ve verileri makine öğrenimi için hazırlayabilirsiniz.

  1. yanındaki artı işaretini seçin bank-data veri akışındaki veri kümesini seçin ve Analiz ekle.
    Data Wrangler, Veri Kalitesi ve Öngörüler Raporu, veri korelasyonu, eğitim öncesi önyargı raporu, veri kümenizin bir özeti ve görselleştirmeler (histogramlar ve dağılım grafikleri gibi) dahil olmak üzere yerleşik analizler sağlar. Ek olarak, kendi özel görselleştirmenizi oluşturabilirsiniz.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
  2. İçin Analiz türüSeç Veri Kalitesi ve Öngörü Raporu.
    Bu, otomatik olarak görselleştirmeler, veri kalitesi sorunlarını belirlemek için analizler ve veri kümeniz için gereken doğru dönüşümler için öneriler oluşturur.
  3. İçin Hedef sütun, seçmek Y.
  4. Bu bir sınıflandırma problem ifadesi olduğundan, Sorun tipiseçin Sınıflandırma.
  5. Klinik oluşturmak.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
    Data Wrangler, veri kümeniz hakkında ayrıntılı bir rapor oluşturur. Raporu yerel makinenize de indirebilirsiniz.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.
  6. Veri hazırlama için, veri akışında banka-veri kümesinin yanındaki artı işaretini seçin ve Dönüşüm ekle.
  7. Klinik Adım ekle dönüşümlerinizi oluşturmaya başlamak için.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.

Bu yazının yazıldığı sırada, Data Wrangler 300'den fazla yerleşik dönüşüm sağlıyor. Pandalar veya PySpark kullanarak kendi dönüşümlerinizi de yazabilirsiniz.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.

Artık iş gereksinimlerinize göre dönüşümlerinizi ve analizlerinizi oluşturmaya başlayabilirsiniz.

Temizlemek

Devam eden maliyetlerden kaçınmak için işiniz bittiğinde aşağıdaki adımları kullanarak Data Wrangler kaynaklarını silin.

  1. Çalışan Örnekler ve Çekirdekler simgesini seçin.
  2. ÇALIŞAN UYGULAMALAR altında, yanındaki kapatma simgesine tıklayın. sagemaker-data-wrangler-1.0 app.
  3. Onaylamak için Tümünü kapat'ı seçin.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.

Sonuç

Bu gönderide, Athena'dan Data Wrangler'a veri aktarmak için S3 konumunuzu özelleştirmeye ve S3 yaşam döngüsü yapılandırmalarını etkinleştirmeye ilişkin bir genel bakış sağladık. Bu özellikle, aracı verileri güvenli bir S3 konumunda saklayabilir ve verilere yetkisiz erişim riskini azaltmak için saklama süresinden sonra veri kopyasını otomatik olarak kaldırabilirsiniz. Bu yeni özelliği denemenizi öneririz. Mutlu bina!

Athena ve SageMaker hakkında daha fazla bilgi edinmek için şu adresi ziyaret edin: Athena Kullanım Kılavuzu ve Amazon SageMaker Belgeleri.


yazarlar hakkında

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai. Meenakshisundaram Thandavarayan AWS'de kıdemli bir AI/ML uzmanıdır. Yapay zeka ve makine öğrenimi yolculuklarında yüksek teknolojili stratejik hesaplara yardımcı olur. Veriye dayalı yapay zeka konusunda çok tutkulu.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.Harish Rajagopalan Amazon Web Services'de Kıdemli Çözüm Mimarıdır. Harish, kurumsal müşterilerle çalışır ve bulut yolculuklarında onlara yardımcı olur.

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence'da Amazon Athena veri kaynakları için özel bir Amazon S3 sorgu çıkışı konumu ve veri saklama politikası yapılandırın. Dikey Arama. Ai.James Wu AWS'de Kıdemli AI/ML Uzman Çözüm Mimarıdır. müşterilerin AI/ML çözümleri tasarlamasına ve oluşturmasına yardımcı olur. James'in çalışması, bilgisayar vizyonu, derin öğrenme ve kurum genelinde ML'yi ölçeklendirmeye ilgi duyan çok çeşitli ML kullanım durumlarını kapsar. AWS'ye katılmadan önce James, 10 yılı mühendislik ve 6 yılı pazarlama ve reklamcılık sektörlerinde olmak üzere 4 yılı aşkın bir süredir mimar, geliştirici ve teknoloji lideriydi.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi