Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot ile birleştirilmiş veri hazırlama, model eğitimi ve devreye alma – Bölüm 2

Verilerin kalitesine ve karmaşıklığına bağlı olarak, veri bilimcileri zamanlarının %45-80'ini veri hazırlama görevlerine harcarlar. Bu, veri hazırlama ve temizlemenin, gerçek veri bilimi çalışmasından değerli zaman aldığı anlamına gelir. Bir makine öğrenimi (ML) modeli, hazırlanan verilerle eğitildikten ve dağıtım için hazırlandıktan sonra, veri bilimcilerin, verileri ML çıkarımına hazırlamak için kullanılan veri dönüşümlerini sıklıkla yeniden yazmaları gerekir. Bu, ham şeklinden ve biçiminden verileri çıkarabilen ve puanlayabilen kullanışlı bir model dağıtmak için gereken süreyi uzatabilir.

Bu dizinin 1. Bölümünde, Data Wrangler'ın bir birleşik veri hazırlama ve model eğitimi ile deneyim Amazon SageMaker Otomatik Pilot sadece birkaç tıklamayla. Bu serinin bu ikinci ve son bölümünde, aşağıdakileri içeren ve yeniden kullanan bir özelliğe odaklanıyoruz. Amazon SageMaker Veri Düzenleyicisi ML çıkarımı için Autopilot modelleriyle birlikte eksik değer imputer'ları, sıralı veya one-hot kodlayıcılar ve daha fazlası gibi dönüşümler. Bu özellik, çıkarım anında Veri Wrangler özellik dönüşümlerinin yeniden kullanımıyla ham verilerin otomatik olarak ön işlenmesini sağlayarak eğitimli bir modeli üretime yerleştirmek için gereken süreyi daha da azaltır.

Çözüme genel bakış

Data Wrangler, ML için veri toplama ve hazırlama süresini haftalardan dakikalara indirir ve Autopilot, verilerinize dayalı olarak en iyi ML modellerini otomatik olarak oluşturur, eğitir ve ayarlar. Autopilot ile verileriniz ve modeliniz üzerinde tam kontrol ve görünürlük sağlamaya devam edersiniz. Her iki hizmet de makine öğrenimi uygulayıcılarını daha üretken kılmak ve değer elde etme süresini hızlandırmak için amaca yöneliktir.

Aşağıdaki şema çözüm mimarimizi göstermektedir.

Önkoşullar

Bu gönderi iki bölümden oluşan bir dizinin ikincisi olduğundan, başarıyla okuyup uyguladığınızdan emin olun. Bölüm 1 devam etmeden önce.

Modeli dışa aktarın ve eğitin

Bölüm 1'de, ML için veri hazırlığından sonra, veri kümelerini analiz etmek ve Autopilot'ta yüksek kaliteli ML modellerini kolayca oluşturmak için Data Wrangler'daki entegre deneyimi nasıl kullanabileceğinizi tartıştık.

Bu sefer, aynı eğitim veri kümesine karşı bir modeli eğitmek için bir kez daha Autopilot entegrasyonunu kullanıyoruz, ancak toplu çıkarım yapmak yerine, bir modele karşı gerçek zamanlı çıkarım yapıyoruz. Amazon Adaçayı Yapıcı bizim için otomatik olarak oluşturulan çıkarım uç noktası.

Otomatik uç nokta dağıtımının sağladığı rahatlığa ek olarak, tüm Data Wrangler özellik dönüşümlerini bir SageMaker seri çıkarım ardışık düzeni olarak nasıl dağıtabileceğinizi gösteriyoruz. Bu, çıkarım anında Veri Wrangler özellik dönüşümlerinin yeniden kullanımıyla ham verilerin otomatik olarak ön işlenmesini sağlar.

Bu özelliğin şu anda yalnızca birleştirme, gruplandırma, birleştirme ve zaman serisi dönüşümlerini kullanmayan Veri Yönlendirici akışları için desteklendiğini unutmayın.

Data Wrangler veri akışı kullanıcı arabiriminden bir modeli doğrudan eğitmek için Autopilot ile yeni Data Wrangler entegrasyonunu kullanabiliriz.

  1. yanındaki artı işaretini seçin Ölçek değerleri düğümü seçin ve Modeli eğit.
  2. İçin Amazon S3 konumu, belirtin Amazon Basit Depolama Hizmeti (Amazon S3), SageMaker'ın verilerinizi dışa aktardığı konum.
    Varsayılan olarak bir kök paket yolu sunulursa, Data Wrangler bunun altında benzersiz bir dışa aktarma alt dizini oluşturur; istemediğiniz sürece bu varsayılan kök yolunu değiştirmeniz gerekmez. Otomatik pilot, bir modeli otomatik olarak eğitmek için bu konumu kullanır ve sizi kurtarır Data Wrangler akışının çıkış konumunu tanımlamaya ve ardından Otopilot eğitim verilerinin giriş konumunu tanımlamaya kadar geçen süre. Bu, daha sorunsuz bir deneyim sağlar.
  3. Klinik İhracat ve eğitim dönüştürülen verileri Amazon S3'e dışa aktarmak için.
    Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.
    Dışa aktarma başarılı olduğunda, şuraya yönlendirilirsiniz: Bir Otopilot deneyi oluşturun sayfası ile, Veri girişi S3 konumu sizin için önceden doldurulmuştur (önceki sayfanın sonuçlarından doldurulmuştur).
  4. İçin Deney adı, bir ad girin (veya varsayılan adı koruyun).
  5. İçin Hedef, seçmek Sonuç tahmin etmek istediğiniz sütun olarak.
  6. Klinik Sonraki: Eğitim yöntemi.
    Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.

Yazıda detaylandırıldığı gibi Amazon SageMaker Autopilot, AutoGluon tarafından desteklenen yeni topluluk eğitim moduyla sekiz kata kadar daha hızlı, Autopilot'un veri kümesi boyutuna göre eğitim modunu otomatik olarak seçmesine izin verebilir veya birleştirme veya hiper parametre optimizasyonu (HPO) için eğitim modunu manuel olarak seçebilirsiniz.

Her seçeneğin ayrıntıları aşağıdaki gibidir:

  • Oto – Otomatik pilot, veri kümenizin boyutuna göre otomatik olarak birleştirme veya HPO modunu seçer. Veri kümeniz 100 MB'den büyükse, Autopilot HPO'yu seçer; aksi halde ensembleyi seçer.
  • topluluk – Otomatik pilot, Otomatik Gluon Birkaç temel modeli eğitmek için birleştirme tekniği ve model istiflemeyi kullanarak tahminlerini optimal bir tahmine dayalı modelde birleştirir.
  • Hiperparametre optimizasyonu – Otopilot, Bayes optimizasyon tekniğini kullanarak hiper parametreleri ayarlayarak ve veri kümenizde eğitim işleri yürüterek bir modelin en iyi sürümünü bulur. HPO, veri kümenizle en alakalı algoritmaları seçer ve modelleri ayarlamak için en iyi hiperparametre aralığını seçer. Örneğimiz için varsayılan seçimi bırakıyoruz. Oto.
  1. Klinik Sonraki: Dağıtım ve gelişmiş ayarlar Devam etmek.
    Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.
  2. Üzerinde Dağıtım ve gelişmiş ayarlar sayfasında bir dağıtım seçeneği belirleyin.
    Dağıtım seçeneklerini daha ayrıntılı olarak anlamak önemlidir; Seçtiğimiz şey, Data Wrangler'da daha önce yaptığımız dönüşümlerin çıkarım hattına dahil edilip edilmeyeceğini etkileyecektir:
    • Data Wrangler'dan dönüşümlerle en iyi modeli otomatik olarak devreye alın – Bu dağıtım seçeneğiyle, Data Wrangler'da veri hazırladığınızda ve Autopilot'u çağırarak bir modeli eğittiğinizde, eğitilen model, tüm Data Wrangler özelliği dönüşümlerinin yanı sıra bir SageMaker seri çıkarım boru hattı. Bu, çıkarım anında Veri Wrangler özellik dönüşümlerinin yeniden kullanımıyla ham verilerin otomatik olarak ön işlenmesini sağlar. Çıkarım uç noktasının, verilerinizin biçiminin, Veri Wrangler akışına içe aktarıldığı zamankiyle aynı biçimde olmasını beklediğini unutmayın.
    • Data Wrangler'dan dönüştürme yapmadan en iyi modeli otomatik olarak dağıtın – Bu seçenek, Data Wrangler dönüşümlerini kullanmayan gerçek zamanlı bir uç nokta dağıtır. Bu durumda Veri Wrangler akışınızda tanımlanan dönüşümleri çıkarım yapmadan önce verilerinize uygulamanız gerekir.
    • En iyi modeli otomatik olarak dağıtma – Bir çıkarım bitiş noktası oluşturmak istemediğinizde bu seçeneği kullanmalısınız. Yerel olarak çalıştırılan toplu çıkarım gibi daha sonra kullanmak üzere en iyi modeli oluşturmak istiyorsanız kullanışlıdır. (Bu, serinin 1. Kısmında seçtiğimiz dağıtım seçeneğidir.) Bu seçeneği seçtiğinizde, oluşturulan modelin (SageMaker SDK aracılığıyla Autopilot'un en iyi adayından), bir SageMaker seri çıkarım hattı olarak Veri Wrangler özelliği dönüşümlerini içerdiğini unutmayın.

    Bu yazı için, Data Wrangler'dan dönüşümlerle en iyi modeli otomatik olarak devreye alın seçeneği.

  3. İçin Dağıtım seçeneğiseçin Data Wrangler'dan dönüşümlerle en iyi modeli otomatik olarak devreye alın.
  4. Diğer ayarları varsayılan olarak bırakın.
  5. Klinik Sonraki: Gözden geçirin ve oluşturun Devam etmek.
    Üzerinde İnceleyin ve oluşturun sayfasında, Otomatik Pilot denememiz için seçilen ayarların bir özetini görüyoruz.
  6. Klinik Deneme oluştur Model oluşturma sürecini başlatmak için.
    Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.

Otomatik Pilot iş tanımı sayfasına yönlendirilirsiniz. Modeller ekranda gösteriliyor Modeller sekmesi oluşturuldukça. İşlemin tamamlandığını onaylamak için şuraya gidin: İş profili sekmesini bulun ve bir Completed değeri Durum alan.

Bu Otopilot iş tanımı sayfasına istediğiniz zaman şu adresten geri dönebilirsiniz: Amazon SageMaker Stüdyosu:

  1. Klinik Deneyler ve Denemeler üzerinde SageMaker kaynakları Aşağıya doğru açılan menü.
  2. Oluşturduğunuz Otopilot işinin adını seçin.
  3. Denemeyi seçin (sağ tıklayın) ve AutoML İşini Tanımlayın.

Eğitimi ve dağıtımı görüntüleyin

Autopilot denemeyi tamamladığında, Autopilot iş tanımı sayfasından eğitim sonuçlarını görüntüleyebilir ve en iyi modeli keşfedebiliriz.

Etiketli modeli seçin (sağ tıklayın) En iyi model, ve Seç Model ayrıntılarında aç.

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.

The Performans sekmesi, bir karışıklık matrisi, hassasiyet/geri çağırma eğrisi (AUCPR) altındaki alan ve alıcı işletim karakteristik eğrisi (ROC) altındaki alan dahil olmak üzere çeşitli model ölçüm testlerini görüntüler. Bunlar, modelin genel doğrulama performansını gösterir, ancak modelin iyi genelleşip genelleşmeyeceğini bize söylemezler. Modelin ne kadar doğru tahminler yaptığını görmek için görünmeyen test verileri üzerinde hala değerlendirmeler yapmamız gerekiyor (bu örnekte, bir bireyin diyabetli olup olmayacağını tahmin ediyoruz).

Gerçek zamanlı uç noktaya karşı çıkarım gerçekleştirin

Model performansını değerlendirmek için gerçek zamanlı çıkarım yapmak için yeni bir SageMaker not defteri oluşturun. Doğrulama için gerçek zamanlı çıkarımı çalıştırmak için aşağıdaki kodu bir not defterine girin:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

Kodu not defterinizde çalışacak şekilde ayarladıktan sonra iki değişkeni yapılandırmanız gerekir:

  • endpoint_name
  • payload_str

uç nokta_adı yapılandır

endpoint_name dağıtımın bizim için otomatik olarak oluşturduğu gerçek zamanlı çıkarım uç noktasının adını temsil eder. Ayarlamadan önce adını bulmamız gerekiyor.

  1. Klinik Uç noktalar üzerinde SageMaker kaynakları Aşağıya doğru açılan menü.
  2. Oluşturduğunuz Otopilot işinin adına rastgele bir dize eklenmiş olarak uç noktanın adını bulun.
  3. Denemeyi seçin (sağ tıklayın) ve Uç Noktayı Tanımla.
    Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.
    The Uç Nokta Ayrıntıları sayfası açılır.
  4. Tam uç nokta adını vurgulayın ve Ctrl + C panoya kopyalamak için.
    Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.
  5. için bu değeri girin (alıntılandığından emin olun) endpoint_name çıkarım defterinde.
    Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.

payload_str'yi yapılandır

Dizüstü bilgisayar, varsayılan bir yük dizesiyle birlikte gelir payload_str uç noktanızı test etmek için kullanabilirsiniz, ancak test veri kümenizdekiler gibi farklı değerlerle deneme yapmaktan çekinmeyin.

Test veri kümesinden değerleri çekmek için, içindeki talimatları izleyin. Bölüm 1 test veri kümesini Amazon S3'e dışa aktarmak için. Ardından Amazon S3 konsolunda dosyayı indirebilir ve dosyayı Amazon S3'ten kullanmak için satırları seçebilirsiniz.

Test veri kümenizdeki her satırın dokuz sütunu vardır ve son sütun outcome değer. Bu not defteri kodu için, yalnızca tek bir veri satırı (asla bir CSV başlığı değil) kullandığınızdan emin olun. payload_str. Ayrıca yalnızca bir payload_str sonuç değerini kaldırdığınız sekiz sütunlu.

Örneğin, test veri kümesi dosyalarınız aşağıdaki koda benziyorsa ve ilk satırın gerçek zamanlı çıkarımını yapmak istiyorsak:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

Ayarladık payload_str için 10,115,0,0,0,35.3,0.134,29. nasıl atladığımıza dikkat edin outcome değeri 0 sonunda.

Şans eseri veri kümenizin hedef değeri ilk veya son değer değilse, virgül yapısı bozulmadan değeri kaldırın. Örneğin, çubuğu tahmin ettiğimizi ve veri kümemizin aşağıdaki koda benzediğini varsayalım:

foo,bar,foobar
85,17,20

Bu durumda belirlediğimiz payload_str için 85,,20.

Dizüstü bilgisayar doğru şekilde yapılandırılmış olarak çalıştırıldığında payload_str ve endpoint_name değerler, biçiminde bir CSV yanıtı alırsınız. outcome (0 veya 1), confidence (0-1).

Temizlemek

Bu öğreticiyi tamamladıktan sonra eğitimle ilgili ücret ödemediğinizden emin olmak için Data Wrangler uygulamasını kapattığınızdan emin olun (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html) ve çıkarım görevlerini gerçekleştirmek için kullanılan tüm not defteri örnekleri. Ek ücretleri önlemek için Auto Pilot dağıtımı aracılığıyla oluşturulan çıkarım uç noktaları da silinmelidir.

Sonuç

Bu gönderide, Data Wrangler ve Autopilot kullanarak veri işleme, mühendislik ve model oluşturma işlemlerinizi nasıl entegre edeceğinizi gösterdik. Serinin 1. Kısmını temel alarak, doğrudan Data Wrangler kullanıcı arabiriminden Autopilot ile bir modeli gerçek zamanlı bir çıkarım uç noktasına nasıl kolayca eğitebileceğinizi, ayarlayabileceğinizi ve dağıtabileceğinizi vurguladık. Otomatik uç nokta dağıtımının sağladığı kolaylığa ek olarak, tüm Data Wrangler özellik dönüşümlerini SageMaker seri çıkarım ardışık düzeni olarak nasıl dağıtabileceğinizi gösterdik; çıkarsama zamanı.

Data Wrangler ve Autopilot gibi düşük kodlu ve AutoML çözümleri, sağlam ML modelleri oluşturmak için derin kodlama bilgisine sahip olma ihtiyacını ortadan kaldırır. Data Wrangler'ı kullanmaya başlayın Bugün Autopilot kullanarak ML modelleri oluşturmanın ne kadar kolay olduğunu deneyimlemek için.


yazarlar hakkında

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.Geremy Cohen AWS'ye sahip bir Çözüm Mimarıdır ve müşterilerin en yeni, bulut tabanlı çözümler oluşturmasına yardımcı olur. Boş zamanlarında sahilde kısa yürüyüşler yapmaktan, ailesiyle körfez bölgesini keşfetmekten, evin etrafındaki şeyleri tamir etmekten, evin etrafındaki şeyleri kırmaktan ve barbekü yapmaktan hoşlanıyor.

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.Pradeep Reddy SageMaker Autopilot, SageMaker Automatic Model Tuner'ı içeren SageMaker Low/No Code ML ekibinde Kıdemli Ürün Müdürüdür. Pradeep, iş dışında, ahududu pi gibi avuç içi boyutundaki bilgisayarlar ve diğer ev otomasyon teknolojileri ile okumaktan, koşmaktan ve geek yapmaktan hoşlanıyor.

Amazon SageMaker Data Wrangler ve Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence ile birleşik veri hazırlama, model eğitimi ve devreye alma. Dikey Arama. Ai.John He Amazon AI'da makine öğrenimi ve dağıtılmış bilgi işlem konularına odaklandığı kıdemli bir yazılım geliştirme mühendisidir. CMU'dan doktora derecesine sahiptir.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi