Amazon SageMaker Autopilot, AutoGluon Tarafından Desteklenen Yeni Topluluk Eğitim Moduyla Sekiz Kat Daha Hızlı

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Amazon SageMaker Otomatik Pilot tarafından desteklenen model birleştirmeyi destekleyen yeni bir eğitim modu ekledi. Otomatik Gluon. Autopilot'taki topluluk eğitim modu, birkaç temel modeli eğitir ve model yığınlamayı kullanarak tahminlerini birleştirir. 100 MB'den küçük veri kümeleri için topluluk eğitim modu, yüksek doğrulukla makine öğrenimi (ML) modellerini hızlı bir şekilde oluşturur; 250 denemeyle hiperparametre optimizasyonu (HPO) eğitim modundan sekiz kata kadar ve HPO eğitim modundan 5.8 kata kadar daha hızlıdır. 100 deneme. LightGBM, CatBoost, XGBoost, Random Forest, Ekstra Ağaçlar, doğrusal modeller ve PyTorch ve FastAI tabanlı sinir ağları dahil olmak üzere çok çeşitli algoritmaları destekler.

AutoGluon, topluluk modellerini nasıl oluşturur?

AutoGluon-Tabular (AGT), tablo halindeki veri kümelerinde son derece doğru ML modellerini eğiten popüler bir açık kaynaklı AutoML çerçevesidir. Öncelikle model ve hiperparametre seçimine odaklanan mevcut AutoML çerçevelerinden farklı olarak AGT, birden çok modeli bir araya getirerek ve bunları birden çok katmanda istifleyerek başarılı olur. AGT'nin varsayılan davranışı şu şekilde özetlenebilir: Bir veri kümesi verildiğinde, AGT, kullanıma hazır yükseltilmiş ağaçlardan veri kümesindeki özelleştirilmiş sinir ağlarına kadar çeşitli temel modelleri eğitir. Temel modellerden gelen tahminler, her bir temel modelin uygun ağırlığını öğrenen bir yığın modeli oluşturmak için özellikler olarak kullanılır. Bu öğrenilen ağırlıklarla, yığınlama modeli daha sonra temel modelin tahminlerini birleştirir ve birleştirilmiş tahminleri son tahmin seti olarak döndürür.

Autopilot'un topluluk eğitim modu nasıl çalışır?

Farklı veri kümeleri, farklı algoritmalar için uygun özelliklere sahiptir. Bilinmeyen özelliklere sahip bir veri kümesi verildiğinde, bir veri kümesinde hangi algoritmaların en iyi şekilde çalışacağını önceden bilmek zordur. Bunu akılda tutarak, AGT kullanan veri bilimcileri genellikle bir dizi algoritma ve parametre ile birden çok özel konfigürasyon oluşturur. Performans ve çıkarım gecikmesi açısından en iyi yapılandırmayı bulmak için bu yapılandırmaları belirli bir veri kümesinde çalıştırırlar.

Autopilot, verileriniz için en iyi ML modellerini otomatik olarak oluşturan düşük kodlu bir ML ürünüdür. Yeni topluluk eğitim modunda, Autopilot en uygun AGT konfigürasyonları setini seçer ve en iyi modeli döndürmek için birden fazla deneme çalıştırır. Bu denemeler, AGT'nin performansının nesnel ölçümler veya çıkarım gecikmesi açısından daha da geliştirilip geliştirilemeyeceğini değerlendirmek için paralel olarak yürütülür.

OpenML kıyaslamaları kullanılarak gözlemlenen sonuçlar

Performans iyileştirmelerini değerlendirmek için, boyutları 0.5-100 MB arasında değişen OpenML kıyaslama veri kümelerini kullandık ve farklı algoritma kombinasyonları ve hiperparametre konfigürasyonları ile 10 AGT denemesi gerçekleştirdik. Testler, topluluk eğitim modunu 250 deneme ile HPO modu ve 100 deneme ile HPO modu ile karşılaştırdı. Aşağıdaki tablo, çeşitli veri kümesi boyutları için iki eğitim modu arasındaki genel Otomatik Pilot deneme çalışma süresini (dakika olarak) karşılaştırır.

Veri Kümesi Boyutu	HPO Modu (250 deneme)	HPO Modu (100 deneme)	Topluluk Modu (10 deneme)	HPO 250 ile Çalışma Zamanı İyileştirme	HPO 100 ile Çalışma Zamanı İyileştirme
< 1MB	121.5 dakika	88.0 dakika	15.0 dakika	8.1x	5.9x
1–10MB	136.1 dakika	76.5 dakika	25.8 dakika	5.3x	3.0x
10–100MB	152.7 dakika	103.1 dakika	60.9 dakika	2.5x	1.7x

Çok sınıflı sınıflandırma problemlerinin performansını karşılaştırmak için doğruluk, ikili sınıflandırma problemleri için F1 skorunu ve regresyon problemleri için R2 kullanıyoruz. Objektif metriklerdeki kazanımlar aşağıdaki tablolarda gösterilmektedir. Topluluk eğitim modunun HPO eğitim modundan daha iyi performans gösterdiğini gözlemledik (hem 100 hem de 250 deneme).

Topluluk modunun, veri kümesi boyutu ve sorun türlerinden bağımsız olarak 250 denemeyle HPO moduna göre tutarlı bir gelişme gösterdiğine dikkat edin.

Aşağıdaki tablo, çok sınıflı sınıflandırma problemleri için doğruluğu karşılaştırır (daha yüksek daha iyidir).

Veri Kümesi Boyutu	HPO Modu (250 deneme)	HPO Modu (100 deneme)	Topluluk Modu (10 deneme)	HPO 250 Üzerinden Yüzde İyileştirme
< 1MB	0.759	0.761	0.771	İNDİRİM
1–5MB	0.941	0.935	0.957	İNDİRİM
5–10MB	0.639	0.633	0.671	İNDİRİM
10–50MB	0.998	0.999	0.999	İNDİRİM
51–100MB	0.853	0.852	0.875	İNDİRİM

Aşağıdaki tablo, ikili sınıflandırma problemleri için F1 puanlarını karşılaştırmaktadır (daha yüksek daha iyidir).

Veri Kümesi Boyutu	HPO Modu (250 deneme)	HPO Modu (100 deneme)	Topluluk Modu (10 deneme)	HPO 250 Üzerinden Yüzde İyileştirme
< 1MB	0.801	0.807	0.826	İNDİRİM
1–5MB	0.59	0.587	0.629	İNDİRİM
5–10MB	0.886	0.889	0.898	İNDİRİM
10–50MB	0.731	0.736	0.754	İNDİRİM
51–100MB	0.503	0.493	0.541	İNDİRİM

Aşağıdaki tablo, regresyon sorunları için R2'yi karşılaştırır (daha yüksek daha iyidir).

Veri Kümesi Boyutu	HPO Modu (250 deneme)	HPO Modu (100 deneme)	Topluluk Modu (10 deneme)	HPO 250 Üzerinden Yüzde İyileştirme
< 1MB	0.717	0.718	0.716	0%
1–5MB	0.803	0.803	0.817	2%
5–10MB	0.590	0.586	0.614	4%
10–50MB	0.686	0.688	0.684	0%
51–100MB	0.623	0.626	0.631	1%

Sonraki bölümlerde, veri kümelerini analiz etmek ve yüksek kaliteli makine öğrenimi modellerini kolayca oluşturmak için Autopilot'taki yeni topluluk eğitim modunun nasıl kullanılacağını göstereceğiz.

Veri kümesine genel bakış

Biz kullanın Titanik veri seti Belirli bir yolcunun hayatta kalıp kalmadığını tahmin etmek için. Bu bir ikili sınıflandırma problemidir. Yeni topluluk eğitim modunu kullanarak bir Otopilot denemesi oluşturmaya odaklanıyoruz ve F1 puanının ve genel çalışma süresinin sonuçlarını HPO eğitim modunu (100 deneme) kullanarak bir Otopilot denemesiyle karşılaştırıyoruz.

Sütun adı	Açıklama
yolcu	Kimlik Numarası
atlattı	Hayatta kalma
P sınıfı	Bilet sınıfı
Name	Yolcu adı
Seks	Seks
Yaş	Yıllar içinde yaş
kardeş	Titanik'teki kardeş veya eş sayısı
parşömen	Titanik'teki ebeveyn veya çocuk sayısı
Bilet	Bilet numarası
do	yolcu ücreti
Kabin	kabin numarası
Gemiye bindi	Bindirme limanı

Veri kümesinde 890 satır ve 12 sütun bulunmaktadır. Yolcular (yaş, cinsiyet, bilet sınıfı vb.) ve Hayatta Kalanlar (evet/hayır) hedef sütunu hakkında demografik bilgiler içerir.

Önkoşullar

Aşağıdaki ön koşul adımlarını tamamlayın:

AWS hesabınız olduğundan emin olun, hesapta oturum açmak için güvenli erişim AWS Yönetim Konsolu, ve AWS Kimlik ve Erişim Yönetimi (IAM) kullanım izinleri Amazon Adaçayı Yapıcı ve Amazon Basit Depolama Hizmeti (Amazon S3) kaynakları.
Atomic Cüzdanı indirin : Titanik veri seti ve bir S3 kovasına yükleyin izin verir.
Bir SageMaker etki alanına katılma ve erişim Amazon SageMaker Stüdyosu Otomatik pilotu kullanmak için. Talimatlar için bkz. Amazon SageMaker Etki Alanında Yerleşik. Mevcut Studio'yu kullanıyorsanız, şu sürüme yükseltin: Studio'nun son sürümü Yeni topluluk eğitim modunu kullanmak için.

Topluluk eğitim moduyla bir Otopilot deneyi oluşturun

Veri kümesi hazır olduğunda Studio'da bir Otomatik Pilot denemesi başlatabilirsiniz. Tam talimatlar için bkz. Bir Amazon SageMaker Otomatik Pilot denemesi oluşturun. Bir deneme adı ve veri girişi sağlayarak ve Deney ve veri ayrıntıları bölüm. İsteğe bağlı olarak, veri dökülme oranını ve Amazon S3 çıkış konumunun otomatik olarak oluşturulmasını belirtebilirsiniz.

Kullanım durumumuz için bir deneme adı sağlarız, Amazon S3 konumunu gireriz ve atlattı hedef olarak. Otomatik bölmeyi etkin tutuyoruz ve varsayılan çıktı Amazon S3 konumunu geçersiz kılıyoruz.

Ardından, eğitim yöntemini şurada belirtiyoruz: Eğitim yöntemi bölüm. Otopilot'un eğitim modunu otomatik olarak seçmesine izin verebilirsiniz. Oto veri kümesi boyutuna göre veya gruplama veya HPO için manuel olarak eğitim modunu seçin. Her bir seçeneğe ilişkin ayrıntılar aşağıdaki gibidir:

Oto – Otomatik pilot, veri kümenizin boyutuna göre otomatik olarak birleştirme veya HPO modunu seçer. Veri kümeniz 100 MB'den büyükse, Autopilot HPO'yu seçer, aksi takdirde birleştirmeyi seçer.
topluluk – Otomatik pilot kullanımları Otomatik Gluon'nin birkaç temel modeli eğitmek için birleştirme tekniği ve model istiflemeyi kullanarak tahminlerini optimal bir tahmine dayalı modelde birleştirir.
Hiperparametre optimizasyonu – Otopilot, Bayesian Optimizasyon tekniğini kullanarak hiperparametreleri ayarlayarak ve veri kümenizde eğitim işleri yürüterek bir modelin en iyi sürümünü bulur. HPO, veri kümenizle en alakalı algoritmaları seçer ve modelleri ayarlamak için en iyi hiperparametre aralığını seçer.

Kullanım durumumuz için seçiyoruz topluluk eğitim modumuz olarak.

Bundan sonra, devam ediyoruz Dağıtım ve gelişmiş ayarlar bölüm. Burada seçimi kaldırıyoruz Otomatik dağıtma seçeneği. Altında Gelişmiş ayarlar, çözmek istediğiniz ML sorununun türünü belirtebilirsiniz. Hiçbir şey sağlanmazsa, Otomatik Pilot, sağladığınız verilere göre modeli otomatik olarak belirler. Bizimki bir ikili sınıflandırma problemi olduğundan, İkili sınıflandırma problem tipimiz olarak ve F1 objektif metriğimiz olarak.

Son olarak, seçimlerimizi gözden geçirip seçiyoruz. Deneme oluştur.

Bu noktada, Studio'dan ayrılıp daha sonra geri dönüp sonucu kontrol etmek için güvenlidir. Deneyler menüsü.

Aşağıdaki ekran görüntüsü, titanic-ens topluluğu eğitim modu Autopilot işimizin nihai sonuçlarını göstermektedir.

Topluluk eğitimi modunda Otopilot tarafından denenen birden fazla denemeyi görebilirsiniz. Her deneme, bireysel model çalıştırmaları ve yığınlama topluluğu model çalıştırmaları havuzundan en iyi modeli döndürür.

Bunu biraz daha açıklamak için, Deneme 1'in desteklenen sekiz algoritmanın tümünü dikkate aldığını ve yığınlama düzeyi 2'yi kullandığını varsayalım. Ancak, Deneme 0'in çıktısı, oluşturulan model havuzundan en iyi model olacaktır.

Benzer şekilde, Deneme 2'nin yalnızca ağaç tabanlı yükseltme algoritmaları aldığını düşünelim. Bu durumda, Deneme 2 dahili olarak üç algoritmanın her biri ve ayrıca ağırlıklı topluluk modelleri için üç ayrı model oluşturacak ve çalışmasından en iyi modeli döndürecektir.

Bir deneme tarafından döndürülen nihai model, ağırlıklı bir topluluk modeli olabilir veya olmayabilir, ancak denemelerin çoğu büyük olasılıkla en iyi ağırlıklı topluluk modelini döndürecektir. Son olarak, seçilen hedef metriğe dayalı olarak, 10 denemenin tümü arasından en iyi model belirlenecektir.

Önceki örnekte, en iyi modelimiz en yüksek F1 puanına sahip olandı (objektif metriğimiz). Doğruluk, dengeli doğruluk, kesinlik ve geri çağırma dahil olmak üzere diğer birçok yararlı metrik de gösterilir. Çevremizde, bu Otomatik Pilot denemesi için uçtan uca çalışma süresi 10 dakikaydı.

HPO eğitim moduyla bir Otomatik Pilot denemesi oluşturun

Şimdi, HPO eğitim yöntemiyle (varsayılan 100 deneme) ikinci bir Otomatik Pilot denemesi oluşturmak için yukarıda belirtilen tüm adımları uygulayalım. Şimdiki eğitim yöntemi seçiminin yanı sıra Hiperparametre optimizasyonu, diğer her şey aynı kalır. HPO modunda, ayarlayarak deneme sayısını belirleyebilirsiniz. Maksimum adaylar altında Gelişmiş ayarlar için Süre, ancak bunu varsayılan olarak bırakmanızı öneririz. Herhangi bir değer sağlamamak Maksimum adaylar 100 HPO denemesi yapacak. Ortamımızda, bu Otomatik Pilot denemesi için uçtan uca çalışma süresi 2 saatti.

Çalışma zamanı ve performans metriği karşılaştırması

Veri kümemiz için (1 MB'ın altında), yalnızca topluluk eğitim modunun HPO eğitim modundan (12 dakika ila 120 dakika) 10 kat daha hızlı çalıştığını değil, aynı zamanda gelişmiş F1 puanları ve diğer performans ölçümleri ürettiğini görüyoruz.

Eğitim kipi	F1 Skoru	doğruluk	Dengeli Doğruluk	AUC	Hassas	Geri çağırmak	Günlük Kaybı	Süre
Topluluk modu - AğırlıklıTopluluk	0.844	0.878	0.865	0.89	0.912	0.785	0.394	10 dakika
HPO modu – XGBoost	0.784	0.843	0.824	0.867	0.831	0.743	0.428	120 dakika

sonuç

Artık kazanan bir modelimiz olduğuna göre, gerçek zamanlı çıkarım için bir uç noktaya dağıtın or tahminler yapmak için toplu dönüşümleri kullanın daha önce indirdiğimiz etiketlenmemiş veri kümesinde.

Özet

100 MB'tan küçük veri kümeleri için yeni topluluk eğitim modu ile performans üzerinde herhangi bir etki yaratmadan Autopilot denemelerinizi daha hızlı çalıştırabilirsiniz. Başlamak, bir SageMaker Otopilot deneyi oluşturun Studio konsolunda seçin ve topluluk veya Autopilot'un veri kümesi boyutuna göre eğitim modunu otomatik olarak çıkarmasına izin verin. şuraya başvurabilirsiniz: CreateAutoMLJob API başvuru kılavuzu API güncellemeleri için ve Studio'nun son sürümü Yeni topluluk eğitim modunu kullanmak için. Bu özellik hakkında daha fazla bilgi için bkz. Amazon SageMaker Autopilot ile model desteği, ölçümler ve doğrulama ve Otomatik Pilot hakkında daha fazla bilgi edinmek için şu adresi ziyaret edin: Ürün sayfası.

yazarlar hakkında

Janişa Anand SageMaker Autopilot'u içeren SageMaker Low/No Code ML ekibinde Kıdemli Ürün Müdürüdür. Kahveyi, aktif olmayı ve ailesiyle vakit geçirmeyi seviyor.

Sake Sathe SageMaker Otopilot ekibinde Kıdemli Uygulamalı Bilim Adamıdır. Yeni nesil makine öğrenimi algoritmaları ve sistemleri oluşturma konusunda tutkulu. İşinin yanı sıra okumayı, yemek pişirmeyi, ramen yemeyi ve badminton oynamayı seviyor.

Abhishek Singh AWS'deki Otopilot ekibi için bir Yazılım Mühendisidir. Yazılım geliştirici olarak 8 yılı aşkın deneyime sahiptir ve müşteri sorunlarını çözen ölçeklenebilir yazılım çözümleri geliştirme konusunda tutkuludur. Abhishek boş zamanlarında yürüyüşlere çıkarak veya futbol maçlarına katılarak aktif kalmayı sever.

Vadim Omelçenko AWS müşterilerinin bulutta yenilik yapmasına yardımcı olma konusunda tutkulu bir Kıdemli AI/ML Çözümleri Mimarıdır. Önceki BT deneyimi ağırlıklı olarak yerdeydi.

Zaman Damgası: Eylül 21, 2022Eylül 21, 2022

Zaman Damgası: Haziran 24, 2022

Amazon Personalize'da bir veri kümesini toplu içe aktarma mekanizmasıyla aşamalı olarak güncelleme

Kaynak Küme:

AWS Makine Öğrenimi

Kaynak Düğüm: 1627701

Zaman Damgası: Ağustos 17, 2022

Amazon SageMaker Autopilot, AutoGluon tarafından desteklenen yeni topluluk eğitim moduyla sekiz kata kadar daha hızlı

Plato tarafından yeniden yayınlandı

AutoGluon, topluluk modellerini nasıl oluşturur?

Autopilot'un topluluk eğitim modu nasıl çalışır?

OpenML kıyaslamaları kullanılarak gözlemlenen sonuçlar

Veri kümesine genel bakış

Önkoşullar

Topluluk eğitim moduyla bir Otopilot deneyi oluşturun

HPO eğitim moduyla bir Otomatik Pilot denemesi oluşturun

Çalışma zamanı ve performans metriği karşılaştırması

sonuç

Özet

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

Ekipman performansını geçmiş veriler, Ray ve Amazon SageMaker ile optimize edin | Amazon Web Hizmetleri

Amazon SageMaker Data Wrangler ile metin verilerindeki kalıpları tespit edin

BMC AMI zAdviser Enterprise ve Amazon Bedrock ile DevOps olgunluğuna ulaşın | Amazon Web Hizmetleri

Amazon Personalize'da bir veri kümesini toplu içe aktarma mekanizmasıyla aşamalı olarak güncelleme

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap