Amazon SageMaker Pipelines PlatoBlockchain Data Intelligence ile Amazon Packaging Innovation'da ML işlem hatlarının kararlılığını ve esnekliğini artırıyoruz. Dikey Arama. Ai.

Amazon SageMaker Pipelines ile Amazon Packaging Innovation'da ML işlem hatlarının kararlılığını ve esnekliğini artırma

Müşterileri memnun etmek ve ambalaj atıklarını en aza indirmek için Amazon'un her yıl gönderilen milyarlarca paket için en uygun ambalaj türünü seçmesi gerekiyor. Kahve kupası gibi hassas bir ürün için çok az koruma kullanılırsa ürün hasarlı bir şekilde teslim edilir ve Amazon, müşterilerinin güvenini riske atar. Çok fazla koruma kullanılması maliyetlerin artmasına ve geri dönüşüm kutularının aşırı dolmasına neden olacaktır. Yüz milyonlarca ürün mevcutken, ürün testlerinden ve müşteri geri bildirimlerinden sürekli olarak öğrenmek için ölçeklenebilir bir karar mekanizmasına ihtiyaç vardır.

Bu sorunları çözmek için Amazon Ambalaj İnovasyon ekibi, ürünlerin posta, çanta veya kutu gibi Amazon ambalaj türlerine uygun olup olmadığını, hatta ek ambalaj olmadan gönderilip gönderilemeyeceğini sınıflandıran makine öğrenimi (ML) modelleri geliştirdi. Ekip daha önce aşağıdakileri temel alan özel bir işlem hattı geliştirmişti: AWS Basamak İşlevleri haftalık eğitim ve günlük veya aylık çıkarım işlerini gerçekleştirmek için. Ancak zamanla süreç, yeni mimarilere sahip modelleri piyasaya sürmek için yeterli esnekliği sağlamadı. Yeni boru hatlarının geliştirilmesi, veri bilimcileri ve geliştiriciler arasında bir ek yük ve gerekli bir koordinasyon yarattı. Bu zorlukların üstesinden gelmek ve yeni model ve mimarileri devreye alma hızını artırmak için ekip, model eğitimini ve çıkarımı şu şekilde düzenlemeyi seçti: Amazon SageMaker Ardışık Düzenleri.

Bu yazıda Step Functions'ı temel alan önceki orkestrasyon mimarisini tartışıyor, Pipelines'ı kullanan eğitim ve çıkarım mimarilerinin ana hatlarını çiziyor ve Amazon Packaging Innovation ekibinin elde ettiği esnekliği vurguluyoruz.

Amazon Packaging Innovation'daki eski makine öğrenimi hattının zorlukları

Paketlerin performansı hakkında sürekli geri bildirim sağlamak için her hafta artan sayıda etiket kullanılarak yeni bir model eğitilmektedir. Ürün envanterinin tamamına ilişkin çıkarım aylık olarak gerçekleştirilir ve yeni eklenen envanter için tam zamanında tahminler sunmak amacıyla günlük çıkarım yapılır.

Birden fazla modeli eğitme sürecini otomatikleştirmek ve tahminler sağlamak için ekip, aşağıdaki adımları düzenlemek üzere Step Functions'ı temel alan özel bir işlem hattı geliştirdi:

  • Eğitim ve çıkarım işleri için veri hazırlama ve tahminlerin veri tabanına yüklenmesi (Amazon Kırmızıya Kaydırma) Ile AWS Tutkal.
  • Model eğitimi ve çıkarım Amazon Adaçayı Yapıcı.
  • Doğrulama setindeki model performans metriklerinin hesaplanması AWS Toplu İş.
  • kullanma Amazon DinamoDB model yapılandırmalarını (eğitim ve doğrulama için veri bölme oranı, model yapısı konumu, model türü ve eğitim ve çıkarım için örnek sayısı gibi), model performans ölçümlerini ve başarıyla eğitilen en son model sürümünü depolamak için.
  • Model performans puanlarındaki farklılıkların hesaplanması, eğitim etiketlerinin dağılımındaki değişiklikler ve önceki ve yeni model versiyonları arasındaki girdi verilerinin boyutlarının karşılaştırılması AWS Lambda fonksiyonlar.
  • Adımların çokluğu göz önüne alındığında, boru hattı aynı zamanda paydaşları herhangi bir sorun konusunda uyarmak için her adımda güvenilir bir alarm sistemine ihtiyaç duyuyordu. Bu, aşağıdakilerin bir kombinasyonu yoluyla gerçekleştirildi: Amazon Basit Kuyruk Hizmeti (Amazon SQS) ve Amazon Basit Bildirim Servisi (Amazon SNS'de). Alarmlar, iş paydaşlarını, veri bilimcilerini ve geliştiricileri, model ve veri ölçümlerindeki başarısız adımlar ve büyük sapmalar konusunda bilgilendirmek için oluşturuldu.

Ekip, bu çözümü yaklaşık 2 yıl kullandıktan sonra, bu uygulamanın yalnızca tek bir modelin eğitildiği ve doğrulama veri kümesinde puanlandığı tipik bir makine öğrenimi iş akışında iyi çalıştığını fark etti. Ancak çözüm, karmaşık modeller için yeterince esnek değildi ve arızalara karşı dayanıklı değildi. Örneğin mimari, sıralı model eğitimine kolaylıkla uyum sağlayamadı. Tüm hattı çoğaltmadan ve altyapıyı değiştirmeden bir adımı eklemek veya kaldırmak zordu. Veri bölme oranının ayarlanması veya farklı bir özellik kümesinin seçilmesi gibi veri işleme adımlarındaki basit değişiklikler bile hem veri bilimcinin hem de geliştiricinin koordinasyonunu gerektiriyordu. Boru hattı herhangi bir adımda arızalandığında baştan yeniden başlatılması gerekiyordu, bu da tekrarlanan çalıştırmalara ve artan maliyete neden oluyordu. Tekrarlanan çalıştırmalardan ve başarısız olan adımdan yeniden başlama zorunluluğundan kaçınmak için ekip, kısaltılmış durum makinesinin yeni bir kopyasını oluşturacaktı. Bu sorun giderme, her biri yaygın olarak başarısız olan adımlardan başlayan durum makinelerinin çoğalmasına yol açtı. Son olarak, bir eğitim işi etiketlerin dağıtımında, model puanında veya etiket sayısında bir sapmayla karşılaşırsa veri bilimcinin modeli ve metriklerini manuel olarak gözden geçirmesi gerekiyordu. Daha sonra bir veri bilimci, model versiyonlarını içeren bir DynamoDB tablosuna erişecek ve bir sonraki çıkarım işi için doğru modelin kullanıldığından emin olmak için tabloyu güncelleyecektir.

Bu mimarinin bakımı, geliştirme için en az bir özel kaynak ve ek bir tam zamanlı kaynak gerektiriyordu. Yeni kullanım durumlarına uyum sağlamak için boru hattını genişletmenin zorlukları göz önüne alındığında, veri bilimcileri kendi iş akışlarını geliştirmeye başlamışlardı ve bu da büyüyen bir kod tabanına, benzer veri şemalarına sahip birden fazla veri tablosuna ve merkezi olmayan model izlemeye yol açmıştı. Bu sorunların birikmesi ekip verimliliğinin düşmesine ve genel giderlerin artmasına neden oldu.

Bu zorlukların üstesinden gelmek için Amazon Ambalaj İnovasyon ekibi, SageMaker Pipelines (Aralık 2020 sürüm duyurusu). Pipelines, SageMaker'ın uçtan uca makine öğrenimi iş akışlarını oluşturmaya, yönetmeye, otomatikleştirmeye ve ölçeklendirmeye yönelik bir yeteneğidir. İşlem hatları, tüm makine öğrenimi iş akışındaki adım sayısını azaltmanıza olanak tanır ve veri bilimcilerin özel bir makine öğrenimi iş akışı tanımlamasına olanak tanıyacak kadar esnektir. Adımların izlenmesi ve günlüğe kaydedilmesiyle ilgilenir. Ayrıca yeni modelleri otomatik olarak sürümlendiren bir model kaydıyla birlikte gelir. Model kaydında, üretimde çıkarım için modellerin seçilmesine yönelik yerleşik onay iş akışları bulunur. İşlem hatları aynı bağımsız değişkenlerle çağrılan adımların önbelleğe alınmasına da olanak tanır. Önceki bir çalıştırma bulunursa, başarıyla tamamlanan adımların yeniden hesaplanması yerine kolay bir yeniden başlatmaya olanak tanıyan bir önbellek oluşturulur.

Değerlendirme sürecinde Pipelines, esnekliği ve mevcut ve gelecekteki iş akışlarını desteklemeye ve genişletmeye yönelik özelliklerin kullanılabilirliği açısından diğer çözümlerden öne çıktı. Pipelines'a geçiş, geliştiricilere platform bakımı ve sorun giderme işlerinde zaman kazandırdı ve dikkati yeni özelliklerin eklenmesine yöneltti. Bu yazıda Amazon Packaging Innovation ekibinin Pipelines'ı kullanarak eğitim ve çıkarım iş akışlarına yönelik tasarımını sunuyoruz. Ayrıca ekibin Pipelines'a geçiş yaparak elde ettiği faydaları ve maliyetlerdeki düşüşü de tartışıyoruz.

Eğitim hattı

Amazon Ambalaj İnovasyon ekibi, giderek artan sayıda etiket kullanarak her paket türüne yönelik modelleri eğitiyor. Aşağıdaki diyagram tüm süreci özetlemektedir.

İş akışı, etiketlerin ve özelliklerin bir Amazon Redshift veritabanından çıkarılması ve verilerin Amazon Redshift veritabanına boşaltılmasıyla başlar. Amazon Basit Depolama Hizmeti (Amazon S3) planlanmış bir çıkarma, dönüştürme ve yükleme (ETL) işi aracılığıyla. Giriş verileriyle birlikte model tipini ve parametrelerini içeren bir dosya nesnesi S3 klasörüne yerleştirilir. Bu dosya, Lambda işlevi aracılığıyla işlem hattı tetikleyicisi görevi görür.

Sonraki adımlar tamamen özelleştirilebilir ve tamamen Pipelines için SageMaker Python SDK'sını kullanan bir veri bilimci tarafından tanımlanır. Bu yazıda sunduğumuz senaryoda, giriş verileri eğitim ve doğrulama kümelerine bölünür ve bir SageMaker İşleme işi başlatılarak bir S3 klasörüne kaydedilir.

Veriler Amazon S3'te hazır olduğunda SageMaker eğitim işi başlar. Model başarılı bir şekilde eğitilip oluşturulduktan sonra, SageMaker toplu dönüştürme işi aracılığıyla doğrulama verileri üzerinde model değerlendirme adımı gerçekleştirilir. Model ölçümleri daha sonra bir SageMaker İşleme işi kullanılarak önceki haftanın model ölçümleriyle karşılaştırılır. Ekip, model performansındaki sapmaları değerlendirmek için birden fazla özel kriter tanımladı. Model bu kriterlere göre ya reddedilir ya da onaylanır. Model reddedilirse sonraki çıkarım işleri için önceki onaylanmış model kullanılır. Model onaylanırsa versiyonu kaydedilir ve o model çıkarım işleri için kullanılır. Paydaşlara sonuçla ilgili bildirim şu adresten gönderilir: Amazon Bulut İzleme alarmlar.

Aşağıdaki ekran görüntüsü Amazon SageMaker Stüdyosu eğitim hattının adımlarını gösterir.

Ambalaj İnovasyonu-SMP eğitimi

Pipelines, Studio'da izleyebileceğiniz her ardışık düzen çalışmasını izler. Alternatif olarak, şunu kullanarak çalıştırmanın ilerlemesini sorgulayabilirsiniz: Boto3 ya da AWS Komut Satırı Arayüzü (AWS CLI). Model metriklerini Studio'da görselleştirebilir ve farklı model sürümlerini karşılaştırabilirsiniz.

çıkarım ardışık düzeni

Amazon Ambalaj İnovasyon ekibi, ürün envanterinin tamamına ilişkin tahminleri aylık olarak yeniler. En son eğitilmiş model kullanılarak yeni eklenen envanter için tam zamanında paketleme önerileri sağlamak üzere günlük tahminler oluşturulur. Bu, çıkarım hattının farklı hacimlerdeki verilerle günlük olarak çalışmasını gerektirir. Aşağıdaki şemada bu iş akışı gösterilmektedir.

Ambalajİnovasyon-çıkarım-mimarisi

Eğitim hattına benzer şekilde çıkarım, verilerin Amazon Redshift'ten bir S3 klasörüne boşaltılmasıyla başlar. Amazon S3'e yerleştirilen bir dosya nesnesi, çıkarım hattını başlatan Lambda işlevini tetikler. Özellikler çıkarım için hazırlanır ve veriler bir SageMaker İşleme işi kullanılarak uygun boyuttaki dosyalara bölünür. Daha sonra işlem hattı, tahminleri çalıştırmak ve bunları bir S3 klasörüne yüklemek için en son onaylanmış modeli tanımlar. Son olarak tahminler, SageMaker İşleme işi içindeki boto3-data API'si kullanılarak Amazon Redshift'e geri yüklenir.

Studio'dan alınan aşağıdaki ekran görüntüsü çıkarım hattının ayrıntılarını göstermektedir.

Amazon SageMaker Pipelines PlatoBlockchain Data Intelligence ile Amazon Packaging Innovation'da ML işlem hatlarının kararlılığını ve esnekliğini artırıyoruz. Dikey Arama. Ai.

ML iş akışlarını SageMaker Pipelines ile tasarlamayı seçmenin faydaları

Bu bölümde Amazon Packaging Innovation ekibinin model eğitimi ve çıkarım için Pipelines'a geçiş yaparak elde ettiği kazanımları tartışıyoruz.

Kullanıma hazır üretim düzeyinde MLOps özellikleri

Bir sonraki makine öğrenimi hattı çözümü için farklı dahili ve harici çözümleri karşılaştıran tek bir veri bilimcisi, 3 haftadan kısa bir sürede Studio Jupyter ortamında Pipelines ile bir makine öğrenimi iş akışının tam sürümünün prototipini oluşturup geliştirmeyi başardı. Prototip oluşturma aşamasında bile Pipelines'ın üretim düzeyinde bir iş akışı için gereken tüm altyapı bileşenlerini sağladığı ortaya çıktı: model sürümü oluşturma, önbelleğe alma ve alarmlar. Bu özelliklerin anında kullanılabilir olması, bunları geliştirmek ve özelleştirmek için ek zaman harcanmayacağı anlamına geliyordu. Bu, Amazon Packaging Innovation ekibini Pipelines'ın doğru çözüm olduğuna ikna eden açık bir değer göstergesiydi.

ML modellerini geliştirmede esneklik

Ekipteki veri bilimcileri için en büyük kazanç, kolayca deneme yapma ve farklı modelleri yineleme becerisiydi. Makine öğrenimi çalışmaları için hangi çerçeveyi tercih ederlerse etsinler ve içerdiği adım ve özelliklerden bağımsız olarak Pipelines onların ihtiyaçlarını karşıladı. Veri bilimcileri, ek bir özellik veya adım eklemek için yazılım geliştirme aşamasına geçmeyi beklemek zorunda kalmadan deneme yapma yetkisine sahip oldu.

Azalan Maliyetler

SageMaker'ın Boru Hatları yeteneği ücretsiz: Yalnızca eğitim ve çıkarımla ilişkili bilgi işlem kaynakları ve depolama alanı için ödeme yaparsınız. Ancak maliyeti düşünürken yalnızca kullanılan hizmetlerin maliyetini değil aynı zamanda iş akışını sürdürmek, hata ayıklamak ve yama yapmak için gereken geliştirici saatlerini de hesaba katmanız gerekir. Daha az parçadan ve tanıdık altyapıdan oluştuğu için Pipelines ile düzenleme yapmak daha kolaydır. Daha önce, yeni bir özelliğin eklenmesi için Amazon Packaging Innovation ekibinden en az iki kişinin (veri bilimcisi ve yazılım mühendisi) uygulanması gerekiyordu. Yeniden tasarlanan işlem hattıyla birlikte mühendislik çalışmaları artık makine öğrenimi kodunun izlenmesi için tek bir depo oluşturulması, AWS hesapları arasında model dağıtımının basitleştirilmesi, entegre ETL işlerinin ve ortak işlerin geliştirilmesi gibi işlem hattı etrafında ek özel altyapıya yönlendiriliyor. yeniden kullanılabilir işlevler

Benzer bir girdiyle adımları önbelleğe alma yeteneği de maliyetin azalmasına katkıda bulundu çünkü ekiplerin tüm hattı yeniden yürütme olasılığı daha düşüktü. Bunun yerine, başarısızlık noktasından kolaylıkla başlayabilirler.

Sonuç

Amazon Paketleme İnovasyon ekibi, makine öğrenimi modellerini aylık olarak eğitiyor ve önerilen ürün paketleme türlerine ilişkin tahminleri düzenli olarak güncelliyor. Bu öneriler, israfı azaltarak ve her siparişte müşterileri memnun ederek ekip ve şirket çapında birçok hedefe ulaşmalarına yardımcı oldu. Eğitim ve çıkarım hatları düzenli olarak güvenilir bir şekilde çalışmalı, ancak modellerin sürekli iyileştirilmesine de izin vermelidir.

Pipelines'a geçiş, ekibin dört yeni çok modlu model mimariyi 2 aydan kısa bir süre içinde üretime yerleştirmesine olanak sağladı. Önceki mimariyi kullanarak yeni bir modelin dağıtılması, (aynı model mimarisiyle) 5 gün ile (yeni bir model mimarisiyle) 1 ay arasında bir süre gerektirecektir. Aynı modeli Pipelines kullanarak dağıtmak, ekibin geliştirme süresini aynı model mimarisiyle 4 saate, yeni model mimarisiyle ise 5 güne indirmesini sağladı. Bu, çalışma saatlerinden neredeyse %80 oranında tasarruf anlamına geliyor.

Ek kaynaklar

Daha fazla bilgi için aşağıdaki kaynaklara bakın:


Yazarlar Hakkında

Ankur-Shukla-yazarAnkur Shukla Palo Alto merkezli AWS-ProServe'de Baş Veri Bilimcisidir. Ankur, doğrudan müşteriyle çalışan ve iş sorunlarını teknolojiyle çözmelerine yardımcı olan 15 yılı aşkın danışmanlık deneyimine sahiptir. AWS bünyesinde çok sayıda küresel uygulamalı bilim ve ML-Ops girişimine liderlik ediyor. Boş zamanlarında kitap okumaktan ve ailesiyle vakit geçirmekten hoşlanıyor.

Akash-Singla-yazarAkash Singlela Amazon Packaging Innovation ekibinde Kıdemli Sistem Geliştirme Mühendisidir. Çeşitli iş sektörlerinde kritik iş sorunlarını teknoloji aracılığıyla çözme konusunda 17 yıldan fazla deneyime sahiptir. Şu anda çeşitli ambalaj merkezli uygulamalar için NAWS altyapısını yükseltmeye ve bunları daha iyi ölçeklendirmeye odaklanıyor.

Vitalina-Komashko-yazarVitalina Komashko AWS Profesyonel Hizmetlerinde Veri Bilimcisidir. Farmakoloji ve Toksikoloji alanında doktorası var ancak deneysel çalışmalardan veri bilimine geçiş yaptı çünkü "veri üretimine ve sonuçların yorumlanmasına sahip olmak" istiyordu. Kariyerinin başlarında biyoteknoloji ve ilaç firmalarıyla çalıştı. AWS'de çeşitli sektörlerden müşterilerin sorunlarını çözmekten ve onların benzersiz zorluklarını öğrenmekten hoşlanıyor.

Prasanth-Meiyappan-yazarPrasanth Meiyappan Amazon Ambalaj İnovasyonunda 4 yılı aşkın bir süredir Kıdemli Uygulamalı Bilim Adamıdır. Makine öğrenimi alanında 6 yılı aşkın sektör deneyimine sahiptir ve müşteri arama deneyimini ve müşteri paketleme deneyimini iyileştirecek ürünler göndermiştir. Prasanth sürdürülebilirlik konusunda tutkulu ve iklim değişikliğinin istatistiksel modellemesi alanında doktora derecesine sahip.

Matthew-Bales-yazarMatthew Bales müşteri geri bildirimi ve makine öğrenimini kullanarak paket türü seçimini optimize etmek için çalışan Kıdemli Araştırma Bilimcisidir. Amazon'dan önce Matt, Almanya'da parçacık fiziği simülasyonları gerçekleştiren doktora sonrası olarak çalıştı ve önceki yaşamında, yeni kurulan bir şirkette radyoaktif tıbbi implant cihazlarının üretim müdürü olarak çalıştı. Doktora derecesine sahiptir. Michigan Üniversitesi'nden Fizik alanında.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi