Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar için en iyi uygulamalar

Amazon SageMaker Training Managed Warm Pools, size temel alınan altyapıyı kullanıcı tanımlı bir süre boyunca yeniden kullanma ve elinde tutma esnekliği sunar. Bu, bilgi işlem bulut sunucularını yönetmenin farklılaştırılmamış ağır yükünü Amazon SageMaker Modeli Eğitimi. Bu yazıda, SageMaker Eğitimi Yönetilen Sıcak Havuzlar tarafından ele alınan temel faydalar ve sorunlu noktaların yanı sıra karşılaştırmalı değerlendirmeler ve en iyi uygulamaları ana hatlarıyla belirtiyoruz.

SageMaker Eğitimi Yönetilen Sıcak Havuzlara Genel Bakış

SageMaker Model Eğitimi, her iş için örnekleri hızlandıran, bir modeli eğiten, çalıştıran ve ardından işten sonra örnekleri azaltan, tamamen yönetilen bir yetenektir. Yalnızca işin süresi kadar saniyesine kadar faturalandırılırsınız. Bu tam olarak yönetilen yetenek, makine öğrenimi (ML) algoritmanıza odaklanma özgürlüğü verir ve modellerinizi eğitirken altyapı yönetimi gibi farklılaştırılmamış ağır işler için endişelenmenize gerek kalmaz.

Bu mekanizma, bir eğitim işi için sınırlı bir başlangıç ​​süresi gerektirir. Her ne kadar bu başlatma zamanı olarak da bilinirse de soğuk başlatma başlatma süresi, oldukça düşüktür, en zorlu müşteri kullanım durumlarımızdan bazıları, örneğin 20 saniyenin altında olmak üzere daha da düşük başlatma süreleri gerektirir. Bu gereksinimlere sahip iki önemli kullanım durumu vardır:

  • İlki, veri bilimcilerin kullandığı aktif makine öğrenimi deneyidir. Amazon Adaçayı Yapıcı eğitim platformu, özellikle GPT3 gibi üretime hazır duruma gelmek için birden çok yineleme gerektiren büyük modelleri eğitirken.
  • İkincisi, çok sayıda (birkaç yüz veya binlerce sırayla) ardışık işin, planlanmış bir kadansta aynı türden örnekler üzerinde programatik olarak başlatılmasıdır. Örneğin, parametre arama veya artımlı eğitim.

Bu tür kullanım durumlarında, bir eğitim işinin başlangıç ​​süresi gibi ek yük için harcanan her saniyenin tüm bu işler üzerinde kümülatif bir etkisi vardır.

SageMaker Eğitim Yönetilen Sıcak Havuzları ile veri bilimcileri ve makine öğrenimi mühendisleri, SageMaker eğitim anlarını veya çoklu eşgörünümlü kümeleri önceden belirlenmiş ve yeniden yapılandırılabilir bir süre boyunca sıcak tutmayı seçme olanağına sahiptir (keep_alive_period_in_seconds) her eğitim işi tamamlandıktan sonra. Bu nedenle, bir bulut sunucusunda veya kümede çalıştırılan ilk eğitim işi için bir soğuk başlatma cezasına maruz kalsanız da sonraki tüm eğitim işleri için bulut sunucuları zaten çalışıyor ve çalışıyor. Sonuç olarak, bir örnek üzerinde başlayan bu müteakip eğitim işleri, keep_alive_period_in_seconds sona erme süreleri, soğuk başlatma başlatma süresi ek yüküne neden olmaz. Bu, eğitim işi başlatma sürelerini kabaca 20 saniyenin altına indirebilir (P90).

Veri bilimcileri ve makine öğrenimi mühendisleri, SageMaker Eğitimle Yönetilen Sıcak Havuzları kullanarak deneme amacıyla eğitim çalıştırmaları arasında tek veya birden çok bulut sunucusunu sıcak tutabilir veya aynı tek veya çok eşgörünümlü kümede art arda birden çok işi çalıştırabilir. Yalnızca eğitim işlerinin süresi ve yeniden yapılandırılabilir işler için ödeme yaparsınız keep_alive_period_in_seconds her bir örnek için belirttiğiniz diğer her yerde olduğu gibi.

Temelde, SageMaker Eğitimi ile Yönetilen Sıcak Havuzlar ile, SageMaker tarafından yönetilen bulut sunucusu kullanımı ile kısa zaman aralıkları için kapasiteyi etkinleştirme ve sağlama ve kullanımı kendi kendine yönetme yeteneğinin bir kombinasyonunu elde edersiniz. Bu aralıklar bir işten önce yapılandırılabilir, ancak iş sırasında keep_alive_period_in_seconds aralığı, azaltmanız veya artırmanız gerekir, bunu yapabilirsiniz. artar keep_alive_period_in_seconds 60 dakikaya kadar aralıklarla yapılabilir ve bir bulut sunucusu veya küme için maksimum süre 7 gündür.

Sıcak havuzlara başlamak için önce sıcak havuz kota limiti artışı talep edin, sonra belirtin keep_alive_period_in_seconds parametre bir eğitim işine başlarken.

Deneyler

1.34 GB TensorFlow görüntüsü, 2 GB veri ve farklı eğitim verisi giriş modları (Amazon FSx, Hızlı Dosya Modu, Dosya Modu) kullanarak iş başlatma gecikmesini ölçmek için kıyaslama testleri gerçekleştirdik. Testler, us-east-4 Bölgesi'ndeki m4, c5, m5 ve c2 ailelerinden çeşitli bulut sunucusu türlerinde gerçekleştirildi. Başlatma gecikmesi, örnekler üzerinde gerçek eğitim işinin başlangıcına kadar iş oluşturma süresi olarak ölçülmüştür. Kümeyi başlatan ve sıcak havuzu oluşturan ilk işlerin başlangıç ​​gecikmesi 2-3 dakikaydı. Bu yüksek gecikme, altyapının sağlanması, görüntünün indirilmesi ve verilerin indirilmesi için geçen süreden kaynaklanmaktadır. Sıcak havuz kümesini kullanan ardışık işler, Hızlı Dosya Modu (FFM) veya Amazon FSx için yaklaşık 20 saniye ve Dosya Modu (FM) için 70 saniyelik bir başlatma gecikmesine sahipti. Bu delta, işe başlamadan önce tüm veri kümesinin Amazon S3'ten indirilmesini gerektiren FM'nin bir sonucudur.

Egzersiz verisi giriş modu seçiminiz, Sıcak Havuzlarda bile başlangıç ​​süresini etkiler. Hangi giriş modunun seçileceğine ilişkin rehberlik, bu yazının ilerleyen bölümlerindeki en iyi uygulamalar bölümünde yer almaktadır.

Aşağıdaki tabloda, farklı eğitim verisi giriş modları için iş başlatma gecikmesi P90 özetlenmektedir.

Veri Giriş Modu Başlatma Gecikmesi P90 (saniye)
İlk iş Sıcak Havuz İşleri (ikinci iş sonrası)
FSx 136 19
Hızlı Dosya Modu 143 21
Dosya Modu 176 70

Sıcak havuzları kullanmak için en iyi uygulamalar

Aşağıdaki bölümde, ılık havuzları kullanırken bazı en iyi uygulamaları paylaşıyoruz.

Sıcak havuzları ne zaman kullanmalısınız?

Sıcak havuzlar aşağıdaki senaryolarda önerilir:

  • Bir dizi kısa iş üzerinde etkileşimli olarak deneyler yapıyor ve senaryonuzu ayarlıyorsunuz.
  • Kendi ısmarlama, büyük ölçekli hiperparametre optimizasyonunuzu çalıştırıyorsunuz (örneğin, Sinüs Melodisi).
  • Günlük veya haftalık bir düzende aynı tür örnekler üzerinde çok sayıda (birkaç yüz veya binlerce sırayla) ardışık işi çalıştıran bir toplu işleminiz var. Örneğin, şehir başına bir makine öğrenimi modeli eğitmek.

Sıcak havuzlar, süresi dolmadan önce sıcak havuzun tekrar kullanılması ihtimalinin düşük olduğu durumlarda önerilmez. Örneğin, otomatik bir makine öğrenimi ardışık düzeni aracılığıyla çalışan tek bir uzun iş.

Sıcak havuz eğitimi işi başlatma gecikmesini en aza indirin

Sıcak havuzu yeniden kullanan eğitim işleri, sıcak havuzu oluşturan ilk işten daha hızlı başlar. Bunun nedeni, kapsayıcıdan çekmeyi atlamak için önbelleğe alınmış bir eğitim kapsayıcısı Docker görüntüsü olan işler arasında makine öğrenimi örneklerinin çalıştırılmasıdır. Amazon Elastik Konteyner Kayıt Defteri (Amazon ECR'si). Ancak, sıcak bir havuzu yeniden kullanırken bile, tüm işler için belirli başlatma adımları gerçekleşir. Bu adımları optimize etmek, işe başlama sürenizi azaltabilir (hem ilk hem de sonraki işler). Aşağıdakileri göz önünde bulundur:

  • Egzersiz verisi giriş modu başlangıç ​​süresini etkileyebilir – Yönetilen eğitim verisi giriş kanalları, her eğitim işi için yeniden oluşturularak iş başlatma gecikmesine katkıda bulunur. Bu nedenle, daha küçük bir veri kümesi üzerinde ilk deneyleri yapmak, daha hızlı başlatma süresi (ve daha hızlı eğitim süresi) sağlar. Deneyin sonraki aşamaları için, büyük bir veri kümesine ihtiyaç duyulduğunda, minimum veya sabit başlatma süresine sahip bir giriş modu türü kullanmayı düşünün. Örneğin, DOSYA giriş modu, tüm veri kümesini kopyalar. Amazon Basit Depolama Hizmeti (Amazon S3) ile büyük veri kümeleri için (sıcak havuzlarda bile) zaman alıcı olan eğitim eşgörünümüne. Hızlı Dosya Modu, daha düşük başlatma gecikmesi için daha uygundur çünkü iş yükünün başlayabilmesi için Amazon S3'ten yalnızca S3 nesne meta verilerinin okunması gerekir. bu Lustre için Amazon FSxya da Amazon Elastik Dosya Sistemi (Amazon EFS) dosya sistemi giriş modu, dosya sistemindeki dosya sayısına bakılmaksızın sabit bir başlatma süresine sahiptir ve bu, büyük bir veri kümesiyle çalışırken faydalıdır.
    Bir giriş kanalının nasıl seçileceği hakkında daha fazla bilgi için, bkz. Amazon SageMaker eğitim işiniz için en iyi veri kaynağını seçin.
  • Paketlerin çalışma zamanı kurulumunu azaltın – Python'un pip'i veya apt-get işletim sistemi gibi kapsayıcı başlatma sırasında gerçekleşen herhangi bir yazılım yüklemesi, eğitim işi gecikmesini artıracaktır. Bu başlatma gecikmesinin en aza indirilmesi, çalışma zamanı yüklemelerinin esnekliği ve basitliği ile kapsayıcı oluşturma zamanında yükleme arasında bir denge kurulmasını gerektirir. SageMaker ile kendi Docker kapsayıcınızı kullanıyorsanız bkz. Kendi Docker Container'ınızı SageMaker ile Çalışacak Şekilde Uyarlama. eğer güveniyorsan önceden oluşturulmuş SageMaker kapsayıcı görüntüleriihtiyacınız olacak önceden oluşturulmuş bir kapsayıcıyı genişletme ve bu kapsayıcıları açıkça yönetin. Çalışma zamanı yüklemeleriniz başlatma gecikmesini önemli ölçüde artırıyorsa bunu göz önünde bulundurun.
  • Docker görüntünüzü sık sık güncellemekten kaçının – SageMaker ile kendi Docker kapsayıcınızı kullanıyorsanız, her iş çalıştırıldığında onu güncellemekten kaçının. İş gönderimleri arasında Docker görüntüsü değişirse, sıcak havuz yeniden kullanılacaktır ancak başlangıç ​​sürecinin, önbelleğe alınmış bir kapsayıcı görüntüsünü yeniden kullanmak yerine kapsayıcı görüntüsünü Amazon ECR'den yeniden çekmesi gerekecektir. Docker görüntüsünün güncellenmesi gerekiyorsa, Docker katmanını önbelleğe alma özelliğinden yararlanmak için güncellemeleri son Docker katmanıyla sınırlayın. İdeal olarak, hiperparametre, veri kümesi tanımları ve makine öğrenimi kodunun kendisi gibi yinelemelerde değişmesi muhtemel olan Dockerfile içeriğini kaldırmalısınız. Her değişiklikte Docker görüntülerini yeniden oluşturmak zorunda kalmadan makine öğrenimi kodunu yinelemek için SageMaker Eğitim Araç Seti'nde önerilen çerçeve kapsayıcısı paradigmasını benimseyebilirsiniz. Kendi kodunuzla bir çerçeve kapsayıcısı geliştirmek isterseniz, buna bakın. Amazon SageMaker öğreticisi.

Sıcak havuzları birden çok kullanıcı arasında paylaşın

Büyük bir veri bilimci ekibiyle çalışırken, sahip olduğunuz sıcak havuzları paylaşabilirsiniz. eşleşen iş kriterleriaynı gibi AWS Kimlik ve Erişim Yönetimi (IAM) rolü veya kapsayıcı görüntüsü.

Örnek bir zaman çizelgesine bakalım. Kullanıcı-1, tamamlanan ve yeni bir sıcak havuz oluşturulmasıyla sonuçlanan bir eğitim işi başlatır. Kullanıcı-2 bir eğitim işi başlattığında, iş mevcut sıcak havuzu yeniden kullanacak ve bu da hızlı bir iş başlatma ile sonuçlanacaktır. Kullanıcı-2'nin işi sıcak havuz kullanımdayken çalışırken, başka bir kullanıcı eğitim işine başlarsa ikinci bir sıcak havuz oluşturulur.

Bu yeniden kullanım davranışı, sıcak havuzları benzer işlere başlayan kullanıcılar arasında paylaşarak maliyetlerin düşürülmesine yardımcı olur. Kullanıcılar arasında sıcak havuzları paylaşmaktan kaçınmak istiyorsanız, kullanıcıların işleri eşleşen iş kriterleri (örneğin, farklı bir IAM rolü kullanmaları gerekir).

Kullanıcıları iş tamamlandığında bilgilendirin

Deneme amaçlı ılık havuzları kullanırken, işleri tamamlandığında kullanıcıları bilgilendirmenizi öneririz. Bu, kullanıcıların sıcak havuz sona ermeden veya durdurmak artık gerekli değilse sıcak havuz. ayrıca yapabilirsin bildirimleri otomatik olarak tetikler içinden Amazon EventBridge.

Hızlı deneme ve sorun giderme eğitim işleri için daha fazla araç

Sıcak havuzlar ile 20 saniyeden daha kısa sürede bir işe başlayabilirsiniz. Bazı senaryolar, gerçek zamanlı, uygulamalı etkileşimli deneyler ve sorun giderme gerektirir. açık kaynak SageMaker SSH Yardımcı kitaplığı bir SageMaker eğitim kapsayıcısına yerleştirmenize ve uzaktan geliştirme ve hata ayıklama yapmanıza olanak tanır.

Sonuç

SageMaker Training Managed Warm Pools ile model eğitimi donanım örneklerinizi her işten sonra belirli bir süre boyunca sıcak tutabilirsiniz. Bu, bir model eğitim işi için başlatma gecikmesini 8 kata kadar azaltabilir. SageMaker Eğitimi Yönetilen Sıcak Havuzlar, SageMaker Model Eğitiminin sunulduğu tüm genel AWS Bölgelerinde mevcuttur.

Başlamak için bkz. SageMaker Tarafından Yönetilen Sıcak Havuzları Kullanarak Eğitim.


yazarlar hakkında

Romi DattaDoktor Romi Datta  Amazon SageMaker ekibinde eğitim, işleme ve özellik deposundan sorumlu Ürün Yönetimi Kıdemli Müdürüdür. 4 yılı aşkın bir süredir AWS'de çalışıyor ve SageMaker, S3 ve IoT'de çeşitli ürün yönetimi liderliği rollerinde bulunuyor. AWS'den önce IBM, Texas Instruments ve Nvidia'da çeşitli ürün yönetimi, mühendislik ve operasyonel liderlik rollerinde çalıştı. Yüksek Lisans ve Doktora derecesine sahiptir. Austin'deki Texas Üniversitesi'nden Elektrik ve Bilgisayar Mühendisliği bölümünden ve University of Chicago Booth İşletme Okulu'ndan MBA derecesi almıştır.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai.Arun Nagarajan Amazon SageMaker ekibinde Eğitim ve MLOps alanlarına odaklanan bir Baş Mühendistir. Lansman yılından beri SageMaker ekibinde yer alıyor ve SageMaker'ın gerçek zamanlı çıkarım ve Model Monitör ürünleri dahil olmak üzere farklı alanlarına katkıda bulunmaktan keyif alıyor. Pasifik Kuzeybatı bölgesindeki açık havayı keşfetmeyi ve dağlara tırmanmayı seviyor.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai.Amy sen AWS SageMaker'da Yazılım Geliştirme Yöneticisidir. Müşterilerin makine öğrenimi modellerini daha verimli ve kolay bir şekilde eğitmelerine yardımcı olan SageMaker Eğitim platformunun yeni yeteneklerini oluşturmak, sürdürmek ve geliştirmek için yazılım mühendislerinden oluşan bir ekibi bir araya getirmeye odaklanıyor. Makine öğrenimi ve yapay zeka teknolojisine, özellikle lisansüstü çalışmalarından elde ettiği imaj ve vizyonla ilgili bir tutkusu var. Boş zamanlarında ailesiyle birlikte müzik ve sanatla uğraşmayı çok seviyor.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai. Sifei Li Amazon Yapay Zeka'da Amazon Makine Öğrenimi Platformları oluşturmak için çalıştığı ve Amazon SageMaker lansman ekibinin bir parçası olduğu bir Yazılım Mühendisidir. Boş zamanlarında müzik çalmayı ve kitap okumayı sever.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai.Jenna Zhao AWS SageMaker'da Yazılım Geliştirme Mühendisi. ML/AI teknolojisi konusunda tutkulu ve müşterilerin makine öğrenimi modellerini hızlı ve kolay bir şekilde eğitmelerini sağlayan SageMaker Eğitim platformunu oluşturmaya odaklanıyor. İş dışında seyahat etmeyi ve ailesiyle vakit geçirmeyi seviyor.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai.Para Mehra AWS'de Kıdemli Ürün Yöneticisidir. Amazon SageMaker Training and Processing'in oluşturulmasına yardımcı olmaya odaklanmıştır. Paras, boş zamanlarında ailesiyle vakit geçirmekten ve Körfez Bölgesi'nde yol bisikleti sürmekten hoşlanır. onu bulabilirsin  LinkedIn.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai.gili nachum EMEA Amazon Machine Learning ekibinin bir parçası olarak çalışan kıdemli bir AI/ML Uzman Çözüm Mimarıdır. Gili, derin öğrenme modellerini eğitmenin zorlukları ve makine öğreniminin bildiğimiz dünyayı nasıl değiştirdiği konusunda tutkulu. Gili boş zamanlarında masa tenisi oynamayı sever.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai.Olivier Cruchant Fransa merkezli AWS'de Makine Öğrenimi Uzmanı Çözüm Mimarıdır. Olivier, küçük girişimlerden büyük kuruluşlara kadar AWS müşterilerinin üretim düzeyinde makine öğrenimi uygulamaları geliştirmesine ve dağıtmasına yardımcı olur. Boş zamanlarında araştırma makalelerini okumaktan ve arkadaşları ve ailesiyle vahşi doğayı keşfetmekten hoşlanır.

Amazon SageMaker Eğitimi Yönetilen Sıcak Havuzlar PlatoBlockchain Veri Zekası için en iyi uygulamalar. Dikey Arama. Ai.Emily Webber SageMaker başlatıldıktan hemen sonra AWS'ye katıldı ve o zamandan beri dünyaya bunu anlatmaya çalışıyor! Emily, müşteriler için yeni makine öğrenimi deneyimleri oluşturmanın dışında meditasyon yapmaktan ve Tibet Budizmi üzerinde çalışmaktan keyif alıyor.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi