Amazon SageMaker harcamasını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri

Amazon SageMaker harcamasını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri

2021'de başlattık AWS Support Proaktif Hizmetler bir parçası olarak AWS Kurumsal Desteği plan. Piyasaya sürülmesinden bu yana yüzlerce müşterinin iş yüklerini optimize etmelerine, güvenlik önlemleri oluşturmalarına ve makine öğrenimi (ML) iş yüklerinin maliyet ve kullanımının görünürlüğünü iyileştirmelerine yardımcı olduk.

Bu yazı dizisinde, maliyetleri optimize etme konusunda öğrenilen dersleri paylaşıyoruz. Amazon Adaçayı Yapıcı. Bu yazıda SageMaker eğitim işlerine odaklanıyoruz.

SageMaker eğitim işleri

SageMaker eğitim işleri, makine öğrenimi modeli eğitimi ve optimizasyonuna yönelik yerleşik özelliklere sahip eşzamansız toplu işlemlerdir.

SageMaker eğitim işleriyle kendi algoritmanızı getirebilir veya 25'ten fazla yerleşik algoritma arasından seçim yapabilirsiniz. SageMaker, çeşitli veri kaynaklarını ve erişim modellerini, heterojen kümeler dahil olmak üzere dağıtılmış eğitimin yanı sıra deney yönetimi özelliklerini ve otomatik model ayarlamayı destekler.

Bir eğitim işinin maliyeti, bu örneklerin çalıştığı süre boyunca (saniye cinsinden) kullandığınız kaynaklara (örnekler ve depolama) bağlıdır. Bu, eğitimin gerçekleştiği zamanı ve eğer kullanıyorsanız sıcak havuz özelliği, yapılandırdığınız canlı tutma süresini. İçinde Bölüm 1kullanmaya nasıl başlayacağımızı gösterdik AWS Maliyet Gezgini SageMaker'da maliyet optimizasyonu fırsatlarını belirlemek. Kullanım türüne filtre uygulayarak eğitim maliyetlerini filtreleyebilirsiniz. Bu kullanım türlerinin isimleri aşağıdaki gibidir:

  • REGION-Train:instanceType (Örneğin, USE1-Train:ml.m5.large)
  • REGION-Train:VolumeUsage.gp2 (Örneğin, USE1-Train:VolumeUsage.gp2)

Maliyet Gezgini'nde eğitim maliyetlerinizin dökümünü görüntülemek için şunu girebilirsiniz: train: için bir önek olarak Kullanım türü. Yalnızca kullanılan saatlere göre filtreleme yaparsanız (aşağıdaki ekran görüntüsüne bakın), Maliyet Gezgini iki grafik oluşturacaktır: Maliyet ve Kullanım. Bu görünüm, optimizasyon fırsatlarınıza öncelik vermenize ve hangi örneklerin uzun süreli ve maliyetli olduğunu belirlemenize yardımcı olacaktır.

Amazon SageMaker harcamalarını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Mevcut bir eğitim işini optimize etmeden önce, bu bölümde ele alınan en iyi uygulamaları takip etmenizi öneririz. Amazon SageMaker ile makine öğrenimi maliyetlerini optimize etme: kodunuzu yerel olarak test edin ve kullanın yerel mod Test için mümkünse önceden eğitilmiş modelleri kullanın ve yönetilen spot eğitim (Bu, İsteğe Bağlı bulut sunucularına göre maliyeti %90'a kadar optimize edebilir).

İsteğe Bağlı bir iş başlatıldığında beş aşamadan geçer: Başlatma, İndirme, Eğitim, Yükleme ve Tamamlanma. Bu aşamaları ve açıklamaları SageMaker konsolundaki eğitim işi sayfasında görebilirsiniz.

Amazon SageMaker harcamalarını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Fiyatlandırma açısından bakıldığında İndirme, Eğitim ve Yükleme aşamaları için ücretlendirilirsiniz.

Bu aşamaları gözden geçirmek, eğitim maliyetlerinizi nerede optimize edebileceğinizi teşhis etmenin ilk adımıdır. Bu yazıda İndirme ve Eğitim aşamalarını tartışıyoruz.

İndirme aşaması

Önceki örnekte İndirme aşaması bir dakikadan az sürdü. Ancak veri indirme, eğitim maliyetinizde büyük bir etkense, kullandığınız veri kaynağını ve erişim yöntemlerini göz önünde bulundurmalısınız. SageMaker eğitim işleri üç veri kaynağını yerel olarak destekler: Amazon Elastik Dosya Sistemi (Amazon EFS'si), Amazon Basit Depolama Hizmeti (Amazon S3) ve Lustre için Amazon FSx. Amazon S3 için SageMaker, algoritmanızın eğitime erişebilmesi için üç yönetilen yol sunar: Dosya modu (verilerin bulut sunucusu blok depolamasına indirildiği yer), Boru modu (veriler bulut sunucusuna akışla sağlanır, böylece İndirme aşamasının süresi ortadan kalkar) ve Hızlı Dosya modu (mevcut Dosya modunun kullanım kolaylığını Boru modunun performansıyla birleştirir). Doğru veri kaynağının ve erişim yöntemlerinin seçilmesine ilişkin ayrıntılı rehberlik için bkz. Amazon SageMaker eğitim işiniz için en iyi veri kaynağını seçin.

Yönetilen anlık eğitimi kullanırken, kesinti nedeniyle tekrarlanan İndirme aşamaları ücretlendirilmez (bu nedenle yalnızca veri indirme süresi boyunca yalnızca bir kez ücretlendirilirsiniz).

SageMaker eğitim işlerinin bahsettiğimiz veri kaynaklarını desteklemesine rağmen zorunlu olmadığını unutmamak önemlidir. Eğitim kodunuzda, eğitim verilerini herhangi bir kaynaktan indirmek için herhangi bir yöntemi uygulayabilirsiniz (eğitim örneğinin erişebilmesi şartıyla). Dosyaları aynı anda indirmek için Boto3 API'yi çoklu işlemle kullanmak veya Amazon S5'ten daha hızlı indirmek için WebDataset veya s3cmd gibi üçüncü taraf kitaplıkları kullanmak gibi indirme süresini hızlandırmanın ek yolları da vardır. Daha fazla bilgi için bkz. S3 İş Yüklerini s5cmd ile Paralelleştirme.

Eğitim aşaması

Eğitim aşamasının maliyetini optimize etmek, iki vektörün optimize edilmesinden oluşur: doğru altyapının seçilmesi (örnek ailesi ve boyutu) ve eğitimin kendisinin optimize edilmesi. Eğitim örneklerini kabaca iki kategoriye ayırabiliriz: çoğunlukla derin öğrenme modelleri için hızlandırılmış GPU tabanlı ve yaygın makine öğrenimi çerçeveleri için CPU tabanlı. Eğitim için doğru bulut sunucusu ailesini seçme konusunda rehberlik için bkz. Amazon SageMaker'da verimli bilgi işlem kaynakları sağlayın. Eğitiminiz GPU örnekleri gerektiriyorsa videoya bakmanızı öneririz Derin öğrenme için Amazon EC2 GPU bulut sunucuları nasıl seçilir?.

Genel bir kılavuz olarak, iş yükünüz bir NVIDIA GPU gerektiriyorsa, müşterilerin iki tane ile önemli ölçüde maliyet tasarrufu elde ettiğini gördük. Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) bulut sunucusu türleri: ml.g4dn ve ml.g5. Ml.g4dn, NVIDIA T4 ile donatılmıştır ve bellek başına özellikle düşük bir maliyet sunar. Ml.g5 örneği, NVIDIA A10g Tensor Core ile donatılmıştır ve CUDA flop başına en düşük maliyete (fp32) sahiptir.

AWS, derin öğrenme eğitimi için belirli maliyet tasarrufu sağlayan özellikler sunar:

Örneğinizi doğru boyutlandırmak ve optimize etmek için öncelikle şuna bakmalısınız: Amazon Bulut İzleme eğitim işlerinin oluşturduğu ölçümler. Daha fazla bilgi için bkz. SageMaker İşleri ve Uç Nokta Metrikleri. CloudWatch'u daha fazla kullanabilirsiniz eğitim performansını izlemek için özel algoritma ölçümleri.

Amazon SageMaker harcamalarını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bu ölçümler, darboğazları veya kaynakların aşırı tedarikini gösterebilir. Örneğin, düşük GPU kullanımıyla birlikte yüksek CPU gözlemliyorsanız, şunu kullanarak sorunu çözebilirsiniz: heterojen kümeler. Başka bir örnek, iş süresi boyunca tutarlı bir şekilde düşük CPU kullanımının görülmesi olabilir; bu, örneğin boyutunun küçülmesine yol açabilir.

Eğer kullanıyorsanız dağıtılmış eğitimmaksimum kullanımı doğrulamak ve çerçeve parametrelerinizde buna göre ince ayar yapmak için farklı dağıtım yöntemlerini (kule, Ring-AllReduce, yansıtılmış vb.) test etmelisiniz (örneğin, bkz. Amazon SageMaker'da TensorFlow 1.x hızlandırma eğitimi için en iyi uygulamalar). SageMaker dağıtım API'sini ve aşağıdaki gibi kütüphaneleri kullanabileceğinizi vurgulamak önemlidir: SageMaker Verileri Paralel Olarak Dağıttı, SageMaker Modeli Paralel, ve SageMaker Parçalanmış Veriler ParalelAWS altyapısı için optimize edilmiş ve eğitim maliyetlerinin azaltılmasına yardımcı olan.

Dağıtılmış eğitimin mutlaka doğrusal olarak ölçeklenmediğini ve bir miktar ek yük getirebileceğini ve bunun da genel çalışma süresini etkileyebileceğini unutmayın.

Derin öğrenme modelleri için başka bir optimizasyon tekniği karma hassasiyet kullanmaktır. Karma hassasiyet, eğitimi hızlandırabilir, böylece model doğruluğu üzerinde en az etkiyle veya hiç etki olmadan hem eğitim süresini hem de bellek kullanımını azaltabilir. Daha fazla bilgi için bkz. Veri Paralel ve Model Paralel ile Eğitim bölümündeki bölüm Amazon SageMaker'da Dağıtılmış Eğitim.

Son olarak, çerçeveye özgü parametrelerin optimize edilmesi, eğitim sürecinin optimize edilmesinde önemli bir etkiye sahip olabilir. SageMaker otomatik model ayarı seçtiğiniz nesnel bir ölçümle ölçülen en iyi performansı gösteren hiperparametreleri bulur. Eğitim süresini nesnel bir ölçüm olarak ayarlamak ve hiper parametreler olarak çerçeve yapılandırması, darboğazların ortadan kaldırılmasına ve genel eğitim süresinin azaltılmasına yardımcı olabilir. Varsayılan TensorFlow ayarlarının optimize edilmesine ve CPU darboğazının ortadan kaldırılmasına ilişkin bir örnek için bkz. Aerobotik, Amazon SageMaker ve TensorFlow ile eğitim hızını örnek başına 24 kat artırır.

Hem indirme hem de işlem süresini optimize etmek için başka bir fırsat, verilerinizin bir alt kümesi üzerinde eğitim almayı düşünmektir. Verileriniz birden çok yinelenen girişten veya düşük bilgi kazancına sahip özelliklerden oluşuyorsa, verinin bir alt kümesi üzerinde eğitim alabilir, indirme ve eğitim süresini azaltabilir, ayrıca daha küçük bir örnek ve Amazon Elastik Blok Mağazası (Amazon EBS) hacmi. Bir örnek için bkz. Amazon SageMaker modellerini eğitmek için gereken veri miktarını en aza indirmek için veri merkezli bir yaklaşım kullanın. Ayrıca, Amazon SageMaker Veri Düzenleyicisi Eğitim örneklerinin analizini ve oluşturulmasını basitleştirebilir. Daha fazla bilgi için bkz. Amazon SageMaker Data Wrangler ile rastgele ve katmanlara ayrılmış veri örnekleri oluşturun.

SageMaker Hata Ayıklayıcı

Verimli eğitim ve kaynak kullanımı sağlamak için SageMaker, aşağıdakileri kullanarak eğitim işinizin profilini çıkarabilir: Amazon SageMaker Hata Ayıklayıcısı. Hata ayıklayıcı teklifleri yerleşik kurallar CPU darboğazı, GPU bellek artışı veya G/Ç darboğazı gibi eğitiminizi etkileyen yaygın sorunlar hakkında uyarıda bulunmak için veya kendi kurallarınızı oluşturabilirsiniz. Oluşturulan rapora şuradan erişebilir ve analiz edebilirsiniz. Amazon SageMaker Stüdyosu. Daha fazla bilgi için bkz. Amazon SageMaker Studio Deneylerinde Amazon SageMaker Hata Ayıklayıcı Kullanıcı Arayüzü. Aşağıdaki ekran görüntüsü Studio'daki Hata Ayıklayıcı görünümünü göstermektedir.

Amazon SageMaker harcamalarını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Python operatörlerini ve işlevlerini ayrıntılı olarak inceleyebilirsiniz ( GPU'daki en önemli işlemler Bölüm) eğitim işini gerçekleştirmek için çalıştırılır. Eğitim başlamadan önce veri indirilmesi nedeniyle aşırı eğitim başlatma süresi ve eğitim döngülerindeki adım süresi aykırı değerleri de dahil olmak üzere, izleme çerçevesi operasyonuyla ilgili sorunların profilini çıkarmaya yönelik Hata Ayıklayıcı yerleşik kuralları. Yerleşik kuralların kullanımı ücretsiz olmasına rağmen, özel kuralların maliyetlerinin, eğitim işinin ve buna bağlı depolamanın süresi boyunca yapılandırdığınız örneğe bağlı olarak geçerli olduğunu unutmayın.

Sonuç

Bu yazıda, SageMaker eğitim işlerini kullanarak ML modellerini eğitirken maliyet analizi ve en iyi uygulamalar hakkında rehberlik sağladık. Makine öğrenimi kendisini endüstriler genelinde güçlü bir araç olarak kabul ettirdikçe, makine öğrenimi modellerinin eğitimi ve çalıştırılmasının uygun maliyetli kalması gerekiyor. SageMaker, makine öğrenimi hattındaki her adımı kolaylaştırmak için geniş ve derin bir özellik seti sunar ve performansı veya çevikliği etkilemeden maliyet optimizasyonu fırsatları sunar.


Yazarlar Hakkında

Amazon SageMaker harcamalarını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Deepali Rajale AWS'de Kıdemli AI/ML Uzmanıdır. AWS ekosisteminde AI/ML çözümlerini dağıtmak ve sürdürmek için en iyi uygulamalarla teknik rehberlik sağlayan kurumsal müşterilerle birlikte çalışıyor. NLP ve bilgisayarlı görmeyi içeren çeşitli derin öğrenme kullanım senaryoları üzerinde çok çeşitli kuruluşlarla çalıştı. Kullanım deneyimlerini geliştirmek için kuruluşların üretken yapay zekadan yararlanmalarını sağlama konusunda tutkulu. Boş zamanlarında film, müzik ve edebiyattan hoşlanıyor.

Amazon SageMaker harcamalarını analiz edin ve kullanıma göre maliyet optimizasyonu fırsatlarını belirleyin, Bölüm 4: Eğitim işleri | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Uri Rosenberg Avrupa, Orta Doğu ve Afrika'nın Yapay Zeka ve Öğrenim Uzmanı Teknik Müdürüdür. Merkezi İsrail'de bulunan Uri, kurumsal müşterilere makine öğrenimi ile ilgili her konuda geniş ölçekte tasarlama, oluşturma ve çalıştırma konusunda destek sağlamak için çalışıyor. Boş zamanlarında bisiklete binmekten, yürüyüş yapmaktan ve entropiyi arttırmaktan hoşlanıyor.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi