Amazon SageMaker Heterojen Kümelerini Kullanarak Model Eğitiminizin Fiyat Performansını Artırın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Bu yazı Mobileye'dan Chaim Rand ile birlikte yazılmıştır.

Bilgisayarla görü modellerinin eğitimi veya takviye öğrenimi gibi belirli makine öğrenimi (ML) iş yükleri, genellikle, sinir ağı modeli eğitiminin GPU veya hızlandırıcı yoğun görevini, görüntü büyütme gibi CPU yoğun veri ön işleme göreviyle birleştirmeyi içerir. Her iki görev türü de aynı bulut sunucusu türünde çalıştığında, veri ön işlemesi CPU'da darboğaz oluşturarak GPU kullanımının düşmesine neden olur. Yeni nesil GPU'ların verimi CPU'larınkinden daha hızlı büyüdükçe bu sorun zamanla daha da kötüleşir.

Bu sorunu çözmek için Temmuz 2022'de başlattı için heterojen kümeler Amazon Adaçayı Yapıcı tek bir işte farklı örnek türlerini kullanan eğitim işlerini başlatmanıza olanak tanıyan model eğitimi. Bu, veri ön işleme hattının parçalarının hesaplama için optimize edilmiş örnek türleri, derin sinir ağı (DNN) görevi çalışmaya devam ederken GPU veya hızlandırılmış bilgi işlem örnek türleri. Karşılaştırmalarımız, CPU'ya bağlı bir TensorFlow bilgisayarlı görme modeli eğitiminde heterojen kümeleri etkinleştirdikten sonra %46'ya varan fiyat performansı avantajı gösteriyor.

Benzer bir kullanım durumu için, Mobileye, otonom araç teknolojileri geliştirme şirketi şunları paylaştı:

"CPU'ya bağlı derin öğrenme bilgisayarlı görü modeli eğitimini birden çok örnek türü (CPU ve GPU/ML hızlandırıcıları) üzerinde çalışacak şekilde taşıyarak, tf.data.service Oluşturduğumuz tabanlı çözümle, eğitim süresini %40, eğitim maliyetini %30 oranında azaltmayı başardık. Bu çözümü Amazon SageMaker'da çalıştırmamıza izin veren heterojen kümeler bizi heyecanlandırıyor."

— AI Mühendislik, Mobileye

Bu yazıda aşağıdaki konuları tartışıyoruz:

Heterojen kümeler CPU darboğazlarının ortadan kaldırılmasına nasıl yardımcı olur?
Heterojen kümeler ve diğer alternatifler ne zaman kullanılır?
PyTorch ve TensorFlow'daki referans uygulamaları
Performans karşılaştırma sonuçları
Mobileye'de heterojen kümeler

AWS'ler hızlandırılmış bilgi işlem örneği aile, AWS özel yongalarından (AWS Çıkarımları, AWS Eğitimi), NVIDIA'nın (GPU'lar), Ve Gaudi hızlandırıcıları Habana Labs'den (bir Intel şirketi). Bu yazıda GPU ve hızlandırıcı terimlerini birbirinin yerine kullandığımızı unutmayın.

Heterojen kümeler veri işleme darboğazlarını nasıl ortadan kaldırır?

Derin öğrenme modellerini eğiten veri bilimcileri, eğitim maliyet verimliliğini en üst düzeye çıkarmayı ve eğitim süresini en aza indirmeyi amaçlar. Bunu başarmak için temel optimizasyon hedeflerinden biri, piyasadaki en pahalı ve kıt kaynak olan yüksek GPU kullanımına sahip olmaktır. Amazon Elastik Bilgi İşlem Bulutu (Amazon EC2) örneği. Bu, klasik GPU yoğun sinir ağı modelinin ileri ve geri yayılımını bilgisayar görüşünde veri işleme ve büyütme veya pekiştirmeli öğrenmede bir ortam simülasyonu çalıştırma gibi CPU yoğun görevlerle birleştiren ML iş yükleriyle daha zor olabilir. Bu iş yükleri, CPU'ya bağlı hale gelebilir, burada daha fazla CPU'ya sahip olmak, mevcut hızlandırıcılar kısmen boşta olduğundan daha yüksek verim ve daha hızlı ve daha ucuz eğitim ile sonuçlanabilir. Bazı durumlarda, CPU darboğazları, daha yüksek CPU:GPU oranına sahip başka bir bulut sunucusu tipine geçilerek çözülebilir. Ancak, bulut sunucusu ailesinin mimarisi, depolaması veya ağ bağımlılıkları nedeniyle başka bir bulut sunucusu türüne geçişin mümkün olmadığı durumlar vardır.

Bu gibi durumlarda, örnek türlerini karıştırarak CPU gücü miktarını artırmanız gerekir: GPU'lu örnekler ve CPU. Birlikte toplandığında, bu genel olarak daha yüksek bir CPU:GPU oranıyla sonuçlanır. Yakın zamana kadar, SageMaker eğitim işleri, seçilen tek bir örnek türünün örneklerine sahip olmakla sınırlıydı. SageMaker heterojen kümeleri ile, veri bilimciler, mevcut CPU görevlerinin bazılarının GPU örneklerinden ayrılmış, hesaplama için optimize edilmiş CPU örneklerine boşaltılmasına olanak tanıyan, böylece daha yüksek GPU kullanımı ve daha hızlı ve daha fazla maliyetle sonuçlanan birden çok örnek türüyle bir eğitim işini kolayca çalıştırabilir. verimli eğitim. Ayrıca, ekstra CPU gücüyle, geleneksel olarak eğitimin bir ön adımı olarak çevrimdışı olarak yapılan ön işleme görevlerini eğitim işinizin bir parçası haline getirebilirsiniz. Bu, hem veri ön işleme hem de DNN eğitim varsayımları ve hiperparametreleri üzerinde yinelemeyi ve denemeyi daha hızlı hale getirir.

Örneğin, güçlü bir GPU bulut sunucusu tipi olan ml.p4d.24xlarge (96 vCPU, 8 x NVIDIA) düşünün. A100 GPU'lar), CPU:GPU oranı 12:1'dir. Eğitim işinizin, bir GPU'nun %20 kullanılmasını sağlamak için yeterli veriyi önceden işlemek için 100 vCPU'ya ihtiyaç duyduğunu varsayalım. Bu nedenle, 8 GPU'nun tamamının %100 kullanılmasını sağlamak için 160 vCPU örnek türüne ihtiyacınız vardır. Bununla birlikte, ml.p4d.24xlarge, 64 vCPU'ya veya %40'a sahip değildir ve aşağıdaki diyagramın solunda gösterildiği gibi GPU kullanımını %60 ile sınırlar. Başka bir ml.p4d.24xlarge örneği eklemek yardımcı olur mu? Hayır, çünkü işin CPU:GPU oranı aynı kalacaktı.

Heterojen kümelerle, diyagramın sağında gösterildiği gibi iki ml.c5.18xlarge (72 vCPU) ekleyebiliriz. Bu kümedeki net toplam vCPU 210'dur (96+2*72), bu da CPU:GPU oranının 30:1 olmasını sağlar. Hesaplama için optimize edilmiş bu örneklerin her biri, CPU yoğun bir veri ön işleme göreviyle boşaltılacak ve verimli GPU kullanımına izin verecektir. ml.c5.18xlarge'ın ekstra maliyetine rağmen, daha yüksek GPU kullanımı, daha hızlı işleme ve dolayısıyla daha yüksek fiyat performansı avantajları sağlar.

Heterojen kümeler ve diğer alternatifler ne zaman kullanılır?

Bu bölümde, bir CPU darboğazının nasıl tanımlanacağını açıklıyoruz ve bunu örnek türü ölçeğini büyütme ve heterojen kümeler kullanarak çözmeyi tartışıyoruz.

CPU darboğazını belirlemenin hızlı yolu CPU ve GPU'yu izlemektir. kullanım metrikleri SageMaker eğitim işleri için Amazon Bulut İzleme. Bu görünümlere adresinden ulaşabilirsiniz. AWS Yönetim Konsolu eğitim işi sayfasının örnek ölçümleri köprüsü içinde. İlgili metrikleri seçin ve 5 dakikalık çözünürlükten 1 dakikalık çözünürlüğe geçiş yapın. Ölçeğin vCPU veya GPU başına %100 olduğunu, dolayısıyla 4 vCPU/GPU'lu bir bulut sunucusunun kullanım oranının %400 kadar yüksek olabileceğini unutmayın. Aşağıdaki şekil, CPU'nun yaklaşık %100 kullanıldığı, CPU darboğazına işaret eden ve GPU'nun yeterince kullanılmadığı CloudWatch ölçümlerinden bir örnektir.

Ayrıntılı tanılama için, eğitim işlerini şununla çalıştırın: Amazon SageMaker Hata Ayıklayıcısı SageMaker Python SDK kullanarak bir SageMaker tahmincisi oluşturduğunuzda bir profil oluşturucu yapılandırması ekleyerek kaynak kullanım durumunu, istatistikleri ve çerçeve işlemlerini profillemek için. Eğitim işini gönderdikten sonra, elde edilen sonucu gözden geçirin. profil oluşturucu raporu CPU darboğazları için.

İşinizin daha yüksek bir CPU:GPU hesaplama oranından yararlanabileceği sonucuna varırsanız, ilk olarak, varsa aynı bulut sunucusu ailesindeki başka bir bulut sunucusu türüne ölçeklendirmeyi düşünün. Örneğin, modelinizi ml.g5.8xlarge (32 vCPU, 1 GPU) üzerinde eğitiyorsanız, ölçeği ml.g5.16xlarge'a (64 vCPU, 1 GPU) yükseltmeyi düşünün. Veya modelinizi çoklu GPU örneği ml.g5.12xlarge (48 vCPU, 4 GPU) kullanarak eğitiyorsanız ml.g5.24xlarge'a (96 vCPU, 4 GPU) ölçeklendirmeyi düşünün. Bakın G5 daha fazla ayrıntı için örnek ailesi belirtimi.

Bazen, aynı bulut sunucusu ailesinde daha yüksek vCPU:GPU oranına sahip bir bulut sunucusu türü olmadığından ölçeği büyütme bir seçenek değildir. Örneğin, modeli ml.trn1.32xlarge, ml.p4d.24xlarge veya ml.g5.48xlarge, SageMaker model eğitimi için heterojen kümeleri göz önünde bulundurmalısınız.

Ölçeklendirmenin yanı sıra, NVIDIA gibi heterojen bir kümeye ek alternatifler olduğunu da belirtmek isteriz. DALI, görüntü ön işlemesini GPU'ya boşaltır. Daha fazla bilgi için bkz. TensorFlow Veri Hizmeti, NVIDIA DALI ve Diğer Yöntemlerle Veri Ön İşleme Darboğazlarının Üstesinden Gelme.

Karar vermeyi basitleştirmek için aşağıdaki akış şemasına bakın.

SageMaker heterojen kümeleri nasıl kullanılır?

Hızlı bir şekilde başlamak için doğrudan bu yazının bir parçası olarak sağlanan TensorFlow veya PyTorch örneklerine atlayabilirsiniz.

Bu bölümde, basit bir örnekle bir SageMaker heterojen kümesinin nasıl kullanılacağı konusunda size yol göstereceğiz. SageMaker Python SDK ve Estimator sınıfı ile bir modeli nasıl eğiteceğinizi zaten bildiğinizi varsayıyoruz. Değilse, bkz. SageMaker Python SDK'sını Kullanma devam etmeden önce.

Bu özellikten önce, eğitim işinin Tahminci sınıfını şu komutla başlattınız: InstanceCount ve örtük olarak yalnızca tek bir örnek türünüz (homojen bir küme) olduğunu varsayan InstanceType parametreleri. Heterojen kümelerin piyasaya sürülmesiyle, yeni sagemaker.instance_group.InstanceGroup sınıf. Bu, mantıksal bir rol (veri işleme veya sinir ağı optimizasyonu gibi) taşımak üzere tasarlanmış, belirli bir örnek türünün bir veya daha fazla örneğinden oluşan bir grubu temsil eder. İki veya daha fazla grubunuz olabilir ve her bir örnek grubu için örnek olarak özel bir ad belirtebilirsiniz. türü ve her bir örnek grubu için örnek sayısı.Daha fazla bilgi için, bkz. SageMaker Python SDK'sını Kullanma ve Düşük Düzeyli SageMaker API'lerini Kullanma.

Örnek gruplarını tanımladıktan sonra, eğitim komut dosyanızı SageMaker'ı okumak için değiştirmeniz gerekir. eğitim ortamı bilgileri heterojen küme yapılandırmasını içerir. Yapılandırma, geçerli örnek grupları, her gruptaki mevcut ana bilgisayarlar ve mevcut ana bilgisayarın sıralamalarıyla birlikte hangi grupta bulunduğu gibi bilgileri içerir. Örnek gruplarını belirli eğitim ve veri işleme görevlerine atamak için eğitim komut dosyanızda mantık oluşturabilirsiniz. Ayrıca, eğitim komut dosyanızın, örnekler arası grup iletişimi veya dağıtılmış veri yükleme mekanizmalarıyla ilgilenmesi gerekir (örneğin, tf.veri.servisi TensorFlow'da veya genel gRPC istemci-sunucu) veya başka bir çerçeve (örneğin, Apache Spark).

Heterojen bir eğitim işi başlatmaya ve çalışma zamanında ortam yapılandırmasını okumaya ilişkin basit bir örnek üzerinden gidelim.

Eğitim işini tanımlarken ve başlatırken, SageMaker tahmincisine argüman olarak kullanılan iki örnek grubu yapılandırırız:

from sagemaker.instance_group import InstanceGroup
data_group = InstanceGroup("data_group", "ml.c5.18xlarge", 2)
dnn_group = InstanceGroup("dnn_group", "ml.p4d.24xlarge", 1)

from sagemaker.pytorch import PyTorch
estimator = PyTorch(...,
    entry_point='launcher.py',
    instance_groups=[data_group, dnn_group]
)

Giriş noktası eğitim komut dosyasında (adlandırılmış launcher.py), örneğin ön işlemeyi mi yoksa DNN kodunu mu çalıştıracağına ilişkin heterojen küme yapılandırmasını okuruz:
```
from sagemaker_training import environment
env = environment.Environment()
if env.current_instance_group == 'data_group': ...;
```

Bununla SageMaker'ın sizin adınıza yaptığı görevleri ve sizin sorumlu olduğunuz görevleri özetleyelim.

SageMaker aşağıdaki görevleri gerçekleştirir:

Örnek grubu tanımına göre farklı örnek türleri sağlayın.
Tüm veya belirli örnek gruplarında giriş kanalları sağlayın.
Eğitim komut dosyalarını ve bağımlılıkları örneklere dağıtın.
Tanımlanmışsa, belirli bir örnek grubu üzerinde bir MPI kümesi kurun.

Aşağıdaki görevlerden siz sorumlusunuz:

Örnek gruplarını belirtmek için eğitime başlama iş komut dosyanızı değiştirin.
Dağıtılmış bir veri hattı uygulayın (örneğin, tf.data.service).
Giriş noktası komut dosyanızı değiştirin (bkz. launcher.py örnek not defterinde) tüm örneklerde çalışacak, hangi örnek grubunda çalıştığını algılayacak ve ilgili davranışı (veri işleme veya DNN optimizasyonu gibi) tetikleyecek tek bir giriş noktası olacak.
Eğitim döngüsü bittiğinde, giriş noktası sürecinizin tüm örnek gruplarındaki tüm örneklerde çıktığından emin olmalısınız. Bu önemlidir çünkü SageMaker, işi tamamlandı olarak işaretlemeden ve faturalandırmayı durdurmadan önce tüm örneklerin işlenmesini bitirmesini bekler. bu launcher.py TensorFlow ve PyTorch örnek not defterlerindeki komut dosyası, DNN grubu örnekleri işlerini bitirdiğinde çıkmak için sinyalleme veri grubu örneklerinin referans uygulamasını sağlar.

SageMaker heterojen kümeleri için örnek not defterleri

Bu bölümde, bir özetini sunuyoruz. örnek defterler hem TensorFlow hem de PyTorch ML çerçeveleri için. Not defterlerinde, uygulama ayrıntılarını, kodun nasıl çalıştığına ilişkin izlenecek yolları, eğitim komut dosyalarınızda, akış şemalarında ve maliyet karşılaştırma analizinde yeniden kullanabileceğiniz kod parçacıklarını bulabilirsiniz.

Her iki örnekte de modelin anlamlı bir şekilde yakınsamasını beklememeniz gerektiğini unutmayın. Amacımız yalnızca dönem/adım süresi olarak ifade edilen veri hattını ve sinir ağı optimizasyon verimini ölçmektir. İş yükünüze uygun fiyat performansı avantajları üretmek için kendi modeliniz ve veri kümenizle kıyaslama yapmanız gerekir.

tf.data.service tabanlı dağıtılmış veri yükleyici (TensorFlow) kullanan heterojen küme

Bu defter TensorFlow'u kullanarak SageMaker eğitimi için heterojen bir kümenin nasıl uygulanacağını gösterir tf.data.service tabanlı dağıtılmış veri hattı. Derin öğrenme bilgisayarlı görme modeli eğitiyoruz resnet50 CPU yoğun veri artırma gerektirir. kullanır Horvod çoklu GPU dağıtılmış veri paralelliği için.

İş yükünü iki konfigürasyonda çalıştırıyoruz: birincisi homojen bir küme olarak, tek ml.p4d.24xlarge örneği, bir standart kullanarak tf.data Daha düşük GPU kullanımına yol açan CPU darboğazlarını gösteren boru hattı. İkinci çalıştırmada, bir SageMaker heterojen kümesi kullanarak tek bir örnek türünden iki örnek grubuna geçiyoruz. Bu çalıştırma, veri işlemenin bir kısmını ek CPU örneklerine boşaltır (kullanarak tf.data.service).

Daha sonra homojen ve heterojen konfigürasyonları karşılaştırır ve temel fiyat performans faydalarını buluruz. Aşağıdaki tabloda gösterildiği gibi, heterojen işin (86ms/adım) eğitilmesi homojen işten (2.2ms/adım) 192 kat daha hızlıdır, bu da bir modeli eğitmeyi %46 daha ucuz hale getirir.

Örnek 1 (TF)	ml.p4d.24xl	ml.c5.18xl	Saat Başına Fiyat*	Ortalama Adım Süresi	Adım Başına Maliyet	Fiyat Performans İyileştirme
Homojen	1	0	$37.688	192 ms	$0.201	.
Heterojen	1	2	$45.032	86 ms	$0.108	%46

* Saatlik fiyat us-doğu-1 bazındadır. SageMaker isteğe bağlı fiyatlandırma

Bu hızlanma, veri grubu tarafından sağlanan ekstra vCPU'nun kullanılması ve daha hızlı ön işleme ile mümkün olur. Bkz. defter Daha fazla detay ve grafikler için.

gRPC istemci-sunucu tabanlı dağıtılmış veri yükleyici (PyTorch) kullanan heterojen küme

Bu defter gRPC istemci-sunucu tabanlı dağıtılmış veri yükleyici kullanarak SageMaker eğitimi için heterojen bir küme kullanan örnek bir iş yükünü gösterir. Bu örnekte tek bir GPU kullanılmaktadır. PyTorch modelini aşağıdakilere dayanarak kullanıyoruz resmi MNIST örneği. Eğitim kodu, veri ön işleme konusunda ağır olacak şekilde değiştirildi. Bu modeli hem homojen hem de heterojen küme modlarında eğitiyoruz ve fiyat performansını karşılaştırıyoruz.

Bu örnekte, iş yükünün birden fazla GPU'dan yararlanamayacağını ve belirli bir GPU mimarisine (NVIDIA) bağımlı olduğunu varsaydık. V100). Hem homojen hem de heterojen eğitim işleri yürüttük ve aşağıdaki tabloda gösterildiği gibi temel fiyat performansı avantajları bulduk. Heterojen işi (1.19s/adım) eğitmek homojen işten (6.5s/adım) 0.18 kat daha hızlıdır, bu da bir modeli eğitmeyi %77 daha ucuz hale getirir.

Örnek 2 (PT)	ml.p3.2xl	ml.c5.9xl	Saat Başına Fiyat*	Ortalama Adım Süresi	Adım Başına Maliyet	Fiyat Performans İyileştirme
Homojen	1	0	$3.825	1193 ms	$0.127	.
Heterojen	1	1	$5.661	184 ms	$0.029	%77

* Saatlik fiyat us-doğu-1 bazındadır. SageMaker isteğe bağlı fiyatlandırma

Bu mümkündür, çünkü daha yüksek bir CPU sayısıyla, verileri önceden işlemek için 32 veri yükleyici çalışanı (ml.p8xlarge ile 3.2'e kıyasla) kullanabiliriz ve GPU'nun sık aralıklarla %100'e yakın kullanılmasını sağlarız. Bkz. defter Daha fazla detay ve grafikler için.

Mobileye'de heterojen kümeler

Bir Intel şirketi olan Mobileye, ulaşım endüstrisinde devrim yaratmak, yolları daha güvenli hale getirmek ve hayat kurtarmak amacıyla Gelişmiş Sürücü Destek Sistemleri (ADAS) ve otonom araç teknolojileri geliştiriyor. Bu teknolojiler, içinde depolanan büyük miktarda veri üzerinde SageMaker kullanılarak eğitilen karmaşık bilgisayarlı görü (CV) modelleri kullanılarak etkinleştirilir. Amazon Basit Depolama Hizmeti (Amazon S3). Bu modeller, son teknoloji derin öğrenme sinir ağı tekniklerini kullanır.

CV modellerimizden biri için CPU darboğazının temel olarak, yetersiz kullanılan GPU'lara yol açan yoğun veri ön işlemesinden kaynaklandığını fark ettik. Bu özel iş yükü için alternatif çözümler aramaya başladık, EC2 bulut sunucularına dayalı heterojen kümelerle dağıtılmış veri hattı teknolojilerini değerlendirdik ve her ikisi için de referans uygulamaları bulduk. TensorFlow ve PyTorch. SageMaker heterojen kümesinin piyasaya sürülmesi, iyileştirilmiş fiyat performansı avantajları elde etmek için bu ve benzeri iş yüklerini SageMaker üzerinde çalıştırmamıza olanak tanır.

Hususlar

Heterojen küme özelliğinin kullanıma sunulmasıyla SageMaker, eğitim işinizde örnek türlerini karıştırma ve eşleştirme konusunda çok daha fazla esneklik sunar. Ancak, bu özelliği kullanırken aşağıdakileri göz önünde bulundurun:

Heterojen küme özelliği, SageMaker aracılığıyla kullanılabilir PyTorch ve TensorFlow çerçeve tahmin edici sınıfları. Desteklenen çerçeveler PyTorch v1.10 veya üstü ve TensorFlow v2.6 veya üstüdür.
Tüm örnek grupları aynı Docker görüntüsünü paylaşır.
Tüm örnek grupları aynı eğitim komut dosyasını paylaşır. Bu nedenle, eğitim komut dosyanız, hangi örnek grubuna ait olduğunu tespit etmek için değiştirilmeli ve çatal buna göre çalıştırılmalıdır.
Eğitim örnekleri ana bilgisayar adları (örneğin, alog-1, algo-2 vb.) rastgele atanır ve hangi örnek grubuna ait olduklarını belirtmez. Örneğin rolünü almak için çalışma zamanı sırasında örnek grubu üyeliğini almanızı öneririz. Bu, girişleri incelerken de geçerlidir Bulut İzleme, çünkü günlük akışı adı [training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp] ana bilgisayar adına sahiptir.
Dağıtılmış bir eğitim stratejisi (genellikle bir MPI kümesi) yalnızca bir örnek grubuna uygulanabilir.
SageMaker Yönetilen Sıcak Havuzlar ve Adaçayı Yapıcı Yerel mod şu anda heterojen küme eğitimi ile kullanılamaz.

Sonuç

Bu yazıda SageMaker eğitiminin heterojen küme özelliğinin ne zaman ve nasıl kullanılacağını tartıştık. Gerçek dünyadaki bir kullanım senaryosunda %46 fiyat performansı artışı gösterdik ve dağıtılmış veri yükleyici ile hızlı bir şekilde başlamanıza yardımcı olduk (tf.data.service ve gRPC istemci-sunucu) uygulamaları. Bu uygulamaları, mevcut eğitim komut dosyalarınızda minimum kod değişikliği ile kullanabilirsiniz.

Başlamak için, bizim deneyin örnek defterler. Bu özellik hakkında daha fazla bilgi edinmek için bkz. Heterojen Bir Küme Kullanarak Tren.

yazarlar hakkında

gili nachum EMEA Amazon Machine Learning ekibinin bir parçası olarak çalışan kıdemli bir AI/ML Uzman Çözüm Mimarıdır. Gili, derin öğrenme modellerini eğitmenin zorlukları ve makine öğreniminin bildiğimiz dünyayı nasıl değiştirdiği konusunda tutkulu. Gili boş zamanlarında masa tenisi oynamayı sever.

Hruşikeş Gangur hem ML Eğitimi hem de AWS Networking konularında uzmanlığa sahip AI/ML startup'ları için temel bir çözüm mimarıdır. Otonom Araç, Robotik, CV, NLP, MLOps, ML Platformu ve Robotik Süreç Otomasyonu teknolojilerindeki startup'ların işlerini AWS'de verimli ve etkili bir şekilde yürütmelerine yardımcı olur. AWS'ye katılmadan önce Hrushikesh, öncelikle Bulut ve Veri platformlarında 20 yılı aşkın sektör deneyimi edindi.

Gal Oshri Amazon SageMaker ekibinde Kıdemli Ürün Yöneticisidir. Makine Öğrenimi araçları, çerçeveleri ve hizmetleri üzerinde 7 yıllık deneyime sahiptir.

Chaim Rand bir Intel Şirketi olan Mobileye'de Otonom Araç çözümleri için derin öğrenme ve bilgisayarla görü teknolojileri üzerinde çalışan bir makine öğrenimi algoritması geliştiricisidir. onun göz atın birisinde.

Zaman Damgası: 27 Ekim 202227 Ekim 2022

Zaman Damgası: Temmuz 31, 2023

Amazon SageMaker heterojen kümelerini kullanarak model eğitiminizin fiyat performansını iyileştirin

Plato tarafından yeniden yayınlandı

Heterojen kümeler veri işleme darboğazlarını nasıl ortadan kaldırır?

Heterojen kümeler ve diğer alternatifler ne zaman kullanılır?

SageMaker heterojen kümeleri nasıl kullanılır?

SageMaker heterojen kümeleri için örnek not defterleri

tf.data.service tabanlı dağıtılmış veri yükleyici (TensorFlow) kullanan heterojen küme

gRPC istemci-sunucu tabanlı dağıtılmış veri yükleyici (PyTorch) kullanan heterojen küme

Mobileye'de heterojen kümeler

Hususlar

Sonuç

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

Amazon Comprehend'i kullanarak incelemelerden daha iyi bilgi edinin

Amazon SageMaker ile ImmoScout24'te konut emlak fiyatlarını tahmin edin

Accenture, AWS üretken yapay zeka hizmetlerini kullanarak düzenleyici bir belge yazma çözümü oluşturuyor | Amazon Web Hizmetleri

Birden çok bölge kullanan Amazon Rekognition durum bilgisiz API'leri için ölçeklenebilirliği iyileştirin

Amazon SageMaker JumpStart temel modellerinin dağıtım maliyetini Amazon SageMaker eşzamansız uç noktalarıyla optimize edin | Amazon Web Hizmetleri

Amazon SageMaker'da ilaç keşfini hızlandırmak için protein katlama iş akışları oluşturun | Amazon Web Hizmetleri

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap