Amazon SageMaker Sunucusuz Çıkarım Karşılaştırma Araç Takımıyla Tanışın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Amazon SageMaker Sunucusuz Çıkarım makine öğrenimi (ML) modellerini dağıtmanızı ve ölçeklendirmenizi kolaylaştıran, amaca yönelik oluşturulmuş bir çıkarım seçeneğidir. Uç nokta çağrılarının seyrek ve öngörülemez olduğu hizmetler için ideal olan, kullanım başına ödeme modeli sağlar. Uzun süre çalışan bir bulut sunucusu tarafından desteklenen gerçek zamanlı barındırma uç noktasının aksine, sunucusuz uç noktalara yönelik bilgi işlem kaynakları talep üzerine sağlanır, böylece bulut sunucusu türlerini seçme veya ölçeklendirme politikalarını yönetme ihtiyacını ortadan kaldırır.

Aşağıdaki üst düzey mimari, sunucusuz bir uç noktanın nasıl çalıştığını göstermektedir. Bir istemci, AWS tarafından yönetilen altyapı tarafından desteklenen bir uç noktayı çağırır.

Ancak sunucusuz uç noktalar, saniyeler içinde gerçekleşen soğuk başlatmalara yatkındır ve bu nedenle aralıklı veya öngörülemeyen iş yükleri için daha uygundur.

Maliyet ve performans açısından sunucusuz bir uç noktanın doğru dağıtım seçeneği olup olmadığının belirlenmesine yardımcı olmak için şunları geliştirdik: SageMaker Sunucusuz Çıkarım Kıyaslama Araç Seti, farklı uç nokta yapılandırmalarını test eder ve en uygun olanı karşılaştırılabilir bir gerçek zamanlı barındırma örneğiyle karşılaştırır.

Bu yazıda araç setini tanıtacağız ve konfigürasyonu ve çıktıları hakkında genel bir bakış sunacağız.

Çözüme genel bakış

Araç kitini şuradan indirebilir ve yükleyebilirsiniz: GitHub repo. Başlamak çok kolay: sadece kütüphaneyi kurun, bir Adaçayı Yapıcı modelive modelinizin adını, yük gövdesi ve içerik türü de dahil olmak üzere örnek çağırma parametreleri kümesini içeren JSON satırları biçimli bir dosyayla birlikte sağlayın. Örnek çağırma bağımsız değişkenlerinin bir listesini bir JSON satır dosyasına veya görüntüler, video veya ses gibi ikili veriler için bir seçme dosyasına dönüştürmek için bir kolaylık işlevi sağlanır.

Araç kitini yükleyin

Öncelikle kıyaslama kitaplığını pip kullanarak Python ortamınıza yükleyin:

pip install sm-serverless-benchmarking

Aşağıdaki kodu bir programdan çalıştırabilirsiniz. Amazon SageMaker Stüdyosu örnek SageMaker dizüstü bilgisayar örneği, veya herhangi bir örnek programlı erişim AWS'ye ve uygun AWS Kimlik ve Erişim Yönetimi (IAM) izinleri. Gerekli IAM izinleri şu belgede belgelenmiştir: GitHub repo. IAM'ye yönelik ek rehberlik ve örnek politikalar için bkz. Amazon SageMaker, IAM ile Nasıl Çalışır?. Bu kod, iki örnek kayıt içeren bir CSV girişi bekleyen bir model üzerinde varsayılan parametre kümesiyle bir kıyaslama çalıştırır. Uç noktanın farklı giriş yükleriyle nasıl performans gösterdiğini analiz etmek için temsili bir örnek kümesi sağlamak iyi bir uygulamadır.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

Ek olarak, karşılaştırmayı bir SageMaker İşleme işi olarak çalıştırabilirsiniz; bu, çok sayıda çağrıya sahip, daha uzun süre çalışan karşılaştırmalar için daha güvenilir bir seçenek olabilir. Aşağıdaki koda bakın:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

Bunun, karşılaştırma süresi boyunca ml.m5.large SageMaker Processing örneğini çalıştırmanın ek maliyetine yol açacağını unutmayın.

Her iki yöntem de, karşılaştırılacak bellek yapılandırmalarının listesi ve her yapılandırmanın kaç kez çağrılacağı gibi yapılandırılacak bir dizi parametreyi kabul eder. Çoğu durumda, varsayılan seçenekler bir başlangıç noktası olarak yeterli olacaktır, ancak bkz. GitHub repo Her parametrenin tam listesi ve açıklamaları için.

Karşılaştırma yapılandırması

Karşılaştırmanın ne yaptığını ve hangi çıktıları ürettiğini derinlemesine incelemeden önce, sunucusuz uç noktaların yapılandırılmasına ilişkin birkaç temel kavramı anlamak önemlidir.

Var iki temel yapılandırma seçeneği: MemorySizeInMB ve MaxConcurrency. MemorySizeInMB örneğe ayrılan bellek miktarını yapılandırır ve 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB veya 6144 MB olabilir. vCPU'ların sayısı da ayrılan bellek miktarıyla orantılı olarak ölçeklenir. MaxConcurrency parametresi, bir uç noktanın kaç eşzamanlı isteğe hizmet verebileceğini ayarlar. Birlikte MaxConcurrency 1'den, sunucusuz bir uç nokta aynı anda yalnızca tek bir isteği işleyebilir.

Özetlemek gerekirse, MemorySizeInMB parametresi, dikey ölçeklenebilirlik için bir mekanizma sağlayarak belleği ve bilgi işlem kaynaklarını daha büyük modellere hizmet verecek şekilde ayarlamanıza olanak tanır. MaxConcurrency yatay ölçeklenebilirlik için bir mekanizma sağlayarak uç noktanızın daha fazla eşzamanlı isteği işlemesine olanak tanır.

Bir uç noktayı çalıştırmanın maliyeti büyük ölçüde bellek boyutuna göre belirlenir ve maksimum eşzamanlılığın arttırılmasıyla ilişkili herhangi bir maliyet yoktur. Ancak, tüm uç noktalarda maksimum eşzamanlılık için Bölge başına bir hesap sınırı vardır. Bakınız SageMaker uç noktaları ve kotaları En son sınırlar için.

Karşılaştırma çıktıları

Bu göz önüne alındığında, sunucusuz bir uç noktayı kıyaslamanın amacı, en uygun maliyetli ve güvenilir bellek boyutu ayarını ve beklenen trafik modellerinizi işleyebilecek minimum maksimum eşzamanlılığı belirlemektir.

Araç varsayılan olarak iki kıyaslama çalıştırır. Bunlardan ilki, belirtilen bellek yapılandırmalarının her biri için bir uç nokta dağıtan ve sağlanan örnek yüklerle her uç noktayı çağıran bir kararlılık kıyaslamasıdır. Bu kıyaslamanın amacı en etkili ve kararlı MemorySizeInMB ayarını belirlemektir. Karşılaştırma, çağrı gecikmelerini yakalar ve her uç nokta için çağrı başına beklenen maliyeti hesaplar. Daha sonra maliyeti benzer bir gerçek zamanlı barındırma örneğiyle karşılaştırır.

Kıyaslama tamamlandığında, araç belirtilen aralıkta birkaç çıktı üretir. result_save_path aşağıdaki dizin yapısına sahip dizin:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

The benchmarking_report dizini, bu yazıda özetlediğimiz tüm özet çıktıları içeren birleştirilmiş bir rapor içerir. Ek dizinler, ek analizler için kullanabileceğiniz ham ve ara çıktıları içerir. Bakın GitHub repo Her çıktı yapısının daha ayrıntılı bir açıklaması için.

Bilgisayar görüşü MobileNetV2 TensorFlow modeline hizmet eden bir uç nokta için birkaç gerçek kıyaslama çıktısını inceleyelim. Bu örneği yeniden oluşturmak isterseniz, bkz. örnek defterler GitHub deposundaki dizin.

Birleştirilmiş raporun ilk çıktısı, her biri için minimum, ortalama, orta ve maksimum gecikme ölçümlerini sağlayan bir özet tablosudur. MemorySizeInMB Başarılı bellek boyutu yapılandırması. Aşağıdaki tabloda gösterildiği gibi, ortalama çağrı gecikmesi (invocation_latency_mean) bellek yapılandırması 3072 MB'a çıkarıldıkça gelişmeye devam etti, ancak daha sonra gelişme durdu.