Amazon SageMaker Çoklu Model Uç Noktalarıyla GPU'da Birden Çok Derin Öğrenme Modelini Çalıştırın

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Yapay zekanın sektör genelinde benimsenmesi hızlandıkça müşteriler, derin öğrenmedeki yeni bilimsel gelişmelerden yararlanan gelişmiş modeller geliştiriyor. Bu yeni nesil modeller, doğal dil işleme (NLP), bilgisayarla görme, konuşma tanıma, tıbbi araştırma, siber güvenlik, protein yapısı tahmini ve daha birçok alanda en son teknolojiye sahip, insan benzeri performans elde etmenize olanak tanır . Örneğin, GPT-3, OPT ve BLOOM gibi büyük dil modelleri, insan benzeri nüanslara sahip metinleri çevirebilir, özetleyebilir ve yazabilir. Bilgisayarla görme alanında, DALL-E ve Imagen gibi metinden görüntüye yayılma modelleri, etrafımızdaki dünyadan daha yüksek düzeyde görsel ve dil anlayışıyla doğal dilden fotogerçekçi görüntüler oluşturabilir. Bu çok modlu modeller, çeşitli alt görevler için daha zengin özellikler ve bunları belirli alanlara göre hassas şekilde ayarlama yeteneği sağlar ve müşterilerimize güçlü iş fırsatları sunar.

Bu derin öğrenme modelleri boyut açısından büyümeye devam ediyor ve genellikle görüntü oluşturma, metin özetleme, dil çevirisi ve daha fazlası gibi çok çeşitli görevler için model performansını ölçeklendirmek üzere milyarlarca model parametresi içeriyor. Bireylere son derece kişiselleştirilmiş bir deneyim sunmak için bu modellerin özelleştirilmesine de ihtiyaç var. Sonuç olarak, bu modellerin çeşitli alt görevler için ince ayarları yapılarak daha fazla sayıda model geliştirilmektedir. Yapay zeka uygulamalarının gecikme ve aktarım hızı hedeflerini karşılamak için GPU bulut sunucuları, CPU bulut sunucularına tercih edilir (GPU'ların sunduğu hesaplama gücü göz önüne alındığında). Ancak GPU örnekleri pahalıdır ve 10'dan fazla model dağıtıyorsanız maliyetler artabilir. Bu modeller potansiyel olarak etkili yapay zeka uygulamaları getirse de boyutları ve model sayısı nedeniyle bu derin öğrenme modellerini uygun maliyetli yöntemlerle ölçeklendirmek zor olabilir.

Amazon Adaçayı Yapıcı çok modelli uç noktalar (MME'ler), çok sayıda derin öğrenme modelini dağıtmak için ölçeklenebilir ve uygun maliyetli bir yol sağlar. MME'ler Zendesk, Veeva ve AT&T gibi müşteriler arasında yüzlerce CPU tabanlı modeli barındırmak için popüler bir barındırma seçeneğidir. Daha önce, GPU'larla hızlandırılmış bilgi işlem gerektiren yüzlerce derin öğrenme modelini dağıtmak için sınırlı seçeneğiniz vardı. Bugün GPU için MME desteğini duyuruyoruz. Artık tek bir SageMaker uç noktasının arkasında binlerce derin öğrenme modelini devreye alabilirsiniz. MME'ler artık bir GPU çekirdeğinde birden çok modeli çalıştırabilir, GPU örneklerini bir uç noktanın arkasında birden çok model arasında paylaşabilir ve gelen trafiğe göre modelleri dinamik olarak yükleyip kaldırabilir. Bu sayede maliyetten önemli ölçüde tasarruf edebilir ve en iyi fiyat performansına ulaşabilirsiniz.

Bu yazıda, SageMaker MME'lerle GPU'da birden fazla derin öğrenme modelinin nasıl çalıştırılacağını gösteriyoruz.

SageMaker MME'leri

SageMaker MME'ler, bir veya daha fazla örnek içerebilen tek bir çıkarım uç noktasının arkasında birden fazla modeli dağıtmanıza olanak tanır. MME'ler ile her bir bulut sunucusu birden fazla modeli yükleyecek ve sunacak şekilde yönetilir. MME'ler, birden fazla modeli barındırmanın doğrusal olarak artan maliyetini aşmanıza ve tüm modellerde altyapıyı yeniden kullanmanıza olanak tanır.

Aşağıdaki diyagram bir SageMaker MME'nin mimarisini göstermektedir.

SageMaker MME, modelleri dinamik olarak indirir. Amazon Basit Depolama Hizmeti (Amazon S3) çağrıldığında, uç nokta ilk oluşturulduğunda tüm modelleri indirmek yerine. Sonuç olarak, bir modele yapılan ilk çağrı, düşük gecikmeyle tamamlanan sonraki çıkarımlara göre daha yüksek çıkarım gecikmesine neden olabilir. Model çağrıldığında konteynere zaten yüklenmişse indirme ve yükleme adımı atlanır ve model, çıkarımları düşük gecikmeyle döndürür. Örneğin, günde yalnızca birkaç kez kullanılan bir modeliniz olduğunu varsayalım. Talep üzerine otomatik olarak yüklenirken, sık erişilen modeller bellekte tutulur ve sürekli olarak düşük gecikmeyle çağrılır.

GPU destekli SageMaker MME'ler

GPU'lu SageMaker MME'leri şu şekilde çalışır: NVIDIA Triton Çıkarım Sunucusu. NVIDIA Triton Çıkarım Sunucusu, çıkarım sunma sürecini basitleştiren ve yüksek çıkarım performansı sağlayan açık kaynaklı bir çıkarım hizmeti yazılımıdır. Triton, TensorFlow, NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, Scikit-learn, RandomForest, OpenVINO, özel C++ ve daha fazlası gibi tüm önemli eğitim ve çıkarım çerçevelerini destekler. Yüksek performanslı çıkarım elde etmek için dinamik gruplama, eşzamanlı çalıştırmalar, eğitim sonrası niceleme ve optimum model yapılandırması sunar. Ek olarak, NVIDIA Triton Inference Server, uygulama için genişletildi MME API sözleşmesiMME ile entegre olmak.

Aşağıdaki şemada bir MME iş akışı gösterilmektedir.

İş akışı adımları aşağıdaki gibidir:

SageMaker MME, aşağıdakileri kullanarak belirli bir model için bir HTTP çağırma isteği alır: TargetModel yük ile birlikte istekte.
SageMaker, trafiği hedef modelin yüklendiği uç noktanın arkasındaki doğru örneğe yönlendirir. SageMaker, MME'nin arkasındaki tüm modellerdeki trafik modelini anlar ve istekleri akıllıca yönlendirir.
SageMaker, uç noktanın arkasındaki model yönetimiyle ilgilenir, modeli dinamik olarak konteynerin belleğine yükler ve en iyi fiyat performansını sağlamak için modeli paylaşılan GPU bulut sunucuları filosundan kaldırır.
SageMaker, modelleri Amazon S3'ten örneğin depolama birimine dinamik olarak indirir. Çağrılan model, örnek depolama biriminde mevcut değilse model, örnek depolama birimine indirilir. Bulut sunucusu depolama birimi kapasiteye ulaşırsa SageMaker kullanılmayan tüm modelleri depolama biriminden siler.
SageMaker, modeli GPU hızlandırmalı bir örnekteki NVIDIA Triton konteynerinin belleğine yükler ve çıkarım isteğini yerine getirir. GPU çekirdeği bir örnekteki tüm modeller tarafından paylaşılır. Model konteyner belleğine zaten yüklenmişse sonraki istekler daha hızlı sunulur çünkü SageMaker'ın modeli tekrar indirip yüklemesine gerek yoktur.
SageMaker, MME uç noktasına giden trafiği şekillendirmekle ilgilenir ve en iyi fiyat performansı için GPU örneklerinde en uygun model kopyalarını tutar. Modelin yüklendiği örneğe trafiği yönlendirmeye devam eder. Bulut sunucusu kaynakları yüksek kullanım nedeniyle kapasiteye ulaşırsa, SageMaker daha sık kullanılan modelleri yüklemek için kaynakları boşaltmak için kapsayıcıdan en az kullanılan modelleri kaldırır.

SageMaker MME'ler, bir otomatik ölçeklendirme politikası kullanarak yatay olarak ölçeklenebilir ve MME uç noktalarına yönelik herhangi bir trafik artışına hizmet etmek için örnek başına çağrı sayısı ve GPU kullanımı gibi ölçümlere dayalı olarak ek GPU hesaplama örnekleri sağlayabilir.

Çözüme genel bakış

Bu yazıda, GPU'lu SageMaker MME'lerin yeni özelliklerini bilgisayar görüşü kullanım senaryosuyla nasıl kullanacağınızı gösteriyoruz. Gösterim amacıyla, görüntüleri 50 kategoride sınıflandırabilen, önceden eğitilmiş bir ResNet-1,000 evrişimli sinir ağı modelini kullanıyoruz. Aşağıdakilerin nasıl yapılacağını tartışıyoruz:

PyTorch ve TensorRT gibi farklı Triton modeli çerçeve arka uçlarını kullanarak SageMaker MME'lerde bir NVIDIA Triton çıkarım kapsayıcısı kullanın
ResNet-50 modellerini optimize edilmiş TensorRT motor formatına dönüştürün ve SageMaker MME ile dağıtın
MME için otomatik ölçeklendirme ilkelerini ayarlama
Aşağıdakileri kullanarak örnek ve çağrı metriklerine ilişkin öngörüler elde edin: Amazon Bulut İzleme

Model yapıtları oluşturma

Bu bölümde, Triton Inference Server modeli yapılandırmalarını kullanarak bir SageMaker MME'ye dağıtılacak bir ResNet-50 önceden eğitilmiş modelinin hazırlanmasına yönelik adımlar açıklanmaktadır. Adım adım not defterini kullanarak tüm adımları yeniden oluşturabilirsiniz. GitHub.

Bu yazı için iki modelle dağıtımı gösteriyoruz. Ancak yüzlerce model hazırlayıp dağıtabilirsiniz. Modeller aynı çerçeveyi paylaşabilir veya paylaşmayabilir.

PyTorch modeli hazırlama

Öncelikle torchvision model paketini kullanarak önceden eğitilmiş bir ResNet50 modelini yüklüyoruz. Modeli TorchScript ile optimize edilmiş ve serileştirilmiş formatta model.pt dosyası olarak kaydediyoruz. TorchScript, ResNet50 modelinin ileri geçişini örnek girişlerle istekli modda derler, böylece 224 x 224 boyutunda üç renk kanalına sahip bir RGB görüntüsünün bir örneğini aktarırız.

Daha sonra Triton Inference Server için modelleri hazırlamamız gerekiyor. Aşağıdaki kod PyTorch çerçevesi arka ucu için model deposunu gösterir. Triton, tahminleri sunmak için model deposuna yerleştirilen model.pt dosyasını kullanır.

resnet
├── 1
│   └── model.pt
└── config.pbtxt

Model yapılandırma dosyası config.pbtxt modelin adını belirtmelisiniz (resnet), platform ve arka uç özellikleri (pytorch_libtorch), max_batch_size (128) ve giriş ve çıkış tensörleri ile veri türü (TYPE_FP32) bilgi. Ek olarak belirtebilirsiniz instance_group ve dynamic_batching Yüksek performanslı çıkarım elde etmek için özellikler. Aşağıdaki koda bakın:

name: "resnet"
platform: "pytorch_libtorch"
max_batch_size: 128
input {
  name: "INPUT__0"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "OUTPUT__0"
  data_type: TYPE_FP32
  dims: 1000
}

TensorRT modelini hazırlayın

NVIDIA TensorRT Yüksek performanslı derin öğrenme çıkarımına yönelik bir SDK'dır ve çıkarım uygulamaları için düşük gecikme ve yüksek verim sağlayan bir derin öğrenme çıkarım iyileştiricisi ve çalışma zamanı içerir. Komut satırı aracını kullanıyoruz trtexec bir TensorRT serileştirilmiş motoru oluşturmak için Onnx modeli biçimi. ResNet-50 önceden eğitilmiş bir modeli NVIDIA TensorRT'ye dönüştürmek için aşağıdaki adımları tamamlayın:

Önceden eğitilmiş ResNet-50 modelini kullanarak ONNX formatına aktarın meşale.onnx.Bu adım, örnek bir girişle çalışmasını izlemek için modeli bir kez çalıştırır ve ardından izlenen modeli belirtilen dosyaya aktarır. model.onnx.
TensorRT motor planı oluşturmak için trtexec'i kullanın. model.onnx dosya. İsteğe bağlı olarak, kayan nokta hesaplamalarının kesinliğini, bunları yalnızca 16 bitlik kayan noktada çalıştırarak veya hesaplamaların 8 bitlik tamsayılar kullanılarak gerçekleştirilebilmesi için kayan nokta değerlerini niceleyerek azaltabilirsiniz.

Aşağıdaki kod TensorRT modeli için model deposu yapısını gösterir:

resnet
├── 1
│   └── model.plan
└── config.pbtxt

TensorRT modeli için şunu belirtiyoruz: tensorrt_plan Platform olarak renk kanallarına sahip 224 x 224 boyutundaki görüntünün Tensor özelliklerini girin. 1,000 boyutlu çıkış Tensörü tipindedir TYPE_FP32, farklı nesne kategorilerine karşılık gelir. Aşağıdaki koda bakın:

name: "resnet"
platform: "tensorrt_plan"
max_batch_size: 128
input {
  name: "input"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "output"
  data_type: TYPE_FP32
  dims: 1000
}
model_warmup {
    name: "bs128 Warmup"
    batch_size: 128
    inputs: {
        key: "input"
        value: {
            data_type: TYPE_FP32
            dims: 3
            dims: 224
            dims: 224
            zero_data: false
        }
    }
}

Model yapıtlarını Amazon S3'te depolayın

SageMaker model eserlerini bekliyor .tar.gz biçim. Ayrıca model adı, versiyon gibi Triton konteyner gereksinimlerini de karşılamalıdırlar. config.pbtxt dosyalar ve daha fazlası. tar model dosyasını içeren klasör .tar.gz ve bunu Amazon S3'e yükleyin:

!mkdir -p triton-serve-pt/resnet/1/
!mv -f workspace/model.pt triton-serve-pt/resnet/1/
!tar -C triton-serve-pt/ -czf resnet_pt_v0.tar.gz resnet
model_uri_pt = sagemaker_session.upload_data(path="resnet_pt_v0.tar.gz", key_prefix="resnet-mme-gpu")
!mkdir -p triton-serve-trt/resnet/1/
!mv -f workspace/model.plan triton-serve-trt/resnet/1/
!tar -C triton-serve-trt/ -czf resnet_trt_v0.tar.gz resnet
model_uri_trt = sagemaker_session.upload_data(path="resnet_trt_v0.tar.gz", key_prefix="resnet-mme-gpu")

Artık model yapıtlarını Amazon S3'e yüklediğimize göre bir SageMaker MME oluşturabiliriz.

Modelleri bir MME ile dağıtma

Artık bir SageMaker MME'ye iki farklı çerçeve arka ucuna (PyTorch ve TensorRT) sahip bir ResNet-50 modelini dağıtıyoruz.

Yüzlerce modeli dağıtabileceğinizi ve modellerin aynı çerçeveyi kullanabileceğini unutmayın. Bu yazıda gösterildiği gibi farklı çerçeveler de kullanabilirler.

Biz kullanın Python için AWS SDK (Boto3) API'ler model_oluştur, create_endpoint_config, ve create_endpoint bir MME oluşturmak için.

Servis kapsayıcısını tanımlayın

Kapsayıcı tanımında şunları tanımlayın: model_data_url SageMaker MME'nin tahminleri yüklemek ve sunmak için kullandığı tüm modelleri içeren S3 dizinini belirtmek için. Ayarlamak Mode için MultiModel SageMaker'ın MME kapsayıcı spesifikasyonlarıyla uç noktayı oluşturduğunu belirtmek için. Kapsayıcıyı, MME'lerin GPU ile dağıtılmasını destekleyen bir görüntüyle ayarladık. Aşağıdaki koda bakın:

container = {
"Image": ,
"ModelDataUrl": ,
"Mode": "MultiModel"
}

Çok modelli bir nesne oluşturma

kullanarak modeli oluşturmak için SageMaker Boto3 istemcisini kullanın. create_model API. Container tanımını, create model API'sine ile birlikte iletiyoruz. ModelName ve ExecutionRoleArn:

create_model_response = sm_client.create_model(
    ModelName=, ExecutionRoleArn=role, PrimaryContainer=container
)

MME yapılandırmalarını tanımlayın

kullanarak MME konfigürasyonları oluşturun. create_endpoint_config Boto3 API'si. Şurada hızlandırılmış bir GPU bilgi işlem örneği belirtin: InstanceType (g4dn.4xlarge bulut sunucusu tipini kullanıyoruz). Uç noktalarınızı en az iki örnekle yapılandırmanızı öneririz. Bu, SageMaker'ın modeller için birden fazla Erişilebilirlik Alanında yüksek düzeyde kullanılabilir tahminler sunmasına olanak tanır.

Bulgularımıza göre, tek GPU çekirdeğine sahip, makine öğrenimi için optimize edilmiş bulut sunucularında daha iyi fiyat performansı elde edebilirsiniz. Bu nedenle, GPU özelliği için MME desteği yalnızca tek GPU çekirdek örnekleri için etkinleştirilir. Desteklenen örneklerin tam listesi için bkz. Desteklenen GPU Örneği türleri.

create_endpoint_config_response = sm_client.create_endpoint_config(
    EndpointConfigName=,
    ProductionVariants=[
        {
            "InstanceType": "ml.g4dn.4xlarge",
            "InitialVariantWeight": 1,
            "InitialInstanceCount": 2,
            "ModelName": ,
            "VariantName": "AllTraffic",
        }
    ],
)

Bir MME oluşturun

Önceki uç nokta yapılandırmasıyla, şunu kullanarak bir SageMaker MME oluşturuyoruz: create_endpoint API'dir. SageMaker MME'yi oluşturur, g4dn.4xlarge ML hesaplama örneğini başlatır ve PyTorch ile TensorRT ResNet-50 modellerini bunların üzerine dağıtır. Aşağıdaki koda bakın:

create_endpoint_response = sm_client.create_endpoint(
    EndpointName=, EndpointConfigName=
)

MME'de hedef modeli çağırın

Uç noktayı oluşturduktan sonra MME'ye bir çıkarım isteği gönderebiliriz. invoke_enpoint API. belirtiyoruz TargetModel çağrıda her model türü için yükü çağırın ve iletin. Aşağıdaki kod, PyTorch modeli ve TensorRT modeli için örnek bir çağrıdır:

runtime_sm_client.invoke_endpoint(
    EndpointName=,
    ContentType="application/octet-stream",
    Body=json.dumps(pt_payload),
    TargetModel='resnet_pt_v0.tar.gz', #PyTorch Model
)
runtime_sm_client.invoke_endpoint(
    EndpointName=, 
    ContentType="application/octet-stream", 
    Body=json.dumps(trt_payload),
    TargetModel='resnet_trt_v0.tar.gz' #TensorRT Model
)

GPU MME için otomatik ölçeklendirme ilkelerini ayarlama

SageMaker MME'ler, barındırılan modelleriniz için otomatik ölçeklendirmeyi destekler. Otomatik ölçeklendirme, iş yükünüzdeki değişikliklere yanıt olarak bir model için sağlanan bulut sunucusu sayısını dinamik olarak ayarlar. İş yükü arttığında, otomatik ölçeklendirme daha fazla örneği çevrimiçi hale getirir. İş yükü azaldığında, otomatik ölçeklendirme gereksiz örnekleri kaldırır, böylece kullanmadığınız, sağlanan örnekler için ödeme yapmazsınız.

Aşağıdaki ölçeklendirme politikasında özel metriği kullanıyoruz GPUUtilization içinde TargetTrackingScalingPolicyConfiguration yapılandırma ve ayarlama TargetValue of 60.0 bu metriğin hedef değeri için. Bu otomatik ölçeklendirme politikası, şu ana kadar ek örnekler sağlar: MaxCapacity GPU kullanımı %60'ın üzerinde olduğunda.

auto_scaling_client = boto3.client('application-autoscaling')

resource_id='endpoint/' +  + '/variant/' + 'AllTraffic' 
response = auto_scaling_client.register_scalable_target(
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    MinCapacity=1,
    MaxCapacity=5
)

response = auto_scaling_client.put_scaling_policy(
    PolicyName='GPUUtil-ScalingPolicy',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 60.0, 
        'CustomizedMetricSpecification':
        {
            'MetricName': 'GPUUtilization',
            'Namespace': '/aws/sagemaker/Endpoints',
            'Dimensions': [
                {'Name': 'EndpointName', 'Value':  },
                {'Name': 'VariantName','Value': 'AllTraffic'}
            ],
            'Statistic': 'Average',
            'Unit': 'Percent'
        },
        'ScaleInCooldown': 600,
        'ScaleOutCooldown': 200 
    }
)

Kullanmanızı öneririz GPUUtilization or InvocationsPerInstance MME'niz için otomatik ölçeklendirme politikalarını yapılandırmak için. Daha fazla ayrıntı için bkz. Çok Modelli Uç Nokta Dağıtımları için Otomatik Ölçeklendirme Politikalarını Ayarlama

GPU MME'ler için CloudWatch ölçümleri

SageMaker MME'ler izlenecek aşağıdaki örnek düzeyinde ölçümleri sağlar:

YüklenenModelSayısı – Konteynerlere yüklenen model sayısı
GPU Kullanımı – Konteynerler tarafından kullanılan GPU birimlerinin yüzdesi
GPUBellek Kullanımı – Kapsayıcılar tarafından kullanılan GPU belleği yüzdesi
Disk Kullanımı – Konteynerler tarafından kullanılan disk alanı yüzdesi

Bu ölçümler GPU bulut sunucusu kaynaklarının etkili kullanımını planlamanıza olanak tanır. Aşağıdaki grafikte görüyoruz GPUMemoryUtilization Konteynere 38.3'dan fazla ResNet-16 modeli yüklendiğinde bu oran %50'tü. Her bir CPU çekirdeğinin kullanımının toplamı (CPUUtilization) %60.9'du ve kaplar tarafından kullanılan bellek yüzdesi (MemoryUtilization) %9.36 idi.

SageMaker MME'ler ayrıca model çağırma düzeyinde içgörüler elde etmek için model yükleme ölçümleri de sağlar:

ModelYükleniyorBeklemeZamanı – Modelin indirilmesi veya yüklenmesi için zaman aralığı
ModelBoşaltmaZamanı – Modeli konteynerden boşaltmak için zaman aralığı
ModelİndirmeZamanı – Modeli Amazon S3'ten indirme zamanı
ModelÖnbellekHit – Zaten konteynere yüklenmiş olan modele yapılan çağrıların sayısı

Aşağıdaki grafikte bir modelin çıkarım isteğine yanıt vermesinin 8.22 saniye sürdüğünü görebiliriz (ModelLatency) ve SageMaker ek yükleri nedeniyle uçtan uca gecikmeye 24.1 milisaniye eklendi (OverheadLatency). Ayrıca bir uç nokta API çağrısını çağırmak için yapılan çağrılardan kaynaklanan hata ölçümlerini de görebiliriz; örneğin: Invocation4XXErrors ve Invocation5XXErrors.

MME CloudWatch ölçümleri hakkında daha fazla bilgi için bkz. Çok Modelli Uç Nokta Dağıtımları için CloudWatch Metrikleri.

Özet

Bu yazıda, hızlandırılmış bilgi işlem donanımında yüzlerce derin öğrenme modelini uygun maliyetle barındırmanıza olanak tanıyan yeni SageMaker çoklu model GPU desteğini öğrendiniz. Farklı çerçeve arka uçları için model veri havuzu yapılandırması oluşturan NVIDIA Triton Inference Server'ın nasıl kullanılacağını ve otomatik ölçeklendirme ile bir MME'nin nasıl dağıtılacağını öğrendiniz. Bu özellik, yapay zeka uygulamalarındaki benzersiz son kullanıcı deneyimlerine hitap edecek şekilde hassas şekilde ayarlanmış yüzlerce hiper kişiselleştirilmiş modeli ölçeklendirmenize olanak tanır. Kesirli GPU'lar kullanarak çıkarım uygulamanız için gerekli fiyat performansını elde etmek amacıyla da bu özellikten yararlanabilirsiniz.

GPU için MME desteğini kullanmaya başlamak için bkz. GPU için çok modelli uç nokta desteği.

yazarlar hakkında

Dhaval Patel AWS'de Baş Makine Öğrenimi Mimarıdır. Dağıtılmış bilgi işlem ve yapay zeka ile ilgili sorunlar üzerinde büyük işletmelerden orta ölçekli girişimlere kadar çeşitli kuruluşlarla çalıştı. NLP ve bilgisayarla görme alanları dahil olmak üzere derin öğrenmeye odaklanmaktadır. Müşterilerin Amazon SageMaker'da yüksek performanslı model çıkarımı yapmasına yardımcı olur.

vikram elango Virginia, ABD merkezli Amazon Web Services'te Kıdemli Yapay Zeka/Makine Öğrenimi Uzmanı Çözüm Mimarıdır. Vikram, küresel finans ve sigorta sektörü müşterilerine, makine öğrenimi uygulamalarını geniş ölçekte oluşturmak ve dağıtmak için tasarım, uygulama ve düşünce liderliği konusunda yardımcı olur. Şu anda doğal dil işleme, sorumlu yapay zeka, çıkarım optimizasyonu ve makine öğrenimini kuruluş genelinde ölçeklendirme konularına odaklanıyor. Boş zamanlarında ailesiyle birlikte seyahat etmekten, yürüyüş yapmaktan, yemek pişirmekten ve kamp yapmaktan hoşlanıyor.

Saurabh Trikande Amazon SageMaker Inference için Kıdemli Ürün Yöneticisidir. Müşterilerle çalışma konusunda tutkulu ve makine öğrenimini demokratikleştirme hedefiyle motive oluyor. Karmaşık makine öğrenimi uygulamaları, çok kiracılı makine öğrenimi modelleri, maliyet optimizasyonları ve derin öğrenme modellerinin dağıtımını daha erişilebilir hale getirmeyle ilgili temel zorluklara odaklanıyor. Saurabh boş zamanlarında yürüyüş yapmaktan, yenilikçi teknolojiler hakkında bilgi edinmekten, TechCrunch'ı takip etmekten ve ailesiyle vakit geçirmekten hoşlanıyor.

Derin Ragha Amazon SageMaker ekibinde bir Yazılım Geliştirme Mühendisidir. Şu anki çalışması, makine öğrenimi modellerini verimli bir şekilde barındırmak için özellikler oluşturmaya odaklanıyor. Boş zamanlarında seyahat etmeyi, yürüyüş yapmayı ve bitki yetiştirmeyi sever.

Nikhil Kulkarni AWS Machine Learning'de çalışan bir yazılım geliştiricisidir ve makine öğrenimi iş yüklerini bulutta daha performanslı hale getirmeye odaklanır ve eğitim ve çıkarımlara yönelik AWS Deep Learning Containers'ın ortak yaratıcısıdır. Dağıtılmış Derin Öğrenme Sistemleri konusunda tutkulu. İş dışında kitap okumaktan, gitarla oynamaktan ve pizza yapmaktan hoşlanıyor.

Jiahong Liu NVIDIA'da Bulut Hizmeti Sağlayıcı ekibinde bir Çözüm Mimarıdır. Müşterilere, eğitim ve çıkarım zorluklarını ele almak için NVIDIA hızlandırılmış bilgi işlemden yararlanan makine öğrenimi ve yapay zeka çözümlerini benimsemelerinde yardımcı olur. Boş zamanlarında origami yapmaktan, kendin yap projelerinden ve basketbol oynamaktan hoşlanıyor.

Eliuth Triana NVIDIA-AWS ekibinde Geliştirici İlişkileri Yöneticisidir. Amazon ML/DL iş yüklerini, EC2 ürünlerini ve AWS AI hizmetlerini hızlandırmak için Amazon ve AWS ürün liderlerini, geliştiricilerini ve bilim insanlarını NVIDIA teknoloji uzmanları ve ürün liderleriyle birleştirir. Ayrıca Eliuth tutkulu bir dağ bisikletçisi, kayakçı ve poker oyuncusudur.

Maximiliano Maccanti Şu anda AWS'de DynamoDB'de Baş Mühendis olarak görev yapıyorum, re:Invent 2017'de SageMaker'ın lansman ekibindeydim ve sonraki 5 yılımı barındırma platformunda müşterilerin karşılaştığı her türlü özelliği ekleyerek geçirdim. Boş zamanlarımda vintage video oyun konsollarını topluyor, onarıyor ve onlarla oynuyorum.

Zaman Damgası: 25 Ekim 202228 Ekim 2022

Zaman Damgası: Temmuz 14, 2022

Amazon SageMaker çok modelli uç noktalarıyla GPU'da birden çok derin öğrenme modeli çalıştırın

Plato tarafından yeniden yayınlandı

SageMaker MME'leri

GPU destekli SageMaker MME'ler

Çözüme genel bakış

Model yapıtları oluşturma

PyTorch modeli hazırlama

TensorRT modelini hazırlayın

Model yapıtlarını Amazon S3'te depolayın

Modelleri bir MME ile dağıtma

Servis kapsayıcısını tanımlayın

Çok modelli bir nesne oluşturma

MME yapılandırmalarını tanımlayın

Bir MME oluşturun

MME'de hedef modeli çağırın

GPU MME için otomatik ölçeklendirme ilkelerini ayarlama

GPU MME'ler için CloudWatch ölçümleri

Özet

yazarlar hakkında

Den fazla AWS Makine Öğrenimi

Sorumlu yapay zeka inovasyonunu mümkün kılacak yeni araç ve yeteneklerin duyurulması | Amazon Web Hizmetleri

Amazon Comprehend özel sınıflandırıcı ile BT hizmeti isteklerinin sınıflandırılmasını otomatikleştirin

C6i Intel tabanlı Amazon EC2 bulut sunucuları ile Amazon SageMaker çıkarımını hızlandırın

Güç önerileri ve IMDb bilgi grafiği kullanarak arama – Bölüm 3

PyTorch Model Zoo kullanarak Amazon SageMaker modelleri oluşturun

Amazon Fraud Detector ile makine öğrenimi modeli ve iş tanımlı kurallar kullanarak ipotek belgesi sahtekarlığı tespitini otomatikleştirin: Bölüm 3 | Amazon Web Hizmetleri

Amazon Textract IDP CDK Yapıları ile uçtan uca belge işleme ardışık düzenleri oluşturun

Amazon Timestream ve Amazon Lookout for Equipment ile anormallikleri tespit etmek ve kesinti süresini tahmin etmek için makine öğrenimini kullanın

Refinitiv Veri Kitaplığı, AWS hizmetleri ve Amazon SageMaker ile gerçek zamanlı haber akışlarını zenginleştirme

Veri Sürümü Kontrolü ve Amazon SageMaker Experiments ile makine öğrenimi deneylerinizi uçtan uca takip edin

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap