Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri

Amazon Adaçayı Yapıcı Gerçek zamanlı çıkarım için makine öğrenimi (ML) modellerinin dağıtılmasını kolaylaştırır ve CPU'ları ve hızlandırıcıları kapsayan geniş bir makine öğrenimi örnekleri yelpazesi sunar. AWS Çıkarımları. Tam olarak yönetilen bir hizmet olarak, model dağıtımlarınızı ölçeklendirebilir, çıkarım maliyetlerini en aza indirebilir ve modellerinizi üretimde daha az operasyonel yük ile daha etkili bir şekilde yönetebilirsiniz. SageMaker gerçek zamanlı çıkarım uç noktası, yüksek kullanılabilirlik için birden fazla Erişilebilirlik Alanına dağıtılan bir HTTP uç noktasından ve makine öğrenimi örneklerinden oluşur. Adaçayı Yapıcı uygulama otomatik ölçeklendirme iş yükündeki değişikliklere yanıt olarak bir model için sağlanan makine öğrenimi örneklerinin sayısını dinamik olarak ayarlayabilir. Uç nokta, gelen istekleri bir hepsini bir kez deneme algoritması kullanarak makine öğrenimi örneklerine eşit şekilde dağıtır.

Örneklere dağıtılan makine öğrenimi modelleri çok sayıda istemciden API çağrıları aldığında, isteklerinizde ve yanıtlarınızda çok fazla değişkenlik olmadığında isteklerin rastgele dağıtımı çok iyi çalışabilir. Ancak üretken yapay zeka iş yüklerine sahip sistemlerde istekler ve yanıtlar son derece değişken olabilir. Bu durumlarda, rastgele yük dengeleme yerine örneğin kapasitesi ve kullanımı dikkate alınarak yük dengeleme yapılması sıklıkla tercih edilir.

Bu yazıda, SageMaker'ın en az bekleyen istekler (LOR) yönlendirme stratejisini ve ML örneklerinin kapasitesini ve kullanımını dikkate alarak belirli türde gerçek zamanlı çıkarım iş yükleri için gecikmeyi nasıl en aza indirebileceğini tartışıyoruz. Varsayılan yönlendirme mekanizmasına göre avantajlarından ve model dağıtımlarınız için LOR'u nasıl etkinleştirebileceğinizden bahsediyoruz. Son olarak, rastgele yönlendirmenin varsayılan yönlendirme stratejisine göre LOR ile gecikme iyileştirmelerinin karşılaştırmalı bir analizini sunuyoruz.

SageMaker LOR stratejisi

Varsayılan olarak SageMaker uç noktalarının rastgele bir yönlendirme stratejisi vardır. SageMaker artık, SageMaker'ın istekleri, bu isteğe hizmet etmeye en uygun örneğe en iyi şekilde yönlendirmesine olanak tanıyan bir LOR stratejisini desteklemektedir. SageMaker, uç noktanızın arkasındaki bulut sunucularının yükünü ve her bir bulut sunucusunda dağıtılan modelleri veya çıkarım bileşenlerini izleyerek bunu mümkün kılar.

Aşağıdaki etkileşimli şema, model uç noktalarına gelen isteklerin ML örneklerine rastgele bir şekilde iletildiği varsayılan yönlendirme politikasını gösterir.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Aşağıdaki etkileşimli şema, SageMaker'ın isteği en az sayıda bekleyen isteğe sahip örneğe yönlendireceği yönlendirme stratejisini gösterir.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Genel olarak LOR yönlendirme, modeliniz yüzlerce milisaniyeden dakikalara kadar sürede yanıt verdiğinde temel modeller veya üretken yapay zeka modelleri için iyi çalışır. Model yanıtınızın gecikme süresi daha düşükse (yüzlerce milisaniyeye kadar), rastgele yönlendirmeden daha fazla yararlanabilirsiniz. Ne olursa olsun, iş yükleriniz için en iyi yönlendirme algoritmasını test etmenizi ve belirlemenizi öneririz.

SageMaker yönlendirme stratejileri nasıl ayarlanır?

SageMaker artık RoutingStrategy parametresini oluştururken EndpointConfiguration uç noktalar için. Farklı olan RoutingStrategy SageMaker tarafından desteklenen değerler şunlardır:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

Aşağıda, LOR'un etkin olduğu bir çıkarım uç noktasında bir modelin örnek dağıtımı yer almaktadır:

  1. Ayarlayarak uç nokta yapılandırmasını oluşturun RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. Uç nokta yapılandırmasını kullanarak uç noktayı oluşturun (değişiklik yok):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

Performans sonuçları

Uçtan uca çıkarım gecikmesini ve verimini ölçmek için performans kıyaslaması gerçekleştirdik. kodgen2-7B varsayılan yönlendirme ve akıllı yönlendirme uç noktalarıyla ml.g5.24xl bulut sunucularında barındırılan model. CodeGen2 modeli, otoregresif dil modelleri ailesine aittir ve İngilizce komutlar verildiğinde çalıştırılabilir kod üretir.

Analizimizde, aşağıdaki tabloda gösterildiği gibi eşzamanlı kullanıcı sayısı arttıkça her test çalıştırması için her uç noktanın arkasındaki ml.g5.24xl örneklerinin sayısını artırdık.

test Eşzamanlı Kullanıcı Sayısı Örnek Sayısı
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

Her iki uç nokta için uçtan uca P99 gecikmesini ölçtük ve aşağıdaki grafikte gösterildiği gibi örnek sayısı 4'ten 33'ye çıkarıldığında gecikmede %5-20'lük bir iyileşme gözlemledik.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Benzer şekilde, bulut sunucusu sayısı 15'ten 16'ye çıkarıldığında bulut sunucusu başına dakika başına aktarım hızında %5-20'lık bir iyileşme gözlemledik.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bu, akıllı yönlendirmenin uç noktalar arasındaki trafik dağıtımını iyileştirebildiğini ve uçtan uca gecikme süresinde ve genel verimde iyileşmelere yol açtığını göstermektedir.

Sonuç

Bu yazıda SageMaker yönlendirme stratejilerini ve LOR yönlendirmeyi etkinleştirmeye yönelik yeni seçeneği açıkladık. LOR'un nasıl etkinleştirileceğini ve bunun model dağıtımlarınıza nasıl fayda sağlayabileceğini açıkladık. Performans testlerimiz, gerçek zamanlı çıkarım sırasında gecikme ve verimde iyileşmeler gösterdi. SageMaker yönlendirme özellikleri hakkında daha fazla bilgi edinmek için bkz. belgeleme. Çıkarım iş yüklerinizi değerlendirmenizi ve yönlendirme stratejisiyle en iyi şekilde yapılandırılıp yapılandırılmadığınızı belirlemenizi öneririz.


Yazarlar Hakkında

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.James Park Amazon Web Services'te Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için Amazon.com ile birlikte çalışıyor ve yapay zeka ve makine öğrenimine özel ilgi duyuyor. Boş zamanlarında yeni kültürler, yeni deneyimler aramaktan ve en son teknoloji trendlerini takip etmekten hoşlanıyor. Onu şurada bulabilirsin LinkedIn.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Venügopal Pai AWS'de Çözüm Mimarıdır. Hindistan'ın Bengaluru şehrinde yaşıyor ve dijital ortamda yerel müşterilerin AWS'deki uygulamalarını ölçeklendirmelerine ve optimize etmelerine yardımcı oluyor.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.david nigenda Amazon SageMaker ekibinde Kıdemli Yazılım Geliştirme Mühendisi, şu anda üretim makine öğrenimi iş akışlarını iyileştirmenin yanı sıra yeni çıkarım özellikleri sunmaya çalışıyor. Boş zamanlarında çocuklarına ayak uydurmaya çalışır.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Derin Ragha Amazon SageMaker ekibinde bir Yazılım Geliştirme Mühendisidir. Şu anki çalışması, makine öğrenimi modellerini verimli bir şekilde barındırmak için özellikler oluşturmaya odaklanıyor. Boş zamanlarında seyahat etmeyi, yürüyüş yapmayı ve bitki yetiştirmeyi sever.

Alan TanAlan Tan SageMaker'da Kıdemli Ürün Müdürüdür ve büyük model çıkarımına yönelik çabalara öncülük etmektedir. Analitik alanına makine öğrenimi uygulama konusunda tutkulu. İş dışında, açık havayı sever.

Amazon SageMaker yönlendirme stratejilerini kullanarak gerçek zamanlı çıkarım gecikmesini en aza indirin | Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Dhaval Patel AWS'de Baş Makine Öğrenimi Mimarıdır. Dağıtılmış bilgi işlem ve Yapay Zeka ile ilgili sorunlar üzerinde büyük kuruluşlardan orta ölçekli girişimlere kadar çeşitli kuruluşlarla çalıştı. NLP ve Computer Vision alanları dahil olmak üzere Derin öğrenmeye odaklanmaktadır. Müşterilerin SageMaker'da yüksek performanslı model çıkarımı yapmasına yardımcı olur.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi