Amazon Adaçayı Yapıcı Gerçek zamanlı çıkarım için makine öğrenimi (ML) modellerinin dağıtılmasını kolaylaştırır ve CPU'ları ve hızlandırıcıları kapsayan geniş bir makine öğrenimi örnekleri yelpazesi sunar. AWS Çıkarımları. Tam olarak yönetilen bir hizmet olarak, model dağıtımlarınızı ölçeklendirebilir, çıkarım maliyetlerini en aza indirebilir ve modellerinizi üretimde daha az operasyonel yük ile daha etkili bir şekilde yönetebilirsiniz. SageMaker gerçek zamanlı çıkarım uç noktası, yüksek kullanılabilirlik için birden fazla Erişilebilirlik Alanına dağıtılan bir HTTP uç noktasından ve makine öğrenimi örneklerinden oluşur. Adaçayı Yapıcı uygulama otomatik ölçeklendirme iş yükündeki değişikliklere yanıt olarak bir model için sağlanan makine öğrenimi örneklerinin sayısını dinamik olarak ayarlayabilir. Uç nokta, gelen istekleri bir hepsini bir kez deneme algoritması kullanarak makine öğrenimi örneklerine eşit şekilde dağıtır.
Örneklere dağıtılan makine öğrenimi modelleri çok sayıda istemciden API çağrıları aldığında, isteklerinizde ve yanıtlarınızda çok fazla değişkenlik olmadığında isteklerin rastgele dağıtımı çok iyi çalışabilir. Ancak üretken yapay zeka iş yüklerine sahip sistemlerde istekler ve yanıtlar son derece değişken olabilir. Bu durumlarda, rastgele yük dengeleme yerine örneğin kapasitesi ve kullanımı dikkate alınarak yük dengeleme yapılması sıklıkla tercih edilir.
Bu yazıda, SageMaker'ın en az bekleyen istekler (LOR) yönlendirme stratejisini ve ML örneklerinin kapasitesini ve kullanımını dikkate alarak belirli türde gerçek zamanlı çıkarım iş yükleri için gecikmeyi nasıl en aza indirebileceğini tartışıyoruz. Varsayılan yönlendirme mekanizmasına göre avantajlarından ve model dağıtımlarınız için LOR'u nasıl etkinleştirebileceğinizden bahsediyoruz. Son olarak, rastgele yönlendirmenin varsayılan yönlendirme stratejisine göre LOR ile gecikme iyileştirmelerinin karşılaştırmalı bir analizini sunuyoruz.
SageMaker LOR stratejisi
Varsayılan olarak SageMaker uç noktalarının rastgele bir yönlendirme stratejisi vardır. SageMaker artık, SageMaker'ın istekleri, bu isteğe hizmet etmeye en uygun örneğe en iyi şekilde yönlendirmesine olanak tanıyan bir LOR stratejisini desteklemektedir. SageMaker, uç noktanızın arkasındaki bulut sunucularının yükünü ve her bir bulut sunucusunda dağıtılan modelleri veya çıkarım bileşenlerini izleyerek bunu mümkün kılar.
Aşağıdaki etkileşimli şema, model uç noktalarına gelen isteklerin ML örneklerine rastgele bir şekilde iletildiği varsayılan yönlendirme politikasını gösterir.
Aşağıdaki etkileşimli şema, SageMaker'ın isteği en az sayıda bekleyen isteğe sahip örneğe yönlendireceği yönlendirme stratejisini gösterir.
Genel olarak LOR yönlendirme, modeliniz yüzlerce milisaniyeden dakikalara kadar sürede yanıt verdiğinde temel modeller veya üretken yapay zeka modelleri için iyi çalışır. Model yanıtınızın gecikme süresi daha düşükse (yüzlerce milisaniyeye kadar), rastgele yönlendirmeden daha fazla yararlanabilirsiniz. Ne olursa olsun, iş yükleriniz için en iyi yönlendirme algoritmasını test etmenizi ve belirlemenizi öneririz.
SageMaker yönlendirme stratejileri nasıl ayarlanır?
SageMaker artık RoutingStrategy
parametresini oluştururken EndpointConfiguration
uç noktalar için. Farklı olan RoutingStrategy
SageMaker tarafından desteklenen değerler şunlardır:
LEAST_OUTSTANDING_REQUESTS
RANDOM
Aşağıda, LOR'un etkin olduğu bir çıkarım uç noktasında bir modelin örnek dağıtımı yer almaktadır:
- Ayarlayarak uç nokta yapılandırmasını oluşturun
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - Uç nokta yapılandırmasını kullanarak uç noktayı oluşturun (değişiklik yok):
Performans sonuçları
Uçtan uca çıkarım gecikmesini ve verimini ölçmek için performans kıyaslaması gerçekleştirdik. kodgen2-7B varsayılan yönlendirme ve akıllı yönlendirme uç noktalarıyla ml.g5.24xl bulut sunucularında barındırılan model. CodeGen2 modeli, otoregresif dil modelleri ailesine aittir ve İngilizce komutlar verildiğinde çalıştırılabilir kod üretir.
Analizimizde, aşağıdaki tabloda gösterildiği gibi eşzamanlı kullanıcı sayısı arttıkça her test çalıştırması için her uç noktanın arkasındaki ml.g5.24xl örneklerinin sayısını artırdık.
test | Eşzamanlı Kullanıcı Sayısı | Örnek Sayısı |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
Her iki uç nokta için uçtan uca P99 gecikmesini ölçtük ve aşağıdaki grafikte gösterildiği gibi örnek sayısı 4'ten 33'ye çıkarıldığında gecikmede %5-20'lük bir iyileşme gözlemledik.
Benzer şekilde, bulut sunucusu sayısı 15'ten 16'ye çıkarıldığında bulut sunucusu başına dakika başına aktarım hızında %5-20'lık bir iyileşme gözlemledik.
Bu, akıllı yönlendirmenin uç noktalar arasındaki trafik dağıtımını iyileştirebildiğini ve uçtan uca gecikme süresinde ve genel verimde iyileşmelere yol açtığını göstermektedir.
Sonuç
Bu yazıda SageMaker yönlendirme stratejilerini ve LOR yönlendirmeyi etkinleştirmeye yönelik yeni seçeneği açıkladık. LOR'un nasıl etkinleştirileceğini ve bunun model dağıtımlarınıza nasıl fayda sağlayabileceğini açıkladık. Performans testlerimiz, gerçek zamanlı çıkarım sırasında gecikme ve verimde iyileşmeler gösterdi. SageMaker yönlendirme özellikleri hakkında daha fazla bilgi edinmek için bkz. belgeleme. Çıkarım iş yüklerinizi değerlendirmenizi ve yönlendirme stratejisiyle en iyi şekilde yapılandırılıp yapılandırılmadığınızı belirlemenizi öneririz.
Yazarlar Hakkında
James Park Amazon Web Services'te Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için Amazon.com ile birlikte çalışıyor ve yapay zeka ve makine öğrenimine özel ilgi duyuyor. Boş zamanlarında yeni kültürler, yeni deneyimler aramaktan ve en son teknoloji trendlerini takip etmekten hoşlanıyor. Onu şurada bulabilirsin LinkedIn.
Venügopal Pai AWS'de Çözüm Mimarıdır. Hindistan'ın Bengaluru şehrinde yaşıyor ve dijital ortamda yerel müşterilerin AWS'deki uygulamalarını ölçeklendirmelerine ve optimize etmelerine yardımcı oluyor.
david nigenda Amazon SageMaker ekibinde Kıdemli Yazılım Geliştirme Mühendisi, şu anda üretim makine öğrenimi iş akışlarını iyileştirmenin yanı sıra yeni çıkarım özellikleri sunmaya çalışıyor. Boş zamanlarında çocuklarına ayak uydurmaya çalışır.
Derin Ragha Amazon SageMaker ekibinde bir Yazılım Geliştirme Mühendisidir. Şu anki çalışması, makine öğrenimi modellerini verimli bir şekilde barındırmak için özellikler oluşturmaya odaklanıyor. Boş zamanlarında seyahat etmeyi, yürüyüş yapmayı ve bitki yetiştirmeyi sever.
Alan Tan SageMaker'da Kıdemli Ürün Müdürüdür ve büyük model çıkarımına yönelik çabalara öncülük etmektedir. Analitik alanına makine öğrenimi uygulama konusunda tutkulu. İş dışında, açık havayı sever.
Dhaval Patel AWS'de Baş Makine Öğrenimi Mimarıdır. Dağıtılmış bilgi işlem ve Yapay Zeka ile ilgili sorunlar üzerinde büyük kuruluşlardan orta ölçekli girişimlere kadar çeşitli kuruluşlarla çalıştı. NLP ve Computer Vision alanları dahil olmak üzere Derin öğrenmeye odaklanmaktadır. Müşterilerin SageMaker'da yüksek performanslı model çıkarımı yapmasına yardımcı olur.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
- PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
- PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
- PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- :vardır
- :dır-dir
- :olumsuzluk
- :Neresi
- $UP
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- Yapabilmek
- Hakkımızda
- hızlandırıcılar
- Başarmak
- karşısında
- AI
- AI modelleri
- Alan
- algoritma
- veriyor
- Amazon
- Amazon Adaçayı Yapıcı
- Amazon Web Servisleri
- Amazon.com
- arasında
- an
- analiz
- analytics
- ve
- api
- uygulamaları
- Uygulanması
- ARE
- ALAN
- yapay
- yapay zeka
- AS
- At
- Oto
- kullanılabilirliği
- AWS
- Bakiye
- dengeleme
- BE
- arkasında
- aittir
- kıyaslama
- yarar
- faydaları
- İYİ
- her ikisi de
- geniş
- inşa etmek
- bina
- yük
- fakat
- by
- aramalar
- CAN
- Kapasite
- durumlarda
- belli
- değişiklik
- değişiklikler
- istemciler
- kod
- COM
- gelecek
- bileşenler
- bilgisayar
- Bilgisayar görüşü
- bilgisayar
- eşzamanlı
- yapılandırma
- yapılandırılmış
- dikkate
- düşünen
- oluşur
- maliyetler
- Oluşturma
- akım
- Şu anda
- Müşteriler
- Tarih
- derin
- derin öğrenme
- Varsayılan
- dağıtmak
- konuşlandırılmış
- açılma
- dağıtımları
- Dizayn
- Belirlemek
- gelişme
- farklı
- tartışmak
- dağıtıldı
- Dağıtılmış bilgi işlem
- dağıtım
- etki
- sırasında
- dinamik
- her
- etkili bir şekilde
- verimli biçimde
- çabaları
- etkinleştirmek
- etkin
- teşvik etmek
- son uca
- Son nokta
- mühendis
- İngilizce
- işletmelerin
- değerlendirmek
- örnek
- Deneyimler
- açıkladı
- son derece
- aile
- Özellikler
- Nihayet
- bulmak
- odaklanır
- takip etme
- İçin
- temel
- itibaren
- tamamen
- genel
- üretir
- üretken
- üretken yapay zeka
- gif
- verilmiş
- grafik
- Büyüyen
- Var
- he
- yardımcı olur
- onu
- Yüksek
- onu
- onun
- ev sahibi
- ev sahipliği yaptı
- Ne kadar
- Nasıl Yapılır
- HTML
- HTTPS
- Yüzlerce
- belirlemek
- if
- göstermektedir
- iyileştirmek
- iyileşme
- iyileştirmeler
- geliştirme
- in
- Dahil olmak üzere
- Gelen
- artmış
- Hindistan
- örnek
- İstihbarat
- interaktif
- faiz
- içine
- IT
- ONUN
- jpg
- tutmak
- çocuklar
- dil
- büyük
- Büyük işletmeler
- Gecikme
- son
- fırlatma
- önemli
- ÖĞRENİN
- öğrenme
- en az
- Yaşıyor
- yük
- Çok
- alt
- makine
- makine öğrenme
- YAPAR
- yönetmek
- yönetilen
- müdür
- tavır
- Mayıs..
- ölçmek
- mekanizma
- milisaniye
- dakika
- dakika
- ML
- model
- modelleri
- izleme
- Daha
- çoklu
- yeni
- nlp
- yok hayır
- şimdi
- numara
- of
- Teklifler
- sık sık
- on
- işletme
- optimize
- seçenek
- or
- organizasyonlar
- bizim
- dışarı
- açık havada
- dışında
- ödenmemiş
- tekrar
- tüm
- parametre
- belirli
- tutkulu
- başına
- performans
- bitkiler
- Platon
- Plato Veri Zekası
- PlatoVeri
- politika
- mümkün
- Çivi
- mevcut
- Anapara
- sorunlar
- PLATFORM
- ürün müdürü
- üretim
- istemleri
- rasgele
- değişen
- daha doğrusu
- gerçek zaman
- teslim almak
- tavsiye etmek
- Indirimli
- başvurmak
- Ne olursa olsun
- ilgili
- talep
- isteklerinizi
- yanıt
- yanıtları
- Rota
- yönlendirme
- koşmak
- sagemaker
- ölçek
- arayan
- seçim
- kıdemli
- hizmet vermek
- hizmet
- Hizmetler
- set
- ayar
- o
- gösterdi
- gösterilen
- Gösteriler
- akıllı
- Yazılım
- yazılım geliştirme
- Çözümler
- gerginlik
- Startups
- kalma
- basit
- stratejileri
- Stratejileri
- böyle
- destekli
- Destekler
- Sistemler
- tablo
- alma
- Konuşmak
- takım
- Teknoloji
- test
- testleri
- göre
- o
- The
- Alan
- ve bazı Asya
- Orada.
- Bunlar
- Re-Tweet
- verim
- zaman
- için
- trafik
- Seyahat
- Trendler
- türleri
- kullanıcılar
- kullanma
- Değerler
- değişken
- çok
- vizyonumuz
- we
- ağ
- web hizmetleri
- İYİ
- vardı
- ne zaman
- hangi
- süre
- irade
- ile
- İş
- işlenmiş
- iş akışları
- çalışma
- çalışır
- Sen
- zefirnet
- bölgeleri