Amazon SageMaker'da NVIDIA Triton Çıkarım Sunucusunda Karar Ağacı Tabanlı ML Modelleri için Düşük Gecikmeli Barındırma Elde Edin

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Makine öğrenimi (ML) modeli dağıtımları, günümüzde işletmeler için çok zorlu performans ve gecikme gereksinimlerine sahip olabilir. Dolandırıcılık tespiti ve reklam yerleştirme gibi kullanım durumları, milisaniyelerin önemli olduğu ve iş başarısı için kritik olduğu örneklerdir. Katı hizmet düzeyi anlaşmalarının (SLA'lar) karşılanması gerekir ve tipik bir istek, ön işleme, veri dönüştürme, model seçim mantığı, model toplama ve son işleme gibi birden çok adım gerektirebilir. Ölçekte, bu genellikle düşük gecikmeyi korurken büyük bir trafik hacmini korumak anlamına gelir. Yaygın tasarım kalıpları, talebin tüm iş akışının Yönlendirilmiş Döngüsel Grafik (DAG) olarak gerçekleştirilmesiyle sonuçlanan seri çıkarım boru hatlarını, toplulukları (dağılım-toplama) ve iş mantığı iş akışlarını içerir. Ancak, iş akışları daha karmaşık hale geldikçe, bu genel yanıt sürelerinde bir artışa yol açabilir ve bu da son kullanıcı deneyimini olumsuz etkileyebilir ve iş hedeflerini tehlikeye atabilir. Triton, aralarında giriş ve çıkış tensörlerinin bağlı olduğu bir boru hattında birden fazla modelin oluşturulduğu bu kullanım durumlarını ele alabilir ve bu iş yüklerini ele almanıza yardımcı olabilir.

ML model çıkarımıyla ilgili hedeflerinizi değerlendirirken, birçok seçenek düşünülebilir, ancak çok azı sizin kadar yetenekli ve kanıtlanmıştır. Amazon Adaçayı Yapıcı ile Triton Çıkarım Sunucusu. Triton Çıkarım Sunuculu SageMaker, ultra düşük (tek basamaklı milisaniye) çıkarım gecikmesi ile verimi ve donanım kullanımını en üst düzeye çıkarmak için özel olarak tasarlandığı için birçok müşteri için popüler bir seçim olmuştur. Desteklenen çok çeşitli ML çerçevelerine (TensorFlow, PyTorch, ONNX, XGBoost ve NVIDIA TensorRT dahil) ve NVIDIA GPU'lar, CPU'lar ve AWS Çıkarımları. Ayrıca, Triton Inference Server, model barındırma için gerçek zamanlı çıkarım seçenekleri sağlayan, tamamen yönetilen bir uçtan uca ML hizmeti olan SageMaker ile entegre edilmiştir.

Bu gönderide, Triton Inference Server ile SageMaker'a bir sahtekarlık algılama topluluğu iş yükünü dağıtma adımlarını atıyoruz.

Çözüme genel bakış

Herhangi bir projenin, projenin toplam maliyetini tahmin etmek için bir ihtiyaç listesi ve bir efor tahmini olması esastır. Bir kuruluşun kararını destekleyen yatırım getirisini (ROI) tahmin etmek önemlidir. Bir iş yükünü Triton'a taşırken dikkate alınması gereken bazı hususlar şunlardır:

Çaba tahmini, yazılım geliştirmede anahtardır ve ölçümü genellikle eksik, belirsiz ve gürültülü girdilere dayanır. ML iş yükleri farklı değildir. ML çıkarımı için bir mimariyi birden çok faktör etkiler, bazıları şunları içerir:

İstemci tarafı gecikme bütçesi – Genellikle yüzdelik dilimlerle ifade edilen, bir çıkarım yanıtı için istemci tarafı gidiş-dönüş maksimum kabul edilebilir bekleme süresini belirtir. Onlarca milisaniyeye yakın bir gecikme bütçesi gerektiren iş yükleri için ağ aktarımları pahalı hale gelebilir, bu nedenle uçtaki modelleri kullanmak daha uygun olur.
Veri yükü dağıtım boyutu – Yük, genellikle olarak anılacaktır mesaj gövdesi, istemciden modele iletilen istek verilerinin yanı sıra modelden istemciye iletilen yanıt verileridir. Yük boyutunun genellikle gecikme üzerinde büyük bir etkisi vardır ve dikkate alınmalıdır.
Veri formatı – Bu, yükün ML modeline nasıl gönderildiğini belirtir. JSON ve CSV gibi biçim insan tarafından okunabilir olabilir, ancak genellikle sıkıştırılmış ve boyut olarak daha küçük olan ikili biçimler de vardır. Bu, sıkıştırma ek yükü ve aktarım boyutu arasında bir dengedir, yani ağ üzerinden aktarılan baytları kaydetmek için sıkıştırmak veya açmak için CPU döngüleri ve gecikme eklenir. Bu gönderi, hem JSON hem de ikili biçimlerin nasıl kullanılacağını gösterir.
Yazılım yığını ve gerekli bileşenler – Yığın, işletim sistemi, çalışma zamanları ve yazılım katmanları dahil olmak üzere bir ML uygulamasını desteklemek için birlikte çalışan bileşenler topluluğudur. Triton, adı verilen yerleşik popüler ML çerçeveleri ile birlikte gelir. arka uçlarONNX, TensorFlow, FIL, OpenVINO, yerel Python ve diğerleri gibi. Ayrıca bir özel arka uç kendi ev yapımı bileşenleriniz için. Bu gönderi, sırasıyla NVIDIA tarafından sağlanan FIL ve Python Triton arka uçlarına geçirdiğimiz bir XGBoost modelini ve veri ön işlemeyi ele alır.

Tüm bu faktörler, iş yüklerinizin nasıl performans gösterdiğini değerlendirmede hayati bir rol oynamalıdır, ancak bu kullanım durumunda, ML modellerinizi Triton Inference Server ile SageMaker'da barındırılacak şekilde taşımak için gereken çalışmaya odaklanıyoruz. Spesifik olarak, Python'da yazılmış ön işleme mantığına sahip bir XGBoost modelinden oluşan bir dolandırıcılık tespit topluluğu örneği kullanıyoruz.

NVIDIA Triton Çıkarım Sunucusu

Triton Inference Server, ekiplerin GPU veya CPU tabanlı altyapı üzerindeki herhangi bir çerçeveden eğitimli AI modellerini dağıtmasını, çalıştırmasını ve ölçeklendirmesini sağlamak için sıfırdan tasarlanmıştır. Buna ek olarak, dinamik gruplama, eşzamanlı çalıştırmalar, optimal model yapılandırması, model topluluğu ve akış girdileri desteği gibi özelliklerle ölçekte yüksek performanslı çıkarım sunmak üzere optimize edilmiştir.

Aşağıdaki şema, örnek bir NVIDIA Triton topluluğu işlem hattını göstermektedir.

İş yükleri, sunulan avantajları en üst düzeye çıkarmak için SageMaker barındırma ile birlikte Triton'un sağladığı yetenekleri dikkate almalıdır. Örneğin, Triton HTTP'yi destekler. C API'siBu, gerektiğinde yük optimizasyonunun yanı sıra esneklik sağlar. Daha önce de belirtildiği gibi Triton, TensorFlow, PyTorch, ONNX, XGBoost ve NVIDIA TensorRT dahil olmak üzere kutudan çıkan birçok popüler çerçeveyi destekler. Bu çerçeveler, Triton arka uçları aracılığıyla desteklenir ve bir arka ucun kullanım durumunuzu desteklemediği nadir durumlarda, Triton, kendinizinkini uygulamanıza ve kolayca entegre etmenize olanak tanır.

Aşağıdaki şema, NVIDIA Triton mimarisinin bir örneğini göstermektedir.

SageMaker'da NVIDIA Triton

SageMaker barındırma hizmetler, model dağıtımını ve sunumunu kolaylaştırmayı amaçlayan SageMaker özellikleri kümesidir. Farklı kullanım durumları için uyarlanmış ML modellerini kolayca dağıtmak, otomatik olarak ölçeklendirmek, izlemek ve optimize etmek için çeşitli seçenekler sunar. Bu, dağıtımlarınızı kalıcı ve sunucusuz seçeneklerle her zaman kullanılabilir olandan geçici, uzun süreli veya toplu çıkarım gereksinimlerine kadar her tür kullanım modeli için optimize edebileceğiniz anlamına gelir.

SageMaker barındırma şemsiyesi altında, karşılık gelen desteklenen ML çerçeveleri için uygun model sunucu yazılımıyla önceden paketlenmiş olarak gelen SageMaker çıkarım Derin Öğrenme Kapsayıcıları (DLC'ler) kümesi de bulunur. Bu, genellikle model dağıtımının en karmaşık teknik yönü olan ve genel olarak bir veri bilimcisinin beceri setinin parçası olmayan, model sunucu kurulumu olmadan yüksek çıkarım performansı elde etmenizi sağlar. Triton çıkarım sunucusu şimdi mevcut SageMaker DLC'lerinde.

Bu seçenekler, modülerlik ve farklı hizmet çerçevelerinin kullanım kolaylığı, SageMaker ve Triton'u güçlü bir eşleşme haline getiriyor.

NVIDIA FIL arka uç desteği

İle Triton'un 22.05 sürüm sürümü, NVIDIA artık XGBoost, LightGBM, Scikit-learn ve cuML dahil olmak üzere çeşitli popüler ML çerçeveleri tarafından eğitilmiş orman modellerini destekliyor. Triton için FIL arka ucunu kullanırken, sağladığınız model yapılarının desteklendiğinden emin olmalısınız. Örneğin, FIL destekler model_type xgboost, xgboost_json, lightgbmya da treelite_checkpoint, sağlanan modelin sırasıyla XGBoost ikili biçiminde, XGBoost JSON biçiminde, LightGBM metin biçiminde veya Treelite ikili biçiminde olup olmadığını gösterir.

FIL, XGBoost modellerini desteklediğinden, bu arka uç desteği bizim örneğimizde kullanmamız için çok önemlidir. Kontrol edilmesi gereken tek nokta, dağıttığımız modelin ikili veya JSON biçimlerini desteklediğinden emin olmaktır.

Uygun model formatına sahip olduğunuzdan emin olmanın yanı sıra, başka hususlar da dikkate alınmalıdır. Triton için FIL arka ucu, geliştiricilerin iş yüklerini ayarlamaları ve model çalıştırma performansını optimize etmeleri için yapılandırılabilir seçenekler sunar. yapılandırma dynamic_batching Triton'un, FIL'in paralel hesaplamasını verimli bir şekilde kullanmak için tüm toplu işi birlikte çıkarsamak için istemci tarafı isteklerini tutmasına ve bunları sunucu tarafında toplulaştırmasına izin verir. Seçenek max_queue_delay_microseconds Triton'un bir parti oluşturmak için ne kadar beklediğine dair hatasız bir kontrol sunar. FIL, konfigürasyon tarafından etkinleştirilebilen Shapley açıklayıcı ile birlikte gelir treeshap_output; ancak Shapley çıktılarının çıktı boyutu nedeniyle performansa zarar verdiğini unutmamalısınız. Bir diğer önemli husus ise storage_type bellek ayak izi ve çalışma zamanı arasında değiş tokuş yapmak için. Örneğin, depolamayı SPARSE olarak kullanmak bellek tüketimini azaltabilirken DENSE, daha yüksek bellek kullanımı pahasına model çalıştırma performansınızı azaltabilir. Bunların her biri için en iyi seçeneğe karar vermek iş yükünüze ve gecikme bütçenize bağlıdır. FIL arka ucu SSS ve FIL'de bulunan konfigürasyonların listesi.

Triton'da bir model barındırma adımları

Bir iş yükünü Triton'a taşırken nelerin dikkate alınması gerektiğine bir örnek olarak dolandırıcılık algılama kullanım örneğimize bakalım.

İş yükünüzü tanımlayın

Bu kullanım örneğinde, bir perakende müşterisinin ödeme işlemi sırasında kullanılan bir dolandırıcılık tespit modelimiz var. Çıkarım ardışık düzeni, ön işleme için veri hazırlığını içeren ön işleme mantığına sahip bir XGBoost algoritması kullanıyor.

Geçerli ve hedef performans metriklerini ve uygulanabilecek diğer hedefleri belirleyin

Uçtan uca çıkarım sürenizin kabul edilemeyecek kadar uzun sürdüğünü görebilirsiniz. Amacınız, aynı talep hacmi ve ilgili aktarım hızı için onlarca milisaniyelik gecikmeden tek basamaklı gecikmeye geçmek olabilir. Zamanın büyük bölümünün veri ön işleme ve XGBoost modeli tarafından tüketildiğini belirlersiniz. Ağ ve yük boyutu gibi diğer faktörler, uçtan uca çıkarım süresiyle ilişkili ek yükte minimum rol oynar.

Gereksinimlerinize göre Triton'un iş yükünüzü barındırıp barındıramayacağını belirlemek için geriye doğru çalışın

Triton'un gereksinimlerinizi karşılayıp karşılayamayacağını belirlemek için iki ana endişe alanına dikkat etmek istersiniz. Birincisi, Triton'un HTTP veya C API gibi kabul edilebilir bir ön uç seçeneği ile hizmet verebilmesini sağlamaktır.

Daha önce de belirtildiği gibi, Triton'un yapıtlarınıza hizmet edebilecek bir arka ucu destekleyip desteklemediğini belirlemek de çok önemlidir. Triton bir dizi destekler arka uçlar PyTorch ve TensorFlow gibi çeşitli çerçeveleri desteklemek için özel olarak üretilmiştir. Modellerinizin desteklendiğinden ve Triton'un beklediği uygun model formatına sahip olduğunuzdan emin olmak için kontrol edin. Bunu yapmak için önce Triton arka ucunun hangi model biçimlerini desteklediğini kontrol edin. Çoğu durumda, bu model için herhangi bir değişiklik gerektirmez. Diğer durumlarda, modelinizin farklı bir biçime dönüştürülmesi gerekebilir. Kaynak ve hedef formata bağlı olarak, bir dosyayı dönüştürmek gibi çeşitli seçenekler mevcuttur. Treelite'ın ikili kontrol noktası biçimini kullanmak için Python turşu dosyası.

Bu kullanım durumu için, FIL arka ucu XGBoost modelini herhangi bir değişiklik gerektirmeden destekleyebilir ve Python arka ucu ön işleme için. Triton'un topluluk özelliğiyle, barındırma örnekleri arasında maliyetli ağ aramalarından kaçınarak iş yükünüzü daha da optimize edebilirsiniz.

Bir plan oluşturun ve barındırma için Triton'u kullanmak için gereken çabayı tahmin edin

Modellerinizi Triton'a taşıma planından bahsedelim. Her Triton dağıtımı aşağıdakileri gerektirir:

Triton arka uçlarının gerektirdiği model yapıtları
Triton yapılandırma dosyaları
Uygun yapıya sahip bir model depo klasörü

Bu gönderide daha sonra bu dağıtım bağımlılıklarının nasıl oluşturulacağına dair bir örnek gösteriyoruz.

Planı çalıştırın ve sonuçları doğrulayın

Uygun şekilde yapılandırılmış model deposunda gerekli dosyaları ve yapıtları oluşturduktan sonra, dağıtımınızı ayarlamanız ve hedef ölçümlerinize ulaştığınızı doğrulamak için test etmeniz gerekir.

Bu noktada, kullanabilirsiniz SageMaker Çıkarım Öneri Aracı gereksinimlerinize göre hangi uç nokta örneği türünün sizin için en iyi olduğunu belirlemek için. Ayrıca Triton, daha iyi performans elde etmek için yapı optimizasyonları yapmak için araçlar sağlar.

Uygulama

Şimdi uygulama detaylarına bakalım. Bunun için neler beklenebileceğinin bir örneğini sunan iki defter hazırladık. bu ilk defter verilen XGBoost modelinin eğitimini ve hem eğitim hem de çıkarım süresi için kullanılan ön işleme mantığını gösterir. bu ikinci defter Triton'da dağıtım için gereken yapıtları nasıl hazırladığımızı gösterir.

İlk not defteri, kuruluşunuzun sahip olduğu ve aşağıdakileri kullanan mevcut bir not defterini gösterir. HIZLI kitaplıklar paketi ve RAPIDS Conda çekirdeği. Bu bulut sunucusu, NVIDIA T4 işlemciler kullanılarak GPU hızlandırılmış, AWS tarafından sağlanan bir G4DN bulut sunucusu türünde çalışır.

Bu örnekteki ön işleme görevleri, GPU hızlandırmasından yararlanır ve yoğun olarak cuML ve cuDF kitaplıklarını kullanır. Bunun bir örneği, cuML kullanarak kategorik etiket kodlamasını gösterdiğimiz aşağıdaki koddadır. Biz de bir label_encoders.pkl kodlayıcıları seri hale getirmek için kullanabileceğimiz ve çıkarım süresi boyunca ön işleme için kullanabileceğimiz dosya.

İlk not defteri, XGBoost modelimizi eğiterek ve eserleri buna göre kaydederek sona erer.

Bu senaryoda, eğitim kodu zaten mevcuttu ve eğitim zamanında model için herhangi bir değişiklik yapılması gerekmiyor. Ek olarak, eğitim sırasında ön işleme için GPU hızlandırmasını kullanmamıza rağmen, çıkarım zamanında ön işleme için CPU'ları kullanmayı planlıyoruz. Yazının devamında daha fazlasını açıklıyoruz.

Şimdi ikinci not defterine geçelim ve başarılı bir Triton dağıtımı için neye ihtiyacımız olduğunu hatırlayalım.

İlk olarak, arka uçların gerektirdiği model yapıtlarına ihtiyacımız var. Bu topluluk için oluşturmamız gereken dosyalar şunları içerir:

Ön işleme yapıları (model.py, label_encoders.pkl)
XGBoost modeli yapıları (xgboost.json)

Triton'daki Python arka ucu, bir Conda ortamını bağımlılık olarak kullanmamızı gerektirir. Bu durumda, ham verileri FIL arka ucunda çalıştırılan XGBoost modeline beslemeden önce ön işlemek için Python arka ucunu kullanırız. Başlangıçta veri ön işlemesini yapmak için RAPIDS cuDF ve cuML kitaplıklarını kullanmış olsak da (daha önce GPU'muzu kullanarak referans verildiği gibi), burada çıkarım süresi için (CPU'muzu kullanarak) ön işleme bağımlılıkları olarak Pandas ve Scikit-learn kullanıyoruz. Bunu üç nedenden dolayı yapıyoruz:

Bağımlılıklarınız için bir Conda ortamının nasıl oluşturulacağını ve bunu biçim bekleniyor Triton'un Python arka ucu tarafından.
XGBoost modeli FIL arka ucundaki GPU üzerinde çalışırken, Python arka ucunda çalışan ön işleme modelini CPU'da göstererek, Triton'un topluluk ardışık düzenindeki her modelin nasıl farklı bir çerçeve arka ucunda çalışabileceğini ve farklı donanımlarda nasıl çalışabileceğini gösteriyoruz. konfigürasyonlar.
RAPIDS kitaplıklarının (cuDF, cuML) CPU karşılıkları (Pandas, Scikit-learn) ile nasıl uyumlu olduğunu vurgular. Bu şekilde, nasıl olduğunu gösterebiliriz. LabelEncoders cuML'de oluşturulan Scikit-learn'de kullanılabilir ve bunun tersi de geçerlidir. Çıkarım süresi boyunca büyük miktarda tablo verisini önceden işlemeyi düşünüyorsanız, GPU hızlandırmak için RAPIDS kullanmaya devam edebileceğinizi unutmayın.

yarattığımızı hatırlayın. label_encoders.pkl ilk defterdeki dosya. Kategori kodlaması için onu bizim listemize eklemekten başka yapacak bir şey yok. model.py ön işleme için dosya.

Triton Python arka ucunun gerektirdiği model.py dosyasını oluşturmak için, arka uç tarafından gerekli biçimlendirme ve gelen tensörü işlemek için Python mantığımızı dahil edin ve daha önce atıfta bulunulan etiket kodlayıcıyı kullanın. inceleyebilirsiniz. dosya ön işleme için kullanılır.

XGBoost modeli için başka bir şey yapılmasına gerek yoktur. Modeli ilk dizüstü bilgisayarda eğittik ve Triton'un FIL arka ucu, XGBoost modelleri için ek bir çaba gerektirmiyor.

Ardından, Triton yapılandırma dosyalarına ihtiyacımız var. Triton grubundaki her model bir config.pbtxt dosya. Ayrıca, biz de bir config.pbtxt bir bütün olarak topluluk için dosya. Bu dosyalar, Triton'un beklediğimiz girdiler ve çıktılar gibi bilgilerle topluluk hakkındaki meta verileri bilmesini ve ayrıca toplulukla ilişkili DAG'yi tanımlamaya yardımcı olur.

Son olarak, bir modeli Triton'a dağıtmak için, uygun klasör yapısına sahip olmak için model deposu klasörümüze ihtiyacımız var. Triton'un model deposu düzeni için özel gereksinimleri vardır. En üst düzey model veri havuzu dizini içinde, her modelin ilgili model için bilgileri içeren kendi alt dizini vardır. Triton'daki her model dizini, modelin bir sürümünü temsil eden en az bir sayısal alt dizine sahip olmalıdır. Kullanım durumumuz için, ortaya çıkan yapı aşağıdaki gibi görünmelidir.

Bu üç ön koşulu sağladıktan sonra, dağıtım için paketleme olarak sıkıştırılmış bir dosya oluşturuyor ve onu yüklüyoruz. Amazon Basit Depolama Hizmeti (Amazon S3).

Artık bir önceki adımda Amazon S3'e yüklediğimiz model deposundan bir SageMaker modeli oluşturabiliriz.

Bu adımda, ek ortam değişkenini de sağlıyoruz SAGEMAKER_TRITON_DEFAULT_MODEL_NAMETriton tarafından yüklenecek modelin adını belirtir. Bu anahtarın değeri, Amazon S3'e yüklenen model paketindeki klasör adıyla eşleşmelidir. Bu değişken, tek bir model olması durumunda isteğe bağlıdır. Topluluk modellerinde, Triton'un SageMaker'da başlaması için bu anahtarın belirtilmesi gerekir.

Ek olarak, ayarlayabilirsiniz SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT ve SAGEMAKER_TRITON_THREAD_COUNT iplik sayımlarını optimize etmek için. Her iki yapılandırma değeri de CPU'larınızda çalışan iş parçacığı sayısını ayarlamaya yardımcı olur, böylece daha fazla sayıda çekirdeğe sahip CPU'lar için bu değerleri artırarak daha iyi kullanım elde edebilirsiniz. Çoğu durumda, varsayılan değerler genellikle iyi çalışır, ancak iş yükleriniz için daha fazla verimlilik elde edilip edilemeyeceğini görmek için denemeye değer olabilir.

Önceki modelle, uç noktada istediğimiz örneklerin türünü ve sayısını belirleyebileceğimiz bir uç nokta konfigürasyonu oluşturuyoruz.

Son olarak, yeni bir SageMaker uç noktası oluşturmak için önceki uç nokta yapılandırmasını kullanırız ve dağıtımın bitmesini bekleriz. Durum şu şekilde değişir: InService dağıtım başarılı olduktan sonra.

Bu kadar! Uç noktanız artık test ve doğrulama için hazır. Bu noktada, mümkün olan en iyi performansı elde etmek için bulut sunucusu türlerinizi ve yapılandırmanızı optimize etmeye yardımcı olacak çeşitli araçlar kullanmak isteyebilirsiniz. Aşağıdaki şekil, Triton'da bir XGBoost modeli için FIL arka ucunu kullanarak elde edilebilecek kazanımların bir örneğini sağlar.

Özet

Bu gönderide, Triton Çıkarım Sunucusu ile SageMaker'a bir XGBoost topluluğu iş yükü dağıtırken size yol gösterdik. İş yüklerini SageMaker'da Triton'a taşımak, faydalı bir yatırım getirisi olabilir. Herhangi bir teknolojinin benimsenmesinde olduğu gibi, bir inceleme süreci ve planı çok önemlidir ve iş yüklerinizi taşırken nelere dikkat etmeniz gerektiği konusunda size rehberlik edecek beş adımlı bir süreci ayrıntılı olarak anlattık. Ayrıca, Python ön işlemeyi ve bir XGBoost modelini kullanarak Triton on SageMaker kullanan bir topluluğu dağıtmak için gereken adımları derinlemesine inceledik.

SageMaker, makine öğrenimi yaşam döngüsünün her aşamasından farklılaşmamış ağır yükleri kaldırmak için araçlar sağlar, böylece model dağıtımlarınızı tamamen optimize etmek için gereken hızlı deneme ve araştırmayı kolaylaştırır. Triton Inference Server için SageMaker barındırma desteği, düşük gecikme süreli, yüksek işlem/saniye (TPS) iş yükleri sağlar.

Bu örnek için kullanılan not defterlerini şurada bulabilirsiniz: GitHub.

Yazar hakkında

James Park Amazon Web Services'te Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için Amazon.com ile birlikte çalışıyor ve yapay zeka ve makine öğrenimine özel bir ilgi duyuyor. Boş zamanlarında yeni kültürler, yeni deneyimler aramayı ve en son teknoloji trendlerini takip etmeyi sever.

Jiahong Liu NVIDIA'da Bulut Hizmeti Sağlayıcı ekibinde bir Çözüm Mimarıdır. Müşterilere, eğitim ve çıkarım zorluklarını ele almak için NVIDIA hızlandırılmış bilgi işlemden yararlanan makine öğrenimi ve yapay zeka çözümlerini benimsemelerinde yardımcı olur. Boş zamanlarında origami yapmaktan, kendin yap projelerinden ve basketbol oynamaktan hoşlanıyor.

Kşitiz Gupta NVIDIA'da Çözüm Mimarıdır. Bulut müşterilerini NVIDIA'nın sunduğu GPU AI teknolojileri hakkında eğitmekten ve makine öğrenimi ve derin öğrenme uygulamalarını hızlandırmalarında onlara yardımcı olmaktan keyif alıyor. İş dışında koşmayı, yürüyüş yapmayı ve vahşi yaşamı izlemeyi seviyor.

Bruno Aguiar de Melo Amazon.com'da bir Yazılım Geliştirme Mühendisidir ve burada bilim ekiplerinin makine öğrenimi iş yüklerini oluşturmasına, dağıtmasına ve serbest bırakmasına yardımcı olur. Model yürütme performansının, özellikle gecikme süresi kısıtlı kullanım durumlarında model kalitesi performansı kadar önemli olduğu anlayışıyla, dikkate alınması ve ölçülmesi gereken ML modelleme/tasarım aşaması içindeki enstrümantasyon ve kontrol edilebilir yönlerle ilgilenmektedir. Boş zamanlarında şarap, masa oyunları ve yemek yapmaktan hoşlanır.

Eliuth Triana NVIDIA'da Geliştirici İlişkileri Yöneticisidir. Amazon ML/DL iş yüklerini, EC2 ürünlerini ve AWS AI hizmetlerini hızlandırmak için Amazon ve AWS ürün liderlerini, geliştiricilerini ve bilim insanlarını NVIDIA teknoloji uzmanları ve ürün liderleriyle birleştirir. Ayrıca Eliuth tutkulu bir dağ bisikletçisi, kayakçı ve poker oyuncusudur.

Zaman Damgası: Ağustos 25, 2022Ağustos 25, 2022

Zaman Damgası: Kasım 7, 2022

Amazon SageMaker'da NVIDIA Triton Inference Server'da karar ağacı tabanlı ML modelleri için düşük gecikme süreli barındırma elde edin

Plato tarafından yeniden yayınlandı

Çözüme genel bakış

NVIDIA Triton Çıkarım Sunucusu

SageMaker'da NVIDIA Triton

NVIDIA FIL arka uç desteği

Triton'da bir model barındırma adımları

İş yükünüzü tanımlayın

Geçerli ve hedef performans metriklerini ve uygulanabilecek diğer hedefleri belirleyin

Gereksinimlerinize göre Triton'un iş yükünüzü barındırıp barındıramayacağını belirlemek için geriye doğru çalışın

Bir plan oluşturun ve barındırma için Triton'u kullanmak için gereken çabayı tahmin edin

Planı çalıştırın ve sonuçları doğrulayın

Uygulama

Özet

Yazar hakkında

Den fazla AWS Makine Öğrenimi

Amazon Kendra için güncellenmiş Salesforce bağlayıcısının (V2) duyurusu

Amazon SageMaker Sunucusuz Çıkarım Karşılaştırma Araç Takımıyla Tanışın

Amazon SageMaker Feature Store'daki mevcut özellik gruplarına özellikler ekleyerek yinelemeli makine öğrenimi modeli geliştirmeyi basitleştirin

Amazon SageMaker Experiments ve Amazon SageMaker Pipelines ile makine öğrenimi yolculuğunuzu düzenleyin

Amazon SageMaker Data Wrangler'ın Snowflake | Amazon Web Hizmetleri

Güvenli Amazon SageMaker Studio önceden belirlenmiş URL'ler 3. Bölüm: Studio'ya çok hesaplı özel API erişimi

GrabDefence cihaz zekası ve Amazon Fraud Detector kullanarak mobil odaklı işletmelerde dolandırıcılığı tespit edin

Twitter, Amazon SageMaker ve Hugging Face ile haber tabanlı gerçek zamanlı bir uyarı sistemi oluşturun

Güvenli, gerçek zamanlı çıkarım için Amazon SageMaker uç noktalarıyla tamamen homomorfik şifrelemeyi etkinleştirin

Amazon SageMaker JumpStart'taki kararlı dağıtım modeliyle metinden görüntüler oluşturun

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap