Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.

Amazon Search, AWS'de NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımını nasıl başarır?

Amazon Search'ün vizyonu, müşterilerin zahmetsizce arama yapmasını sağlamaktır. Yazım düzeltmemiz, amaçlanan kelimelerin tam yazılışını bilmeseniz bile, istediğinizi bulmanıza yardımcı olur. Geçmişte, yazım düzeltmesi için manuel özellik mühendisliği ile klasik makine öğrenimi (ML) algoritmaları kullanıyorduk. Yazım düzeltme performansında yeni nesil sıçrama yapmak için, diziden diziye modeller de dahil olmak üzere bir dizi derin öğrenme yaklaşımını benimsiyoruz. Derin öğrenme (DL) modelleri hem eğitim hem de çıkarım açısından yoğun bilgi işlem gerektirir ve bu maliyetler, tarihsel olarak DL modellerini Amazon ölçeğinde bir üretim ortamında kullanışsız hale getirmiştir. Bu yazıda, popüler Hugging Face T534 Transformer için bu engelleri aştığımız ve %5 çıkarım hızı artışı sağladığımız bir çıkarım optimizasyonu deneyinin sonuçlarını sunuyoruz.

Zorluklar

Metinden Metne Aktarım Dönüştürücüsü (T5, Birleşik Metinden Metne Dönüştürücü ile Transfer Öğrenmenin Sınırlarını Keşfetme, Reffel ve diğerleri), en gelişmiş doğal dil işleme (NLP) model mimarisidir. T5, deneylerimizde iyi performans gösterdiğini bulduğumuz, yazım düzeltmesi için umut verici bir mimaridir. Açık kaynaklı derin öğrenme çerçeveleri ve devam eden akademik ve kurumsal araştırmalar sayesinde T5 modellerinin araştırılması, geliştirilmesi ve eğitilmesi kolaydır.

Ancak, bir T5 ile üretim düzeyinde, düşük gecikme süreli çıkarım elde etmek zordur. Örneğin, bir Amazon Elastic Compute Cloud (EC5) p45xlarge bulut sunucusunu donatan dört NVIDIA V100 Tensor Core GPU'dan birinde PyTorch T2 ile tek bir çıkarım 3.8 milisaniye sürer. (Rapor edilen tüm çıkarsama numaraları, 9 jetonluk bir giriş ve 11 jetonluk çıkış içindir. T5 mimarilerinin gecikmesi, hem giriş hem de çıkış uzunluklarına duyarlıdır.)

Düşük gecikme süreli, uygun maliyetli geniş ölçekte T5 çıkarımı, Amazon Search dışında birçok AWS müşterisi tarafından bildirilen ve bu gönderiye katkıda bulunma motivasyonumuzu artıran bilinen bir zorluktur. Amazon Search, çevrimdışı, bilimsel bir başarıdan müşteriye yönelik bir üretim hizmetine geçmek için aşağıdaki zorluklarla karşı karşıyadır:

  • Gecikme – 5 milisaniyeden daha kısa P50 gecikme süresinde T99 çıkarımı nasıl gerçekleştirilebilir?
  • çıktı – Büyük ölçekli eşzamanlı çıkarım istekleri nasıl ele alınır?
  • Maliyet etkinliği – Maliyetler nasıl kontrol altında tutulur

Bu yazının geri kalanında, NVIDIA çıkarım optimizasyonunun nasıl yığınlandığını açıklıyoruz - yani NVIDIA TensorRT derleyici ve açık kaynak NVIDIA Triton Çıkarım Sunucusu— bu zorlukları çözer. Okumak NVIDIA'nın basın açıklaması güncellemeler hakkında bilgi edinmek için.

NVIDIA TensorRT: Çıkarım optimizasyonu ile maliyetleri ve gecikmeyi azaltma

Derin öğrenme çerçeveleri, bilimde hızlı bir şekilde yinelenmeye uygundur ve bilimsel modelleme, veri yükleme ve eğitim optimizasyonu için çok sayıda işlevsellik ile birlikte gelir. Bununla birlikte, bu araçların çoğu, matris çarpma ve etkinleştirme işlevleri için yalnızca minimal bir operatör kümesi gerektiren çıkarım için yetersizdir. Bu nedenle, derin öğrenme geliştirme çerçevesinde çıkarım yapmak yerine özel, yalnızca tahmin içeren bir uygulama kullanılarak önemli kazanımlar gerçekleştirilebilir.

NVIDIA TensorRT, yüksek performanslı derin öğrenme çıkarımı için bir SDK'dır. TensorRT, hem NVIDIA GPU'larda bulunan düşük seviyeli optimize edilmiş çekirdekleri kullanarak optimize edilmiş bir çalışma zamanı hem de çıkarım hesaplamasını optimize edilmiş bir sırada yeniden düzenleyen yalnızca çıkarım model grafiği sunar.

Bir sonraki bölümde, TensorRT'nin ardındaki ayrıntılardan ve performansı nasıl hızlandırdığından bahsedeceğiz.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.

  1. Azaltılmış Hassasiyet doğruluğu korurken modelleri nicelleştirerek FP16 veya INT8 ile verimi en üst düzeye çıkarır.
  2. Katman ve Tensör Füzyon çekirdek başlatma gecikmesini önlemek için çekirdekteki düğümleri birleştirerek GPU belleği ve bant genişliği kullanımını optimize eder.
  3. Çekirdek Otomatik Ayarlama hedef GPU platformuna ve veri çekirdeği şekillerine göre en iyi veri katmanlarını ve algoritmaları seçer.
  4. Dinamik Tensör Belleği gereksiz bellek tüketimini ara sonuçlardan kurtararak bellek ayak izini en aza indirir ve belleği tensörler için verimli bir şekilde yeniden kullanır.
  5. Çoklu Akış Yürütme özel CUDA akışlarıyla paralel olarak birden çok giriş akışını işlemek için ölçeklenebilir bir tasarım kullanır.
  6. Zaman Füzyonu Dinamik olarak oluşturulmuş çekirdeklerle zaman adımları boyunca tekrarlayan sinir ağlarını optimize eder.

T5, mimarileri için yapı taşları olarak transformatör katmanlarını kullanır. NVIDIA TensorRT 8.2'nin en son sürümü, gerçek zamanlı çıkarım için T5 ve GPT-2 modelleri için yeni optimizasyonlar sunar. Aşağıdaki tabloda, NVIDIA T5 GPU'lar tarafından desteklenen Amazon EC2G4dn bulut sunucularında çalışan bazı genel T4 modellerinde TensorRT ile hızlandırmayı ve NVIDIA A2G GPU'ları tarafından desteklenen EC5 G10 bulut sunucularını görebiliriz.

 

Model örnek Temel Pytorch Gecikmesi (ms) TensorRT 8.2 Gecikme (ms) Hızlanma ve HF taban çizgisi karşılaştırması
FP32 FP32 FP16 FP32 FP16
Encoder şifre çözücü Sona Uç Encoder şifre çözücü Sona Uç Encoder şifre çözücü Sona Uç Sona Uç Sona Uç
t5-küçük g4dn.xlarge 5.98 9.74 30.71 1.28 2.25 7.54 0.93 1.59 5.91 %407.40 %519.34
g5.xlarge 4.63 7.56 24.22 0.61 1.05 3.99 0.47 0.80 3.19 %606.66 %760.01
t5-taban g4dn.xlarge 11.61 19.05 78.44 3.18 5.45 19.59 3.15 2.96 13.76 %400.48 %569.97
g5.xlarge 8.59 14.23 59.98 1.55 2.47 11.32 1.54 1.65 8.46 %530.05 %709.20

Ekli performansın optimizasyonları ve çoğaltılması hakkında daha fazla bilgi için bkz. NVIDIA TensorRT ile Gerçek Zamanlı Çıkarım için T5 ve GPT-2'yi Optimize Etme.

Derlemenin model doğruluğunu koruduğuna dikkat etmek önemlidir, çünkü damıtma veya budama gibi ağırlık kaldırma sıkıştırmasının aksine, model bilimini değiştirmeden çıkarım ortamı ve hesaplama çizelgeleme üzerinde çalışır. NVIDIA TensorRT, daha fazla kazanım için derlemeyi nicelemeyle birleştirmeye olanak tanır. Kuantizasyonun en son NVIDIA donanımında çifte faydası vardır: bellek kullanımını azaltır ve karışık hassasiyette birleştirilmiş matris-çarpma-ekleme çalıştıran DL'ye özgü hücreler olan NVIDIA Tensör Çekirdeklerinin kullanılmasını sağlar.

Hugging Face T5 modeliyle Amazon Search denemesi durumunda, model çıkarımı için PyTorch'u TensorRT ile değiştirmek hızı %534 artırır.

NVIDIA Triton: Düşük gecikmeli, yüksek verimli çıkarım sunumu

Modern model sunma çözümleri, çevrimdışı eğitilmiş modelleri müşteriye yönelik ML destekli ürünlere dönüştürebilir. Böyle bir ölçekte makul maliyetleri korumak için, genel giderleri düşük tutmak (HTTP işleme, ön işleme ve son işleme, CPU-GPU iletişimi) ve GPU'ların paralel işleme yeteneğinden tam olarak yararlanmak önemlidir.

NVIDIA Triton, model çalışma zamanları (diğerlerinin yanı sıra NVIDIA TensorRT, ONNX, PyTorch, XGBoost) ve GPU'lar, CPU ve AWS Çıkarımı.

ML uygulayıcıları Triton'u birçok nedenden dolayı severler. Dinamik toplu işleme yeteneği, kullanıcı tanımlı bir gecikme sırasında ve maksimum kullanıcı tanımlı bir toplu iş boyutu içinde çıkarım isteklerinin toplanmasına olanak tanır, böylece GPU çıkarımı toplu hale getirilir ve CPU-GPU iletişim ek yükünü amorti eder. Dinamik toplu işlemin sunucu tarafında ve çok kısa zaman dilimlerinde gerçekleştiğini, böylece istekte bulunan istemcinin hala eşzamanlı, gerçek zamanlıya yakın bir çağırma deneyimine sahip olduğunu unutmayın. Triton kullanıcıları aynı zamanda eş zamanlı model yürütme kapasitesinin de keyfini çıkarıyor. GPU'lar, hesaplama yoğun iş yüklerini paralel olarak yürütmede mükemmel olan güçlü çoklu görevlilerdir. Triton, birden çok model örneğini aynı anda çalıştırmak için CUDA akışlarını kullanarak GPU kullanımını ve verimi en üst düzeye çıkarır. Bu model örnekleri, farklı kullanım durumları için farklı çerçevelerden farklı modeller veya aynı modelin doğrudan bir kopyası olabilir. Bu, yeterli boşta GPU belleğiniz olduğunda doğrudan verim iyileştirmesi anlamına gelir. Ayrıca, Triton belirli bir DL geliştirme çerçevesine bağlı olmadığından, bilim adamlarının seçtikleri araçta kendilerini tam olarak ifade etmelerine olanak tanır.

AWS'de Triton ile Amazon Search daha iyi hizmet vermeyi bekliyor Amazon.com müşteriler ve gecikme gereksinimlerini düşük maliyetle karşılar. TensorRT çalışma zamanı ve Triton sunucusu arasındaki sıkı entegrasyon, geliştirme deneyimini kolaylaştırır. AWS bulut altyapısını kullanmak, çıtayı yüksek veya güvenilirlik ve güvenliği korurken, aktarım hızı gereksinimlerine göre dakikalar içinde ölçeğin büyütülmesine veya küçültülmesine olanak tanır.

AWS, giriş engelini nasıl düşürür?

Amazon Search, bu deneyi Amazon EC2 altyapısı üzerinde gerçekleştirirken, son teknoloji derin öğrenme çözümlerinin geliştirilmesini, eğitilmesini ve barındırılmasını kolaylaştırmak için başka AWS hizmetleri de mevcuttur.

Örneğin, AWS ve NVIDIA, Triton Inference Server'ın yönetilen bir uygulamasını piyasaya sürmek için işbirliği yaptı. Amazon Adaçayı Yapıcı ; Daha fazla bilgi için, bkz Amazon SageMaker'da NVIDIA Triton Inference Server ile hızlı ve ölçeklenebilir yapay zekayı devreye alın. AWS ayrıca Amazon SageMaker ile Amazon Search T5 modelinin türetildiği açık kaynaklı çerçeve olan Hugging Face Transformers arasında yönetilen, optimize edilmiş bir entegrasyon geliştirmek için Hugging Face ile işbirliği yaptı; da daha fazlasını oku https://aws.amazon.com/machine-learning/hugging-face/.

Gecikmeye duyarlı CPU ve GPU derin öğrenme hizmet uygulamalarına sahip müşterileri, AWS'de NVIDIA TensorRT ve Triton'u değerlendirmeye teşvik ediyoruz. Ne inşa ettiğinizi bize bildirin!

Amazon Arama için derin öğrenme ve derin öğrenmeye dayalı çözümler oluşturma konusunda tutkulu musunuz? göz atın kariyer sayfası.


Yazarlar Hakkında

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.RJ Search M5 ekibinde, eğitim ve çıkarım için büyük ölçekli derin öğrenme sistemleri oluşturma çabalarına öncülük eden bir mühendistir. İş dışında farklı mutfakları keşfediyor ve raket sporları yapıyor.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Hemant Pugaliya Search M5'te Uygulamalı Bilim Adamı. Dünya çapında Amazon alışverişinde müşteri deneyimini iyileştirmek için en son doğal dil işleme ve derin öğrenme araştırmalarını uygulamaya çalışıyor. Araştırma ilgi alanları arasında doğal dil işleme ve büyük ölçekli makine öğrenme sistemleri yer almaktadır. İş dışında yürüyüş yapmayı, yemek yapmayı ve okumayı sever.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Andy Güneş Arama Yazım Düzeltmesi için Yazılım Mühendisi ve Teknik Liderdir. Araştırma ilgi alanları arasında derin öğrenme çıkarım gecikmesini optimize etmek ve hızlı deney platformları oluşturmak yer alıyor. İş dışında film yapmaktan ve akrobasi yapmaktan hoşlanıyor.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Le Cai Amazon Search'te Yazılım Mühendisidir. Müşterilere alışveriş deneyimlerinde yardımcı olmak için Arama Yazım Düzeltme performansını iyileştirmeye çalışıyor. Derin öğrenme modeli için yüksek performanslı çevrimiçi çıkarım ve dağıtılmış eğitim optimizasyonuna odaklanıyor. İş dışında kayak yapmayı, yürüyüş yapmayı ve bisiklete binmeyi sever.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Anthony Ko şu anda Search M5 Palo Alto, CA'da yazılım mühendisi olarak çalışıyor. Model dağıtımı ve çıkarım optimizasyonu için araçlar ve ürünler oluşturmak üzerinde çalışıyor. İş dışında yemek yapmayı ve raket sporları yapmayı sever.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Olivier Cruchant Fransa merkezli AWS'de Makine Öğrenimi Uzmanı Çözüm Mimarıdır. Olivier, küçük girişimlerden büyük kuruluşlara kadar AWS müşterilerinin üretim düzeyinde makine öğrenimi uygulamaları geliştirmesine ve dağıtmasına yardımcı olur. Boş zamanlarında araştırma makalelerini okumaktan ve arkadaşları ve ailesiyle vahşi doğayı keşfetmekten hoşlanır.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Anish Mohan NVIDIA'da bir Makine Öğrenimi Mimarıdır ve Seattle bölgesindeki müşterileri ile ML ve DL etkileşimlerinin teknik lideridir.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Jiahong Liu NVIDIA'da Bulut Hizmeti Sağlayıcı ekibinde bir Çözüm Mimarıdır. Müşterilere, eğitim ve çıkarım zorluklarını ele almak için NVIDIA hızlandırılmış bilgi işlemden yararlanan makine öğrenimi ve yapay zeka çözümlerini benimsemelerinde yardımcı olur. Boş zamanlarında origami yapmaktan, kendin yap projelerinden ve basketbol oynamaktan hoşlanıyor.

Amazon Arama, AWS PlatoBlockchain Veri Zekası üzerinde NVIDIA Triton ile düşük gecikme süreli, yüksek verimli T5 çıkarımına nasıl ulaşıyor? Dikey Arama. Ai.Eliuth Triana NVIDIA'da Geliştirici İlişkileri Yöneticisidir. Amazon ML/DL iş yüklerini, EC2 ürünlerini ve AWS AI hizmetlerini hızlandırmak için Amazon ve AWS ürün liderlerini, geliştiricilerini ve bilim insanlarını NVIDIA teknoloji uzmanları ve ürün liderleriyle birleştirir. Ayrıca Eliuth tutkulu bir dağ bisikletçisi, kayakçı ve poker oyuncusudur.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi