Amazon Music, ML Eğitimini ve Çıkarım Performansını ve Maliyetini Optimize Etmek İçin NVIDIA ile SageMaker'ı Nasıl Kullanıyor

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Akışın dinamik dünyasında Amazon Müzik, bir şarkı, podcast veya çalma listesi için yapılan her arama, açıklanmayı bekleyen bir hikayeyi, bir ruh halini veya bir duygu seli barındırır. Bu arayışlar yeni keşiflere, değerli deneyimlere ve kalıcı anılara açılan bir kapı görevi görüyor. Arama çubuğu yalnızca bir şarkı bulmakla ilgili değildir; milyonlarca aktif kullanıcının Amazon Müzik'in sunduğu zengin ve çeşitlilik içeren dünyaya kişisel yolculuğuna başlamasıyla ilgilidir.

Kullanıcıların aradığı müziği anında bulmak için üstün bir müşteri deneyimi sunmak, hem akıllı hem de duyarlı bir platform gerektirir. Amazon Music bunu başarmak için yapay zekanın gücünü kullanıyor. Ancak trafiğin yoğun olduğu zamanlarda, arama çubuğunun gerçek zamanlı yazım denetimi ve vektör arama gibi özelliklerini güçlendiren yapay zeka modellerinin eğitim maliyetini ve çıkarımını yönetirken müşteri deneyimini optimize etmek zordur.

Amazon Adaçayı Yapıcı Amazon Music'in minimum çabayla AWS Cloud üzerinde derlemesine, eğitmesine ve dağıtmasına olanak tanıyan uçtan uca bir hizmet seti sağlar. SageMaker, farklılaşmamış ağır yüklerin üstesinden gelerek, makine öğrenimi (ML) modelleriniz üzerinde çalışmaya odaklanmanıza ve altyapı gibi konular hakkında endişelenmenize olanak tanır. Paylaşılan sorumluluk modelinin bir parçası olarak SageMaker, sağladığı hizmetlerin güvenilir, performanslı ve ölçeklenebilir olmasını sağlarken, siz de ML modellerinin uygulanmasının SageMaker'ın sağladığı yeteneklerden en iyi şekilde yararlanmasını sağlar.

Bu yazıda Amazon Music'in SageMaker, NVIDIA Triton Inference Server ve TensorRT kullanarak performansı ve maliyeti optimize etmek için yaptığı yolculuğu anlatacağız. Görünüşte basit ama karmaşık olan arama çubuğunun nasıl çalıştığını, çok azdan sıfıra kadar sinir bozucu yazım hatası gecikmeleri ve ilgili gerçek zamanlı arama sonuçlarıyla Amazon Müzik evrenine kesintisiz bir yolculuk sağlamayı derinlemesine gösteriyoruz.

Amazon SageMaker ve NVIDIA: Hızlı ve doğru vektör arama ve yazım denetimi özellikleri sunuyor

Amazon Music, 100 milyondan fazla şarkı ve milyonlarca podcast bölümünden oluşan geniş bir kütüphane sunar. Ancak doğru şarkıyı veya podcast'i bulmak, özellikle de tam başlığı, sanatçıyı veya albüm adını bilmiyorsanız ya da aranan sorgu "haber podcast'leri" gibi çok geniş kapsamlıysa zor olabilir.

Amazon Music, arama ve erişim sürecini geliştirmek için iki yönlü bir yaklaşım benimsemiştir. İlk adım, kullanıcıların içeriğin anlambilimini kullanarak aradıkları en alakalı içeriği bulmalarına yardımcı olabilecek bir makine öğrenimi tekniği olan vektör aramayı (gömme tabanlı erişim olarak da bilinir) tanıtmaktır. İkinci adım, arama yığınına Transformer tabanlı bir Yazım Düzeltme modelinin dahil edilmesini içerir. Bu özellikle müzik ararken yararlı olabilir çünkü kullanıcılar her zaman bir şarkı başlığının veya sanatçı adının tam yazılışını bilemeyebilir. Yazım düzeltme, arama sorgularında yazım hatası yapsalar bile kullanıcıların aradıkları müziği bulmalarına yardımcı olabilir.

Transformer modellerinin bir arama ve alma hattında tanıtılması (vektör arama için gereken sorgu yerleştirme oluşturmada ve Yazım Düzeltme'deki üretken Seq2Seq Transformer modelinde), genel gecikmede önemli bir artışa yol açarak müşteri deneyimini olumsuz etkileyebilir. Bu nedenle, vektör arama ve yazım düzeltme modelleri için gerçek zamanlı çıkarım gecikmesini optimize etmek bizim için en önemli öncelik haline geldi.

Amazon Music ve NVIDIA, arama çubuğuna mümkün olan en iyi müşteri deneyimini getirmek için bir araya geldi; vektör arama tabanlı teknikleri kullanarak hem hızlı hem de doğru yazım denetimi özelliklerini ve gerçek zamanlı anlamsal arama önerilerini uygulamak için SageMaker'ı kullandı. Çözüm, NVIDIA A5G Tensor Core GPU'ları, SageMaker destekli NVIDIA Triton Inference Server Container'ı ve NVIDIA TensorRT modeli biçimi. Amazon Music, yazım denetimi modelinin çıkarım gecikmesini en yoğun trafikte 25 milisaniyeye düşürerek ve CPU tabanlı çıkarımla karşılaştırıldığında arama sorgusu yerleştirme oluşturma gecikmesini ortalama %63 ve maliyeti %73 azaltarak, arama çubuğunun performansını artırdı.

Ayrıca Amazon Music, yapay zeka modelini doğru sonuçlar verecek şekilde eğitirken, BART diziden diziye yazım düzeltici transformatör modeli için eğitim süresinde 12 kat gibi muazzam bir hızlanma elde etti ve GPU kullanımını optimize ederek hem zamandan hem de paradan tasarruf sağladı.

Amazon Music, müşteri arama deneyimine öncelik vermek ve iyi optimize edilmiş yazım denetimi ve vektör arama işlevlerine sahip bir arama çubuğu oluşturmak için NVIDIA ile ortaklık kurdu. Aşağıdaki bölümlerde bu optimizasyonların nasıl organize edildiği hakkında daha fazla bilgi paylaşacağız.

NVIDIA Tensor Core GPU'larıyla eğitimi optimize etme

Büyük dil modeli eğitimi için NVIDIA Tensor Core GPU'ya erişim kazanmak, onun gerçek potansiyelini yakalamak için yeterli değildir. GPU kullanımını tam olarak en üst düzeye çıkarmak için eğitim sırasında gerçekleşmesi gereken önemli optimizasyon adımları vardır. Ancak gereğinden az kullanılan bir GPU, şüphesiz kaynakların verimsiz kullanımına, eğitim sürelerinin uzamasına ve operasyonel maliyetlerin artmasına yol açacaktır.

Eğitimin ilk aşamalarında yazım düzeltici BART (bart-üssüSageMaker ml.p3.24xlarge örneğindeki (8 NVIDIA V100 Tensor Core GPU) trafo modeliyle birlikte, Amazon Music'in GPU kullanımı %35 civarındaydı. AWS ve NVIDIA çözüm mimarları, NVIDIA GPU ile hızlandırılmış eğitimin faydalarını en üst düzeye çıkarmak için, özellikle toplu iş boyutu ve hassas parametreler etrafında optimizasyon alanlarını belirleme konusunda Amazon Music'i destekledi. Bu iki önemli parametre, derin öğrenme modellerinin eğitiminin verimliliğini, hızını ve doğruluğunu etkiler.

Ortaya çıkan optimizasyonlar, yaklaşık %100'da sabit kalan yeni ve geliştirilmiş bir V89 GPU kullanımı sağladı ve Amazon Music'in eğitim süresini 3 günden 5-6 saate büyük ölçüde düşürdü. Toplu iş boyutunu 32'den 256'ya değiştirerek ve çalıştırma gibi optimizasyon tekniklerini kullanarak otomatik karma hassas eğitim Amazon Music yalnızca FP32 hassasiyetini kullanmak yerine hem zamandan hem de paradan tasarruf etmeyi başardı.

Aşağıdaki grafik, optimizasyonlardan sonra GPU kullanımındaki %54 puanlık artışı göstermektedir.

Aşağıdaki şekil eğitim süresindeki ivmeyi göstermektedir.

Toplu iş boyutundaki bu artış, NVIDIA GPU'nun birden fazla Tensör Çekirdeği üzerinde eş zamanlı olarak çok daha fazla veriyi işlemesine olanak tanıdı ve bu da eğitim süresinin artmasına neden oldu. Ancak bellekle hassas bir dengeyi korumak önemlidir çünkü daha büyük toplu iş boyutları daha fazla bellek gerektirir. Hem toplu iş boyutunun artırılması hem de karma hassasiyetin kullanılması, NVIDIA Tensor Core GPU'ların gücünün ortaya çıkarılmasında kritik öneme sahip olabilir.

Model yakınsama için eğitildikten sonra Amazon Music'in arama çubuğunda çıkarım dağıtımını optimize etme zamanı gelmişti.

Yazım Düzeltme: BART modeli çıkarımı

SageMaker G5 bulut sunucuları ve NVIDIA Triton Inference Server'ın (açık kaynaklı bir çıkarım hizmeti yazılımı) yanı sıra, çıkarım iyileştiricisi ve çalışma zamanı içeren yüksek performanslı derin öğrenme çıkarımına yönelik bir SDK olan NVIDIA TensorRT'nin yardımıyla Amazon Music, BART yazım denetimini sınırlandırıyor (bart-üssü) sunucu çıkarımı gecikmesini yoğun trafikte yalnızca 25 milisaniyeye kadar modelleyin. Buna yük dengeleme, ön işleme, model çıkarımı ve son işleme süreleri gibi genel giderler dahildir.

NVIDIA Triton Inference Server iki farklı türde arka uç sağlar: biri modelleri GPU'da barındırmak için, diğeri ise ön işleme ve son işleme adımlarında kullanılmak üzere kendi özel kodunuzu getirebileceğiniz bir Python arka ucu. Aşağıdaki şekil şunları göstermektedir: model topluluk şeması.

Amazon Music BART'ını kurdu çıkarım hattı CPU'larda hem ön işleme (metin tokenleştirme) hem de son işleme (metne tokenizasyon) adımlarını çalıştırarak, model yürütme adımı ise CPU'larda çalışır. NVIDIA A10G Tensör Çekirdekli GPU'lar. Bir Python arka ucu, ön işleme ve son işleme adımlarının ortasında yer alır ve TensorRT ile dönüştürülmüş BART modellerinin yanı sıra kodlayıcı/kod çözücü ağlarıyla iletişim kurmaktan sorumludur. TensorRT hassas kalibrasyon, katman ve tensör birleştirme, çekirdek otomatik ayarlama, dinamik tensör belleği, çoklu akış yürütme ve zaman birleştirme ile çıkarım performansını artırır.

Aşağıdaki şekil, yazım düzeltici BART modeli çıkarım hattını oluşturan anahtar modüllerin üst düzey tasarımını göstermektedir.

Vektör arama: Sorgu yerleştirme cümle oluşturma BERT modeli çıkarımı

Aşağıdaki grafik, CPU tabanlı bir taban çizgisiyle karşılaştırıldığında NVIDIA Yapay Zeka Çıkarım Platformu kullanıldığında gecikmedeki %60'lık iyileşmeyi (p90 800-900 TPS'ye hizmet eder) göstermektedir.

Aşağıdaki grafik, CPU tabanlı temele kıyasla NVIDIA AI Çıkarım Platformu kullanıldığında maliyette %70'lik bir iyileşme göstermektedir.

Aşağıdaki şekilde yüksek performanslı derin öğrenme çıkarımına yönelik bir SDK gösterilmektedir. Çıkarım uygulamaları için düşük gecikme ve yüksek verim sağlayan bir derin öğrenme çıkarım iyileştiricisi ve çalışma süresi içerir.

Bu sonuçlara ulaşmak için Amazon Music, aşağıdakileri kullanarak birkaç farklı Triton dağıtım parametresini denedi: Triton Model Analizörü, verimli çıkarımı dağıtmak için en iyi NVIDIA Triton model yapılandırmasını bulmanıza yardımcı olan bir araç. Triton, model çıkarımını optimize etmek için dinamik toplu işlem ve eşzamanlı model yürütme gibi özellikler sunar ve diğer esneklik yetenekleri için çerçeve desteğine sahiptir. Dinamik gruplama, çıkarım isteklerini toplar ve verimi en üst düzeye çıkarmak için bunları sorunsuz bir şekilde gruplar halinde gruplandırır ve aynı zamanda Amazon Müzik kullanıcıları için gerçek zamanlı yanıtlar sağlar. Eş zamanlı model yürütme yeteneği, modelin birden fazla kopyasını aynı GPU'da barındırarak çıkarım performansını daha da artırır. Son olarak, yararlanarak Triton Model AnalizörüAmazon Music, simüle edilmiş trafiği kullanarak çıkarım performansını en üst düzeye çıkaran en uygun ayarları bulmak için dinamik toplu işleme ve model eşzamanlılık çıkarımı barındırma parametrelerinde dikkatli bir şekilde ince ayar yapmayı başardı.

Sonuç

SageMaker'da Triton Inference Server ve TensorRT ile yapılandırmaların optimize edilmesi, Amazon Music'in hem eğitim hem de çıkarım hatları için olağanüstü sonuçlar elde etmesine olanak sağladı. SageMaker platformu, üretim yapay zekası için uçtan uca açık bir platformdur ve hem donanım hem de yazılım genelinde tüm önemli yapay zeka kullanım durumlarını destekleyecek şekilde hızlı değer elde etme süresi ve çok yönlülük sağlar. Amazon Music gibi şirketler, eğitim için V100 GPU kullanımını optimize ederek ve NVIDIA A5G Tensor Core GPU'ları kullanarak CPU'lardan G10 bulut sunucularına geçiş yapmanın yanı sıra Triton Inference Server ve TensorRT gibi optimize edilmiş NVIDIA yazılımlarını kullanarak zamandan ve paradan tasarruf ederken her ikisinde de performansı artırabilir. eğitim ve çıkarım, doğrudan daha iyi bir müşteri deneyimine ve daha düşük işletme maliyetlerine dönüşüyor.

SageMaker, makine öğrenimi eğitimi ve barındırmanın farklı olmayan ağır yükünü üstlenerek Amazon Music'in hem donanım hem de yazılım genelinde güvenilir, ölçeklenebilir makine öğrenimi işlemleri sunmasına olanak tanır.

Daha düşük maliyetlerle daha iyi performansa ulaşmanın yolları olup olmadığını görmek için her zaman donanım ve yazılım tercihlerinizi değerlendirerek SageMaker kullanarak iş yüklerinizin optimize edildiğini kontrol etmenizi öneririz.

AWS'de NVIDIA AI hakkında daha fazla bilgi edinmek için aşağıdakilere bakın:

yazarlar hakkında

Amazon Music, makine öğrenimi eğitimini optimize etmek ve performans ile maliyeti çıkarmak için SageMaker'ı NVIDIA ile nasıl kullanıyor? Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. siddharth sharma Amazon Music'te Bilim ve Modelleme ekibinde Makine Öğrenimi Teknoloji Lideridir. Arama, Erişim, Sıralama ve NLP ile ilgili modelleme problemleri konusunda uzmanlaşmıştır. Siddharth, Reklam Hedefleme, Çoklu Mod Alma, Arama Sorgusunu Anlama vb. gibi gecikmeye duyarlı büyük ölçekli makine öğrenimi sorunları üzerinde çalışan zengin bir geçmişe sahiptir. Siddharth, Amazon Music'te çalışmaya başlamadan önce Meta, Walmart Labs, Rakuten gibi şirketlerde çalışıyordu. E-Ticaret merkezli ML Sorunları üzerine. Siddharth, kariyerinin ilk dönemlerini Körfez Bölgesi'ndeki reklam teknolojisi girişimlerinde çalışarak geçirdi.

Amazon Music, makine öğrenimi eğitimini optimize etmek ve performans ile maliyeti çıkarmak için SageMaker'ı NVIDIA ile nasıl kullanıyor? Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Tarun Sharma Amazon Müzik Arama Uygunluğunu yöneten bir Yazılım Geliştirme Yöneticisidir. Bilim adamları ve makine öğrenimi mühendislerinden oluşan ekibi, Amazon Music müşterilerine bağlamsal olarak alakalı ve kişiselleştirilmiş arama sonuçları sağlamaktan sorumludur.

Amazon Music, makine öğrenimi eğitimini optimize etmek ve performans ile maliyeti çıkarmak için SageMaker'ı NVIDIA ile nasıl kullanıyor? Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. James Park Amazon Web Services'ta bir Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için Amazon.com ile birlikte çalışıyor ve yapay zeka ve makine öğrenimine özel bir ilgisi var. Boş zamanlarında yeni kültürler, yeni deneyimler aramayı ve en son teknoloji trendlerini takip etmeyi seviyor.Onu şu adreste bulabilirsiniz: LinkedIn.

Kşitiz Gupta NVIDIA'da Çözüm Mimarıdır. Bulut müşterilerini NVIDIA'nın sunduğu GPU AI teknolojileri hakkında eğitmekten ve makine öğrenimi ve derin öğrenme uygulamalarını hızlandırmalarında onlara yardımcı olmaktan keyif alıyor. İş dışında koşmayı, yürüyüş yapmayı ve vahşi yaşamı izlemeyi seviyor.

Jiahong Liu NVIDIA'da Bulut Hizmeti Sağlayıcı ekibinde bir Çözüm Mimarıdır. Müşterilere, eğitim ve çıkarım zorluklarını ele almak için NVIDIA hızlandırılmış bilgi işlemden yararlanan makine öğrenimi ve yapay zeka çözümlerini benimsemelerinde yardımcı olur. Boş zamanlarında origami yapmaktan, kendin yap projelerinden ve basketbol oynamaktan hoşlanıyor.

Amazon Music, makine öğrenimi eğitimini optimize etmek ve performans ile maliyeti çıkarmak için SageMaker'ı NVIDIA ile nasıl kullanıyor? Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Tuğrul Konuk NVIDIA'da Kıdemli Çözüm Mimarıdır ve büyük ölçekli eğitim, çok modlu derin öğrenme ve yüksek performanslı bilimsel hesaplama konularında uzmanlaşmıştır. NVIDIA'dan önce enerji sektöründe hesaplamalı görüntüleme için algoritmalar geliştirmeye odaklanmıştı. Doktora çalışmasının bir parçası olarak ölçekli sayısal simülasyonlar için fizik tabanlı derin öğrenme üzerinde çalıştı. Boş zamanlarında kitap okumaktan, gitar ve piyano çalmaktan hoşlanıyor.

Amazon Music, makine öğrenimi eğitimini optimize etmek ve performans ile maliyeti çıkarmak için SageMaker'ı NVIDIA ile nasıl kullanıyor? Amazon Web Hizmetleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Rohil Bhargava NVIDIA'da Ürün Pazarlama Müdürüdür ve NVIDIA uygulama çerçevelerini ve SDK'ları belirli CSP platformlarında dağıtmaya odaklanmıştır.

Eliuth Triana Isaza NVIDIA'da, Amazon'un AI MLOps'unu, DevOps'unu, Bilim Adamlarını ve AWS teknik uzmanlarını veri iyileştirme, GPU eğitimi, model çıkarımı ve AWS GPU bulut sunucularında üretim dağıtımına kadar uzanan Generative AI Foundation modellerini hızlandırmak ve optimize etmek için NVIDIA bilgi işlem yığınında uzmanlaşmaya teşvik eden bir Geliştirici İlişkileri Yöneticisidir. . Ayrıca Eliuth tutkulu bir dağ bisikletçisi, kayakçı, tenis ve poker oyuncusudur.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoData.Network Dikey Üretken Yapay Zeka. Kendine güç ver. Buradan Erişin.
PlatoAiStream. Web3 Zekası. Bilgi Genişletildi. Buradan Erişin.
PlatoESG. karbon, temiz teknoloji, Enerji, Çevre, Güneş, Atık Yönetimi. Buradan Erişin.
PlatoSağlık. Biyoteknoloji ve Klinik Araştırmalar Zekası. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/machine-learning/how-amazon-music-uses-sagemaker-with-nvidia-to-optimize-ml-training-and-inference-performance-and-cost/

Zaman Damgası: 21 Kasım 2023

Zaman Damgası: Mayıs 1, 2024

Plato tarafından yeniden yayınlandı

AWS dağıtımında tek tıklamayla Kubeflow ile Amazon EKS ve Amazon SageMaker'da hibrit makine öğrenimi iş akışlarını etkinleştirme

Haftalık tahminler artık Amazon Forecast ile Pazar günü başlayabilir

Amazon SageMaker Pipelines'ı kullanarak Amazon SageMaker Autopilot ML modellerini denemeden üretime taşıyın

Taranmış veya görüntü tabanlı bir metin belgesi için Amazon Kendra aramasını etkinleştirin

AWS Trainium'un işlevselliğini özel operatörlerle genişletme

Veri deneyimini yeniden keşfetme: Öngörüleri ortaya çıkarmak için üretken yapay zekayı ve modern veri mimarisini kullanın | Amazon Web Hizmetleri

Medidata, makine öğrenimi çıkarımı tahminlerini 30 kata kadar daha hızlı hızlandırmak için Amazon SageMaker eşzamansız çıkarımını nasıl kullandı?

Amazon SageMaker Canvas ve Amazon QuickSight ile akıllı karar almayı etkinleştirin

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap