Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon webbtjänster

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon webbtjänster

I den dynamiska världen av streaming på Amazon Music, varje sökning efter en låt, podcast eller spellista innehåller en historia, en stämning eller en flod av känslor som väntar på att avslöjas. Dessa sökningar fungerar som en inkörsport till nya upptäckter, omhuldade upplevelser och bestående minnen. Sökfältet handlar inte bara om att hitta en låt; det handlar om de miljontals aktiva användare som börjar sin personliga resa in i den rika och mångfaldiga värld som Amazon Music har att erbjuda.

Att leverera en överlägsen kundupplevelse för att omedelbart hitta musiken som användare söker efter kräver en plattform som är både smart och lyhörd. Amazon Music använder kraften hos AI för att åstadkomma detta. Det är dock svårt att optimera kundupplevelsen samtidigt som kostnaderna för utbildning och slutledning av AI-modeller som driver sökfältets möjligheter, som stavningskontroll och vektorsökning i realtid, svårt under högtrafik.

Amazon SageMaker tillhandahåller en komplett uppsättning tjänster som gör att Amazon Music kan bygga, träna och distribuera på AWS-molnet med minimal ansträngning. Genom att ta hand om de odifferentierade tunga lyften låter SageMaker dig fokusera på att arbeta med dina maskininlärningsmodeller (ML) och inte oroa dig för saker som infrastruktur. Som en del av modellen för delat ansvar ser SageMaker till att tjänsterna de tillhandahåller är tillförlitliga, prestanda och skalbara, samtidigt som du ser till att tillämpningen av ML-modellerna utnyttjar de möjligheter som SageMaker tillhandahåller på bästa sätt.

I det här inlägget går vi igenom resan Amazon Music tog för att optimera prestanda och kostnader med SageMaker och NVIDIA Triton Inference Server och TensorRT. Vi dyker djupt ner i att visa hur den till synes enkla, men ändå intrikata sökfältet fungerar, vilket säkerställer en obruten resa in i Amazon Musics universum med lite till noll frustrerande stavfelsförseningar och relevanta sökresultat i realtid.

Amazon SageMaker och NVIDIA: Levererar snabb och exakt vektorsökning och stavningskontroll

Amazon Music erbjuder ett stort bibliotek med över 100 miljoner låtar och miljontals poddavsnitt. Det kan dock vara svårt att hitta rätt låt eller podcast, särskilt om du inte känner till den exakta titeln, artisten eller albumnamnet, eller om sökfrågan är väldigt bred, till exempel "nyhetspoddsändningar".

Amazon Music har tagit ett tvådelat tillvägagångssätt för att förbättra sök- och hämtningsprocessen. Det första steget är att introducera vektorsökning (även känd som inbäddningsbaserad hämtning), en ML-teknik som kan hjälpa användare att hitta det mest relevanta innehållet de letar efter genom att använda semantik för innehållet. Det andra steget innebär att introducera en transformatorbaserad stavningskorrigeringsmodell i sökstacken. Detta kan vara särskilt användbart när du söker efter musik, eftersom användare kanske inte alltid vet den exakta stavningen av en låttitel eller artistnamn. Stavningskorrigering kan hjälpa användare att hitta den musik de letar efter även om de gör ett stavfel i sin sökfråga.

Att introducera transformatormodeller i en sök- och hämtningspipeline (i fråga om inbäddningsgenerering som behövs för vektorsökning och den generativa Seq2Seq Transformer-modellen i stavningskorrigering) kan leda till en betydande ökning av den totala latensen, vilket påverkar kundupplevelsen negativt. Därför blev det en högsta prioritet för oss att optimera inferensfördröjningen i realtid för modeller för vektorsökning och stavningskorrigering.

Amazon Music och NVIDIA har gått samman för att ge den bästa möjliga kundupplevelsen till sökfältet, genom att använda SageMaker för att implementera både snabba och exakta stavningskontrollfunktioner och semantiska sökförslag i realtid med vektorsökningsbaserade tekniker. Lösningen inkluderar användning av SageMaker-värd som drivs av G5-instanser som använder NVIDIA A10G Tensor Core GPU, SageMaker-stödda NVIDIA Triton Inference Server Container och NVIDIA TensorRT modellformat. Genom att minska inferensfördröjningen för stavningskontrollmodellen till 25 millisekunder vid topptrafik, och minska inbäddningsfördröjningen för sökfrågor med 63 % i genomsnitt och kostnaden med 73 % jämfört med CPU-baserad slutledning, har Amazon Music höjt sökfältets prestanda.

Dessutom, när man tränade AI-modellen för att leverera exakta resultat, uppnådde Amazon Music en enorm 12-faldig acceleration i träningstid för sin BART-sekvens-till-sekvens-stavningskorrigeringsmodell, vilket sparade både tid och pengar genom att optimera deras GPU-användning.

Amazon Music samarbetade med NVIDIA för att prioritera kundsökningsupplevelsen och skapa ett sökfält med väloptimerad stavningskontroll och vektorsökfunktioner. I de följande avsnitten delar vi mer om hur dessa optimeringar organiserades.

Optimera träning med NVIDIA Tensor Core GPU:er

Att få tillgång till en NVIDIA Tensor Core GPU för utbildning i stora språkmodeller är inte tillräckligt för att fånga dess verkliga potential. Det finns viktiga optimeringssteg som måste ske under träning för att fullt ut maximera GPU:ns utnyttjande. Men en underutnyttjad GPU kommer utan tvekan att leda till ineffektiv användning av resurser, förlängd utbildningstid och ökade driftskostnader.

Under de inledande faserna av träningen stavningskorrigeraren BART (bart-bas) transformatormodell på en SageMaker ml.p3.24xlarge-instans (8 NVIDIA V100 Tensor Core GPUs), Amazon Musics GPU-användning var cirka 35 %. För att maximera fördelarna med NVIDIA GPU-accelererad utbildning, stödde AWS- och NVIDIA-lösningsarkitekter Amazon Music för att identifiera områden för optimeringar, särskilt kring batchstorlek och precisionsparametrar. Dessa två avgörande parametrar påverkar effektiviteten, hastigheten och noggrannheten i träningsmodeller för djupinlärning.

De resulterande optimeringarna gav en ny och förbättrad V100 GPU-användning, stabil på cirka 89 %, vilket drastiskt minskade Amazon Musics träningstid från 3 dagar till 5–6 timmar. Genom att byta batchstorlek från 32 till 256 och använda optimeringstekniker som att köra automatisk blandad precisionsträning istället för att bara använda FP32-precision kunde Amazon Music spara både tid och pengar.

Följande diagram illustrerar ökningen med 54 % i procentenheter i GPU-användning efter optimeringar.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Följande figur illustrerar accelerationen i träningstid.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Denna ökning av batchstorlek gjorde det möjligt för NVIDIA GPU att behandla betydligt mer data samtidigt över flera Tensor Cores, vilket resulterade i accelererad träningstid. Det är dock viktigt att upprätthålla en känslig balans med minnet, eftersom större batchstorlekar kräver mer minne. Både att öka batchstorleken och använda blandad precision kan vara avgörande för att låsa upp kraften hos NVIDIA Tensor Core GPU:er.

Efter att modellen tränats för att konvergens, var det dags att optimera för slutledningsdistribution på Amazon Musics sökfält.

Stavningskorrigering: BART-modell slutledning

Med hjälp av SageMaker G5-instanser och NVIDIA Triton Inference Server (en mjukvara för öppen källkod), samt NVIDIA TensorRT, en SDK för högpresterande djupinlärningsinferens som inkluderar en slutledningsoptimerare och körtid, begränsar Amazon Music deras stavningskontroll BART (bart-bas) modellserverns slutledningsfördröjning till bara 25 millisekunder vid topptrafik. Detta inkluderar omkostnader som lastbalansering, förbearbetning, modellinferens och efterbearbetningstider.

NVIDIA Triton Inference Server tillhandahåller två olika typer av backends: en för värdmodeller på GPU och en Python-backend där du kan ta med din egen anpassade kod som ska användas i förbearbetnings- och efterbearbetningsstegen. Följande figur illustrerar modellensembleschema.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Amazon Music byggde sin BART slutledningspipeline genom att köra både förbearbetnings- (texttokenisering) och efterbearbetningssteg (tokens till text) på CPU:er, medan modellexekveringssteget körs på NVIDIA A10G Tensor Core GPU:er. En Python-backend sitter i mitten av förbearbetnings- och efterbearbetningsstegen och ansvarar för att kommunicera med de TensorRT-konverterade BART-modellerna samt kodar-/avkodarnätverken. TensorRT ökar inferensprestandan med precisionskalibrering, lager- och tensorfusion, kärnautojustering, dynamiskt tensorminne, multiströmskörning och tidsfusion.

Följande figur illustrerar högnivådesignen av nyckelmodulerna som utgör stavningskorrigerarens BART-modell slutledningspipeline.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vektorsökning: Fråga inbäddning av generationssats BERT-modellinferencing

Följande diagram illustrerar 60 % förbättring i latens (som tjänar p90 800–900 TPS) när du använder NVIDIA AI Inference Platform jämfört med en CPU-baserad baslinje.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Följande diagram visar en kostnadsförbättring på 70 % när du använder NVIDIA AI Inference Platform jämfört med en CPU-baserad baslinje.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Följande figur illustrerar en SDK för högpresterande djupinlärningsinferens. Den inkluderar en djupinlärningsinferensoptimerare och körtid som ger låg latens och hög genomströmning för inferensapplikationer.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

För att uppnå dessa resultat experimenterade Amazon Music med flera olika Triton-implementeringsparametrar med hjälp av Triton modellanalysator, ett verktyg som hjälper till att hitta den bästa NVIDIA Triton-modellkonfigurationen för att distribuera effektiv slutledning. För att optimera modellinferens erbjuder Triton funktioner som dynamisk batchning och samtidig modellexekvering, och har ramstöd för andra flexibilitetsmöjligheter. Den dynamiska batchningen samlar inferensförfrågningar och grupperar dem sömlöst i kohorter för att maximera genomströmningen, allt samtidigt som man säkerställer realtidssvar för Amazon Music-användare. Möjligheten för samtidig modellexekvering förbättrar inferensprestandan ytterligare genom att lagra flera kopior av modellen på samma GPU. Slutligen, genom att använda Triton modellanalysator, kunde Amazon Music noggrant finjustera den dynamiska batchningen och modellera parametrarna för samtidighetsinferensvärd för att hitta optimala inställningar som maximerar slutledningsprestanda med hjälp av simulerad trafik.

Slutsats

Genom att optimera konfigurationer med Triton Inference Server och TensorRT på SageMaker kunde Amazon Music uppnå enastående resultat för både tränings- och slutledningspipelines. SageMaker-plattformen är den heltäckande öppna plattformen för produktions-AI, som ger snabb tid till värde och mångsidighet för att stödja alla större AI-användningsfall för både hårdvara och mjukvara. Genom att optimera V100 GPU-användningen för träning och byte från CPU:er till G5-instanser med hjälp av NVIDIA A10G Tensor Core GPU:er, samt genom att använda optimerad NVIDIA-mjukvara som Triton Inference Server och TensorRT, kan företag som Amazon Music spara tid och pengar samtidigt som de ökar prestanda i båda utbildning och slutsatser, direkt översatt till en bättre kundupplevelse och lägre driftskostnader.

SageMaker hanterar de odifferentierade tunga lyften för ML-träning och hosting, vilket gör att Amazon Music kan leverera pålitliga, skalbara ML-operationer över både hårdvara och mjukvara.

Vi uppmuntrar dig att kontrollera att dina arbetsbelastningar är optimerade med SageMaker genom att alltid utvärdera dina val av hårdvara och mjukvara för att se om det finns sätt att uppnå bättre prestanda med minskade kostnader.

För att lära dig mer om NVIDIA AI i AWS, se följande:


Om författarna

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Siddharth Sharma är en maskininlärningsteknikledare på Science & Modeling-teamet på Amazon Music. Han är specialiserad på sökning, hämtning, rankning och NLP-relaterade modelleringsproblem. Siddharth har en rik bakgrund som arbetar med storskaliga maskininlärningsproblem som är latenskänsliga, t.ex. annonsinriktning, multimodal hämtning, sökfrågeförståelse etc. Innan Siddharth arbetade på Amazon Music, arbetade Siddharth på företag som Meta, Walmart Labs, Rakuten om e-handelscentrerade ML-problem. Siddharth tillbringade tidiga delar av sin karriär med att arbeta med bay area ad-tech startups.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Tarun Sharma är en Software Development Manager som leder Amazon Music Search Relevance. Hans team av forskare och ML-ingenjörer ansvarar för att tillhandahålla kontextuellt relevanta och personliga sökresultat till Amazon Music-kunder.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.James Park är en lösningsarkitekt på Amazon Web Services. Han arbetar med Amazon.com för att designa, bygga och distribuera tekniklösningar på AWS och har ett särskilt intresse för AI och maskininlärning. På fritiden tycker han om att söka nya kulturer, nya upplevelser och att hålla sig uppdaterad med de senaste tekniktrenderna. Du kan hitta honom på LinkedIn.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Kshitiz Gupta är lösningsarkitekt på NVIDIA. Han tycker om att utbilda molnkunder om GPU AI-teknikerna NVIDIA har att erbjuda och hjälpa dem med att accelerera deras maskininlärning och djupinlärning. Utanför jobbet tycker han om att springa, vandra och titta på vilda djur.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Jiahong Liu är en lösningsarkitekt på Cloud Service Provider-teamet på NVIDIA. Han hjälper kunder att ta till sig maskininlärning och AI-lösningar som utnyttjar NVIDIAs accelererade datoranvändning för att hantera deras utbildnings- och slutledningsutmaningar. På sin fritid tycker han om origami, gör-det-själv-projekt och att spela basket.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Tugrul Konuk är senior lösningsarkitekt på NVIDIA, specialiserad på storskalig utbildning, multimodal djupinlärning och högpresterande vetenskaplig datoranvändning. Före NVIDIA arbetade han inom energibranschen med fokus på att utveckla algoritmer för beräkningsavbildning. Som en del av sin doktorsexamen arbetade han med fysikbaserad djupinlärning för numeriska simuleringar i stor skala. På fritiden tycker han om att läsa, spela gitarr och piano.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Rohil Bhargava är en produktmarknadschef på NVIDIA, fokuserad på att distribuera NVIDIA-applikationsramverk och SDK:er på specifika CSP-plattformar.

Hur Amazon Music använder SageMaker med NVIDIA för att optimera ML-träning och slutledningsprestanda och kostnad | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Eliuth Triana Isaza är en Developer Relations Manager på NVIDIA som ger Amazons AI MLOps, DevOps, Scientists och AWS tekniska experter möjlighet att bemästra NVIDIAs datorstack för att accelerera och optimera Generative AI Foundation-modeller som sträcker sig från datakurering, GPU-utbildning, modellinferens och produktionsinstallation på AWS GPU-instanser . Dessutom är Eliuth en passionerad mountainbike-, skid-, tennis- och pokerspelare.

Tidsstämpel:

Mer från AWS maskininlärning