Kuidas Amazon Music kasutab SageMakerit koos NVIDIAga, et optimeerida ML-koolitust ning teha järeldusi jõudluse ja kulude kohta Amazoni veebiteenused

Taasavaldanud Platon

järgijaid: 0

Voogesituse dünaamilises maailmas Amazon Muusika, sisaldab iga loo, taskuhäälingusaate või esitusloendi otsing lugu, meeleolu või emotsioonide tulva, mis ootab avalikustamist. Need otsingud on värav uutele avastustele, kallitele kogemustele ja püsivatele mälestustele. Otsinguriba eesmärk ei ole ainult laulu leidmine; see räägib miljonitest aktiivsetest kasutajatest, kes alustavad oma isiklikku teekonda rikkasse ja mitmekesisesse maailma, mida Amazon Music pakub.

Suurepärase kliendikogemuse pakkumine, et leida koheselt muusika, mida kasutajad otsivad, nõuab platvormi, mis on nii nutikas kui ka tundlik. Amazon Music kasutab selle saavutamiseks tehisintellekti jõudu. Kliendikogemuse optimeerimine, haldades koolituskulusid ja tehisintellekti mudelite järeldusi, mis toidavad otsinguriba võimalusi, nagu reaalajas õigekirjakontroll ja vektorotsing, on aga liikluse tippaegadel keeruline.

Amazon SageMaker pakub täielikku teenuste komplekti, mis võimaldavad Amazon Musicul luua, koolitada ja AWS-i pilves kasutusele võtta minimaalse pingutusega. Hoolitsedes eristamata raskete tõstetööde eest, võimaldab SageMaker teil keskenduda masinõppe (ML) mudelitega töötamisele ja mitte muretseda selliste asjade pärast nagu infrastruktuur. Jagatud vastutuse mudeli osana tagab SageMaker, et nende pakutavad teenused on usaldusväärsed, toimivad ja skaleeritavad, samal ajal kui te veendute, et ML-mudelite rakendus kasutab SageMakeri pakutavaid võimalusi parimal viisil.

Selles postituses käsitleme Amazon Musicu teekonda jõudluse ja kulude optimeerimiseks, kasutades SageMakeri ja NVIDIA Triton Inference Serverit ja TensorRT-d. Sukeldume sügavale selle näiliselt lihtsa, kuid keeruka otsinguriba toimimise näitamisse, tagades katkematu teekonna Amazon Musicu universumisse, masendavate kirjavigade viivituste ja asjakohaste reaalajas otsingutulemustega.

Amazon SageMaker ja NVIDIA: kiire ja täpne vektorotsingu ja õigekirjakontrolli võimalused

Amazon Music pakub tohutut raamatukogu, mis sisaldab enam kui 100 miljonit laulu ja miljoneid taskuhäälingusaadete episoode. Õige loo või taskuhäälingusaate leidmine võib aga olla keeruline, eriti kui te ei tea täpset pealkirja, esitajat või albumi nime või kui otsitav päring on väga lai, näiteks "uudiste taskuhäälingusaated".

Amazon Music on kasutanud otsingu- ja otsinguprotsessi parandamiseks kahesuunalist lähenemisviisi. Esimene samm on võtta kasutusele vektorotsing (tuntud ka kui manustamispõhine otsimine) – ML-tehnika, mis aitab kasutajatel sisu semantika abil leida kõige asjakohasema sisu, mida nad otsivad. Teine samm hõlmab transformeripõhise õigekirjaparandusmudeli kasutuselevõttu otsinguvirnas. See võib olla eriti kasulik muusika otsimisel, sest kasutajad ei pruugi alati teada laulu pealkirja või esitaja nime täpset kirjapilti. Õigekirjaparandus võib aidata kasutajatel leida otsitava muusika isegi siis, kui nad teevad otsingupäringus õigekirjavea.

Transformeri mudelite kasutuselevõtt otsingu- ja otsingukonveieris (vektoriotsingu jaoks vajalik päringu põimimise genereerimine ja õigekirjaparanduses generatiivne Seq2Seq Transformer mudel) võib kaasa tuua üldise latentsusaja märkimisväärse suurenemise, mis mõjutab negatiivselt kliendikogemust. Seetõttu sai meie jaoks peamiseks prioriteediks vektoriotsingu ja õigekirjaparandusmudelite reaalajas järelduste latentsuse optimeerimine.

Amazon Music ja NVIDIA on ühinenud, et tuua otsinguribale parim võimalik kliendikogemus, kasutades SageMakerit, et rakendada nii kiiret ja täpset õigekirjakontrolli võimalusi kui ka reaalajas semantilisi otsingusoovitusi, kasutades vektorotsingupõhiseid tehnikaid. Lahendus hõlmab SageMakeri hostimise kasutamist, mida toetab G5 eksemplar, mis kasutab NVIDIA A10G Tensor Core GPU-sid, SageMakeri toetatud NVIDIA Triton Inference Server Containerit ja NVIDIA TensorRT mudeli formaat. Vähendades õigekirjakontrolli mudeli järelduste latentsust tippliikluse korral 25 millisekundini ja vähendades otsingupäringu genereerimise latentsust keskmiselt 63% ja kulusid 73% võrreldes protsessoripõhise järeldusega, on Amazon Music tõstnud otsinguriba jõudlust.

Lisaks saavutas Amazon Music tehisintellekti mudeli täpsete tulemuste saavutamiseks treenides oma BART järjestuse õigekirjakorrektori trafo mudeli jaoks 12-kordse kiirenduse, säästes nii aega kui raha, optimeerides nende GPU kasutust.

Amazon Music tegi koostööd NVIDIAga, et seada prioriteediks klientide otsingukogemus ja luua hästi optimeeritud õigekirjakontrolli ja vektorotsingu funktsioonidega otsinguriba. Järgmistes jaotistes jagame rohkem selle kohta, kuidas need optimeerimised korraldati.

Treeningute optimeerimine NVIDIA Tensor Core GPU-dega

NVIDIA Tensor Core GPU-le juurdepääsu saamisest suurte keelemudelite koolitamiseks ei piisa selle tõelise potentsiaali tabamiseks. GPU kasutamise täielikuks maksimeerimiseks peavad treeningu ajal toimuma peamised optimeerimise etapid. Alakasutatud GPU toob aga kahtlemata kaasa ressursside ebatõhusa kasutamise, koolituse pikenemise ja suuremad tegevuskulud.

Koolituse algfaasis õigekirjaparandaja BART (bart-alus) trafo mudel SageMaker ml.p3.24xsuurel eksemplaril (8 NVIDIA V100 Tensor Core GPU-d), Amazon Musicu GPU kasutus oli umbes 35%. NVIDIA GPU-kiirendatud koolituse eeliste maksimeerimiseks toetasid AWS-i ja NVIDIA lahenduse arhitektid Amazon Musicut optimeerimisalade tuvastamisel, eriti partii suuruse ja täpsusparameetrite osas. Need kaks olulist parameetrit mõjutavad süvaõppe mudelite väljaõppe tõhusust, kiirust ja täpsust.

Tulemuseks tehtud optimeerimised andsid uue ja täiustatud V100 GPU kasutuse, mis on stabiilselt umbes 89%, vähendades Amazon Musicu treeninguaega drastiliselt 3 päevalt 5–6 tunnini. Muutes partii suuruse 32-lt 256-le ja kasutades optimeerimistehnikaid, nagu jooksmine automaatne segatud täpsustreening selle asemel, et kasutada ainult FP32 täpsust, suutis Amazon Music säästa nii aega kui ka raha.

Järgmine diagramm illustreerib GPU kasutuse 54% protsendipunkti kasvu pärast optimeerimist.

Järgmine joonis illustreerib treeninguaja kiirendust.

See partii suuruse suurendamine võimaldas NVIDIA GPU-l töödelda oluliselt rohkem andmeid samaaegselt mitme Tensor Core'i vahel, mille tulemuseks oli kiirendatud treeningaeg. Siiski on oluline säilitada õrn tasakaal mäluga, sest suuremate partiide jaoks on vaja rohkem mälu. Nii partii suuruse suurendamine kui ka segase täpsuse kasutamine võivad NVIDIA Tensor Core GPU-de võimsuse vabastamisel kriitilise tähtsusega olla.

Pärast seda, kui mudel oli koolitatud lähenema, oli aeg optimeerida Amazon Musicu otsinguribal järelduste juurutamiseks.

Õigekirjaparandus: BART-mudeli järeldamine

SageMaker G5 eksemplaride ja NVIDIA Triton Inference Server (avatud lähtekoodiga järelduste teenindamise tarkvara) ning NVIDIA TensorRT, SDK suure jõudlusega sügava õppimise järelduste abiga, mis sisaldab järelduste optimeerijat ja käitusaega, piirab Amazon Music nende õigekirjakontrolli BART. (bart-alus) mudeli serveri järelduste latentsus tippliikluse korral vaid 25 millisekundini. See hõlmab üldkulusid, nagu koormuse tasakaalustamine, eeltöötlus, mudeli järeldamine ja järeltöötluse ajad.

NVIDIA Triton Inference Server pakub kahte erinevat tüüpi taustaprogrammi: üks mudelite majutamiseks GPU-s ja Pythoni taustaprogramm, kuhu saate tuua oma kohandatud koodi, mida kasutada eel- ja järeltöötlusetappides. Järgmine joonis illustreerib mudeliansambli skeem.

Amazon Music ehitas oma BART-i järelduste torujuhe käivitades protsessoritel nii eeltöötluse (teksti tokeniseerimine) kui ka järeltöötluse (teksti märgid) sammud, samas kui mudeli täitmise etapp jookseb NVIDIA A10G Tensor Core GPU-d. Pythoni taustaprogramm asub eel- ja järeltöötlusetappide keskel ning vastutab nii TensorRT-ga teisendatud BART-mudelite kui ka kodeerija/dekoodri võrkudega suhtlemise eest. TensorRT suurendab järelduste jõudlust täpse kalibreerimise, kihtide ja tensori liitmise, tuuma automaatse häälestamise, dünaamilise tensormälu, mitme voo täitmise ja aja liitmise abil.

Järgmine joonis illustreerib õigekirjaparandaja BART-mudeli järelduskonveieri põhimoodulite kõrgetasemelist ülesehitust.

Vektorotsing: päring, mis põimib genereerimislause BERT-mudeli järeldused

Järgmine tabel illustreerib latentsusaja 60% paranemist (teenindus p90 800–900 TPS) NVIDIA AI järeldusplatvormi kasutamisel võrreldes protsessoripõhise baastasemega.

Järgmine diagramm näitab 70% kulude paranemist NVIDIA AI järeldusplatvormi kasutamisel võrreldes protsessoripõhise baastasemega.

Järgmine joonis illustreerib SDK-d suure jõudlusega sügava õppimise järelduste tegemiseks. See sisaldab sügava õppimise järelduste optimeerijat ja käitusaega, mis tagab järeldusrakendustele madala latentsuse ja suure läbilaskevõime.

Nende tulemuste saavutamiseks katsetas Amazon Music mitme erineva Tritoni juurutamise parameetriga Tritoni mudelianalüsaator, tööriist, mis aitab tõhusa järelduse tegemiseks leida parima NVIDIA Tritoni mudeli konfiguratsiooni. Mudeli järelduse optimeerimiseks pakub Triton selliseid funktsioone nagu dünaamiline komplekteerimine ja samaaegne mudeli täitmine ning raamistiku tugi muudele paindlikkusvõimalustele. Dünaamiline komplekteerimine kogub järeldustaotlusi, rühmitades need sujuvalt kohortidesse, et maksimeerida läbilaskevõimet, tagades samal ajal Amazon Musicu kasutajatele reaalajas vastused. Mudeli samaaegse täitmise võimalus suurendab veelgi järelduste jõudlust, majutades samal GPU-l mudeli mitut koopiat. Lõpuks kasutades Tritoni mudelianalüsaator, suutis Amazon Music hoolikalt peenhäälestada dünaamilist komplekteerimist ja modelleerida samaaegsuse järelduste hostimise parameetreid, et leida optimaalsed sätted, mis maksimeerivad simuleeritud liiklust kasutades järelduste jõudlust.

Järeldus

Konfiguratsioonide optimeerimine Triton Inference Serveri ja TensorRT-ga SageMakeris võimaldas Amazon Musicul saavutada silmapaistvaid tulemusi nii koolituse kui ka järeldamise torustike jaoks. SageMakeri platvorm on täielik avatud platvorm tootmis-AI jaoks, mis pakub kiiret aega väärtuse leidmiseks ja mitmekülgsust, et toetada kõiki peamisi tehisintellekti kasutusjuhtumeid nii riist- kui ka tarkvaras. V100 GPU kasutuse optimeerimine koolituseks ja protsessoritelt G5 eksemplaridele üleminekul NVIDIA A10G Tensor Core GPU-de abil, samuti optimeeritud NVIDIA tarkvara (nt Triton Inference Server ja TensorRT) abil saavad sellised ettevõtted nagu Amazon Music säästa aega ja raha, suurendades samal ajal jõudlust mõlemas. koolitus ja järeldused, mis toovad otseselt kaasa parema kliendikogemuse ja madalamad tegevuskulud.

SageMaker tegeleb ML-treeningu ja hostimise eristamata raskete tõstetöödega, võimaldades Amazon Musicul pakkuda usaldusväärseid, skaleeritavaid ML-operatsioone nii riist- kui ka tarkvaras.

Soovitame teil kontrollida, kas teie töökoormus on SageMakeri abil optimeeritud, hinnates alati oma riist- ja tarkvaravalikuid, et näha, kas on olemas viise, kuidas saate väiksemate kuludega paremat jõudlust saavutada.

NVIDIA AI kohta AWS-is lisateabe saamiseks vaadake järgmist.

Autoritest

Kuidas Amazon Music kasutab SageMakerit koos NVIDIA-ga ML-treeningu optimeerimiseks ning jõudluse ja kulude järelduste tegemiseks | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Siddharth Sharma on Amazon Musicu teaduse ja modelleerimise meeskonna masinõppe tehnikajuht. Ta on spetsialiseerunud otsingu, otsingu, järjestamise ja NLP-ga seotud modelleerimisprobleemidele. Siddharthil on rikkalik taust, mis tegeleb suuremahuliste masinõppeprobleemidega, mis on latentsustundlikud, nt reklaamide sihtimine, mitmeliigiline otsimine, otsingupäringu mõistmine jne. Enne Amazon Musicus töötamist töötas Siddharth sellistes ettevõtetes nagu Meta, Walmart Labs, Rakuten e-kaubanduse kesksete ML-probleemide kohta. Siddharth veetis varase osa oma karjäärist lahe piirkonna reklaamitehnoloogia idufirmadega töötades.

Kuidas Amazon Music kasutab SageMakerit koos NVIDIA-ga ML-treeningu optimeerimiseks ning jõudluse ja kulude järelduste tegemiseks | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Tarun Sharma on tarkvaraarenduse juht, kes juhib Amazoni muusikaotsingu asjakohasust. Tema teadlastest ja ML-i inseneridest koosnev meeskond vastutab Amazon Musicu klientidele kontekstuaalselt asjakohaste ja isikupärastatud otsingutulemuste pakkumise eest.

Kuidas Amazon Music kasutab SageMakerit koos NVIDIA-ga ML-treeningu optimeerimiseks ning jõudluse ja kulude järelduste tegemiseks | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Jamesi park on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd Amazon.com-iga, et kavandada, ehitada ja juurutada AWS-is tehnoloogilised lahendused ning ta on eriti huvitatud AI-st ja masinõppest. Vabal ajal meeldib talle otsida uusi kultuure, uusi kogemusi ja olla kursis uusimate tehnoloogiatrendidega. Leiate ta aadressilt LinkedIn.

Kshitiz Gupta on NVIDIA lahenduste arhitekt. Talle meeldib õpetada pilve kliente NVIDIA pakutavate GPU AI tehnoloogiate kohta ning aidata neil kiirendada masinõppe ja süvaõppe rakendusi. Väljaspool tööd naudib ta jooksmist, matkamist ja metsloomade jälgimist.

Jiahong Liu on lahenduse arhitekt NVIDIA pilveteenuse pakkuja meeskonnas. Ta abistab kliente masinõppe ja AI-lahenduste kasutuselevõtul, mis võimendavad NVIDIA kiirendatud andmetöötlust, et lahendada nende koolitus- ja järeldusprobleemid. Vabal ajal naudib ta origamit, isetegemisprojekte ja korvpalli mängimist.

Kuidas Amazon Music kasutab SageMakerit koos NVIDIA-ga ML-treeningu optimeerimiseks ning jõudluse ja kulude järelduste tegemiseks | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Tugrul Konuk on NVIDIA vanemlahenduste arhitekt, kes on spetsialiseerunud suuremahulisele koolitusele, multimodaalsele süvaõppele ja suure jõudlusega teaduslikule andmetöötlusele. Enne NVIDIA-t töötas ta energiatööstuses, keskendudes arvutusliku pildistamise algoritmide väljatöötamisele. Osana oma doktorikraadist töötas ta füüsikal põhineva süvaõppe kallal numbriliste simulatsioonide jaoks. Vabal ajal meeldib talle lugeda, kitarri ja klaverit mängida.

Kuidas Amazon Music kasutab SageMakerit koos NVIDIA-ga ML-treeningu optimeerimiseks ning jõudluse ja kulude järelduste tegemiseks | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Rohil Bhargava on NVIDIA tooteturundusjuht, kes on keskendunud NVIDIA rakendusraamistike ja SDK-de juurutamisele kindlatel CSP platvormidel.

Eliuth Triana Isaza on NVIDIA arendajasuhete juht, andes Amazoni AI MLOps-idele, DevOps-idele, teadlastele ja AWS-i tehnilistele ekspertidele võimaluse hallata NVIDIA andmetöötluspinu, et kiirendada ja optimeerida generatiivse AI Foundationi mudeleid, mis hõlmavad andmete kureerimist, GPU koolitust, mudeli järeldusi ja tootmise juurutamist AWS-i GPU eksemplaridel. . Lisaks on Eliuth kirglik maastikurattur, suusataja, tennise- ja pokkerimängija.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/how-amazon-music-uses-sagemaker-with-nvidia-to-optimize-ml-training-and-inference-performance-and-cost/

Ajatempel: November 21, 2023

Ajatempel: Võib 1 2024

Taasavaldanud Platon

Hübriidse ML-i töövoogude lubamine Amazon EKS-is ja Amazon SageMakeris ühe klõpsuga Kubeflow AWS-i juurutamisel

Iganädalased prognoosid võivad nüüd alata pühapäeval Amazon Forecastiga

Teisaldage Amazon SageMaker Autopilot ML mudelid katsetest tootmisse, kasutades Amazon SageMaker Pipelines

Lubage Amazon Kendra skannitud või pildipõhise tekstidokumendi otsing

Kuidas laiendada AWS Trainium funktsionaalsust kohandatud operaatoritega

Andmekogemuse taasleiutamine: kasutage generatiivset AI-d ja kaasaegset andmearhitektuuri, et saada ülevaadet | Amazoni veebiteenused

Kuidas Medidata kasutas Amazon SageMakeri asünkroonset järeldust, et kiirendada ML-i järelduste ennustamist kuni 30 korda kiiremini

Lubage intelligentne otsuste tegemine Amazon SageMaker Canvase ja Amazon QuickSightiga

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto