Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Layanan Web Amazon

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Layanan Web Amazon

Di dunia streaming yang dinamis Amazon Music, setiap penelusuran lagu, podcast, atau playlist menyimpan cerita, suasana hati, atau luapan emosi yang menunggu untuk diungkapkan. Pencarian ini berfungsi sebagai pintu gerbang menuju penemuan baru, pengalaman berharga, dan kenangan abadi. Bilah pencarian bukan hanya tentang menemukan lagu; ini tentang jutaan pengguna aktif yang memulai perjalanan pribadi mereka ke dunia yang kaya dan beragam yang ditawarkan Amazon Music.

Memberikan pengalaman pelanggan yang unggul untuk langsung menemukan musik yang dicari pengguna memerlukan platform yang cerdas dan responsif. Amazon Music menggunakan kekuatan AI untuk mencapai hal ini. Namun, mengoptimalkan pengalaman pelanggan sambil mengelola biaya pelatihan dan inferensi model AI yang mendukung kemampuan bilah pencarian, seperti pemeriksaan ejaan dan pencarian vektor secara real-time, sulit dilakukan pada saat lalu lintas puncak.

Amazon SageMaker menyediakan serangkaian layanan menyeluruh yang memungkinkan Amazon Music membangun, melatih, dan menerapkan di AWS Cloud dengan sedikit usaha. Dengan menangani pekerjaan berat yang tidak dapat dibedakan, SageMaker memungkinkan Anda fokus mengerjakan model pembelajaran mesin (ML), dan tidak mengkhawatirkan hal-hal seperti infrastruktur. Sebagai bagian dari model tanggung jawab bersama, SageMaker memastikan bahwa layanan yang mereka berikan dapat diandalkan, berperforma tinggi, dan terukur, sementara Anda memastikan penerapan model ML memanfaatkan kemampuan yang disediakan SageMaker sebaik-baiknya.

Dalam postingan ini, kami menelusuri perjalanan yang dilakukan Amazon Music untuk mengoptimalkan kinerja dan biaya menggunakan SageMaker dan NVIDIA Triton Inference Server serta TensorRT. Kami menyelami lebih dalam untuk menunjukkan cara kerja bilah pencarian yang tampaknya sederhana namun rumit, memastikan perjalanan tanpa henti ke dunia Amazon Music dengan penundaan kesalahan ketik yang membuat frustrasi dan hasil pencarian real-time yang relevan.

Amazon SageMaker dan NVIDIA: Menghadirkan kemampuan pencarian vektor dan pemeriksaan ejaan yang cepat dan akurat

Amazon Music menawarkan perpustakaan luas yang berisi lebih dari 100 juta lagu dan jutaan episode podcast. Namun, menemukan lagu atau podcast yang tepat bisa jadi sulit, terutama jika Anda tidak mengetahui judul, artis, atau nama album secara pasti, atau kueri penelusurannya sangat luas, seperti โ€œpodcast beritaโ€.

Amazon Music telah mengambil pendekatan dua arah untuk meningkatkan proses pencarian dan pengambilan. Langkah pertama adalah memperkenalkan penelusuran vektor (juga dikenal sebagai pengambilan berbasis penyematan), sebuah teknik ML yang dapat membantu pengguna menemukan konten paling relevan yang mereka cari dengan menggunakan semantik konten. Langkah kedua melibatkan pengenalan model Koreksi Ejaan berbasis Transformer di tumpukan pencarian. Hal ini dapat sangat membantu ketika mencari musik, karena pengguna mungkin tidak selalu mengetahui ejaan yang tepat dari judul lagu atau nama artis. Koreksi ejaan dapat membantu pengguna menemukan musik yang mereka cari meskipun mereka membuat kesalahan ejaan dalam kueri penelusurannya.

Memperkenalkan model Transformer dalam alur pencarian dan pengambilan (dalam pembuatan penyematan kueri yang diperlukan untuk pencarian vektor dan model Transformer Seq2Seq generatif dalam Koreksi Ejaan) dapat menyebabkan peningkatan latensi keseluruhan yang signifikan, sehingga berdampak negatif pada pengalaman pelanggan. Oleh karena itu, menjadi prioritas utama bagi kami untuk mengoptimalkan latensi inferensi real-time untuk model penelusuran vektor dan koreksi ejaan.

Amazon Music dan NVIDIA telah bekerja sama untuk menghadirkan pengalaman pelanggan terbaik ke bilah pencarian, menggunakan SageMaker untuk menerapkan kemampuan pemeriksaan ejaan yang cepat dan akurat serta saran pencarian semantik waktu nyata menggunakan teknik berbasis pencarian vektor. Solusinya mencakup penggunaan hosting SageMaker yang didukung oleh instans G5 yang menggunakan GPU NVIDIA A10G Tensor Core, NVIDIA Triton Inference Server Container yang didukung SageMaker, dan NVIDIA TensorRT format model. Dengan mengurangi latensi inferensi model pemeriksaan ejaan menjadi 25 milidetik pada lalu lintas puncak, dan mengurangi latensi pembuatan penyematan kueri penelusuran rata-rata sebesar 63% dan biaya sebesar 73% dibandingkan dengan inferensi berbasis CPU, Amazon Music telah meningkatkan kinerja bilah pencarian.

Selain itu, saat melatih model AI untuk memberikan hasil yang akurat, Amazon Music mencapai akselerasi 12 kali lipat dalam waktu pelatihan untuk model transformator korektor ejaan urutan-ke-urutan BART, sehingga menghemat waktu dan uang, dengan mengoptimalkan penggunaan GPU.

Amazon Music bermitra dengan NVIDIA untuk memprioritaskan pengalaman pencarian pelanggan dan membuat bilah pencarian dengan fungsi pemeriksaan ejaan dan pencarian vektor yang dioptimalkan dengan baik. Di bagian berikut, kami berbagi lebih banyak tentang bagaimana pengoptimalan ini diatur.

Mengoptimalkan pelatihan dengan GPU NVIDIA Tensor Core

Mendapatkan akses ke GPU NVIDIA Tensor Core untuk pelatihan model bahasa besar tidaklah cukup untuk mencapai potensi sebenarnya. Ada langkah-langkah pengoptimalan utama yang harus dilakukan selama pelatihan untuk memaksimalkan pemanfaatan GPU sepenuhnya. Namun, penggunaan GPU yang kurang pasti akan menyebabkan penggunaan sumber daya yang tidak efisien, durasi pelatihan yang berkepanjangan, dan peningkatan biaya operasional.

Selama fase awal pelatihan korektor ejaan BART (basis bart) model transformator pada instans SageMaker ml.p3.24xlarge (8 GPU NVIDIA V100 Tensor Core), pemanfaatan GPU Amazon Music sekitar 35%. Untuk memaksimalkan manfaat pelatihan akselerasi GPU NVIDIA, AWS dan arsitek solusi NVIDIA mendukung Amazon Music dalam mengidentifikasi area untuk pengoptimalan, khususnya seputar ukuran batch dan parameter presisi. Kedua parameter penting ini memengaruhi efisiensi, kecepatan, dan akurasi pelatihan model pembelajaran mendalam.

Pengoptimalan yang dihasilkan menghasilkan pemanfaatan GPU V100 yang baru dan lebih baik, stabil di sekitar 89%, sehingga secara drastis mengurangi waktu pelatihan Amazon Music dari 3 hari menjadi 5โ€“6 jam. Dengan mengganti ukuran batch dari 32 menjadi 256 dan menggunakan teknik pengoptimalan seperti berlari pelatihan presisi campuran otomatis alih-alih hanya menggunakan presisi FP32, Amazon Music mampu menghemat waktu dan uang.

Bagan berikut menggambarkan peningkatan 54% poin persentase dalam pemanfaatan GPU setelah pengoptimalan.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Gambar berikut menggambarkan percepatan waktu pelatihan.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Peningkatan ukuran batch ini memungkinkan GPU NVIDIA memproses lebih banyak data secara signifikan secara bersamaan di beberapa Tensor Core, sehingga mempercepat waktu pelatihan. Namun, penting untuk menjaga keseimbangan memori, karena ukuran batch yang lebih besar memerlukan lebih banyak memori. Meningkatkan ukuran batch dan menggunakan presisi campuran merupakan hal yang sangat penting dalam memaksimalkan kekuatan GPU NVIDIA Tensor Core.

Setelah model dilatih untuk melakukan konvergensi, tiba waktunya untuk mengoptimalkan penerapan inferensi di bilah pencarian Amazon Music.

Koreksi Ejaan: inferensi model BART

Dengan bantuan instans SageMaker G5 dan NVIDIA Triton Inference Server (perangkat lunak penyajian inferensi sumber terbuka), serta NVIDIA TensorRT, sebuah SDK untuk inferensi pembelajaran mendalam berkinerja tinggi yang mencakup pengoptimal inferensi dan waktu proses, Amazon Music membatasi BART pemeriksaan ejaan mereka (basis bart) memodelkan latensi inferensi server menjadi hanya 25 milidetik pada lalu lintas puncak. Ini termasuk overhead seperti penyeimbangan beban, prapemrosesan, inferensi model, dan waktu pascapemrosesan.

NVIDIA Triton Inference Server menyediakan dua jenis backend yang berbeda: satu untuk model hosting pada GPU, dan backend Python tempat Anda dapat membawa kode khusus Anda sendiri untuk digunakan dalam langkah prapemrosesan dan pascapemrosesan. Gambar berikut menggambarkan skema ansambel model.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Amazon Music membangun BART-nya pipa inferensi dengan menjalankan langkah prapemrosesan (tokenisasi teks) dan pascapemrosesan (token ke teks) pada CPU, sedangkan langkah eksekusi model berjalan pada GPU Inti Tensor NVIDIA A10G. Backend Python berada di tengah-tengah langkah prapemrosesan dan pascapemrosesan, dan bertanggung jawab untuk berkomunikasi dengan model BART yang dikonversi TensorRT serta jaringan encoder/decoder. TensorRT meningkatkan kinerja inferensi dengan kalibrasi presisi, fusi lapisan dan tensor, penyetelan otomatis kernel, memori tensor dinamis, eksekusi multi-aliran, dan fusi waktu.

Gambar berikut mengilustrasikan desain tingkat tinggi dari modul utama yang membentuk alur inferensi model BART korektor ejaan.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Pencarian vektor: Inferensi model BERT kalimat yang menyematkan kueri

Bagan berikut mengilustrasikan peningkatan latensi sebesar 60% (melayani p90 800โ€“900 TPS) saat menggunakan Platform Inferensi AI NVIDIA dibandingkan dengan garis dasar berbasis CPU.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Bagan berikut menunjukkan peningkatan biaya sebesar 70% saat menggunakan Platform Inferensi AI NVIDIA dibandingkan dengan dasar berbasis CPU.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Gambar berikut mengilustrasikan SDK untuk inferensi deep learning berperforma tinggi. Ini mencakup pengoptimal inferensi pembelajaran mendalam dan waktu proses yang memberikan latensi rendah dan throughput tinggi untuk aplikasi inferensi.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Untuk mencapai hasil ini, Amazon Music bereksperimen dengan beberapa parameter penerapan Triton yang berbeda Penganalisis Model Triton, alat yang membantu menemukan konfigurasi model NVIDIA Triton terbaik untuk menerapkan inferensi yang efisien. Untuk mengoptimalkan inferensi model, Triton menawarkan fitur seperti batching dinamis dan eksekusi model bersamaan, serta memiliki dukungan kerangka kerja untuk kemampuan fleksibilitas lainnya. Pengelompokan dinamis mengumpulkan permintaan inferensi, mengelompokkannya secara mulus ke dalam kelompok untuk memaksimalkan throughput, sekaligus memastikan respons real-time untuk pengguna Amazon Music. Kemampuan eksekusi model secara bersamaan semakin meningkatkan performa inferensi dengan menghosting banyak salinan model pada GPU yang sama. Terakhir, dengan memanfaatkan Penganalisis Model Triton, Amazon Music dapat secara hati-hati menyempurnakan parameter hosting inferensi batching dan model konkurensi dinamis untuk menemukan pengaturan optimal yang memaksimalkan kinerja inferensi menggunakan lalu lintas simulasi.

Kesimpulan

Mengoptimalkan konfigurasi dengan Triton Inference Server dan TensorRT di SageMaker memungkinkan Amazon Music mencapai hasil luar biasa untuk pelatihan dan pipeline inferensi. Platform SageMaker adalah platform terbuka menyeluruh untuk AI produksi, memberikan waktu yang cepat untuk menilai dan keserbagunaan untuk mendukung semua kasus penggunaan AI utama baik di perangkat keras maupun perangkat lunak. Dengan mengoptimalkan pemanfaatan GPU V100 untuk pelatihan dan beralih dari CPU ke instans G5 menggunakan GPU NVIDIA A10G Tensor Core, serta dengan menggunakan perangkat lunak NVIDIA yang dioptimalkan seperti Triton Inference Server dan TensorRT, perusahaan seperti Amazon Music dapat menghemat waktu dan uang sekaligus meningkatkan kinerja di keduanya pelatihan dan inferensi, yang secara langsung menghasilkan pengalaman pelanggan yang lebih baik dan biaya pengoperasian yang lebih rendah.

SageMaker menangani tugas berat yang tidak dapat dibedakan untuk pelatihan dan hosting ML, memungkinkan Amazon Music menghadirkan operasi ML yang andal dan dapat diskalakan di perangkat keras dan perangkat lunak.

Kami mendorong Anda untuk memeriksa apakah beban kerja Anda dioptimalkan menggunakan SageMaker dengan selalu mengevaluasi pilihan perangkat keras dan perangkat lunak Anda untuk melihat apakah ada cara agar Anda dapat mencapai kinerja yang lebih baik dengan penurunan biaya.

Untuk mempelajari lebih lanjut tentang NVIDIA AI di AWS, lihat yang berikut:


Tentang penulis

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Siddharth Sharma adalah Pimpinan Teknologi Pembelajaran Mesin di tim Sains & Pemodelan di Amazon Music. Ia berspesialisasi dalam masalah pemodelan terkait Pencarian, Pengambilan, Pemeringkatan, dan NLP. Siddharth memiliki latar belakang yang kaya dalam menangani masalah pembelajaran mesin berskala besar yang sensitif terhadap latensi, misalnya Penargetan Iklan, Pengambilan Multi Modal, Pemahaman Kueri Penelusuran, dll. Sebelum bekerja di Amazon Music, Siddharth bekerja di perusahaan seperti Meta, Walmart Labs, Rakuten tentang Masalah ML yang berpusat pada E-Commerce. Siddharth menghabiskan sebagian awal karirnya bekerja dengan startup teknologi iklan di wilayah teluk.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Tarun Sharma adalah Manajer Pengembangan Perangkat Lunak yang memimpin Relevansi Pencarian Musik Amazon. Tim ilmuwan dan insinyur ML-nya bertanggung jawab untuk memberikan hasil pencarian yang relevan secara kontekstual dan dipersonalisasi kepada pelanggan Amazon Music.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.James Taman adalah Arsitek Solusi di Amazon Web Services. Dia bekerja dengan Amazon.com untuk merancang, membangun, dan menerapkan solusi teknologi di AWS, dan memiliki minat khusus pada AI dan pembelajaran mesin. Di waktu senggangnya, dia senang mencari budaya baru, pengalaman baru, dan tetap up to date dengan tren teknologi terkini. Anda dapat menemukannya di LinkedIn.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Kshitiz Gupta adalah Arsitek Solusi di NVIDIA. Dia senang mendidik pelanggan cloud tentang teknologi GPU AI yang ditawarkan NVIDIA dan membantu mereka mempercepat pembelajaran mesin dan aplikasi pembelajaran mendalam mereka. Di luar pekerjaan, ia menikmati lari, hiking, dan mengamati satwa liar.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Jia Hong Liu adalah Arsitek Solusi di tim Penyedia Layanan Cloud di NVIDIA. Dia membantu klien dalam mengadopsi pembelajaran mesin dan solusi AI yang memanfaatkan komputasi akselerasi NVIDIA untuk mengatasi tantangan pelatihan dan inferensi mereka. Di waktu senggang, ia menikmati origami, proyek DIY, dan bermain basket.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Tugrul Konuk adalah Arsitek Solusi Senior di NVIDIA, yang berspesialisasi dalam pelatihan skala besar, pembelajaran mendalam multimodal, dan komputasi ilmiah berkinerja tinggi. Sebelum bergabung dengan NVIDIA, ia bekerja di industri energi, dengan fokus pada pengembangan algoritma untuk pencitraan komputasi. Sebagai bagian dari PhD-nya, ia mengerjakan pembelajaran mendalam berbasis fisika untuk simulasi numerik dalam skala besar. Di waktu senggangnya, ia senang membaca, bermain gitar, dan piano.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Rohil Bhargava adalah Manajer Pemasaran Produk di NVIDIA, yang berfokus pada penerapan kerangka aplikasi dan SDK NVIDIA pada platform CSP tertentu.

Bagaimana Amazon Music menggunakan SageMaker dengan NVIDIA untuk mengoptimalkan pelatihan ML dan kinerja inferensi serta biaya | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Eliuth Triana Isaza adalah Manajer Hubungan Pengembang di NVIDIA yang memberdayakan AI MLOps, DevOps, Ilmuwan, dan pakar teknis AWS dari Amazon untuk menguasai tumpukan komputasi NVIDIA guna mempercepat dan mengoptimalkan model Generative AI Foundation mulai dari kurasi data, pelatihan GPU, inferensi model, dan penerapan produksi pada instans GPU AWS . Selain itu, Eliuth adalah pengendara sepeda gunung, pemain ski, tenis, dan pemain poker yang bersemangat.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS