Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Layanan Web Amazon

Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Layanan Web Amazon

Insinyur pembelajaran mesin (ML) secara tradisional berfokus pada keseimbangan antara pelatihan model dan biaya penerapan vs. kinerja. Keberlanjutan (efisiensi energi) semakin menjadi tujuan tambahan bagi pelanggan. Ini penting karena melatih model ML dan kemudian menggunakan model yang dilatih untuk membuat prediksi (inferensi) dapat menjadi tugas yang sangat intensif energi. Selain itu, semakin banyak aplikasi di sekitar kita yang diinfuskan dengan ML, dan aplikasi baru bertenaga ML dibuat setiap hari. Contoh yang populer adalah ChatGPT OpenAI, yang didukung oleh model bahasa besar (LMM) yang canggih. Sebagai referensi, GPT-3, LLM generasi sebelumnya memiliki 175 miliar parameter dan membutuhkan pelatihan berbulan-bulan tanpa henti pada sekelompok ribuan prosesor yang dipercepat. Itu studi Carbontracker memperkirakan bahwa melatih GPT-3 dari awal dapat memancarkan hingga 85 metrik ton setara CO2, menggunakan kluster akselerator perangkat keras khusus.

Ada beberapa cara AWS memungkinkan praktisi ML menurunkan dampak lingkungan dari beban kerja mereka. Salah satu caranya adalah dengan menyediakan panduan preskriptif seputar merancang beban kerja AI/ML Anda untuk keberlanjutan. Cara lain adalah dengan menawarkan pelatihan ML terkelola dan layanan orkestrasi seperti Studio Amazon SageMaker, yang secara otomatis meruntuhkan dan meningkatkan sumber daya ML saat tidak digunakan, dan menyediakan sejumlah fitur bawaan yang menghemat biaya dan sumber daya. Enabler utama lainnya adalah pengembangan hemat energi, kinerja tinggi, akselerator yang dibuat khusus untuk melatih dan menerapkan model ML.

Fokus dari postingan ini adalah pada perangkat keras sebagai pengungkit untuk ML yang berkelanjutan. Kami menyajikan hasil eksperimen performa dan penarikan daya terbaru yang dilakukan oleh AWS yang menghitung manfaat efisiensi energi yang dapat Anda harapkan saat memigrasikan beban kerja deep learning Anda dari akselerasi inferensi dan pelatihan yang dioptimalkan lainnya Cloud komputasi elastis Amazon (Amazon EC2) untuk Inferensi AWS dan Pelatihan AWS. Inferentia dan Trainium adalah Penambahan terbaru AWS ke dalam portofolio akselerator yang dibuat khusus dirancang khusus oleh Amazon Laboratorium Annapurna untuk inferensi ML dan beban kerja pelatihan.

AWS Inferentia dan AWS Trainium untuk ML berkelanjutan

Untuk memberi Anda angka realistis dari potensi penghematan energi AWS Inferentia dan AWS Trainium dalam aplikasi dunia nyata, kami telah melakukan beberapa eksperimen tolok ukur penarikan daya. Kami telah merancang tolok ukur ini dengan mempertimbangkan kriteria utama berikut:

  • Pertama, kami ingin memastikan bahwa kami menangkap konsumsi energi langsung yang disebabkan oleh beban kerja pengujian, termasuk tidak hanya akselerator ML tetapi juga komputasi, memori, dan jaringan. Oleh karena itu, dalam pengaturan pengujian kami, kami mengukur penarikan daya pada level tersebut.
  • Kedua, saat menjalankan beban kerja pelatihan dan inferensi, kami memastikan bahwa semua instans beroperasi pada batas perangkat keras fisik masing-masing dan melakukan pengukuran hanya setelah batas tersebut tercapai untuk memastikan keterbandingan.
  • Terakhir, kami ingin memastikan bahwa penghematan energi yang dilaporkan dalam postingan ini dapat dicapai dalam aplikasi dunia nyata yang praktis. Oleh karena itu, kami menggunakan kasus penggunaan ML yang terinspirasi pelanggan untuk pembandingan dan pengujian.

Hasilnya dilaporkan di bagian berikut.

Eksperimen inferensi: Pemahaman dokumen waktu nyata dengan LayoutLM

Inferensi, berlawanan dengan pelatihan, adalah beban kerja tanpa batas yang berkelanjutan yang tidak memiliki titik penyelesaian yang ditentukan. Oleh karena itu, ini merupakan bagian besar dari konsumsi sumber daya seumur hidup dari beban kerja ML. Mendapatkan inferensi yang tepat adalah kunci untuk mencapai performa tinggi, biaya rendah, dan keberlanjutan (efisiensi energi yang lebih baik) di sepanjang siklus hidup ML penuh. Dengan tugas inferensi, pelanggan biasanya tertarik untuk mencapai tingkat inferensi tertentu untuk memenuhi permintaan penyerapan.

Eksperimen yang disajikan dalam postingan ini terinspirasi oleh kasus penggunaan pemahaman dokumen real-time, yang merupakan aplikasi umum di industri seperti perbankan atau asuransi (misalnya, untuk klaim atau pemrosesan formulir aplikasi). Secara khusus, kami memilih Tata LetakLM, model trafo terlatih yang digunakan untuk pemrosesan gambar dokumen dan ekstraksi informasi. Kami menetapkan target SLA sebesar 1,000,000 inferensi per jam, nilai yang sering dianggap sebagai waktu nyata, lalu menentukan dua konfigurasi perangkat keras yang mampu memenuhi persyaratan ini: satu menggunakan Contoh Amazon EC2 Inf1, menampilkan AWS Inferentia, dan yang menggunakan instans EC2 terakselerasi sebanding yang dioptimalkan untuk tugas inferensi. Sepanjang percobaan, kami melacak beberapa indikator untuk mengukur kinerja inferensi, biaya, dan efisiensi energi dari kedua konfigurasi perangkat keras. Hasilnya disajikan pada gambar berikut.

Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Hasil Kinerja, Efisiensi Biaya dan Energi dari Tolok Ukur Inferensi

AWS Inferentia memberikan throughput inferensi 6.3 kali lebih tinggi. Hasilnya, dengan Inferentia, Anda dapat menjalankan beban kerja pemahaman dokumen berbasis LayoutLM real-time yang sama pada instans yang lebih sedikit (6 instans AWS Inferentia vs. 33 instans EC2 terakselerasi yang dioptimalkan inferensi lainnya, setara dengan pengurangan 82%), menggunakan lebih sedikit dari sepersepuluh (-92%) energi dalam proses, sekaligus mencapai biaya per inferensi yang jauh lebih rendah (USD 2 vs. USD 25 per juta inferensi, setara dengan pengurangan biaya 91%).

Eksperimen pelatihan: Melatih BERT Besar dari awal

Pelatihan, sebagai lawan inferensi, adalah proses terbatas yang diulang lebih jarang. Insinyur ML biasanya tertarik dengan performa cluster yang tinggi untuk mengurangi waktu pelatihan sekaligus menjaga biaya tetap terkendali. Efisiensi energi adalah perhatian sekunder (namun berkembang). Dengan AWS Trainium, tidak ada keputusan kompromi: teknisi ML dapat memperoleh manfaat dari kinerja pelatihan yang tinggi sekaligus mengoptimalkan biaya dan mengurangi dampak lingkungan.

Untuk mengilustrasikan ini, kami memilih BERT Besar, model bahasa populer yang digunakan untuk kasus penggunaan pemahaman bahasa alami seperti menjawab pertanyaan berbasis chatbot dan prediksi respons percakapan. Melatih model BERT Large yang berkinerja baik dari awal biasanya membutuhkan 450 juta urutan untuk diproses. Kami membandingkan dua konfigurasi klaster, masing-masing dengan ukuran tetap 16 instans dan mampu melatih BERT Large dari awal (450 juta urutan diproses) dalam waktu kurang dari sehari. Yang pertama menggunakan instans EC2 terakselerasi tradisional. Pengaturan kedua menggunakan Instans Amazon EC2 Trn1 menampilkan AWS Trainium. Sekali lagi, kami membandingkan kedua konfigurasi dalam hal performa pelatihan, biaya, dan dampak lingkungan (efisiensi energi). Hasilnya ditunjukkan pada gambar berikut.

Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.

Kinerja, Efisiensi Biaya dan Energi Hasil Tolok Ukur Pelatihan

Dalam percobaan, instans berbasis AWS Trainium mengungguli instans EC2 terakselerasi yang dioptimalkan untuk pelatihan sebanding dengan faktor 1.7 dalam hal urutan yang diproses per jam, memotong total waktu pelatihan sebesar 43% (2.3 jam berbanding 4 jam pada instans EC2 terakselerasi yang sebanding) . Hasilnya, saat menggunakan klaster instans berbasis Trainium, konsumsi energi total untuk melatih BERT Large dari awal kira-kira 29% lebih rendah dibandingkan dengan klaster berukuran sama dari instans EC2 terakselerasi yang sebanding. Sekali lagi, manfaat kinerja dan efisiensi energi ini juga disertai dengan peningkatan biaya yang signifikan: biaya pelatihan untuk beban kerja BERT ML sekitar 62% lebih rendah pada instans Trainium (USD 787 dibandingkan USD 2091 per latihan penuh).

Memulai dengan akselerator AWS yang dibuat khusus untuk ML

Meskipun semua eksperimen yang dilakukan di sini menggunakan model standar dari domain pemrosesan bahasa alami (NLP), AWS Inferentia dan AWS Trainium unggul dengan banyak arsitektur model kompleks lainnya termasuk LLM dan yang paling menantang AI generatif arsitektur yang sedang dibangun pengguna (seperti GPT-3). Akselerator ini bekerja sangat baik dengan model dengan lebih dari 10 miliar parameter, atau model visi komputer seperti difusi stabil (lihat Pedoman Kecocokan Arsitektur Model untuk lebih jelasnya). Memang, banyak pelanggan kami yang sudah menggunakan Inferentia dan Trainium untuk berbagai macam Kasus penggunaan ML.

Untuk menjalankan beban kerja deep learning end-to-end Anda pada instans berbasis AWS Inferentia dan AWS Trainium, Anda dapat menggunakan Neuron AWS. Neuron adalah kit pengembangan perangkat lunak (SDK) end-to-end yang menyertakan kompiler pembelajaran mendalam, runtime, dan alat yang terintegrasi secara native ke dalam kerangka kerja ML paling populer seperti TensorFlow dan PyTorch. Anda dapat menggunakan Neuron SDK untuk dengan mudah mem-porting beban kerja ML pembelajaran mendalam TensorFlow atau PyTorch yang ada ke Inferentia dan Trainium dan mulai membuat model baru menggunakan kerangka kerja ML terkenal yang sama. Untuk penyiapan yang lebih mudah, gunakan salah satu dari kami Gambar Mesin Amazon (AMI) untuk pembelajaran mendalam, yang datang dengan banyak paket dan dependensi yang diperlukan. Bahkan lebih sederhana: Anda dapat menggunakan Amazon SageMaker Studio, yang secara native mendukung TensorFlow dan PyTorch di Inferentia dan Trainium (lihat repo GitHub aws-samples untuk contoh).

Satu catatan terakhir: meskipun Inferentia dan Trainium dibuat khusus untuk beban kerja pembelajaran mendalam, banyak algoritme ML yang tidak terlalu rumit dapat bekerja dengan baik pada instans berbasis CPU (misalnya, XGBoost dan LightGBM dan bahkan beberapa CNN). Dalam kasus ini, migrasi ke AWS Graviton3 dapat secara signifikan mengurangi dampak lingkungan dari beban kerja ML Anda. Instans berbasis AWS Graviton menggunakan energi hingga 60% lebih sedikit untuk kinerja yang sama dibandingkan instans EC2 terakselerasi yang sebanding.

Kesimpulan

Ada kesalahpahaman umum bahwa menjalankan beban kerja ML dengan cara yang berkelanjutan dan hemat energi berarti mengorbankan performa atau biaya. Dengan akselerator AWS yang dibuat khusus untuk pembelajaran mesin, teknisi ML tidak perlu melakukan kompromi itu. Sebagai gantinya, mereka dapat menjalankan beban kerja pembelajaran mendalam mereka pada perangkat keras pembelajaran mendalam yang dibuat dengan tujuan khusus, seperti AWS Inferentia dan AWS Trainium, yang secara signifikan mengungguli jenis instans EC2 terakselerasi yang sebanding, memberikan biaya lebih rendah, kinerja lebih tinggi, dan efisiensi energi yang lebih baikโ€”hingga 90%โ€”semuanya pada saat bersamaan. Untuk mulai menjalankan beban kerja ML Anda di Inferentia dan Trainium, lihat Dokumentasi AWS Neuron atau memutar salah satu buku catatan sampel. Anda juga dapat menonton pembicaraan AWS re:Invent 2022 Keberlanjutan dan silikon AWS (SUS206), yang mencakup banyak topik yang dibahas dalam posting ini.


Tentang Penulis

Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Karsten Schroer adalah Arsitek Solusi di AWS. Dia mendukung pelanggan dalam memanfaatkan data dan teknologi untuk mendorong keberlanjutan infrastruktur TI mereka dan membangun solusi berbasis data yang memungkinkan operasi berkelanjutan di masing-masing vertikal. Karsten bergabung dengan AWS setelah studi PhD-nya dalam pembelajaran mesin terapan & manajemen operasi. Dia benar-benar bersemangat tentang solusi yang dimungkinkan oleh teknologi untuk tantangan sosial dan suka mendalami metode dan arsitektur aplikasi yang mendasari solusi ini.

Kurangi konsumsi energi beban kerja pembelajaran mesin Anda hingga 90% dengan akselerator AWS yang dibuat khusus | Kecerdasan Data PlatoBlockchain Layanan Web Amazon. Pencarian Vertikal. Ai.Kamran Khan adalah Manajer Produk Teknis Senior di AWS Annapurna Labs. Dia bekerja sama dengan pelanggan AI/ML untuk membentuk peta jalan bagi inovasi silikon yang dibuat khusus untuk AWS yang keluar dari Lab Annapurna Amazon. Fokus khususnya adalah chip deep-learning yang dipercepat termasuk AWS Trainium dan AWS Inferentia. Kamran memiliki 18 tahun pengalaman di industri semikonduktor. Kamran memiliki pengalaman lebih dari satu dekade dalam membantu developer mencapai tujuan ML mereka.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS