Mempercepat pelatihan jaringan saraf skala besar pada CPU dengan ThirdAI dan AWS Graviton | Layanan Web Amazon

Mempercepat pelatihan jaringan saraf skala besar pada CPU dengan ThirdAI dan AWS Graviton | Layanan Web Amazon

Postingan tamu ini ditulis oleh Vihan Lakshman, Tharun Medini, dan Anshumali Shrivastava dari ThirdAI.

Pembelajaran mendalam berskala besar baru-baru ini menghasilkan kemajuan revolusioner di berbagai bidang. Meskipun kemajuan luar biasa dalam kecerdasan buatan ini masih luar biasa, biaya finansial dan konsumsi energi yang diperlukan untuk melatih model-model ini telah menjadi hambatan besar karena kebutuhan akan perangkat keras khusus seperti GPU. Secara tradisional, model neural berukuran kecil pun memerlukan akselerator perangkat keras yang mahal untuk pelatihannya, sehingga membatasi jumlah organisasi yang memiliki kemampuan finansial untuk memanfaatkan sepenuhnya teknologi ini.

Didirikan pada tahun 2021, ThirdAI Corp. adalah perusahaan rintisan yang berdedikasi dengan misi mendemokratisasi teknologi kecerdasan buatan melalui inovasi algoritmik dan perangkat lunak yang secara mendasar mengubah keekonomian pembelajaran mendalam. Kami telah mengembangkan mesin pembelajaran mendalam yang jarang, yang dikenal sebagai BOLT, yang dirancang khusus untuk melatih dan menerapkan model pada perangkat keras CPU standar dibandingkan dengan akselerator yang mahal dan boros energi seperti GPU. Banyak pelanggan kami yang memilikinya melaporkan kepuasan yang kuat dengan kemampuan ThirdAI untuk melatih dan menerapkan model pembelajaran mendalam untuk masalah bisnis penting pada infrastruktur CPU yang hemat biaya.

Dalam postingan ini, kami menyelidiki potensi prosesor AWS Graviton3 untuk mempercepat pelatihan jaringan saraf untuk mesin pembelajaran mendalam berbasis CPU yang unik dari ThirdAI.

Manfaat CPU berkinerja tinggi

Di ThirdAI, kami mencapai terobosan dalam pelatihan jaringan saraf yang efisien pada CPU melalui algoritme renggang dinamis yang hanya mengaktifkan sebagian neuron untuk masukan tertentu (lihat gambar berikut), sehingga mengesampingkan kebutuhan akan komputasi padat penuh. Tidak seperti pendekatan lain untuk pelatihan jaringan saraf renggang, ThirdAI menggunakan hashing sensitif-lokalitas untuk memilih neuron secara dinamis untuk masukan tertentu seperti yang ditunjukkan pada garis tebal di bawah. Dalam kasus tertentu, kami bahkan telah mengamati bahwa kami model berbasis CPU yang jarang berlatih lebih cepat dibandingkan arsitektur padat serupa pada GPU.

Arsitektur Neural Padat dengan garis tebal yang menunjukkan neuron mana yang dipilih

Mengingat banyak dari target pelanggan kami beroperasi di cloudโ€”dan di antara mereka, sebagian besar menggunakan AWSโ€”kami bersemangat untuk mencoba prosesor AWS Graviton3 untuk melihat apakah peningkatan kinerja harga yang mengesankan dari inovasi silikon Amazon akan menghasilkan beban kerja unik kami. pelatihan jaringan saraf renggang dan dengan demikian memberikan penghematan lebih lanjut bagi pelanggan. Meskipun komunitas riset dan tim AWS Graviton telah memberikan kemajuan menarik dalam akselerasi inferensi jaringan saraf pada instance CPU, sepengetahuan kami, kami di ThirdAI adalah orang pertama yang secara serius mempelajari cara melatih model neural pada CPU secara efisien.

Seperti yang ditunjukkan dalam hasil kami, kami mengamati peningkatan kecepatan pelatihan yang signifikan dengan AWS Graviton3 dibandingkan instans Intel dan NVIDIA yang sebanding pada beberapa beban kerja pemodelan yang representatif.

Jenis instance

Untuk evaluasi kami, kami mempertimbangkan dua instans CPU AWS yang sebanding: mesin c6i.8xlarge yang didukung oleh prosesor Intel Ice Lake dan c7g.8xlarge yang didukung oleh AWS Graviton3. Tabel berikut merangkum rincian setiap contoh.

Contoh vCPU RAM (GB) Prosesor Harga Sesuai Permintaan (us-east-1)
c7g.8xbesar 32 64 AWS Graviton3 $ 1.1562 / jam
c6i.8xlarge 32 64 Danau Es Intel $ 1.36 / jam
g5g.8xlarge (GPU) 32 64 dengan Memori GPU 16 GB Prosesor AWS Graviton2 dengan 1 GPU NVIDIA T4G $ 1.3720 / jam

Evaluasi 1: Klasifikasi ekstrim

Untuk evaluasi pertama kami, kami fokus pada masalah klasifikasi multi-label ekstrim (XMC), sebuah paradigma pembelajaran mesin (ML) yang semakin populer dengan sejumlah aplikasi praktis dalam penelusuran dan rekomendasi (termasuk di Amazon). Untuk evaluasi kami, kami fokus pada publik Tugas rekomendasi produk Amazon-670K, yang, jika diberi produk masukan, mengidentifikasi produk serupa dari koleksi lebih dari 670,000 item.

Dalam eksperimen ini, kami membandingkan mesin BOLT ThirdAI dengan TensorFlow 2.11 dan PyTorch 2.0 pada pilihan perangkat keras yang disebutkan di atas: Intel Ice Lake, AWS Graviton3, dan GPU NVIDIA T4G. Untuk eksperimen kami pada Intel dan AWS Graviton, kami menggunakan AWS Deep Learning AMI (Ubuntu 18.04) versi 59.0. Untuk evaluasi GPU kami, kami menggunakan AMI Arm64 yang Dioptimalkan GPU NVIDIA, tersedia melalui AWS Marketplace. Untuk evaluasi ini, kami menggunakan Arsitektur model SLIDE, yang mencapai kinerja kompetitif pada tugas klasifikasi ekstrem ini dan kinerja pelatihan yang kuat pada CPU. Untuk perbandingan TensorFlow dan PyTorch, kami menerapkan versi analog arsitektur multi-layer perceptron (MLP) SLIDE dengan perkalian matriks padat. Kami melatih setiap model selama lima periode (melewati set data pelatihan secara penuh) dengan ukuran batch tetap sebesar 256 dan kecepatan pembelajaran 0.001. Kami mengamati bahwa semua model mencapai akurasi pengujian yang sama yaitu 33.6%.

Bagan berikut membandingkan waktu pelatihan BOLT ThirdAI dengan TensorFlow 2.11 dan PyTorch 2.0 pada tolok ukur klasifikasi ekstrem Amazon670k. Semua model mencapai presisi pengujian yang sama. Kami mengamati bahwa AWS Graviton3 secara signifikan mempercepat kinerja BOLT tanpa memerlukan penyesuaianโ€”sekitar 40%. BOLT ThirdAI di AWS Graviton3 juga mencapai pelatihan yang jauh lebih cepat dibandingkan model TensorFlow atau PyTorch yang dilatih pada GPU. Perhatikan bahwa tidak ada hasil ThirdAI pada benchmark GPU NVIDIA karena BOLT dirancang untuk berjalan pada CPU. Kami tidak menyertakan benchmark CPU TensorFlow dan PyTorch karena waktu pelatihannya sangat lama.

Bagan batang waktu pelatihan Amazon 670k yang membandingkan instans c6i.8xlarge vs c7g.8xlarge

Tabel berikut merangkum waktu pelatihan dan akurasi pengujian untuk setiap prosesor/prosesor khusus (GPU).

Prosesor Mesin Waktu Pelatihan Akurasi Tes
Intel Ice Lake (c6i.8xlarge) BOLT 1470 33.6
AWS Graviton3 (c7g.8xlarge) BOLT 935 33.6
NVIDIA T4G (g5g.8xbesar) TensorFlow 7550 33.6
NVIDIA T4G (g5g.8xbesar) PyTorch 5130 33.6

Evaluasi 2: Analisis sentimen Yelp Polarity

Untuk evaluasi kedua kami, kami fokus pada yang populer Polaritas Yelp tolok ukur analisis sentimen, yang melibatkan pengklasifikasian ulasan sebagai positif atau negatif. Untuk evaluasi ini, kami membandingkan ThirdAI Transformator Dalam Universal (UDT) model melawan yang disetel dengan baik DistilasiBERT jaringan, model bahasa terkompresi yang telah dilatih sebelumnya yang mencapai performa hampir canggih dengan latensi inferensi yang lebih rendah. Karena menyempurnakan model DistilBERT pada CPU akan memakan waktu yang sangat lama (setidaknya beberapa hari), kami membandingkan model berbasis CPU ThirdAI dengan DistilBERT yang disempurnakan pada GPU. Kami melatih semua model dengan ukuran batch 256 untuk sekali melewati data (satu epoch). Kami mencatat bahwa kami dapat mencapai akurasi yang sedikit lebih tinggi dengan BOLT dengan tambahan lintasan pada data, namun kami membatasi diri pada satu lintasan dalam evaluasi ini untuk konsistensi.

Seperti yang ditunjukkan pada gambar berikut, AWS Graviton3 kembali mempercepat pelatihan model UDT ThirdAI secara signifikan. Selain itu, UDT mampu mencapai akurasi pengujian yang sebanding dengan DistilBERT dengan waktu pelatihan yang lebih singkat dan tanpa memerlukan GPU. Kami mencatat bahwa ada juga pekerjaan baru-baru ini mengoptimalkan penyesuaian Polaritas Yelp pada CPU. Namun, model kami tetap mencapai peningkatan efisiensi yang lebih besar dan menghindari biaya pra-pelatihan, yang sangat besar dan memerlukan penggunaan akselerator perangkat keras seperti GPU.

Waktu pelatihan di Yelp Polarity C7g vs c6i

Tabel berikut merangkum waktu pelatihan, akurasi pengujian, dan latensi inferensi.

Prosesor Mesin Model Waktu Pelatihan Akurasi Tes Latensi Inferensi (ms)
Intel Icelake (c6i.8xlarge) BOLT UDT 47 93.2 <1
Graviton3 (c7g.8xbesar) BOLT UDT 29 92.9 <1
GPU T4G (g5g.8xbesar) TensorFlow DistilasiBERT 4200 93.3 8.7
GPU T4G (g5g.8xbesar) PyTorch DistilasiBERT 3780 93.4 8.3

Evaluasi 3: Klasifikasi teks kelas jamak (DBPedia)

Untuk evaluasi akhir kami, kami fokus pada masalah klasifikasi teks kelas jamak, yang melibatkan pemberian label pada teks masukan tertentu dari kumpulan lebih dari dua kelas keluaran. Kami fokus pada DBpedia benchmark, yang terdiri dari 14 kemungkinan kelas keluaran. Sekali lagi, kami melihat bahwa AWS Graviton3 mempercepat kinerja UDT dibandingkan instans Intel yang sebanding sekitar 40%. Kami juga melihat bahwa BOLT mencapai hasil yang sebanding dengan model berbasis transformator DistilBERT yang disempurnakan pada GPU sekaligus mencapai latensi sub-milidetik.

Waktu pelatihan ThirdAI BOLT di c7g vs c6i

Tabel berikut merangkum waktu pelatihan, akurasi pengujian, dan latensi inferensi.

Prosesor Mesin Model Waktu Pelatihan Akurasi Tes Latensi Inferensi (ms)
Intel Icelake (c6i.8xlarge) BOLT UDT 23 98.23 <1
Graviton3 (c7g.8xbesar) BOLT UDT 14 98.10 <1
GPU T4G (g5g.8xbesar) TensorFlow DistilasiBERT 4320 99.23 8.6
GPU T4G (g5g.8xbesar) PyTorch DistilasiBERT 3480 99.29 8

Memulai ThirdAI di AWS Graviton

Kami telah merancang perangkat lunak BOLT agar kompatibel dengan semua arsitektur CPU utama, termasuk AWS Graviton3. Faktanya, kami tidak perlu melakukan penyesuaian apa pun pada kode kami untuk berjalan di AWS Graviton3. Oleh karena itu, Anda dapat menggunakan ThirdAI untuk pelatihan dan penerapan model di AWS Graviton3 tanpa upaya tambahan. Selain itu, sebagaimana dirinci dalam artikel terbaru kami kertas putih penelitian, kami telah mengembangkan serangkaian teknik matematika baru untuk secara otomatis menyesuaikan hyperparameter khusus yang terkait dengan model sparse kami, sehingga model kami dapat langsung berfungsi dengan baik.

Kami juga mencatat bahwa model kami terutama berfungsi dengan baik untuk tugas penelusuran, rekomendasi, dan pemrosesan bahasa alami yang biasanya menampilkan ruang keluaran berdimensi tinggi dan besar serta persyaratan latensi inferensi yang sangat rendah. Kami secara aktif berupaya memperluas metode kami ke domain tambahan, seperti visi komputer, namun perlu diingat bahwa peningkatan efisiensi kami tidak berlaku untuk semua domain ML saat ini.

Kesimpulan

Dalam postingan ini, kami menyelidiki potensi prosesor AWS Graviton3 untuk mempercepat pelatihan jaringan saraf untuk mesin pembelajaran mendalam berbasis CPU yang unik dari ThirdAI. Tolok ukur kami pada penelusuran, klasifikasi teks, dan tolok ukur rekomendasi menunjukkan bahwa AWS Graviton3 dapat mempercepat beban kerja pelatihan model ThirdAI sebesar 30โ€“40% dibandingkan instans x86 yang sebanding dengan peningkatan kinerja harga hampir 50%. Selain itu, karena instans AWS Graviton3 tersedia dengan biaya lebih rendah dibandingkan mesin analog Intel dan NVIDIA serta memungkinkan waktu pelatihan dan inferensi yang lebih singkat, Anda dapat lebih jauh membuka nilai model penggunaan bayar sesuai pemakaian AWS dengan menggunakan biaya lebih rendah. mesin untuk jangka waktu yang lebih singkat.

Kami sangat gembira dengan penghematan harga dan kinerja AWS Graviton3 dan akan berupaya meneruskan peningkatan ini kepada pelanggan kami sehingga mereka dapat menikmati pelatihan dan inferensi ML yang lebih cepat dengan peningkatan kinerja pada CPU berbiaya rendah. Sebagai pelanggan AWS, kami senang dengan kecepatan AWS Graviton3 yang memungkinkan kami bereksperimen dengan model kami, dan kami berharap dapat menggunakan lebih banyak inovasi silikon mutakhir dari AWS di masa mendatang. Panduan Teknis Graviton adalah sumber daya yang bagus untuk dipertimbangkan saat mengevaluasi beban kerja ML Anda untuk dijalankan di Graviton. Anda juga dapat mencoba instance Graviton t4g percobaan gratis.

Konten dan opini dalam postingan ini adalah milik penulis pihak ketiga dan AWS tidak bertanggung jawab atas konten atau keakuratan postingan ini. Pada saat blog ini ditulis, instance terbaru adalah c6i dan oleh karena itu perbandingan dilakukan dengan instance c6i.


tentang Penulis

Vihan Lakshman โ€“ Vihan Lakshman adalah ilmuwan riset di ThirdAI Corp. yang berfokus pada pengembangan sistem pembelajaran mendalam yang hemat sumber daya. Sebelum ThirdAI, dia bekerja sebagai Ilmuwan Terapan di Amazon dan menerima gelar sarjana dan master dari Universitas Stanford. Vihan juga merupakan penerima beasiswa penelitian National Science Foundation.

Tharun Medini โ€“ Tharun Medini adalah salah satu pendiri dan CTO ThirdAI Corp. Ia meraih gelar PhD dalam โ€œAlgoritma Hashing untuk Pencarian dan Pengambilan Informasiโ€ di Rice University. Sebelum ThirdAI, Tharun bekerja di Amazon dan Target. Tharun adalah penerima berbagai penghargaan untuk penelitiannya, termasuk Ken Kennedy Institute BP Fellowship, American Society of Indian Engineers Scholarship, dan Rice University Graduate Fellowship.

Anshumali Shrivastava โ€“ Anshumali Shrivastava adalah profesor madya di departemen ilmu komputer di Rice University. Ia juga merupakan Pendiri dan CEO ThirdAI Corp, sebuah perusahaan yang mendemokratisasi AI menjadi komoditas perangkat keras melalui inovasi perangkat lunak. Minat penelitiannya yang luas mencakup algoritma probabilistik untuk pembelajaran mendalam yang hemat sumber daya. Pada tahun 2018, berita Sains menobatkannya sebagai salah satu dari 10 ilmuwan terbaik di bawah 40 tahun yang harus diperhatikan. Dia adalah penerima National Science Foundation CAREER Award, Young Investigator Award dari Air Force Office of Scientific Research, penghargaan penelitian pembelajaran mesin dari Amazon, dan Data Science Research Award dari Adobe. Dia telah memenangkan banyak penghargaan makalah, termasuk Penghargaan Kertas Terbaik di NIPS 2014 dan MLSys 2022, serta Penghargaan Kertas Paling Dapat Direproduksi di SIGMOD 2019. Karyanya pada teknologi pembelajaran mesin yang efisien pada CPU telah diliput oleh pers populer termasuk Wall Street Journal, New York Times, TechCrunch, NDTV, dll.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS