Untuk toko AI rata-rata, model yang jarang dan memori murah akan memenangkan Intelijen Data PlatoBlockchain. Pencarian Vertikal. Ai.

Untuk toko AI rata-rata, model yang jarang dan memori murah akan menang

Semenarik apapun model bahasa skala besar terkemuka, faktanya tetap bahwa hanya perusahaan terbesar yang memiliki sumber daya untuk benar-benar menyebarkan dan melatih mereka pada skala yang berarti.

Bagi perusahaan yang ingin memanfaatkan AI untuk keunggulan kompetitif, alternatif yang lebih murah dan lebih murah mungkin lebih cocok, terutama jika dapat disesuaikan dengan industri atau domain tertentu.

Di situlah serangkaian startup AI yang muncul berharap untuk mengukir ceruk: dengan membangun model yang jarang dan disesuaikan yang, mungkin tidak sekuat GPT-3, cukup baik untuk kasus penggunaan perusahaan dan berjalan pada perangkat keras yang membuang memori bandwidth tinggi (HBM) yang mahal untuk DDR komoditas.

Startup AI Jerman Aleph Alpha adalah salah satu contohnya. Didirikan pada tahun 2019, Heidelberg, perusahaan yang berbasis di Jerman Bercahaya model bahasa alami menawarkan banyak fitur headline-grabbing yang sama seperti GPT-3 OpenAI: copywriting, klasifikasi, summarization, dan terjemahan, untuk beberapa nama.

Startup model telah bekerja sama dengan Graphcore untuk mengeksplorasi dan mengembangkan model bahasa yang jarang di Inggris perangkat keras pembuat chip.

“IPU Graphcore menghadirkan kesempatan untuk mengevaluasi pendekatan teknologi canggih seperti sparity bersyarat,” kata CEO Aleph Alpha Jonas Andrulius dalam sebuah pernyataan. “Arsitektur ini tidak diragukan lagi akan memainkan peran dalam penelitian masa depan Aleph Alpha.”

Taruhan besar Graphcore pada sparsity

Model sparse bersyarat — terkadang disebut campuran pakar atau model yang diarahkan — hanya memproses data terhadap parameter yang berlaku, sesuatu yang dapat secara signifikan mengurangi sumber daya komputasi yang diperlukan untuk menjalankannya.

Misalnya, jika model bahasa dilatih dalam semua bahasa di internet, dan kemudian ditanyai dalam bahasa Rusia, tidak masuk akal untuk menjalankan data itu melalui seluruh model, hanya parameter yang terkait dengan bahasa Rusia, jelas CTO Graphcore Simon Knowles, dalam sebuah wawancara dengan Pendaftaran.

“Ini benar-benar jelas. Beginilah cara kerja otak Anda, dan juga bagaimana AI seharusnya bekerja,” katanya. “Saya sudah mengatakan ini berkali-kali, tetapi jika AI dapat melakukan banyak hal, ia tidak perlu mengakses semua pengetahuannya untuk melakukan satu hal.”

Knowles, yang perusahaannya membuat akselerator yang disesuaikan untuk model semacam ini, secara mengejutkan percaya bahwa mereka adalah masa depan AI. “Saya akan terkejut jika, pada tahun depan, ada orang yang membangun model bahasa yang padat,” tambahnya.

HBM-2 mahal? Cache di DDR sebagai gantinya

Model bahasa yang jarang bukan tanpa tantangan. Salah satu yang paling mendesak, menurut Knowles, berkaitan dengan memori. HBM yang digunakan pada GPU kelas atas untuk mencapai bandwidth dan kapasitas yang diperlukan oleh model ini mahal dan dipasang pada akselerator yang bahkan lebih mahal.

Ini bukan masalah untuk model bahasa padat di mana Anda mungkin memerlukan semua komputasi dan memori itu, tetapi ini menimbulkan masalah untuk model yang jarang, yang lebih menyukai memori daripada komputasi, jelasnya.

Teknologi interkoneksi, seperti NVLink Nvidia, dapat digunakan untuk mengumpulkan memori di beberapa GPU, tetapi jika model tidak memerlukan semua komputasi itu, GPU dapat dibiarkan menganggur. “Ini cara yang sangat mahal untuk membeli memori,” kata Knowles.

Akselerator Graphcore mencoba untuk menghindari tantangan ini dengan meminjam teknik setua komputasi itu sendiri: caching. Setiap IPU memiliki fitur cache SRAM yang relatif besar — ​​1GB — untuk memenuhi kebutuhan bandwidth model ini, sementara kapasitas mentah dicapai dengan menggunakan kumpulan besar memori DDR4 yang murah.

“Semakin banyak SRAM yang Anda miliki, semakin sedikit bandwidth DRAM yang Anda butuhkan, dan inilah yang memungkinkan kami untuk tidak menggunakan HBM,” kata Knowles.

Dengan memisahkan memori dari akselerator, jauh lebih murah — biaya beberapa modul DDR komoditas — bagi perusahaan untuk mendukung model AI yang lebih besar.

Selain mendukung memori yang lebih murah, Knowles mengklaim IPU perusahaan juga memiliki keunggulan arsitektural dibandingkan GPU, setidaknya dalam hal model yang jarang.

Alih-alih menjalankan sejumlah kecil pengganda matriks besar — ​​seperti yang Anda temukan di unit pemrosesan tensor — chip Graphcore menampilkan sejumlah besar unit matematika matriks yang lebih kecil yang dapat menangani memori secara mandiri.

Ini memberikan perincian yang lebih besar untuk model yang jarang, di mana “Anda membutuhkan kebebasan untuk mengambil subset yang relevan, dan semakin kecil unit yang harus Anda ambil, semakin banyak kebebasan yang Anda miliki,” jelasnya.

Putusannya masih keluar

Secara keseluruhan, Knowles berpendapat bahwa pendekatan ini memungkinkan IPU-nya untuk melatih model AI/ML besar dengan ratusan miliar atau bahkan triliunan parameter, dengan biaya yang jauh lebih rendah dibandingkan dengan GPU.

Namun, pasar AI perusahaan masih dalam masa pertumbuhan, dan Graphcore menghadapi persaingan ketat di bidang ini dari pesaing yang lebih besar dan lebih mapan.

Jadi, sementara pengembangan pada model bahasa yang sangat jarang dan kecepatan rendah untuk AI tidak mungkin mereda dalam waktu dekat, masih harus dilihat apakah IPU Graphcore atau akselerator orang lain yang pada akhirnya mendukung beban kerja AI perusahaan. ®

Stempel Waktu:

Lebih dari Pendaftaran