Menavigasi Mahalnya Komputasi AI

Menavigasi Mahalnya Komputasi AI

Menavigasi Biaya Tinggi dari AI Compute PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Sumber: Perjalanan Tengah

Ledakan AI generatif terikat pada komputasi. Ini memiliki properti unik yang menambahkan lebih banyak penghitungan secara langsung menghasilkan produk yang lebih baik. Biasanya, investasi R&D lebih terkait langsung dengan seberapa berharganya suatu produk, dan hubungan itu sangat sublinear. Tetapi saat ini tidak demikian halnya dengan kecerdasan buatan dan, akibatnya, faktor utama yang mendorong industri saat ini hanyalah biaya pelatihan dan inferensi. 

Meskipun kami tidak mengetahui angka sebenarnya, kami telah mendengar dari sumber tepercaya bahwa pasokan komputasi sangat terbatas, permintaan melampauinya dengan faktor 10(!) Jadi menurut kami wajar untuk mengatakan bahwa, saat ini, akses ke sumber daya komputasi โ€” dengan total biaya terendah โ€” telah menjadi faktor penentu keberhasilan perusahaan AI.

Faktanya, kami telah melihat banyak perusahaan membelanjakan lebih dari 80% dari total modal mereka untuk sumber daya komputasi!

Dalam postingan ini, kami mencoba menguraikan faktor biaya untuk perusahaan AI. Angka absolut tentu saja akan berubah seiring waktu, tetapi kami tidak melihat bantuan langsung dari perusahaan AI yang terikat oleh akses mereka ke sumber daya komputasi. Jadi, mudah-mudahan, ini adalah kerangka kerja yang berguna untuk memikirkan lanskap. 

Mengapa model AI sangat mahal secara komputasi?

Ada berbagai macam model AI generatif, dan biaya inferensi dan pelatihan bergantung pada ukuran dan jenis model. Untungnya, model yang paling populer saat ini sebagian besar adalah arsitektur berbasis transformator, yang mencakup model bahasa besar (LLM) populer seperti GPT-3, GPT-J, atau BERT. Sementara jumlah operasi yang tepat untuk inferensi dan pembelajaran transformer adalah khusus model (lihat kertas ini), ada aturan praktis yang cukup akurat yang hanya bergantung pada jumlah parameter (yaitu, bobot jaringan saraf) model dan jumlah token input dan output. 

Token pada dasarnya adalah urutan pendek dari beberapa karakter. Mereka sesuai dengan kata-kata atau bagian dari kata-kata. Cara terbaik untuk mendapatkan intuisi untuk token adalah dengan mencoba tokenization dengan tokenizer online yang tersedia untuk umum (misalnya, OpenAI). Untuk GPT-3, panjang rata-rata sebuah token adalah 4 karakter

Aturan praktis untuk transformer adalah umpan maju (yaitu, inferensi) untuk model dengan p parameter untuk input dan output urutan panjang n token setiap, memakan waktu kurang lebih 2*n*hal operasi titik mengambang (FLOPS)ยน. Pelatihan untuk model yang sama memakan waktu kurang lebih 6* hal FLOPS per token (yaitu, pass mundur tambahan membutuhkan empat operasi lagiยฒ). Anda dapat memperkirakan total biaya pelatihan dengan mengalikannya dengan jumlah token dalam data pelatihan.

Persyaratan memori untuk transformer juga bergantung pada ukuran model. Untuk inferensi, kita membutuhkan p parameter model agar sesuai dengan memori. Untuk pembelajaran (yaitu, back-propagation), kita perlu menyimpan nilai tengah tambahan per parameter antara forward dan backward pass. Dengan asumsi kita menggunakan angka floating point 32-bit, ini adalah tambahan 8 byte per parameter. Untuk melatih model 175 miliar parameter, kami perlu menyimpan lebih dari satu terabyte data dalam memori โ€” ini melebihi semua GPU yang ada saat ini dan mengharuskan kami membagi model menjadi beberapa kartu. Persyaratan memori untuk inferensi dan pelatihan dapat dioptimalkan dengan menggunakan nilai floating point dengan panjang yang lebih pendek, dengan 16-bit menjadi umum dan 8-bit diantisipasi dalam waktu dekat.

Menavigasi Biaya Tinggi dari AI Compute PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Tabel di atas memiliki ukuran dan menghitung biaya untuk beberapa model populer. GPT-3 memiliki sekitar 175 miliar parameter, yang untuk masukan dan keluaran 1,024 token, menghasilkan biaya komputasi sekitar 350 triliun operasi floating point (yaitu, Teraflops atau TFLOPS). Melatih model seperti GPT-3 membutuhkan sekitar 3.14*10^23 operasi floating point. Model lain seperti Meta's LLaMA miliki bahkan lebih tinggi lagi menghitung kebutuhan. Melatih model seperti itu adalah salah satu tugas yang lebih intensif secara komputasional yang telah dilakukan umat manusia sejauh ini. 

Untuk meringkas: Infrastruktur AI mahal karena masalah algoritmik yang mendasarinya sangat sulit secara komputasi. Kompleksitas algoritmik dalam mengurutkan tabel database dengan sejuta entri tidak signifikan dibandingkan dengan kerumitan menghasilkan satu kata dengan GPT-3. Ini berarti Anda ingin memilih model terkecil yang menyelesaikan kasus penggunaan Anda. 

Kabar baiknya adalah, untuk transformer, kita dapat dengan mudah memperkirakan berapa banyak komputasi dan memori yang akan digunakan oleh model dengan ukuran tertentu. Jadi, memilih perangkat keras yang tepat menjadi pertimbangan selanjutnya. 

Argumen waktu dan biaya untuk GPU

Bagaimana kompleksitas komputasi diterjemahkan ke waktu? Sebuah inti prosesor biasanya dapat menjalankan 1-2 instruksi per siklus, dan laju jam prosesor telah stabil sekitar 3 GHz selama 15 tahun terakhir karena akhir tahun Penskalaan Dennard. Menjalankan satu operasi inferensi GPT-3 tanpa mengeksploitasi arsitektur paralel apa pun akan membutuhkan waktu sekitar 350 TFLOPS/(3 GHz*1 FLOP) atau 116,000 detik, atau 32 jam. Ini sangat tidak praktis; alih-alih, kami membutuhkan chip khusus yang mempercepat tugas ini.

Dalam praktiknya, semua model AI saat ini berjalan pada kartu yang menggunakan inti khusus dalam jumlah yang sangat besar. Misalnya, GPU NVIDIA A100 memiliki 512 "inti tensor" yang dapat melakukan perkalian matriks 4ร—4 (setara dengan 64 perkalian dan penambahan, atau 128 FLOPS) dalam satu siklus. Kartu akselerator AI sering disebut sebagai GPU (unit pemrosesan grafis), karena arsitekturnya awalnya dikembangkan untuk game desktop. Di masa depan, kami berharap AI semakin menjadi keluarga produk yang berbeda. 

A100 memiliki kinerja nominal sebesar 312 TFLOPS yang secara teori akan mengurangi inferensi untuk GPT-3 menjadi sekitar 1 detik. Namun ini adalah perhitungan yang terlalu disederhanakan karena beberapa alasan. Pertama, untuk sebagian besar kasus penggunaan, hambatannya bukanlah daya komputasi GPU, tetapi kemampuan untuk mendapatkan data dari memori grafis khusus ke inti tensor. Kedua, bobot 175 miliar akan memakan 700GB dan tidak akan muat ke dalam memori grafis GPU mana pun. Teknik seperti partisi dan streaming berat perlu digunakan. Dan, ketiga, ada sejumlah optimisasi (misalnya, menggunakan representasi floating point yang lebih pendek, seperti FP16, FP8, atau matriks jarang) yang digunakan untuk mempercepat komputasi. Tapi, secara keseluruhan, matematika di atas memberi kita intuisi tentang biaya perhitungan keseluruhan LLM saat ini.

Melatih model transformator membutuhkan waktu sekitar tiga kali lebih lama per token daripada melakukan inferensi. Namun, mengingat kumpulan data pelatihan sekitar 300 juta kali lebih besar dari permintaan inferensi, pelatihan membutuhkan waktu lebih lama dengan faktor 1 miliar. Pada satu GPU, pelatihan akan memakan waktu puluhan tahun; dalam praktiknya hal ini dilakukan pada kluster komputasi besar di pusat data khusus atau, kemungkinan besar, di cloud. Pelatihan juga lebih sulit untuk diparalelkan daripada inferensi, karena bobot yang diperbarui harus dipertukarkan antar node. Memori dan bandwidth antar GPU seringkali menjadi faktor yang jauh lebih penting, dengan interkoneksi berkecepatan tinggi dan fabric khusus yang umum. Untuk melatih model yang sangat besar, membuat penyiapan jaringan yang sesuai dapat menjadi tantangan utama. Melihat ke masa depan, akselerator AI akan memiliki kemampuan jaringan pada kartu atau bahkan pada chip. 

Bagaimana kerumitan komputasi ini diterjemahkan menjadi biaya? Inferensi GPT-3, yang, seperti yang kita lihat di atas, membutuhkan waktu sekitar 1 detik pada A100 akan memiliki biaya komputasi mentah antara $0.0002 dan $0.0014 untuk 1,000 token (ini sebanding dengan harga OpenAI sebesar $0.002/1000 token). Seorang pengguna yang menghasilkan 100 permintaan inferensi per hari akan dikenakan biaya dalam urutan dolar per tahun. Ini adalah titik harga yang sangat rendah dan membuat sebagian besar kasus penggunaan AI berbasis teks oleh manusia layak secara finansial.

Pelatihan GPT-3, sebaliknya, jauh lebih mahal. Sekali lagi hanya menghitung biaya komputasi untuk 3.14*10^23 FLOPS dengan tarif di atas memberi kami perkiraan $560,000 pada kartu A100 untuk lari latihan tunggal. Dalam praktiknya, untuk pelatihan kami tidak akan mendapatkan efisiensi hampir 100% di GPU; namun kami juga dapat menggunakan pengoptimalan untuk mengurangi waktu pelatihan. Perkiraan biaya pelatihan GPT-3 lainnya berkisar dari $500,000 untuk $ 4.6 juta, tergantung pada asumsi perangkat keras. Perhatikan bahwa ini adalah biaya sekali jalan dan bukan biaya keseluruhan. Beberapa proses kemungkinan akan diperlukan dan penyedia cloud akan menginginkan komitmen jangka panjang (lebih lanjut tentang ini di bawah). Pelatihan model top-of-the-line tetap mahal, tetapi dalam jangkauan start-up yang didanai dengan baik.

Singkatnya, AI generatif membutuhkan investasi besar-besaran dalam infrastruktur AI saat ini. Tidak ada alasan untuk percaya bahwa ini akan berubah dalam waktu dekat. Melatih model seperti GPT-3 adalah salah satu tugas yang paling intensif secara komputasional yang pernah dilakukan umat manusia. Dan sementara GPU semakin cepat, dan kami menemukan cara untuk mengoptimalkan pelatihan, perluasan AI yang cepat meniadakan kedua efek ini.

Pertimbangan untuk infrastruktur AI

Sampai di sini, kami telah mencoba memberi Anda beberapa intuisi untuk skala yang diperlukan untuk melakukan pelatihan dan inferensi model AI, dan parameter dasar apa yang mendorongnya. Dengan konteks tersebut, kami sekarang ingin memberikan beberapa panduan praktis tentang cara memutuskan infrastruktur AI mana yang akan digunakan.

Infrastruktur eksternal vs internal

Mari kita hadapi itu: GPU itu keren. Banyak insinyur dan pendiri yang berpikiran teknik memiliki bias terhadap penyediaan perangkat keras AI mereka sendiri, tidak hanya karena hal itu memberikan kontrol yang sangat baik atas pelatihan model, tetapi karena ada sesuatu yang menyenangkan tentang memanfaatkan daya komputasi dalam jumlah besar (pameran A).

Kenyataannya, bagaimanapun, adalah bahwa banyak startup โ€” terutama perusahaan aplikasi โ€” tidak perlu membangun infrastruktur AI mereka sendiri pada Hari 1. Sebagai gantinya, layanan model yang dihosting seperti OpenAI atau Hugging Face (untuk bahasa) dan Replicate (untuk pembuatan gambar) memungkinkan para pendiri untuk mencari dengan cepat kecocokan produk-pasar tanpa perlu mengelola infrastruktur atau model yang mendasarinya.

Layanan ini menjadi sangat bagus sehingga banyak perusahaan tidak pernah lulus darinya. Pengembang dapat mencapai kontrol yang berarti atas kinerja model melalui rekayasa cepat dan abstraksi fine-tuning tingkat tinggi (yaitu, fine tuning melalui panggilan API). Harga untuk layanan ini berdasarkan konsumsi, sehingga seringkali juga lebih murah daripada menjalankan infrastruktur terpisah. Kami telah melihat perusahaan aplikasi menghasilkan lebih dari $50 juta ARR, dan bernilai lebih dari $1 miliar, yang menjalankan layanan model yang dihosting secara tersembunyi.

Di sisi lain, beberapa startup โ€” khususnya mereka yang melatih model dasar baru atau membangun aplikasi AI yang terintegrasi secara vertikal โ€” tidak dapat menghindari menjalankan model mereka sendiri secara langsung pada GPU. Entah karena modelnya adalah produk yang efektif dan tim mencari "kecocokan model-pasar", atau karena kontrol yang cermat atas pelatihan dan/atau inferensi diperlukan untuk mencapai kemampuan tertentu atau mengurangi biaya marjinal dalam skala besar. Either way, mengelola infrastruktur dapat menjadi sumber keunggulan kompetitif.

Membangun cloud vs pusat data

Dalam kebanyakan kasus, cloud adalah tempat yang tepat untuk infrastruktur AI Anda. Lebih sedikit biaya di muka, kemampuan untuk menaikkan dan menurunkan skala, ketersediaan regional, dan lebih sedikit gangguan dari membangun pusat data Anda sendiri sangat menarik bagi sebagian besar perusahaan rintisan dan perusahaan besar.

Tetapi ada beberapa pengecualian untuk aturan ini:

  • Jika Anda beroperasi dalam skala yang sangat besar, menjalankan pusat data Anda sendiri mungkin akan lebih hemat biaya. Titik harga pastinya bervariasi berdasarkan lokasi geografis dan penyiapan, tetapi biasanya membutuhkan pengeluaran infrastruktur lebih dari $50 juta per tahun.
  • Anda memerlukan perangkat keras yang sangat spesifik yang tidak dapat diperoleh dari penyedia cloud. Misalnya, jenis GPU yang tidak tersedia secara luas, serta persyaratan memori, penyimpanan, atau jaringan yang tidak biasa.
  • Anda tidak dapat menemukan cloud yang dapat diterima untuk pertimbangan geopolitik.

Jika Anda ingin membangun pusat data Anda sendiri, ada analisis harga/kinerja GPU yang komprehensif untuk pengaturan Anda sendiri (misalnya, Analisis Tim Dettmer). Selain biaya dan performa kartu itu sendiri, pemilihan perangkat keras juga bergantung pada daya, ruang, dan pendinginan. Misalnya, dua kartu RTX 3080 Ti secara bersamaan memiliki kapasitas komputasi mentah yang serupa dengan A100, tetapi konsumsi daya masing-masing adalah 700W vs. 300W. Perbedaan daya 3,500 kWh dengan tarif pasar $0.10/kWh selama siklus hidup tiga tahun meningkatkan biaya RTX3080 Ti hampir 2x lipat (sekitar $1,000).

Semua ini mengatakan, kami berharap sebagian besar startup menggunakan komputasi awan. 

Membandingkan penyedia layanan cloud 

Amazon Web Services (AWS), Microsoft Azure, dan Google Cloud Platform (GCP) semuanya menawarkan instans GPU, tetapi penyedia baru juga tampaknya berfokus pada beban kerja AI secara khusus. Inilah kerangka kerja yang kami lihat digunakan oleh banyak pendiri untuk memilih penyedia cloud:

Harga: Tabel di bawah menunjukkan harga untuk sejumlah cloud khusus besar dan kecil per 7 April 2023. Data ini hanya bersifat indikatif, karena instans sangat bervariasi dalam hal bandwidth jaringan, biaya jalan keluar data, biaya tambahan dari CPU dan jaringan, tersedia diskon, dan faktor lainnya.

Menavigasi Biaya Tinggi dari AI Compute PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kapasitas komputasi pada perangkat keras tertentu adalah komoditas. Secara naif, kami mengharapkan harga yang cukup seragam, tetapi tidak demikian. Dan sementara ada perbedaan fitur yang substansial antara cloud, mereka tidak cukup untuk menjelaskan bahwa harga untuk NVIDIA A100 on-demand bervariasi dengan faktor hampir 4x di antara penyedia.

Di ujung atas skala harga, cloud publik besar menetapkan harga premium berdasarkan reputasi merek, keandalan yang terbukti, dan kebutuhan untuk mengelola berbagai beban kerja. Penyedia AI khusus yang lebih kecil menawarkan harga yang lebih rendah, baik dengan menjalankan pusat data yang dibuat khusus (misalnya, Coreweave) atau melakukan arbitrase cloud lain (misalnya, Lambda Labs).

Secara praktis, sebagian besar pembeli yang lebih besar menegosiasikan harga secara langsung dengan penyedia cloud, seringkali berkomitmen pada beberapa persyaratan pengeluaran minimum serta komitmen waktu minimum (kami telah melihat 1-3 tahun). Selisih harga antara awan agak menyusut setelah negosiasi, tetapi kami telah melihat peringkat pada tabel di atas tetap relatif stabil. Penting juga untuk diperhatikan bahwa perusahaan yang lebih kecil dapat memperoleh harga yang agresif dari cloud khusus tanpa komitmen pengeluaran yang besar.

Tersedianya: GPU paling kuat (misalnya, Nvidia A100s) secara konsisten kekurangan pasokan selama 12 bulan lebih terakhir. 

Masuk akal untuk berpikir bahwa tiga penyedia cloud teratas memiliki ketersediaan terbaik, mengingat daya beli dan kumpulan sumber daya mereka yang besar. Tapi, yang agak mengejutkan, banyak startup belum menemukan hal itu benar. Cloud besar memiliki banyak perangkat keras tetapi juga memiliki kebutuhan pelanggan yang besar untuk dipenuhi โ€” misalnya, Azure adalah host utama untuk ChatGPT โ€” dan terus menambah/menyewa kapasitas untuk memenuhi permintaan. Sementara itu, Nvidia telah berkomitmen untuk menyediakan perangkat keras secara luas di seluruh industri, termasuk alokasi untuk penyedia khusus baru. (Mereka melakukan ini untuk bersikap adil dan mengurangi ketergantungan mereka pada beberapa pelanggan besar yang juga bersaing dengan mereka.)

Akibatnya, banyak startup menemukan lebih banyak chip yang tersedia, termasuk Nvidia H100s mutakhir, di penyedia cloud yang lebih kecil. Jika Anda ingin bekerja dengan perusahaan infrastruktur yang lebih baru, Anda mungkin dapat mengurangi waktu tunggu perangkat keras dan mungkin menghemat uang dalam prosesnya.

Model pengiriman komputasi: Cloud besar saat ini hanya menawarkan instans dengan GPU khusus, alasannya karena virtualisasi GPU masih menjadi masalah yang belum terpecahkan. Awan AI khusus menawarkan model lain, seperti wadah atau pekerjaan batch, yang dapat menangani tugas individual tanpa menimbulkan biaya start-up dan tear-down dari sebuah instans. Jika Anda merasa nyaman dengan model ini, ini dapat mengurangi biaya secara substansial.

Interkoneksi jaringan: Khusus untuk pelatihan, bandwidth jaringan merupakan faktor utama dalam pemilihan provider. Cluster dengan fabric khusus antar node, seperti NVLink, diperlukan untuk melatih model besar tertentu. Untuk pembuatan gambar, biaya lalu lintas jalan keluar juga bisa menjadi pemicu biaya utama.

Dukungan pelanggan: Penyedia cloud besar melayani sejumlah besar pelanggan di ribuan SKU produk. Sulit untuk mendapatkan perhatian dari dukungan pelanggan, atau menyelesaikan masalah, kecuali jika Anda adalah pelanggan besar. Banyak cloud AI khusus, di sisi lain, menawarkan dukungan yang cepat dan responsif bahkan untuk pelanggan kecil. Ini sebagian karena mereka beroperasi pada skala yang lebih kecil, tetapi juga karena beban kerja mereka lebih homogen โ€” sehingga mereka lebih terdorong untuk fokus pada fitur dan bug khusus AI.

Membandingkan GPU 

Semuanya sama, GPU kelas atas akan bekerja paling baik di hampir semua beban kerja. Namun, seperti yang Anda lihat pada tabel di bawah, perangkat keras terbaik juga jauh lebih mahal. Memilih jenis GPU yang tepat untuk aplikasi spesifik Anda dapat mengurangi biaya secara substansial dan dapat membuat perbedaan antara model bisnis yang layak dan tidak layak.

Menavigasi Biaya Tinggi dari AI Compute PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Memutuskan seberapa jauh daftar yang harus diambil โ€” yaitu, menentukan pilihan GPU yang paling hemat biaya untuk aplikasi Anda โ€” sebagian besar merupakan keputusan teknis yang berada di luar cakupan artikel ini. Tetapi di bawah ini kami akan membagikan beberapa kriteria pemilihan yang menurut kami paling penting:

Pelatihan vs inferensi: Seperti yang kita lihat di bagian pertama di atas, melatih model Transformer mengharuskan kita menyimpan 8 byte data untuk pelatihan selain bobot model. Ini berarti GPU konsumen kelas atas dengan memori 12 GB hampir tidak dapat digunakan untuk melatih model 4 miliar parameter. Dalam praktiknya, pelatihan model besar dilakukan pada kluster mesin dengan sebaiknya banyak GPU per server, banyak VRAM, dan koneksi bandwidth tinggi antar server (yaitu, kluster yang dibangun menggunakan GPU pusat data top-end).

Secara khusus, banyak model akan paling hemat biaya pada NVIDIA H100, tetapi saat ini sulit ditemukan dan biasanya memerlukan komitmen jangka panjang lebih dari satu tahun. NVIDIA A100 menjalankan sebagian besar pelatihan model saat ini; lebih mudah ditemukan tetapi, untuk klaster besar, mungkin juga memerlukan komitmen jangka panjang.

Persyaratan memori: LLM besar memiliki jumlah parameter yang terlalu tinggi untuk muat di kartu mana pun. Mereka harus dibagi menjadi beberapa kartu dan memerlukan penyiapan yang mirip dengan pelatihan. Dengan kata lain, Anda mungkin memerlukan H100 atau A100 bahkan untuk inferensi LLM. Tetapi model yang lebih kecil (misalnya, Difusi Stabil) membutuhkan VRAM yang jauh lebih sedikit. Sementara A100 masih populer, kami telah melihat startup menggunakan A10, A40, A4000, A5000 dan A6000, atau bahkan kartu RTX. 

Dukungan perangkat keras: Sementara sebagian besar beban kerja di perusahaan yang kami bicarakan berjalan di NVIDIA, beberapa sudah mulai bereksperimen dengan vendor lain. Yang paling umum adalah Google TPU, tetapi Intel Gaudi 2 tampaknya juga mendapatkan daya tarik. Tantangan dengan vendor ini adalah performa model Anda seringkali sangat bergantung pada ketersediaan pengoptimalan perangkat lunak untuk chip ini. Anda mungkin harus melakukan PoC untuk memahami kinerja.

Persyaratan latensi: Secara umum, beban kerja yang tidak terlalu sensitif terhadap latensi (misalnya, pemrosesan data batch atau aplikasi yang tidak memerlukan respons UI interaktif) dapat menggunakan GPU yang kurang bertenaga. Ini dapat mengurangi biaya komputasi sebanyak 3-4x (misalnya, membandingkan A100 dengan A10 di AWS). Aplikasi yang menghadap pengguna, di sisi lain, sering kali membutuhkan kartu kelas atas untuk memberikan pengalaman pengguna yang menarik dan real-time. Mengoptimalkan model seringkali diperlukan untuk membawa biaya ke kisaran yang dapat dikelola.

Kekejaman: Perusahaan AI generatif sering melihat lonjakan permintaan yang dramatis karena teknologinya sangat baru dan menarik. Bukan hal yang aneh melihat volume permintaan meningkat 10x dalam sehari, berdasarkan rilis produk baru, atau tumbuh 50% per minggu secara konsisten. Menangani lonjakan ini seringkali lebih mudah pada GPU kelas bawah, karena lebih banyak node komputasi kemungkinan tersedia sesuai permintaan. Sering masuk akal juga untuk melayani lalu lintas semacam ini dengan sumber daya berbiaya lebih rendah โ€” dengan mengorbankan kinerja โ€” jika itu berasal dari pengguna yang kurang terlibat atau kurang retensi.

Mengoptimalkan dan menjadwalkan model

Pengoptimalan perangkat lunak dapat sangat memengaruhi waktu berjalan model โ€” dan peningkatan 10x bukanlah hal yang aneh. Namun, Anda harus menentukan metode mana yang paling efektif dengan model dan sistem khusus Anda.

Beberapa teknik bekerja dengan model yang cukup luas. Menggunakan representasi floating point yang lebih pendek (yaitu, FP16 atau FP8 vs. FP32 asli) atau kuantisasi (INT8, INT4, INT2) mencapai percepatan yang seringkali linier dengan pengurangan bit. Hal ini terkadang memerlukan modifikasi model, tetapi semakin banyak teknologi tersedia yang mengotomatiskan pekerjaan dengan presisi campuran atau lebih pendek. Pemangkasan jaringan saraf mengurangi jumlah bobot dengan mengabaikan bobot dengan nilai rendah. Bersama dengan perkalian matriks jarang yang efisien, hal ini dapat mencapai percepatan substansial pada GPU modern. Serangkaian teknik pengoptimalan lainnya mengatasi kemacetan bandwidth memori (misalnya, dengan bobot model streaming).

Pengoptimalan lainnya sangat spesifik untuk model. Misalnya, Difusi Stabil telah membuat kemajuan besar dalam jumlah VRAM yang diperlukan untuk inferensi. Kelas pengoptimalan lainnya adalah khusus perangkat keras. TensorML NVIDIA menyertakan sejumlah pengoptimalan, tetapi hanya akan berfungsi pada perangkat keras NVIDIA. Terakhir, namun tidak kalah pentingnya, penjadwalan tugas AI dapat menciptakan kemacetan atau peningkatan kinerja yang sangat besar. Mengalokasikan model ke GPU dengan cara meminimalkan pertukaran bobot, memilih GPU terbaik untuk tugas jika tersedia beberapa tugas, dan meminimalkan waktu henti dengan mengelompokkan beban kerja terlebih dahulu adalah teknik umum.

Pada akhirnya, pengoptimalan model masih merupakan seni hitam, dan mayoritas startup yang kami ajak bicara bekerja sama dengan pihak ketiga untuk membantu beberapa aspek perangkat lunak ini. Seringkali, ini bukan vendor MLops tradisional, melainkan perusahaan yang berspesialisasi dalam pengoptimalan untuk model generatif tertentu (misalnya, OctoML atau SegMind).

Bagaimana biaya infrastruktur AI akan berkembang?

Selama beberapa tahun terakhir, kami telah melihat pertumbuhan eksponensial dari keduanya parameter model dan Daya komputasi GPU. Tidak jelas apakah tren ini akan berlanjut.

Saat ini, diterima secara luas bahwa ada hubungan antara jumlah optimal parameter dan ukuran kumpulan data pelatihan (lihat Deepmind's Chinchilla bekerja lebih lanjut tentang ini). LLM terbaik saat ini dilatih di Perayapan Umum (kumpulan 4.5 miliar halaman web, atau sekitar 10% dari semua halaman web yang ada). Korpus pelatihan juga mencakup Wikipedia dan koleksi buku, meskipun keduanya jauh lebih kecil (jumlah total buku yang ada diperkirakan hanya sekitar 100 juta). Gagasan lain, seperti menyalin konten video atau audio, telah disarankan, tetapi tidak ada yang mendekati ukurannya. Tidak jelas apakah kami dapat memperoleh kumpulan data pelatihan non-sintetik yang 10x lebih besar dari yang telah digunakan.

Performa GPU akan terus meningkat, tetapi juga pada tingkat yang lebih lambat. Hukum Moore masih utuh memungkinkan lebih banyak transistor dan lebih banyak inti, tetapi daya dan I/O menjadi faktor pembatas. Selain itu, banyak buah yang menggantung rendah untuk pengoptimalan telah dipilih. 

Namun, semua ini tidak berarti kami tidak memperkirakan adanya peningkatan permintaan untuk kapasitas komputasi. Bahkan jika pertumbuhan model dan set pelatihan melambat, pertumbuhan industri AI dan peningkatan jumlah pengembang AI akan memicu permintaan untuk GPU yang lebih banyak dan lebih cepat. Sebagian besar kapasitas GPU digunakan untuk pengujian oleh developer selama fase pengembangan model, dan permintaan ini berskala linier dengan jumlah karyawan. Tidak ada tanda bahwa kekurangan GPU yang kita miliki saat ini akan mereda dalam waktu dekat.

Akankah infrastruktur AI berbiaya tinggi yang terus berlanjut ini menciptakan parit yang membuat pendatang baru tidak mungkin mengejar pemain lama yang didanai dengan baik? Kami belum tahu jawaban untuk pertanyaan ini. Biaya pelatihan LLM mungkin terlihat seperti parit saat ini, tetapi model open source seperti Alpaca atau Stable Diffusion telah menunjukkan bahwa pasar ini masih awal dan dapat berubah dengan cepat. Seiring waktu, struktur biaya tumpukan perangkat lunak AI yang muncul (lihat postingan kami sebelumnya) mungkin mulai terlihat lebih seperti industri perangkat lunak tradisional. 

Pada akhirnya, ini akan menjadi hal yang baik: Sejarah telah menunjukkan bahwa ini mengarah pada ekosistem yang dinamis dengan inovasi yang cepat dan banyak peluang bagi para pendiri wirausaha.

Terima kasih kepada Moin Nadeem dan Shangda Xu atas masukan dan bimbingannya selama proses penulisan.


ยน Intuisi di sini adalah bahwa untuk parameter apa pun (yaitu bobot) dalam jaringan saraf, operasi inferensi (yaitu forward pass) perlu melakukan dua operasi floating point per parameter. Pertama, mengalikan nilai node input jaringan saraf dengan parameternya. Kedua, menambahkan hasil penjumlahan ke node output dari jaringan saraf. Parameter dalam pembuat enkode digunakan sekali per token masukan dan parameter dalam dekoder digunakan sekali per token keluaran. Jika kita menganggap model memiliki p parameter dan input dan output keduanya memiliki panjang n token, total operasi floating point adalah n * hal. Ada banyak operasi lain (misalnya normalisasi, encoding/decoding embedding) yang terjadi dalam model, tetapi waktu yang diperlukan untuk melakukannya kecil jika dibandingkan. 

ยฒ Pembelajaran pertama memerlukan lintasan maju melalui transformator seperti dijelaskan di atas, diikuti dengan lintasan mundur yang menimbulkan empat operasi tambahan per parameter untuk menghitung gradien dan menyesuaikan bobot. Perhatikan bahwa menghitung gradien memerlukan pelestarian nilai node yang dihitung dari forward pass. Untuk GPT-3, Model Bahasa adalah Pelajar Sedikit membahas biaya pelatihan.

* * *

Pandangan yang diungkapkan di sini adalah pandangan individu AH Capital Management, LLC (โ€œa16zโ€) yang dikutip dan bukan pandangan a16z atau afiliasinya. Informasi tertentu yang terkandung di sini telah diperoleh dari sumber pihak ketiga, termasuk dari perusahaan portofolio dana yang dikelola oleh a16z. Meskipun diambil dari sumber yang dipercaya dapat dipercaya, a16z belum memverifikasi informasi tersebut secara independen dan tidak membuat pernyataan tentang keakuratan informasi yang bertahan lama atau kesesuaiannya untuk situasi tertentu. Selain itu, konten ini mungkin termasuk iklan pihak ketiga; a16z belum meninjau iklan tersebut dan tidak mendukung konten iklan apa pun yang terkandung di dalamnya.

Konten ini disediakan untuk tujuan informasi saja, dan tidak boleh diandalkan sebagai nasihat hukum, bisnis, investasi, atau pajak. Anda harus berkonsultasi dengan penasihat Anda sendiri mengenai hal-hal itu. Referensi ke sekuritas atau aset digital apa pun hanya untuk tujuan ilustrasi, dan bukan merupakan rekomendasi investasi atau penawaran untuk menyediakan layanan konsultasi investasi. Selanjutnya, konten ini tidak ditujukan atau dimaksudkan untuk digunakan oleh investor atau calon investor mana pun, dan dalam keadaan apa pun tidak dapat diandalkan saat membuat keputusan untuk berinvestasi dalam dana yang dikelola oleh a16z. (Penawaran untuk berinvestasi dalam dana a16z hanya akan dilakukan dengan memorandum penempatan pribadi, perjanjian berlangganan, dan dokumentasi lain yang relevan dari dana tersebut dan harus dibaca secara keseluruhan.) Setiap investasi atau perusahaan portofolio yang disebutkan, dirujuk, atau dijelaskan tidak mewakili semua investasi dalam kendaraan yang dikelola oleh a16z, dan tidak ada jaminan bahwa investasi tersebut akan menguntungkan atau bahwa investasi lain yang dilakukan di masa depan akan memiliki karakteristik atau hasil yang serupa. Daftar investasi yang dilakukan oleh dana yang dikelola oleh Andreessen Horowitz (tidak termasuk investasi yang penerbitnya tidak memberikan izin kepada a16z untuk mengungkapkan secara publik serta investasi yang tidak diumumkan dalam aset digital yang diperdagangkan secara publik) tersedia di https://a16z.com/investments /.

Bagan dan grafik yang disediakan di dalamnya hanya untuk tujuan informasi dan tidak boleh diandalkan saat membuat keputusan investasi apa pun. Kinerja masa lalu tidak menunjukkan hasil di masa depan. Konten berbicara hanya pada tanggal yang ditunjukkan. Setiap proyeksi, perkiraan, prakiraan, target, prospek, dan/atau pendapat yang diungkapkan dalam materi ini dapat berubah tanpa pemberitahuan dan mungkin berbeda atau bertentangan dengan pendapat yang diungkapkan oleh orang lain. Silakan lihat https://a16z.com/disclosures untuk informasi penting tambahan.

Stempel Waktu:

Lebih dari Andreessen Horowitz