Cara menjalankan LLM secara lokal di PC Anda dalam waktu kurang dari 10 menit

Cara menjalankan LLM secara lokal di PC Anda dalam waktu kurang dari 10 menit

Tangan di atas Dengan semua perbincangan tentang klaster pelatihan pembelajaran mesin besar-besaran dan PC AI, Anda akan dimaafkan jika berpikir bahwa Anda memerlukan semacam perangkat keras khusus untuk bermain dengan model bahasa besar (LLM) yang menghasilkan teks dan kode di rumah.

Pada kenyataannya, ada kemungkinan besar sistem desktop tempat Anda membaca ini lebih dari mampu menjalankan berbagai LLM, termasuk bot obrolan seperti Mistral atau generator kode sumber seperti Codellama.

Faktanya, dengan alat yang tersedia secara terbuka seperti Ollama, LM Suite, dan Llama.cpp, relatif mudah untuk menjalankan model ini di sistem Anda.

Demi kesederhanaan dan kompatibilitas lintas platform, kami akan memeriksanya Ollama, yang setelah diinstal berfungsi kurang lebih sama di Windows, Linux, dan Mac.

Penjelasan tentang kinerja, kompatibilitas, dan dukungan GPU AMD:

Secara umum, model bahasa besar seperti Mistral atau Llama 2 berjalan paling baik dengan akselerator khusus. Ada alasan mengapa operator pusat data membeli dan menerapkan GPU dalam kelompok yang berjumlah 10,000 atau lebih, meskipun Anda hanya memerlukan sebagian kecil dari sumber daya tersebut.

Ollama menawarkan dukungan asli untuk Nvidia dan GPU seri M Apple. GPU Nvidia dengan memori minimal 4GB seharusnya berfungsi. Kami menguji dengan 12GB RTX 3060, meskipun kami merekomendasikan setidaknya memori 16GB untuk Mac seri M.

Pengguna Linux pasti menginginkan driver terbaru Nvidia dan mungkin binari CUDA diinstal terlebih dahulu. Ada informasi lebih lanjut tentang pengaturannya di sini.

Jika Anda menggunakan GPU Radeon seri 7000 atau lebih baru, AMD memiliki panduan lengkap untuk menjalankan LLM di sistem Anda, yang dapat Anda temukan di sini.

Kabar baiknya adalah, jika Anda tidak memiliki kartu grafis yang didukung, Ollama akan tetap berjalan pada CPU yang kompatibel dengan AVX2, meskipun jauh lebih lambat dibandingkan jika Anda memiliki GPU yang didukung. Meskipun disarankan untuk menggunakan memori sebesar 16 GB, Anda mungkin dapat menghemat anggaran dengan memilih model terkuantisasi โ€” lebih dari itu dalam satu menit.

Menginstal Ollama

Menginstal Ollama cukup mudah, apa pun sistem operasi dasar Anda. Ini open source, yang dapat Anda periksa di sini.

Bagi mereka yang menjalankan Windows atau Mac OS, silakan kunjungi ollama.com dan unduh dan instal seperti aplikasi lainnya.

Bagi mereka yang menjalankan Linux, ini bahkan lebih sederhana: Jalankan saja liner yang satu ini โ€” Anda dapat menemukan petunjuk instalasi manual di sini, jika Anda menginginkannya โ€” dan Anda pun berangkat ke balapan.

curl -fsSL https://ollama.com/install.sh | SH

Memasang model pertama Anda

Apa pun sistem operasi Anda, bekerja dengan Ollama pada dasarnya sama. Ollama merekomendasikan untuk memulai dengan Lama 2 7B, jaringan saraf berbasis transformator dengan tujuh miliar parameter, namun untuk panduan ini kita akan melihat Mistral 7B karena itu cukup mumpuni dan menjadi sumber dari beberapa kontroversi dalam beberapa pekan terakhir.

Mulailah dengan membuka PowerShell atau emulator terminal dan jalankan perintah berikut untuk mengunduh dan memulai model dalam mode obrolan interaktif.

ollama lari mistral

Setelah diunduh, Anda akan diarahkan ke pesan obrolan tempat Anda dapat mulai berinteraksi dengan model, seperti ChatGPT, Copilot, atau Google Gemini.

LLM, seperti Mistral 7B, bekerja dengan sangat baik di M2 Max MacBook Pro yang berusia 1 tahun ini

LLM, seperti Mistral 7B, bekerja dengan sangat baik di M2 Max MacBook Pro berusia 1 tahun ini โ€“ Klik untuk memperbesar

Jika Anda tidak mendapatkan apa pun, Anda mungkin perlu meluncurkan Ollama dari menu mulai di Windows atau folder aplikasi di Mac terlebih dahulu.

Model, tag, dan kuantisasi

Mistal 7B hanyalah salah satu dari beberapa LLM, termasuk versi model lainnya, yang dapat diakses menggunakan Ollama. Anda dapat menemukan daftar lengkapnya, beserta instruksi untuk menjalankan masing-masingnya di sini, tetapi sintaks umumnya seperti ini:

ollama menjalankan nama model: tag model

Tag model digunakan untuk menentukan versi model mana yang ingin Anda unduh. Jika dibiarkan, Ollama menganggap Anda menginginkan versi terbaru. Berdasarkan pengalaman kami, ini cenderung merupakan versi model terkuantisasi 4-bit.

Jika, misalnya, Anda ingin menjalankan Meta's Llama2 7B di FP16, tampilannya akan seperti ini:

ollama jalankan llama2:7b-chat-fp16

Namun sebelum Anda mencobanya, Anda mungkin ingin memeriksa ulang sistem Anda memiliki cukup memori. Contoh kami sebelumnya dengan Mistral menggunakan kuantisasi 4-bit, yang berarti model memerlukan setengah gigabyte memori untuk setiap 1 miliar parameter. Dan jangan lupa: Ia memiliki tujuh miliar parameter.

Kuantisasi adalah teknik yang digunakan untuk mengompresi model dengan mengubah bobot dan aktivasinya ke presisi yang lebih rendah. Hal ini memungkinkan Mistral 7B berjalan dalam GPU atau RAM sistem sebesar 4 GB, biasanya dengan sedikit pengorbanan dalam kualitas output, meskipun jarak tempuh Anda mungkin berbeda-beda.

Contoh Llama 2 7B yang digunakan di atas berjalan dengan presisi setengah (FP16). Akibatnya, Anda sebenarnya memerlukan memori 2GB per miliar parameter, yang dalam hal ini berarti lebih dari 14GB. Kecuali Anda memiliki GPU yang lebih baru dengan vRAM 16 GB atau lebih, Anda mungkin tidak memiliki sumber daya yang cukup untuk menjalankan model dengan presisi tersebut.

Mengelola Ollama

Mengelola, memperbarui, dan menghapus model yang terinstal menggunakan Ollama seharusnya terasa nyaman bagi siapa saja yang pernah menggunakan hal-hal seperti Docker CLI sebelumnya.

Di bagian ini kita akan membahas beberapa tugas umum yang mungkin ingin Anda jalankan.

Untuk menjalankan daftar model yang diinstal:

daftar ollama

Untuk menghapus model, Anda akan menjalankan:

ollama rm nama model:tag model

Untuk menarik atau memperbarui model yang ada, jalankan:

ollama tarik nama model: tag model

Perintah Ollama tambahan dapat ditemukan dengan menjalankan:

ollama --tolong

Seperti yang kami catat sebelumnya, Ollama hanyalah salah satu dari banyak kerangka kerja untuk menjalankan dan menguji LLM lokal. Jika Anda mendapat masalah dengan yang satu ini, Anda mungkin akan lebih beruntung dengan orang lain. Dan tidak, AI tidak menulis ini.

Pendaftaran bertujuan untuk memberi Anda lebih banyak cara memanfaatkan LLM dalam waktu dekat, jadi pastikan untuk membagikan pertanyaan menarik tentang AI PC Anda di bagian komentar. Dan jangan lupakan keamanan rantai pasokan. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran