How To Run An LLM Locally On Your PC In Less Than 10 Minutes

Taasavaldanud Platon

järgijaid: 0

Käed peal Arvestades kogu juttu tohututest masinõppe koolitusklastritest ja tehisintellekti arvutitest, antaks teile andeks, kui arvate, et vajate kodus teksti ja koodi genereerivate suurte keelemudelitega (LLM) mängimiseks mingit erilist riistvara.

Tegelikkuses on suur tõenäosus, et see töölauasüsteem, millel seda loete, on rohkem kui võimekas laia valikut LLM-e, sealhulgas vestlusroboteid (nt Mistral) või lähtekoodigeneraatoreid (nt Codellama).

Tegelikult on selliste avatud tööriistadega nagu Ollama, LM Suite ja Llama.cpp suhteliselt lihtne neid mudeleid oma süsteemis tööle panna.

Lihtsuse ja platvormidevahelise ühilduvuse huvides uurime seda Ollama, mis pärast installimist töötab Windowsis, Linuxis ja Macis enam-vähem samamoodi.

Mõni sõna jõudluse, ühilduvuse ja AMD GPU toe kohta:

Üldiselt töötavad spetsiaalsete kiirenditega kõige paremini suured keelemudelid, nagu Mistral või Llama 2. On põhjust, miks andmekeskuste operaatorid ostavad ja juurutavad GPU-sid 10,000 XNUMX või enama klastrite kaupa, kuigi teil on vaja ainult murdosa sellistest ressurssidest.

Ollama pakub Nvidia ja Apple'i M-seeria GPU-dele loomulikku tuge. Vähemalt 4 GB mäluga Nvidia GPU-d peaksid töötama. Testisime 12 GB RTX 3060-ga, kuigi soovitame M-seeria Macide jaoks vähemalt 16 GB mälu.

Linuxi kasutajad soovivad esmalt installida Nvidia uusimat patenteeritud draiverit ja tõenäoliselt CUDA binaarfaile. Selle seadistamise kohta on rohkem teavet siin.

Kui kasutate Radeon 7000-seeria GPU-d või uuemat, on AMD-l täielik juhend LLM-i käivitamiseks teie süsteemis, mille leiate siin.

Hea uudis on see, et kui teil pole toetatud graafikakaarti, töötab Ollama endiselt AVX2-ga ühilduva protsessoriga, kuigi palju aeglasemalt kui toetatud GPU-ga. Ja kuigi soovitatav on 16 GB mälu, võite kvantiseeritud mudeli kasuks valida vähemaga hakkama – rohkem sellest minutiga.

Ollama paigaldamine

Ollama installimine on üsna lihtne, olenemata teie põhioperatsioonisüsteemist. See on avatud lähtekoodiga, mida saate kontrollida siin.

Need, kes kasutavad Windowsi või Mac OS-i, minge kindlasti ollama.com ning laadige alla ja installige see nagu mis tahes muu rakendus.

Neile, kes kasutavad Linuxit, on see veelgi lihtsam: lihtsalt käivitage see üks lainer – leiate käsitsi installimisjuhised siin, kui sa neid tahad – ja lähedki võistlustele.

curl -fsSL https://ollama.com/install.sh | sh

Esimese mudeli installimine

Olenemata teie operatsioonisüsteemist on Ollamaga töötamine suures osas sama. Ollama soovitab alustada Laama 2 7B, seitsme miljardi parameetriga trafol põhinev närvivõrk, kuid selle juhendi jaoks vaatame Mistral 7B kuna see on üsna võimekas ja olnud mõne allikaks poleemikat viimastel nädalatel.

Alustage PowerShelli või terminali emulaatori avamisega ja käivitage järgmine käsk, et mudel alla laadida ja interaktiivses vestlusrežiimis käivitada.

ollama jooksma mistral

Allalaadimisel suunatakse teid vestluse juurde, kus saate alustada mudeliga suhtlemist, nagu ChatGPT, Copilot või Google Gemini.

LLM-id, nagu Mistral 7B, töötavad selle 2-aastase M1 Max MacBook Pro peal üllatavalt hästi – klõpsake suurendamiseks

Kui te midagi ei saa, peate võib-olla esmalt käivitama Ollama Windowsi käivitusmenüüst või Maci rakenduste kaustast.

Mudelid, sildid ja kvantimine

Mistal 7B on vaid üks paljudest LLM-idest, sealhulgas mudeli muudest versioonidest, millele on juurdepääs Ollama abil. Leiate täieliku loendi koos juhistega nende käitamiseks siin, kuid üldine süntaks on umbes selline:

ollama run model-name:modell-tag

Mudelimärke kasutatakse selleks, et määrata, millise mudeli versiooni soovite alla laadida. Kui jätate selle välja, eeldab Ollama, et soovite uusimat versiooni. Meie kogemuse kohaselt on see mudeli 4-bitine kvantiseeritud versioon.

Kui soovite näiteks käivitada Meta's Llama2 7B FP16 juures, näeks see välja järgmine:

ollama jookse lama2:7b-chat-fp16

Kuid enne selle proovimist võiksite kontrollida, kas teie süsteemis on piisavalt mälu. Meie eelmine näide Mistraliga kasutas 4-bitist kvantiseerimist, mis tähendab, et mudel vajab iga 1 miljardi parameetri kohta pool gigabaiti mälu. Ja ärge unustage: sellel on seitse miljardit parameetrit.

Kvantimine on tehnika, mida kasutatakse mudeli tihendamiseks, teisendades selle kaalud ja aktiveerimised väiksema täpsusega. See võimaldab Mistral 7B-l töötada 4 GB GPU-st või süsteemi RAM-ist, tavaliselt minimaalse väljundi kvaliteedi ohverdamisega, kuigi teie läbisõit võib erineda.

Eespool kasutatud Llama 2 7B näide töötab poole täpsusega (FP16). Selle tulemusena vajaksite tegelikult 2 GB mälu miljardi parameetri kohta, mis antud juhul on veidi üle 14 GB. Kui teil pole 16 GB või enama vRAM-iga uuemat GPU-d, ei pruugi teil olla piisavalt ressursse mudeli sellise täpsusega käitamiseks.

Ollama juhtimine

Installitud mudelite haldamine, värskendamine ja eemaldamine Ollama abil peaks tundma end koduselt kõigile, kes on varem kasutanud selliseid asju nagu Docker CLI.

Selles jaotises käsitleme mõnda levinumat ülesannet, mida võiksite täita.

Installitud mudelite loendi vaatamiseks toimige järgmiselt.

ollama list

Mudeli eemaldamiseks käivitage:

ollama rm mudeli-nimi:mudeli-silt

Olemasoleva mudeli tõmbamiseks või värskendamiseks käivitage:

ollama tõmba mudeli-nimi:mudeli-silt

Täiendavad Ollama käsud leiate, käivitades:

ollama -- appi

Nagu varem märkisime, on Ollama vaid üks paljudest raamistikest kohalike LLM-ide käitamiseks ja testimiseks. Kui jääte sellega hätta, võite teistega rohkem õnne leida. Ja ei, tehisintellekt ei kirjutanud seda.

Register eesmärk on tutvustada teile lähitulevikus LLM-ide kasutamist, seega jagage kindlasti oma põletavaid AI PC-küsimusi kommentaaride jaotises. Ja ärge unustage tarneahela turvalisus🇧🇷 🇧🇷