Cum să rulați un LLM local pe computer în mai puțin de 10 minute

Cum să rulați un LLM local pe computer în mai puțin de 10 minute

Mainile pe Cu toate discuțiile despre grupurile masive de antrenament de învățare automată și PC-urile AI, ai fi iertat să crezi că ai nevoie de un fel de hardware special pentru a te juca cu modele de limbaj mari (LLM) care generează text și coduri la domiciliu.

În realitate, există șanse mari ca sistemul desktop pe care citiți acest lucru mai mult decât capabil de a rula o gamă largă de LLM-uri, inclusiv roboți de chat precum Mistral sau generatoare de cod sursă precum Codellama.

De fapt, cu instrumente disponibile în mod deschis, cum ar fi Ollama, LM Suite și Llama.cpp, este relativ ușor să faci rularea acestor modele pe sistemul tău.

În interesul simplității și al compatibilității între platforme, vom analiza Ollama, care odată instalat funcționează mai mult sau mai puțin la fel pe Windows, Linux și Mac.

Un cuvânt despre performanță, compatibilitate și suport pentru GPU AMD:

În general, modelele de limbă mari precum Mistral sau Llama 2 funcționează cel mai bine cu acceleratoare dedicate. Există un motiv pentru care operatorii de centre de date cumpără și implementează GPU-uri în clustere de 10,000 sau mai mult, deși veți avea nevoie de cea mai mică parte din astfel de resurse.

Ollama oferă suport nativ pentru GPU-urile din seria M de la Nvidia și Apple. GPU-urile Nvidia cu cel puțin 4 GB de memorie ar trebui să funcționeze. Am testat cu un RTX 12 de 3060 GB, deși recomandăm cel puțin 16 GB de memorie pentru Mac-urile din seria M.

Utilizatorii Linux vor dori cel mai recent driver proprietar al Nvidia și, probabil, binarele CUDA instalate mai întâi. Există mai multe informații despre configurarea acesteia aici.

Dacă utilizați un GPU din seria Radeon 7000 sau mai nou, AMD are un ghid complet despre obținerea unui LLM care rulează pe sistemul dvs., pe care îl puteți găsi aici.

Vestea bună este că, dacă nu aveți o placă grafică acceptată, Ollama va rula în continuare pe un procesor compatibil AVX2, deși mult mai lent decât dacă ați avea un GPU acceptat. Și, în timp ce se recomandă 16 GB de memorie, este posibil să vă puteți descurca cu mai puțină optând pentru un model cuantificat - mai multe despre asta într-un minut.

Instalarea Ollama

Instalarea Ollama este destul de simplă, indiferent de sistemul de operare de bază. Este open source, pe care îl puteți verifica aici.

Pentru cei care rulează Windows sau Mac OS, mergeți peste ollama.com și descărcați și instalați-l ca orice altă aplicație.

Pentru cei care rulează Linux, este și mai simplu: rulați doar această linie - puteți găsi instrucțiuni manuale de instalare aici, dacă le vrei — și pleci la curse.

curl -fsSL https://ollama.com/install.sh | SH

Instalarea primului model

Indiferent de sistemul dvs. de operare, lucrul cu Ollama este în mare parte același. Ollama recomandă să începeți cu Lama 2 7B, o rețea neuronală bazată pe transformatoare cu șapte miliarde de parametri, dar pentru acest ghid vom arunca o privire la Mistral 7B deoarece este destul de capabil și a fost sursa unora controversă în ultimele săptămâni.

Începeți prin a deschide PowerShell sau a unui emulator de terminal și executați următoarea comandă pentru a descărca și a porni modelul într-un mod interactiv de chat.

ollama run mistral

La descărcare, veți fi introdus într-o solicitare de chat unde puteți începe să interacționați cu modelul, la fel ca ChatGPT, Copilot sau Google Gemini.

LLM-urile, precum Mistral 7B, funcționează surprinzător de bine pe acest MacBook Pro M2 Max de 1 ani.

LLM-urile, cum ar fi Mistral 7B, funcționează surprinzător de bine pe acest MacBook Pro M2 Max de 1 ani – Faceți clic pentru a mări

Dacă nu obțineți nimic, poate fi necesar să lansați mai întâi Ollama din meniul de pornire de pe Windows sau din folderul de aplicații de pe Mac.

Modele, etichete și cuantizare

Mistal 7B este doar unul dintre mai multe LLM-uri, inclusiv alte versiuni ale modelului, care sunt accesibile folosind Ollama. Puteți găsi lista completă, împreună cu instrucțiuni pentru rularea fiecăruia aici, dar sintaxa generală este cam așa:

ollama rulați nume-model:etichetă-model

Etichetele-model sunt folosite pentru a specifica ce versiune a modelului doriți să descărcați. Dacă o oprești, Ollama presupune că vrei cea mai recentă versiune. Din experiența noastră, aceasta tinde să fie o versiune cuantificată pe 4 biți a modelului.

Dacă, de exemplu, doriți să rulați Llama2 7B de la Meta la FP16, ar arăta astfel:

ollama run llama2:7b-chat-fp16

Dar înainte de a încerca asta, poate doriți să verificați din nou sistemul dumneavoastră are suficientă memorie. Exemplul nostru anterior cu Mistral a folosit cuantizarea pe 4 biți, ceea ce înseamnă că modelul are nevoie de o jumătate de gigabyte de memorie pentru fiecare miliard de parametri. Și nu uitați: are șapte miliarde de parametri.

Cuantizarea este o tehnică folosită pentru a comprima modelul prin conversia greutăților și activărilor acestuia la o precizie mai mică. Acest lucru permite lui Mistral 7B să ruleze cu 4 GB de GPU sau RAM de sistem, de obicei cu un sacrificiu minim în calitatea ieșirii, deși kilometrajul dvs. poate varia.

Exemplul Llama 2 7B folosit mai sus rulează la jumătate de precizie (FP16). Ca rezultat, veți avea nevoie de 2 GB de memorie pe miliard de parametri, care în acest caz rezultă la puțin peste 14 GB. Dacă nu aveți un GPU mai nou, cu 16 GB sau mai mult de vRAM, este posibil să nu aveți suficiente resurse pentru a rula modelul cu acea precizie.

Administrarea Ollama

Gestionarea, actualizarea și eliminarea modelelor instalate folosind Ollama ar trebui să se simtă ca acasă pentru oricine a folosit înainte lucruri precum Docker CLI.

În această secțiune, vom trece peste câteva dintre sarcinile mai frecvente pe care ați dori să le executați.

Pentru a obține o listă a modelelor instalate, rulați:

lista ollama

Pentru a elimina un model, ați rula:

ollama rm nume-model:etichetă-model

Pentru a extrage sau a actualiza un model existent, rulați:

ollama pull nume-model:etichetă-model

Comenzi suplimentare Ollama pot fi găsite rulând:

ollama --ajutor

După cum am menționat mai devreme, Ollama este doar unul dintre multele cadre pentru rularea și testarea LLM-urilor locale. Dacă întâmpinați probleme cu acesta, s-ar putea să găsiți mai mult noroc la alții. Și nu, un AI nu a scris asta.

Registrul își propune să vă aducă mai multe despre utilizarea LLM-urilor în viitorul apropiat, așa că asigurați-vă că împărtășiți întrebările dvs. arzătoare despre computerul AI în secțiunea de comentarii. Și nu uita de securitatea lanțului de aprovizionare🇧🇷 🇧🇷

Timestamp-ul:

Mai mult de la Registrul