Kako zagnati LLM lokalno na vašem računalniku v manj kot 10 minutah

Kako zagnati LLM lokalno na vašem računalniku v manj kot 10 minutah

Hands On Ob vsem govorjenju o ogromnih grozdih za usposabljanje za strojno učenje in osebnih računalnikih z umetno inteligenco bi vam bilo odpuščeno, če bi mislili, da potrebujete nekakšno posebno strojno opremo za igranje z velikimi jezikovnimi modeli (LLM), ki ustvarjajo besedilo in kodo, doma.

V resnici obstaja velika verjetnost, da je namizni sistem, na katerem to berete več kot sposoben vodenja široke palete LLM-jev, vključno z roboti za klepet, kot je Mistral, ali generatorji izvorne kode, kot je Codellama.

Pravzaprav je z odprto dostopnimi orodji, kot so Ollama, LM Suite in Llama.cpp, te modele relativno enostavno zagnati v vašem sistemu.

Zaradi enostavnosti in združljivosti med platformami si bomo ogledali Ollama, ki po namestitvi deluje bolj ali manj enako v sistemih Windows, Linux in Mac.

Nekaj ​​besed o zmogljivosti, združljivosti in podpori za GPU AMD:

Na splošno veliki jezikovni modeli, kot sta Mistral ali Llama 2, najbolje delujejo z namenskimi pospeševalniki. Obstaja razlog, da operaterji podatkovnih centrov kupujejo in nameščajo GPE v grozdih po 10,000 ali več, čeprav boste potrebovali le delček takih virov.

Ollama ponuja izvorno podporo za grafične procesorje serije M Nvidia in Apple. Nvidia GPE z vsaj 4 GB pomnilnika bi morala delovati. Testirali smo z 12 GB RTX 3060, čeprav priporočamo vsaj 16 GB pomnilnika za Mace serije M.

Uporabniki Linuxa bodo želeli najprej namestiti najnovejši lastniški gonilnik Nvidia in verjetno binarne datoteke CUDA. Obstaja več informacij o nastavitvi tega tukaj.

Če uporabljate grafični procesor serije Radeon 7000 ali novejši, ima AMD popoln vodnik o izvajanju LLM v vašem sistemu, ki ga lahko najdete tukaj.

Dobra novica je, da če nimate podprte grafične kartice, bo Ollama še vedno delovala na CPE, združljivem z AVX2, čeprav veliko počasneje, kot če bi imeli podprto GPE. In čeprav je priporočljivo 16 GB pomnilnika, boste morda lahko preživeli z manj, če se odločite za kvantiziran model – več o tem čez minuto.

Namestitev Ollame

Namestitev Ollame je precej preprosta, ne glede na vaš osnovni operacijski sistem. Je odprtokoden, kar lahko preverite tukaj.

Za tiste, ki uporabljajo operacijski sistem Windows ali Mac OS, nadaljujte ollama.com ter jo prenesite in namestite kot vsako drugo aplikacijo.

Za tiste, ki uporabljajo Linux, je še preprosteje: samo zaženite to eno vrstico – najdete navodila za ročno namestitev tukaj, če jih želiš — in greš na dirke.

curl -fsSL https://ollama.com/install.sh | sh

Namestitev vašega prvega modela

Ne glede na vaš operacijski sistem je delo z Ollamo večinoma enako. Ollama priporoča, da začnete z Lama 2 7B, nevronska mreža s sedmimi milijardami parametrov, ki temelji na transformatorju, vendar si bomo v tem vodniku ogledali Mistral 7B ker je precej zmogljiv in je bil vir nekaterih polemiko v zadnjih tednih.

Začnite tako, da odprete PowerShell ali terminalski emulator in izvedete naslednji ukaz za prenos in zagon modela v načinu interaktivnega klepeta.

ollama run mistral

Po prenosu boste preusmerjeni v poziv za klepet, kjer lahko začnete komunicirati z modelom, tako kot ChatGPT, Copilot ali Google Gemini.

LLM-ji, kot je Mistral 7B, delujejo presenetljivo dobro na tem 2 leti starem M1 Max MacBook Pro

LLM, kot je Mistral 7B, delujejo presenetljivo dobro na tem 2 leti starem M1 Max MacBook Pro – Kliknite za povečavo

Če ne dobite ničesar, boste morda morali najprej zagnati Ollamo iz začetnega menija v sistemu Windows ali mape aplikacij v sistemu Mac.

Modeli, oznake in kvantizacija

Mistal 7B je le eden od številnih LLM-jev, vključno z drugimi različicami modela, ki so dostopni z Ollamo. Najdete lahko celoten seznam skupaj z navodili za zagon vsakega tukaj, vendar je splošna sintaksa nekako takole:

ollama zaženi ime-modela:oznaka-modela

Oznake modela se uporabljajo za določitev različice modela, ki jo želite prenesti. Če ga izklopite, Ollama domneva, da želite najnovejšo različico. Po naših izkušnjah je to običajno 4-bitna kvantizirana različica modela.

Če bi na primer želeli zagnati Metino Llama2 7B na FP16, bi bilo videti takole:

ollama zaženi llama2:7b-chat-fp16

Toda preden to poskusite, boste morda želeli dvakrat preveriti, ali ima vaš sistem dovolj pomnilnika. Naš prejšnji primer z Mistralom je uporabil 4-bitno kvantizacijo, kar pomeni, da model potrebuje pol gigabajta pomnilnika za vsako milijardo parametrov. In ne pozabite: ima sedem milijard parametrov.

Kvantizacija je tehnika, ki se uporablja za stiskanje modela s pretvorbo njegovih uteži in aktivacij na nižjo natančnost. To omogoča, da Mistral 7B deluje znotraj 4 GB GPE ali sistemskega RAM-a, običajno z minimalno žrtvovanjem kakovosti izhoda, čeprav se vaša kilometrina lahko razlikuje.

Zgoraj uporabljen primer Llama 2 7B deluje s polovično natančnostjo (FP16). Posledično bi dejansko potrebovali 2 GB pomnilnika na milijardo parametrov, kar v tem primeru pomeni nekaj več kot 14 GB. Razen če imate novejšo grafično procesorsko enoto s 16 GB ali več vRAM-a, morda ne boste imeli dovolj virov za zagon modela s tako natančnostjo.

Upravljanje Ollame

Upravljanje, posodabljanje in odstranjevanje nameščenih modelov z uporabo Ollame bi se moralo počutiti kot doma za vsakogar, ki je že uporabljal stvari, kot je Docker CLI.

V tem razdelku bomo preučili nekaj pogostejših nalog, ki bi jih morda želeli izvesti.

Če želite pridobiti seznam nameščenih modelov, zaženite:

seznam ollama

Če želite odstraniti model, zaženite:

ollama rm ime-modela:oznaka-modela

Če želite potegniti ali posodobiti obstoječi model, zaženite:

ollama potegni ime-modela:oznaka-modela

Dodatne ukaze Ollama lahko najdete tako, da zaženete:

ollama --pomoč

Kot smo že omenili, je Ollama le eno od mnogih ogrodij za izvajanje in testiranje lokalnih LLM. Če boste s tem naleteli na težave, boste morda imeli več sreče z drugimi. In ne, tega ni napisal AI.

Register vam želi prinesti več o uporabi LLM v bližnji prihodnosti, zato ne pozabite deliti svojih perečih vprašanj o AI PC v razdelku za komentarje. In ne pozabite na varnost dobavne verige. ®

Časovni žig:

Več od Register