Hvordan kjøre en LLM lokalt på din PC på mindre enn 10 minutter

Hvordan kjøre en LLM lokalt på din PC på mindre enn 10 minutter

Hendene på Med alt snakk om massive maskinlæringsklynger og AI-PC-er vil du bli tilgitt for å tro at du trenger en slags spesiell maskinvare for å leke med tekst- og kodegenererende store språkmodeller (LLM) hjemme.

I virkeligheten er det en god sjanse for at skrivebordssystemet du leser dette på er mer enn kapabel for å kjøre et bredt spekter av LLM-er, inkludert chat-bots som Mistral eller kildekodegeneratorer som Codellama.

Faktisk, med åpent tilgjengelige verktøy som Ollama, LM Suite og Llama.cpp, er det relativt enkelt å få disse modellene til å kjøre på systemet ditt.

Av hensyn til enkelhet og kompatibilitet på tvers av plattformer, skal vi se på Ollama, som en gang installert fungerer mer eller mindre likt på tvers av Windows, Linux og Mac.

Et ord om ytelse, kompatibilitet og AMD GPU-støtte:

Generelt fungerer store språkmodeller som Mistral eller Llama 2 best med dedikerte akseleratorer. Det er en grunn til at datasenteroperatører kjøper og distribuerer GPUer i klynger på 10,000 XNUMX eller mer, selv om du trenger den minste brøkdelen av slike ressurser.

Ollama tilbyr innebygd støtte for Nvidia og Apples M-serie GPUer. Nvidia GPUer med minst 4 GB minne skal fungere. Vi testet med en 12 GB RTX 3060, selv om vi anbefaler minst 16 GB minne for M-serien Mac.

Linux-brukere vil ha Nvidias nyeste proprietære driver og sannsynligvis CUDA-binærfilene installert først. Det er mer informasjon om hvordan du konfigurerer det her..

Hvis du rocker en Radeon 7000-serie GPU eller nyere, har AMD en full guide for hvordan du får en LLM til å kjøre på systemet ditt, som du kan finne her..

Den gode nyheten er at hvis du ikke har et støttet grafikkort, vil Ollama fortsatt kjøre på en AVX2-kompatibel CPU, selv om det er mye tregere enn hvis du hadde en støttet GPU. Og selv om 16 GB minne anbefales, kan du kanskje klare deg med mindre ved å velge en kvantisert modell - mer om det på et minutt.

Installerer Ollama

Å installere Ollama er ganske rett frem, uavhengig av basisoperativsystemet ditt. Det er åpen kildekode, som du kan sjekke ut her..

For de som kjører Windows eller Mac OS, gå over ollama.com og last ned og installer det som alle andre programmer.

For de som kjører Linux, er det enda enklere: Bare kjør denne ene liner - du kan finne manuelle installasjonsinstruksjoner her., hvis du vil ha dem - og du er i gang med løpene.

curl -fsSL https://ollama.com/install.sh | sh

Installer din første modell

Uavhengig av operativsystemet ditt, er det stort sett det samme å jobbe med Ollama. Ollama anbefaler å begynne med Lama 2 7B, et transformatorbasert nevralt nettverk med syv milliarder parametere, men for denne veiledningen skal vi ta en titt på Mistral 7B siden det er ganske dyktig og vært kilden til noen kontrovers i de siste ukene.

Start med å åpne PowerShell eller en terminalemulator og utfør følgende kommando for å laste ned og starte modellen i en interaktiv chat-modus.

ollama kjøre mistral

Ved nedlasting får du en chat-melding der du kan begynne å samhandle med modellen, akkurat som ChatGPT, Copilot eller Google Gemini.

LLM-er, som Mistral 7B, fungerer overraskende bra på denne 2 år gamle M1 Max MacBook Pro

LLM-er, som Mistral 7B, fungerer overraskende bra på denne 2 år gamle M1 Max MacBook Pro – Klikk for å forstørre

Hvis du ikke får noe, må du kanskje starte Ollama fra startmenyen på Windows eller programmer-mappen på Mac først.

Modeller, tagger og kvantisering

Mistal 7B er bare en av flere LLM-er, inkludert andre versjoner av modellen, som er tilgjengelige med Ollama. Du kan finne hele listen, sammen med instruksjoner for å kjøre hver her., men den generelle syntaksen er omtrent slik:

ollama kjøre modellnavn:modell-tag

Model-tags brukes til å spesifisere hvilken versjon av modellen du vil laste ned. Hvis du lar det være, antar Ollama at du vil ha den nyeste versjonen. Etter vår erfaring har dette en tendens til å være en 4-bits kvantisert versjon av modellen.

Hvis du for eksempel ønsket å kjøre Metas Llama2 7B på FP16, ville det se slik ut:

ollama kjøre llama2:7b-chat-fp16

Men før du prøver det, vil du kanskje dobbeltsjekke at systemet har nok minne. Vårt forrige eksempel med Mistral brukte 4-bits kvantisering, noe som betyr at modellen trenger en halv gigabyte minne for hver 1 milliard parametere. Og ikke glem: Den har syv milliarder parametere.

Kvantisering er en teknikk som brukes til å komprimere modellen ved å konvertere vektene og aktiveringene til en lavere presisjon. Dette gjør at Mistral 7B kan kjøre innenfor 4 GB GPU eller system-RAM, vanligvis med minimalt ofring i kvaliteten på utdataene, selv om kjørelengden din kan variere.

Llama 2 7B-eksemplet brukt ovenfor kjører med halv presisjon (FP16). Som et resultat vil du faktisk trenge 2 GB minne per milliard parametere, som i dette tilfellet fungerer til litt over 14 GB. Med mindre du har en nyere GPU med 16 GB eller mer vRAM, har du kanskje ikke nok ressurser til å kjøre modellen med den presisjonen.

Leder Ollama

Å administrere, oppdatere og fjerne installerte modeller ved hjelp av Ollama skal føles hjemme for alle som har brukt ting som Docker CLI før.

I denne delen vil vi gå over noen av de mer vanlige oppgavene du kanskje vil utføre.

For å få en liste over installerte modeller kjøres:

ollama liste

For å fjerne en modell, kjører du:

ollama rm modellnavn:modell-tag

For å hente eller oppdatere en eksisterende modell, kjør:

ollama pull modellnavn:modell-tag

Ytterligere Ollama-kommandoer kan bli funnet ved å kjøre:

ollama --hjelp

Som vi bemerket tidligere, er Ollama bare ett av mange rammeverk for å kjøre og teste lokale LLM-er. Hvis du får problemer med denne, kan du finne mer hell hos andre. Og nei, en AI skrev ikke dette.

Registeret har som mål å gi deg mer om bruk av LLM i nær fremtid, så sørg for å dele dine brennende AI PC-spørsmål i kommentarfeltet. Og ikke glem det forsyningskjedens sikkerhet. ®

Tidstempel:

Mer fra Registeret