Sådan kører du en LLM lokalt på din pc på mindre end 10 minutter

Sådan kører du en LLM lokalt på din pc på mindre end 10 minutter

Praktisk erfaring Med al snakken om massive maskinlæringsklynger og AI-pc'er ville du blive tilgivet for at tro, at du har brug for en slags speciel hardware til at lege med tekst- og kodegenererende store sprogmodeller (LLM'er) derhjemme.

I virkeligheden er der en god chance for, at det desktop-system, du læser dette på, er mere end i stand af at køre en bred vifte af LLM'er, herunder chatbots som Mistral eller kildekodegeneratorer som Codellama.

Faktisk, med åbent tilgængelige værktøjer som Ollama, LM Suite og Llama.cpp, er det relativt nemt at få disse modeller til at køre på dit system.

Af hensyn til enkelhed og kompatibilitet på tværs af platforme vil vi se på Ollama, som en gang installeret fungerer mere eller mindre det samme på tværs af Windows, Linux og Macs.

Et ord om ydeevne, kompatibilitet og AMD GPU-understøttelse:

Generelt kører store sprogmodeller som Mistral eller Llama 2 bedst med dedikerede acceleratorer. Der er en grund til, at datacenteroperatører køber og implementerer GPU'er i klynger på 10,000 eller mere, selvom du har brug for den mindste brøkdel af sådanne ressourcer.

Ollama tilbyder indbygget support til Nvidia og Apples M-serie GPU'er. Nvidia GPU'er med mindst 4 GB hukommelse burde fungere. Vi testede med en 12 GB RTX 3060, selvom vi anbefaler mindst 16 GB hukommelse til M-serie Macs.

Linux-brugere vil have Nvidias seneste proprietære driver og sandsynligvis CUDA-binære filer installeret først. Der er flere oplysninger om opsætning af det link..

Hvis du rocker en Radeon 7000-serie GPU eller nyere, har AMD en komplet guide til at få en LLM til at køre på dit system, som du kan finde link..

Den gode nyhed er, at hvis du ikke har et understøttet grafikkort, vil Ollama stadig køre på en AVX2-kompatibel CPU, selvom det er meget langsommere, end hvis du havde en understøttet GPU. Og selvom 16 GB hukommelse anbefales, kan du muligvis klare dig med mindre ved at vælge en kvantiseret model - mere om det på et minut.

Installation af Ollama

Installation af Ollama er ret ligetil, uanset dit basisoperativsystem. Det er open source, som du kan tjekke ud link..

For dem, der kører Windows eller Mac OS, gå over ollama.com og download og installer det som enhver anden applikation.

For dem, der kører Linux, er det endnu enklere: Bare kør denne ene liner - du kan finde manuelle installationsinstruktioner link., hvis du vil have dem - og du er afsted til løbene.

curl -fsSL https://ollama.com/install.sh | sh

Installation af din første model

Uanset dit operativsystem er arbejdet med Ollama stort set det samme. Ollama anbefaler at starte med Lama 2 7B, et transformatorbaseret neuralt netværk på syv milliarder parametre, men til denne guide tager vi et kig på Mistral 7B da det er ret dygtigt og været kilden til nogle kontroverser i de seneste uger.

Start med at åbne PowerShell eller en terminalemulator og udføre følgende kommando for at downloade og starte modellen i en interaktiv chattilstand.

ollama køre mistral

Ved download bliver du droppet ind i en chatprompt, hvor du kan begynde at interagere med modellen, ligesom ChatGPT, Copilot eller Google Gemini.

LLM'er, som Mistral 7B, kører overraskende godt på denne 2 år gamle M1 Max MacBook Pro

LLM'er, som Mistral 7B, kører overraskende godt på denne 2-årige M1 Max MacBook Pro - Klik for at forstørre

Hvis du ikke får noget, skal du muligvis starte Ollama fra startmenuen på Windows eller applikationsmappen på Mac først.

Modeller, tags og kvantisering

Mistal 7B er blot en af ​​flere LLM'er, inklusive andre versioner af modellen, der er tilgængelige ved hjælp af Ollama. Du kan finde den fulde liste sammen med instruktioner til at køre hver link., men den generelle syntaks lyder sådan her:

ollama run model-name:model-tag

Model-tags bruges til at angive, hvilken version af modellen du vil downloade. Hvis du forlader det, antager Ollama, at du vil have den nyeste version. Efter vores erfaring plejer dette at være en 4-bit kvantiseret version af modellen.

Hvis du for eksempel ville køre Metas Llama2 7B på FP16, ville det se sådan ud:

ollama køre llama2:7b-chat-fp16

Men før du prøver det, vil du måske dobbelttjekke, at dit system har nok hukommelse. Vores tidligere eksempel med Mistral brugte 4-bit kvantisering, hvilket betyder, at modellen har brug for en halv gigabyte hukommelse for hver 1 milliard parametre. Og glem ikke: Den har syv milliarder parametre.

Kvantisering er en teknik, der bruges til at komprimere modellen ved at konvertere dens vægte og aktiveringer til en lavere præcision. Dette gør det muligt for Mistral 7B at køre inden for 4 GB GPU eller system-RAM, normalt med minimalt ofring i kvaliteten af ​​outputtet, selvom dit kilometertal kan variere.

Llama 2 7B-eksemplet, der er brugt ovenfor, kører med halv præcision (FP16). Som et resultat vil du faktisk have brug for 2 GB hukommelse pr. milliard parametre, hvilket i dette tilfælde svarer til lidt over 14 GB. Medmindre du har en nyere GPU med 16 GB eller mere vRAM, har du muligvis ikke nok ressourcer til at køre modellen med den præcision.

Leder Ollama

Håndtering, opdatering og fjernelse af installerede modeller ved hjælp af Ollama burde føles hjemme for alle, der har brugt ting som Docker CLI før.

I dette afsnit gennemgår vi et par af de mere almindelige opgaver, du måske ønsker at udføre.

For at få en liste over installerede modeller køres:

ollama liste

For at fjerne en model skal du køre:

ollama rm modelnavn:model-tag

For at trække eller opdatere en eksisterende model skal du køre:

ollama pull modelnavn:model-tag

Yderligere Ollama-kommandoer kan findes ved at køre:

ollama --hjælp

Som vi bemærkede tidligere, er Ollama blot en af ​​mange rammer til at køre og teste lokale LLM'er. Hvis du løber ind i problemer med denne, kan du finde mere held hos andre. Og nej, en AI skrev ikke dette.

Registret har til formål at bringe dig mere om at bruge LLM'er i den nærmeste fremtid, så sørg for at dele dine brændende AI PC-spørgsmål i kommentarfeltet. Og glem det ikke forsyningskædesikkerhed. ®

Tidsstempel:

Mere fra Registret