Az LLM helyi futtatása a számítógépen kevesebb, mint 10 perc alatt

Az LLM helyi futtatása a számítógépen kevesebb, mint 10 perc alatt

Hands On A hatalmas gépi tanulási oktatócsoportokról és mesterséges intelligencia számítógépekről szóló szóbeszéd mellett megbocsátható, ha azt gondolná, hogy valamiféle speciális hardverre van szüksége ahhoz, hogy otthon játsszon szöveget és kódot generáló nagy nyelvi modellekkel (LLM).

A valóságban jó eséllyel az az asztali rendszer, amelyen ezt olvassa több mint képes LLM-ek széles skálájának futtatása, beleértve a csevegőbotokat, mint például a Mistral, vagy a forráskód-generátorokat, mint a Codellama.

Valójában az olyan nyíltan elérhető eszközökkel, mint az Ollama, az LM Suite és a Llama.cpp, viszonylag könnyű ezeket a modelleket futtatni a rendszeren.

Az egyszerűség és a platformok közötti kompatibilitás érdekében megvizsgáljuk Ollama, amely a telepítés után többé-kevésbé ugyanúgy működik Windows, Linux és Mac rendszeren.

Néhány szó a teljesítményről, a kompatibilitásról és az AMD GPU támogatásáról:

Általában a nagy nyelvű modellek, mint például a Mistral vagy a Llama 2, dedikált gyorsítókkal működnek a legjobban. Megvan az oka annak, hogy az adatközpontok üzemeltetői 10,000 XNUMX vagy annál több fürtben vásárolnak és telepítenek GPU-kat, bár Önnek az ilyen erőforrások töredékére lesz szüksége.

Az Ollama natív támogatást kínál az Nvidia és az Apple M-sorozatú GPU-ihoz. A legalább 4 GB memóriával rendelkező Nvidia GPU-knak működniük kell. 12 GB-os RTX 3060-al teszteltük, de az M-sorozatú Macekhez legalább 16 GB memóriát ajánlunk.

A Linux-felhasználók először az Nvidia legújabb szabadalmaztatott illesztőprogramját és valószínűleg a CUDA binárisokat szeretnék telepíteni. További információ található a beállításról itt.

Ha Radeon 7000-es sorozatú vagy újabb GPU-t szeretne, az AMD teljes útmutatóval rendelkezik az LLM futtatásához a rendszeren, amelyet megtalálhat. itt.

A jó hír az, hogy ha nem rendelkezik támogatott grafikus kártyával, az Ollama továbbra is AVX2-kompatibilis CPU-n fog futni, bár sokkal lassabban, mintha támogatott GPU-val rendelkezne. És bár 16 GB memória ajánlott, kevesebbel is boldogulhat, ha kvantált modellt választ – erről egy perc alatt többet is megtudhat.

Ollama telepítése

Az Ollama telepítése meglehetősen egyszerű, függetlenül az alap operációs rendszertől. Nyílt forráskódú, meg lehet nézni itt.

Azok, akik Windows vagy Mac OS rendszert futtatnak, forduljanak hozzánk ollama.com és töltse le és telepítse, mint bármely más alkalmazást.

Azok számára, akik Linuxot futtatnak, ez még egyszerűbb: csak futtassa ezt az egyetlen vonalat – kézi telepítési utasításokat talál itt, ha akarod őket – és már indulhatsz is a versenyeken.

curl -fsSL https://ollama.com/install.sh | SH

Az első modell telepítése

Operációs rendszerétől függetlenül az Ollamával való munka nagyjából ugyanaz. Ollama azt javasolja, hogy kezdje ezzel Láma 2 7B, egy hétmilliárd paraméteres transzformátor alapú neurális hálózat, de ebben az útmutatóban megnézzük Mistral 7B mivel eléggé képes és néhány forrása volt vita az elmúlt hetekben.

Kezdje a PowerShell vagy egy terminálemulátor megnyitásával, és a következő parancs végrehajtásával töltse le és indítsa el a modellt interaktív csevegési módban.

ollama fut mistral

A letöltés után megjelenik egy csevegési üzenet, ahol elkezdheti a kapcsolatot a modellel, akárcsak a ChatGPT, a Copilot vagy a Google Gemini.

Az LLM-ek, mint a Mistral 7B, meglepően jól futnak ezen a 2 éves M1 Max MacBook Pro-n.

Az LLM-ek, akárcsak a Mistral 7B, meglepően jól futnak ezen a 2 éves M1 Max MacBook Pron – Kattintson a nagyításhoz

Ha nem kap semmit, először el kell indítania az Ollamát a Start menüből Windows rendszeren vagy az alkalmazások mappájából Mac rendszeren.

Modellek, címkék és kvantálás

A Mistal 7B csak egy a számos LLM közül, beleértve a modell más verzióit is, amelyek az Ollama segítségével érhetők el. Megtalálhatja a teljes listát, valamint az egyes futtatási utasításokat itt, de az általános szintaxis valahogy így hangzik:

ollama futtassa a modellnév:modell-címke

A modellcímkék segítségével meghatározható, hogy a modell melyik verzióját szeretné letölteni. Ha kihagyja, Ollama feltételezi, hogy a legújabb verziót szeretné. Tapasztalataink szerint ez a modell 4 bites kvantált változata.

Ha például a Meta's Llama2 7B-t szeretné futtatni az FP16-on, akkor ez így nézne ki:

ollama run llama2:7b-chat-fp16

Mielőtt azonban ezt kipróbálná, érdemes még egyszer ellenőriznie, hogy a rendszer elegendő memóriával rendelkezik. Korábbi példánk a Mistral-lal 4 bites kvantálást használt, ami azt jelenti, hogy a modellnek fél gigabájt memóriára van szüksége minden 1 milliárd paraméterhez. És ne felejtsd el: hétmilliárd paraméterrel rendelkezik.

A kvantálás egy olyan technika, amelyet a modell tömörítésére használnak a súlyok és aktiválások alacsonyabb pontosságúra konvertálásával. Ez lehetővé teszi, hogy a Mistral 7B 4 GB GPU-n vagy rendszermemórián belül fusson, általában minimális feláldozással a kimenet minőségében, bár a futásteljesítmény változhat.

A fent használt Llama 2 7B példa fél pontossággal fut (FP16). Ennek eredményeként valójában 2 GB memóriára lenne szüksége milliárd paraméterenként, ami ebben az esetben valamivel több, mint 14 GB. Hacsak nem rendelkezik újabb GPU-val 16 GB vagy több vRAM-mal, előfordulhat, hogy nem lesz elegendő erőforrása a modell ilyen pontosságú futtatásához.

Ollama irányítása

A telepített modellek Ollama segítségével történő kezelése, frissítése és eltávolítása otthon érezheti magát mindenki számára, aki korábban használt olyan dolgokat, mint a Docker CLI.

Ebben a részben áttekintünk néhány gyakoribb feladatot, amelyeket esetleg szeretne végrehajtani.

A telepített modellek listájának megtekintéséhez:

ollama lista

A modell eltávolításához futtassa a következőket:

ollama rm modellnév:modell-címke

Meglévő modell lehívásához vagy frissítéséhez futtassa:

ollama pull modellnév:modell-címke

További Ollama parancsok a következő futtatással érhetők el:

ollama --segítség

Amint azt korábban megjegyeztük, az Ollama csak egy a sok keretrendszer közül a helyi LLM-ek futtatásához és teszteléséhez. Ha ezzel bajba kerülsz, több szerencsét találhatsz másoknál. És nem, ezt nem egy MI írta.

A regisztráció célja, hogy a közeljövőben többet mutasson Önnek az LLM-ek használatáról, ezért feltétlenül ossza meg égető AI PC-vel kapcsolatos kérdéseit a megjegyzések részben. És ne feledkezz meg róla ellátási lánc biztonsága. ®

Időbélyeg:

Még több A regisztráció