Kuinka ajaa LLM paikallisesti tietokoneellasi alle 10 minuutissa

Julkaissut Platon

seuraajia: 0

Kädet päällä Kun puhutaan massiivisista koneoppimiskoulutusklustereista ja tekoäly-PC:istä, saat anteeksi, jos luulet tarvitsevasi jonkinlaisen erikoislaitteiston, jotta voit pelata tekstiä ja koodia luovilla suurilla kielimalleilla (LLM) kotona.

Todellisuudessa on hyvä mahdollisuus, että työpöytäjärjestelmä, jolla luet tätä, on enemmän kuin kykenevä laajan valikoiman LLM-palveluita, mukaan lukien chatbotit, kuten Mistral, tai lähdekoodigeneraattorit, kuten Codellama.

Itse asiassa avoimesti saatavilla olevien työkalujen, kuten Ollaman, LM Suiten ja Llama.cpp:n, avulla on suhteellisen helppoa saada nämä mallit toimimaan järjestelmässäsi.

Yksinkertaisuuden ja eri alustojen yhteensopivuuden vuoksi aiomme tarkastella Ollama, joka kerran asennettuna toimii enemmän tai vähemmän samalla tavalla Windowsissa, Linuxissa ja Macissa.

Sana suorituskyvystä, yhteensopivuudesta ja AMD GPU -tuesta:

Yleensä suuret kielimallit, kuten Mistral tai Llama 2, toimivat parhaiten erityisillä kiihdyttimillä. On olemassa syy, miksi palvelinkeskusten operaattorit ostavat ja ottavat käyttöön GPU:ita vähintään 10,000 XNUMX klustereissa, vaikka tarvitset vain murto-osan tällaisista resursseista.

Ollama tarjoaa natiivituen Nvidialle ja Applen M-sarjan GPU:ille. Nvidia-grafiikkasuorittimien, joissa on vähintään 4 Gt muistia, pitäisi toimia. Testasimme 12 Gt:n RTX 3060:lla, mutta suosittelemme M-sarjan Maceille vähintään 16 Gt muistia.

Linux-käyttäjät haluavat Nvidian uusimman ohjaimen ja luultavasti CUDA-binaarit asennettavan ensin. Sen asettamisesta on lisätietoja tätä.

Jos käytät Radeon 7000 -sarjan GPU:ta tai uudempaa, AMD:llä on täydellinen opas LLM:n käynnistämiseen järjestelmässäsi. Löydät ne tätä.

Hyvä uutinen on, että jos sinulla ei ole tuettua näytönohjainta, Ollama toimii edelleen AVX2-yhteensopivalla suorittimella, vaikkakin paljon hitaammin kuin jos sinulla olisi tuettu grafiikkasuoritin. Ja vaikka 16 Gt muistia suositellaan, saatat pärjätä vähemmällä valitsemalla kvantisoidun mallin – lisää siitä minuutissa.

Ollaman asennus

Ollaman asentaminen on melko suoraviivaista peruskäyttöjärjestelmästäsi riippumatta. Se on avoin lähdekoodi, jonka voit tarkistaa tätä.

Jos sinulla on Windows- tai Mac OS -käyttöjärjestelmä, mene eteenpäin ollama.com ja lataa ja asenna se kuten mikä tahansa muu sovellus.

Niille, jotka käyttävät Linuxia, se on vielä yksinkertaisempaa: suorita tämä yksi liner - löydät manuaaliset asennusohjeet tätä, jos haluat niitä – ja olet mukana kilpailuissa.

curl -fsSL https://ollama.com/install.sh | sh

Ensimmäisen mallin asentaminen

Käyttöjärjestelmästäsi riippumatta työskentely Ollaman kanssa on suurelta osin samanlaista. Ollama suosittelee aloittamista Laama 2 7B, seitsemän miljardin parametrin muuntajapohjainen hermoverkko, mutta tässä oppaassa tarkastelemme Mistral 7B koska se on melko kykenevä ja ollut joidenkin lähde kiista viime viikkoina.

Aloita avaamalla PowerShell tai pääteemulaattori ja suorittamalla seuraava komento ladataksesi ja käynnistämällä mallin interaktiivisessa chat-tilassa.

ollama run mistral

Lataamisen jälkeen sinut pudotetaan chat-kehotteeseen, jossa voit aloittaa vuorovaikutuksen mallin kanssa, kuten ChatGPT, Copilot tai Google Gemini.

LLM:t, kuten Mistral 7B, toimivat yllättävän hyvin tällä 2 vuotta vanhalla M1 Max MacBook Prolla – Klikkaa suuremmaksi.

Jos et saa mitään, sinun on ehkä ensin käynnistettävä Ollama Windowsin Käynnistä-valikosta tai Macin sovelluskansiosta.

Mallit, tunnisteet ja kvantisointi

Mistal 7B on vain yksi monista LLM:istä, mukaan lukien mallin muut versiot, jotka ovat käytettävissä Ollaman avulla. Löydät täydellisen luettelon sekä ohjeet kunkin suorittamiseen tätä, mutta yleinen syntaksi menee jotakuinkin näin:

ollama aja malli-nimi:malli-tunniste

Mallitunnisteita käytetään määrittämään, minkä mallin version haluat ladata. Jos jätät sen pois, Ollama olettaa, että haluat uusimman version. Kokemuksemme mukaan tämä on yleensä 4-bittinen kvantisoitu versio mallista.

Jos esimerkiksi haluat käyttää Meta's Llama2 7B:tä FP16:ssa, se näyttäisi tältä:

ollama run llama2:7b-chat-fp16

Mutta ennen kuin yrität sitä, sinun kannattaa tarkistaa, että järjestelmässäsi on tarpeeksi muistia. Edellisessä Mistralin esimerkissämme käytettiin 4-bittistä kvantisointia, mikä tarkoittaa, että malli tarvitsee puoli gigatavua muistia jokaista miljardia parametria kohden. Ja älä unohda: siinä on seitsemän miljardia parametria.

Kvantisointi on tekniikka, jota käytetään mallin pakkaamiseen muuttamalla sen painot ja aktivaatiot pienempään tarkkuuteen. Tämä mahdollistaa Mistral 7B:n toiminnan 4 Gt:n sisällä GPU:sta tai järjestelmämuistista, yleensä ilman, että lähdön laatu kärsii, vaikka mittarilukema voi vaihdella.

Yllä käytetty Llama 2 7B -esimerkki toimii puoleen tarkkuuteen (FP16). Tämän seurauksena tarvitset itse asiassa 2 Gt muistia miljardia parametria kohden, mikä tässä tapauksessa vastaa hieman yli 14 Gt. Ellei sinulla ole uudempaa GPU:ta, jossa on 16 Gt tai enemmän vRAM-muistia, sinulla ei ehkä ole tarpeeksi resursseja ajaaksesi mallia tällä tarkkuudella.

Ollaman johtaminen

Asennettujen mallien hallinnan, päivityksen ja poistamisen Ollaman avulla pitäisi tuntea olonsa kotoisaksi kaikille, jotka ovat aiemmin käyttäneet Docker CLI:n kaltaisia asioita.

Tässä osiossa käydään läpi muutamia yleisimpiä tehtäviä, joita saatat haluta suorittaa.

Saat luettelon asennetuista malleista:

ollama lista

Voit poistaa mallin suorittamalla:

ollama rm mallin nimi:mallin tunniste

Voit vetää tai päivittää olemassa olevan mallin suorittamalla:

ollama vedä mallin nimi:mallin tunniste

Lisää Ollama-komentoja löytyy suorittamalla:

ollama --apua

Kuten aiemmin totesimme, Ollama on vain yksi monista puitteista paikallisten LLM:ien suorittamiseen ja testaamiseen. Jos joudut vaikeuksiin tämän kanssa, saatat löytää enemmän onnea muiden kanssa. Ja ei, tekoäly ei kirjoittanut tätä.

Rekisteri Tavoitteena on tuoda sinulle lisää LLM:ien hyödyntämiseen lähitulevaisuudessa, joten muista jakaa polttavat AI PC -kysymyksesi kommenttiosiossa. Ja älä unohda toimitusketjun turvallisuus. ®

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/

Aikaleima: Maaliskuussa 17, 2024

Aikaleima: Helmikuu 22, 2024

Julkaissut Platon

Tekoäly puolustaa Washington DC:tä ilmauhilta

Baidu vähättelee Yhdysvaltain sirukieltojen vaikutusta

Aivoriihi varoittaa Pohjois-Korean käyttävän pilviä taistelussa tekoälyä

d-Matrix saa 110 miljoonaa dollaria alittaakseen Nvidian tekoälyssä

Kiekkomittakaava, tapaa atomimittakaava: Uncle Sam testaa Cerebras-siruja ydinasesimsissä

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili