Come eseguire un LLM localmente sul tuo PC in meno di 10 minuti

Come eseguire un LLM localmente sul tuo PC in meno di 10 minuti

Mani su Con tutto il parlare di enormi cluster di formazione sull'apprendimento automatico e di PC AI, saresti perdonato se pensi di aver bisogno di una sorta di hardware speciale per giocare con modelli linguistici di grandi dimensioni (LLM) che generano testo e codice a casa.

In realtà, ci sono buone probabilità che il sistema desktop su cui stai leggendo lo sia più che capace di gestire un'ampia gamma di LLM, inclusi chatbot come Mistral o generatori di codice sorgente come Codellama.

Infatti, con strumenti liberamente disponibili come Ollama, LM Suite e Llama.cpp, è relativamente facile far funzionare questi modelli sul tuo sistema.

Nell'interesse della semplicità e della compatibilità multipiattaforma, esamineremo Ollama, che una volta installato funziona più o meno allo stesso modo su Windows, Linux e Mac.

Una parola su prestazioni, compatibilità e supporto GPU AMD:

In generale, i modelli linguistici di grandi dimensioni come Mistral o Llama 2 funzionano meglio con acceleratori dedicati. C'è un motivo per cui gli operatori di data center acquistano e distribuiscono GPU in cluster di 10,000 o più, anche se avrai bisogno di una minima parte di tali risorse.

Ollama offre supporto nativo per le GPU Nvidia e Apple della serie M. Le GPU Nvidia con almeno 4 GB di memoria dovrebbero funzionare. Abbiamo testato con una RTX 12 da 3060 GB, anche se consigliamo almeno 16 GB di memoria per i Mac della serie M.

Gli utenti Linux vorranno installare prima l'ultimo driver proprietario di Nvidia e probabilmente i binari CUDA. Ci sono ulteriori informazioni su come configurarlo qui.

Se utilizzi una GPU Radeon serie 7000 o successiva, AMD ha una guida completa su come far funzionare un LLM sul tuo sistema, che puoi trovare qui.

La buona notizia è che, se non disponi di una scheda grafica supportata, Ollama funzionerà comunque su una CPU compatibile con AVX2, anche se molto più lentamente che se avessi una GPU supportata. E sebbene siano consigliati 16 GB di memoria, potresti riuscire a cavartela con meno optando per un modello quantizzato: ne parleremo più approfonditamente tra un minuto.

Installazione di Ollama

Installare Ollama è piuttosto semplice, indipendentemente dal sistema operativo di base. È open source, puoi verificarlo qui.

Per coloro che utilizzano Windows o Mac OS, vai avanti ollama.com e scaricalo e installalo come qualsiasi altra applicazione.

Per coloro che utilizzano Linux, è ancora più semplice: basta eseguire questa riga: puoi trovare le istruzioni di installazione manuale qui, se li vuoi - e sei pronto per le gare.

curl -fsSL https://ollama.com/install.sh | sh

Installazione del tuo primo modello

Indipendentemente dal tuo sistema operativo, lavorare con Ollama è sostanzialmente lo stesso. Ollama consiglia di iniziare con Lama 2 7B, una rete neurale basata su un trasformatore da sette miliardi di parametri, ma per questa guida daremo un'occhiata a Maestrale 7B dal momento che è abbastanza capace ed è stata la fonte di alcuni polemica nelle ultime settimane.

Inizia aprendo PowerShell o un emulatore di terminale ed eseguendo il comando seguente per scaricare e avviare il modello in modalità chat interattiva.

ollama corre maestrale

Dopo il download, verrai indirizzato a una finestra di chat in cui potrai iniziare a interagire con il modello, proprio come ChatGPT, Copilot o Google Gemini.

Gli LLM, come Mistral 7B, funzionano sorprendentemente bene su questo MacBook Pro M2 Max di 1 anni

Gli LLM, come Mistral 7B, funzionano sorprendentemente bene su questo MacBook Pro M2 Max di 1 anni – Clicca per ingrandire

Se non ottieni nulla, potrebbe essere necessario avviare prima Ollama dal menu Start su Windows o dalla cartella delle applicazioni su Mac.

Modelli, tag e quantizzazione

Mistal 7B è solo uno dei numerosi LLM, comprese altre versioni del modello, accessibili tramite Ollama. È possibile trovare l'elenco completo, insieme alle istruzioni per l'esecuzione di ciascuno qui, ma la sintassi generale è più o meno questa:

ollama run nome-modello:tag-modello

I tag modello vengono utilizzati per specificare quale versione del modello desideri scaricare. Se lo lasci disattivato, Ollama presume che tu voglia la versione più recente. Nella nostra esperienza, questa tende ad essere una versione quantizzata a 4 bit del modello.

Se, ad esempio, volessi eseguire Llama2 7B di Meta alle FP16, sarebbe simile a questo:

ollama esegui llama2:7b-chat-fp16

Ma prima di provarlo, potresti voler ricontrollare che il tuo sistema abbia memoria sufficiente. Il nostro esempio precedente con Mistral utilizzava la quantizzazione a 4 bit, il che significa che il modello necessita di mezzo gigabyte di memoria per ogni miliardo di parametri. E non dimenticare: ha sette miliardi di parametri.

La quantizzazione è una tecnica utilizzata per comprimere il modello convertendo i suoi pesi e le sue attivazioni in una precisione inferiore. Ciò consente a Mistral 7B di funzionare con 4 GB di GPU o RAM di sistema, in genere con un sacrificio minimo in termini di qualità dell'output, sebbene il chilometraggio possa variare.

L'esempio Llama 2 7B usato sopra funziona a metà precisione (FP16). Di conseguenza, avresti effettivamente bisogno di 2 GB di memoria per miliardo di parametri, che in questo caso equivalgono a poco più di 14 GB. A meno che tu non abbia una GPU più recente con 16 GB o più di vRAM, potresti non avere risorse sufficienti per eseguire il modello con quella precisione.

Gestire Ollama

Gestire, aggiornare e rimuovere i modelli installati utilizzando Ollama dovrebbe sentirsi a casa per chiunque abbia già utilizzato cose come la CLI Docker.

In questa sezione esamineremo alcune delle attività più comuni che potresti voler eseguire.

Per ottenere un elenco dei modelli installati eseguire:

elenco di ollami

Per rimuovere un modello, dovresti eseguire:

ollama rm nome-modello: tag-modello

Per estrarre o aggiornare un modello esistente, esegui:

ollama pull nome-modello: tag-modello

Ulteriori comandi Ollama possono essere trovati eseguendo:

ollama: aiuto

Come notato in precedenza, Ollama è solo uno dei tanti framework per l'esecuzione e il test di LLM locali. Se ti trovi nei guai con questo, potresti trovare più fortuna con gli altri. E no, questo non è stato scritto da un'intelligenza artificiale.

Il registro mira a offrirti di più sull'utilizzo degli LLM nel prossimo futuro, quindi assicurati di condividere le tue scottanti domande sul PC AI nella sezione commenti. E non dimenticartene sicurezza della catena di approvvigionamento. ®

Timestamp:

Di più da Il registro