Como executar um LLM localmente no seu PC em menos de 10 minutos

Como executar um LLM localmente no seu PC em menos de 10 minutos

Mãos em Com toda a conversa sobre enormes clusters de treinamento de aprendizado de máquina e PCs de IA, você seria perdoado por pensar que precisa de algum tipo de hardware especial para brincar com modelos de linguagem grande (LLMs) geradores de texto e código em casa.

Na realidade, há uma boa chance de que o sistema desktop em que você está lendo isto seja mais do que capaz de executar uma ampla variedade de LLMs, incluindo chatbots como Mistral ou geradores de código-fonte como Codellama.

Na verdade, com ferramentas disponíveis abertamente como Ollama, LM Suite e Llama.cpp, é relativamente fácil executar esses modelos em seu sistema.

No interesse da simplicidade e da compatibilidade entre plataformas, examinaremos Ollama, que uma vez instalado funciona mais ou menos da mesma forma no Windows, Linux e Macs.

Uma palavra sobre desempenho, compatibilidade e suporte a GPU AMD:

Em geral, modelos de linguagem grandes como Mistral ou Llama 2 funcionam melhor com aceleradores dedicados. Há uma razão pela qual os operadores de datacenters estão comprando e implantando GPUs em clusters de 10,000 ou mais, embora você precise de uma mera fração desses recursos.

Ollama oferece suporte nativo para GPUs da série M da Nvidia e da Apple. GPUs Nvidia com pelo menos 4 GB de memória devem funcionar. Testamos com um RTX 12 de 3060 GB, embora recomendamos pelo menos 16 GB de memória para Macs da série M.

Os usuários do Linux vão querer o driver proprietário mais recente da Nvidia e provavelmente os binários CUDA instalados primeiro. Há mais informações sobre como configurar isso SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Se você estiver usando uma GPU Radeon série 7000 ou mais recente, a AMD tem um guia completo sobre como executar um LLM em seu sistema, que você pode encontrar SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

A boa notícia é que, se você não tiver uma placa gráfica compatível, o Ollama ainda funcionará em uma CPU compatível com AVX2, embora muito mais lento do que se você tivesse uma GPU compatível. E embora 16 GB de memória sejam recomendados, você poderá sobreviver com menos optando por um modelo quantizado – mais sobre isso em um minuto.

Instalando o Ollama

Instalar o Ollama é bastante simples, independentemente do seu sistema operacional básico. É de código aberto, que você pode conferir SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Para aqueles que executam Windows ou Mac OS, acesse ollama. com e baixe e instale-o como qualquer outro aplicativo.

Para quem executa Linux, é ainda mais simples: basta executar este liner - você pode encontrar instruções manuais de instalação SUA PARTICIPAÇÃO FAZ A DIFERENÇA, se você quiser - e você está pronto para as corridas.

curl -fsSL https://ollama.com/install.sh | eh

Instalando seu primeiro modelo

Independentemente do seu sistema operacional, trabalhar com o Ollama é basicamente o mesmo. Ollama recomenda começar com Lhama 2 7B, uma rede neural baseada em transformador de sete bilhões de parâmetros, mas para este guia daremos uma olhada em Mistral 7B já que é bastante capaz e foi a fonte de alguns controvérsia nas últimas semanas.

Comece abrindo o PowerShell ou um emulador de terminal e executando o seguinte comando para baixar e iniciar o modelo em modo de chat interativo.

ollama corre mistral

Após o download, você será levado a um prompt de bate-papo onde poderá começar a interagir com o modelo, assim como ChatGPT, Copilot ou Google Gemini.

LLMs, como o Mistral 7B, funcionam surpreendentemente bem neste M2 Max MacBook Pro de 1 anos

LLMs, como o Mistral 7B, funcionam surpreendentemente bem neste M2 Max MacBook Pro de 1 anos – Clique para ampliar

Se você não conseguir nada, pode ser necessário iniciar o Ollama primeiro no menu Iniciar do Windows ou na pasta de aplicativos do Mac.

Modelos, tags e quantização

Mistal 7B é apenas um dos vários LLMs, incluindo outras versões do modelo, que são acessíveis usando o Ollama. Você pode encontrar a lista completa, juntamente com instruções para executar cada SUA PARTICIPAÇÃO FAZ A DIFERENÇA, mas a sintaxe geral é mais ou menos assim:

ollama execute nome do modelo: tag do modelo

As tags de modelo são usadas para especificar qual versão do modelo você deseja baixar. Se você deixar desativado, Ollama presumirá que você deseja a versão mais recente. Em nossa experiência, esta tende a ser uma versão quantizada de 4 bits do modelo.

Se, por exemplo, você quisesse rodar o Llama2 7B da Meta no FP16, ficaria assim:

ollama execute lhama2:7b-chat-fp16

Mas antes de tentar isso, você pode querer verificar se o seu sistema tem memória suficiente. Nosso exemplo anterior com Mistral usou quantização de 4 bits, o que significa que o modelo precisa de meio gigabyte de memória para cada 1 bilhão de parâmetros. E não se esqueça: possui sete bilhões de parâmetros.

A quantização é uma técnica usada para comprimir o modelo convertendo seus pesos e ativações para uma precisão menor. Isso permite que o Mistral 7B seja executado com 4 GB de GPU ou RAM do sistema, geralmente com sacrifício mínimo na qualidade da saída, embora sua milhagem possa variar.

O exemplo Llama 2 7B usado acima funciona com meia precisão (FP16). Como resultado, você realmente precisaria de 2 GB de memória por bilhão de parâmetros, o que neste caso equivale a pouco mais de 14 GB. A menos que você tenha uma GPU mais recente com 16 GB ou mais de vRAM, talvez você não tenha recursos suficientes para executar o modelo com essa precisão.

Gerenciando Ollama

Gerenciar, atualizar e remover modelos instalados usando Ollama deve ser uma experiência ideal para quem já usou coisas como o Docker CLI antes.

Nesta seção, examinaremos algumas das tarefas mais comuns que você pode querer executar.

Para obter uma lista de modelos instalados, execute:

lista ollama

Para remover um modelo, você executaria:

ollama rm nome do modelo: etiqueta do modelo

Para extrair ou atualizar um modelo existente, execute:

ollama pull nome do modelo: etiqueta do modelo

Comandos adicionais do Ollama podem ser encontrados executando:

ollama --help

Como observamos anteriormente, Ollama é apenas uma das muitas estruturas para executar e testar LLMs locais. Se você tiver problemas com este, poderá ter mais sorte com outros. E não, uma IA não escreveu isso.

O registro tem como objetivo trazer a você mais sobre a utilização de LLMs em um futuro próximo, então certifique-se de compartilhar suas perguntas urgentes sobre AI PC na seção de comentários. E não se esqueça segurança da cadeia de abastecimento. ®

Carimbo de hora:

Mais de O registro