Como executar um LLM localmente em seu PC em menos de 10 minutos

Republicado por Platão

seguidores: 0

Mãos em Com toda a conversa sobre enormes clusters de treinamento de aprendizado de máquina e PCs de IA, você seria perdoado por pensar que precisa de algum tipo de hardware especial para brincar com modelos de linguagem grande (LLMs) geradores de texto e código em casa.

Na realidade, há uma boa chance de que o sistema desktop em que você está lendo isto seja mais do que capaz de executar uma ampla variedade de LLMs, incluindo chatbots como Mistral ou geradores de código-fonte como Codellama.

Na verdade, com ferramentas disponíveis abertamente como Ollama, LM Suite e Llama.cpp, é relativamente fácil executar esses modelos em seu sistema.

No interesse da simplicidade e da compatibilidade entre plataformas, examinaremos Ollama, que uma vez instalado funciona mais ou menos da mesma forma no Windows, Linux e Macs.

Uma palavra sobre desempenho, compatibilidade e suporte a GPU AMD:

Em geral, modelos de linguagem grandes como Mistral ou Llama 2 funcionam melhor com aceleradores dedicados. Há uma razão pela qual os operadores de datacenters estão comprando e implantando GPUs em clusters de 10,000 ou mais, embora você precise de uma mera fração desses recursos.

Ollama oferece suporte nativo para GPUs da série M da Nvidia e da Apple. GPUs Nvidia com pelo menos 4 GB de memória devem funcionar. Testamos com um RTX 12 de 3060 GB, embora recomendamos pelo menos 16 GB de memória para Macs da série M.

Os usuários do Linux vão querer o driver proprietário mais recente da Nvidia e provavelmente os binários CUDA instalados primeiro. Há mais informações sobre como configurar isso SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Se você estiver usando uma GPU Radeon série 7000 ou mais recente, a AMD tem um guia completo sobre como executar um LLM em seu sistema, que você pode encontrar SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

A boa notícia é que, se você não tiver uma placa gráfica compatível, o Ollama ainda funcionará em uma CPU compatível com AVX2, embora muito mais lento do que se você tivesse uma GPU compatível. E embora 16 GB de memória sejam recomendados, você poderá sobreviver com menos optando por um modelo quantizado – mais sobre isso em um minuto.

Instalando o Ollama

Instalar o Ollama é bastante simples, independentemente do seu sistema operacional básico. É de código aberto, que você pode conferir SUA PARTICIPAÇÃO FAZ A DIFERENÇA.

Para aqueles que executam Windows ou Mac OS, acesse ollama. com e baixe e instale-o como qualquer outro aplicativo.

Para quem executa Linux, é ainda mais simples: basta executar este liner - você pode encontrar instruções manuais de instalação SUA PARTICIPAÇÃO FAZ A DIFERENÇA, se você quiser - e você está pronto para as corridas.

curl -fsSL https://ollama.com/install.sh | eh

Instalando seu primeiro modelo

Independentemente do seu sistema operacional, trabalhar com o Ollama é basicamente o mesmo. Ollama recomenda começar com Lhama 2 7B, uma rede neural baseada em transformador de sete bilhões de parâmetros, mas para este guia daremos uma olhada em Mistral 7B já que é bastante capaz e foi a fonte de alguns controvérsia nas últimas semanas.

Comece abrindo o PowerShell ou um emulador de terminal e executando o seguinte comando para baixar e iniciar o modelo em modo de chat interativo.

ollama corre mistral

Após o download, você será levado a um prompt de bate-papo onde poderá começar a interagir com o modelo, assim como ChatGPT, Copilot ou Google Gemini.

LLMs, como o Mistral 7B, funcionam surpreendentemente bem neste M2 Max MacBook Pro de 1 anos – Clique para ampliar

Se você não conseguir nada, pode ser necessário iniciar o Ollama primeiro no menu Iniciar do Windows ou na pasta de aplicativos do Mac.

Modelos, tags e quantização

Mistal 7B é apenas um dos vários LLMs, incluindo outras versões do modelo, que são acessíveis usando o Ollama. Você pode encontrar a lista completa, juntamente com instruções para executar cada SUA PARTICIPAÇÃO FAZ A DIFERENÇA, mas a sintaxe geral é mais ou menos assim:

ollama execute nome do modelo: tag do modelo

As tags de modelo são usadas para especificar qual versão do modelo você deseja baixar. Se você deixar desativado, Ollama presumirá que você deseja a versão mais recente. Em nossa experiência, esta tende a ser uma versão quantizada de 4 bits do modelo.

Se, por exemplo, você quisesse rodar o Llama2 7B da Meta no FP16, ficaria assim:

ollama execute lhama2:7b-chat-fp16

Mas antes de tentar isso, você pode querer verificar se o seu sistema tem memória suficiente. Nosso exemplo anterior com Mistral usou quantização de 4 bits, o que significa que o modelo precisa de meio gigabyte de memória para cada 1 bilhão de parâmetros. E não se esqueça: possui sete bilhões de parâmetros.

A quantização é uma técnica usada para comprimir o modelo convertendo seus pesos e ativações para uma precisão menor. Isso permite que o Mistral 7B seja executado com 4 GB de GPU ou RAM do sistema, geralmente com sacrifício mínimo na qualidade da saída, embora sua milhagem possa variar.

O exemplo Llama 2 7B usado acima funciona com meia precisão (FP16). Como resultado, você realmente precisaria de 2 GB de memória por bilhão de parâmetros, o que neste caso equivale a pouco mais de 14 GB. A menos que você tenha uma GPU mais recente com 16 GB ou mais de vRAM, talvez você não tenha recursos suficientes para executar o modelo com essa precisão.

Gerenciando Ollama

Gerenciar, atualizar e remover modelos instalados usando Ollama deve ser uma experiência ideal para quem já usou coisas como o Docker CLI antes.

Nesta seção, examinaremos algumas das tarefas mais comuns que você pode querer executar.

Para obter uma lista de modelos instalados, execute:

lista ollama

Para remover um modelo, você executaria:

ollama rm nome do modelo: etiqueta do modelo

Para extrair ou atualizar um modelo existente, execute:

ollama pull nome do modelo: etiqueta do modelo

Comandos adicionais do Ollama podem ser encontrados executando:

ollama --help

Como observamos anteriormente, Ollama é apenas uma das muitas estruturas para executar e testar LLMs locais. Se você tiver problemas com este, poderá ter mais sorte com outros. E não, uma IA não escreveu isso.

O registro tem como objetivo trazer a você mais sobre a utilização de LLMs em um futuro próximo, então certifique-se de compartilhar suas perguntas urgentes sobre AI PC na seção de comentários. E não se esqueça segurança da cadeia de abastecimento. ®

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/

Carimbo de hora: 17 de março de 2024

Carimbo de hora: 22 fevereiro de 2024

Republicado por Platão

IA para defender Washington DC contra ameaças aéreas

Baidu minimiza impacto das proibições de chips nos EUA

Think tank alerta que Coreia do Norte usa nuvens para IA de batalha

d-Matrix ganha US$ 110 milhões para superar a Nvidia em IA

Waferscale, conheça a escala atômica: Tio Sam para testar chips Cerebras em sims de armas nucleares

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta