Mãos em Com toda a conversa sobre enormes clusters de treinamento de aprendizado de máquina e PCs de IA, você seria perdoado por pensar que precisa de algum tipo de hardware especial para brincar com modelos de linguagem grande (LLMs) geradores de texto e código em casa.
Na realidade, há uma boa chance de que o sistema desktop em que você está lendo isto seja mais do que capaz de executar uma ampla variedade de LLMs, incluindo chatbots como Mistral ou geradores de código-fonte como Codellama.
Na verdade, com ferramentas disponíveis abertamente como Ollama, LM Suite e Llama.cpp, é relativamente fácil executar esses modelos em seu sistema.
No interesse da simplicidade e da compatibilidade entre plataformas, examinaremos Ollama, que uma vez instalado funciona mais ou menos da mesma forma no Windows, Linux e Macs.
Uma palavra sobre desempenho, compatibilidade e suporte a GPU AMD:
Em geral, modelos de linguagem grandes como Mistral ou Llama 2 funcionam melhor com aceleradores dedicados. Há uma razão pela qual os operadores de datacenters estão comprando e implantando GPUs em clusters de 10,000 ou mais, embora você precise de uma mera fração desses recursos.
Ollama oferece suporte nativo para GPUs da série M da Nvidia e da Apple. GPUs Nvidia com pelo menos 4 GB de memória devem funcionar. Testamos com um RTX 12 de 3060 GB, embora recomendamos pelo menos 16 GB de memória para Macs da série M.
Os usuários do Linux vão querer o driver proprietário mais recente da Nvidia e provavelmente os binários CUDA instalados primeiro. Há mais informações sobre como configurar isso SUA PARTICIPAÇÃO FAZ A DIFERENÇA.
Se você estiver usando uma GPU Radeon série 7000 ou mais recente, a AMD tem um guia completo sobre como executar um LLM em seu sistema, que você pode encontrar SUA PARTICIPAÇÃO FAZ A DIFERENÇA.
A boa notícia é que, se você não tiver uma placa gráfica compatível, o Ollama ainda funcionará em uma CPU compatível com AVX2, embora muito mais lento do que se você tivesse uma GPU compatível. E embora 16 GB de memória sejam recomendados, você poderá sobreviver com menos optando por um modelo quantizado – mais sobre isso em um minuto.
Instalando o Ollama
Instalar o Ollama é bastante simples, independentemente do seu sistema operacional básico. É de código aberto, que você pode conferir SUA PARTICIPAÇÃO FAZ A DIFERENÇA.
Para aqueles que executam Windows ou Mac OS, acesse ollama. com e baixe e instale-o como qualquer outro aplicativo.
Para quem executa Linux, é ainda mais simples: basta executar este liner - você pode encontrar instruções manuais de instalação SUA PARTICIPAÇÃO FAZ A DIFERENÇA, se você quiser - e você está pronto para as corridas.
curl -fsSL https://ollama.com/install.sh | eh
Instalando seu primeiro modelo
Independentemente do seu sistema operacional, trabalhar com o Ollama é basicamente o mesmo. Ollama recomenda começar com Lhama 2 7B, uma rede neural baseada em transformador de sete bilhões de parâmetros, mas para este guia daremos uma olhada em Mistral 7B já que é bastante capaz e foi a fonte de alguns controvérsia nas últimas semanas.
Comece abrindo o PowerShell ou um emulador de terminal e executando o seguinte comando para baixar e iniciar o modelo em modo de chat interativo.
ollama corre mistral
Após o download, você será levado a um prompt de bate-papo onde poderá começar a interagir com o modelo, assim como ChatGPT, Copilot ou Google Gemini.
LLMs, como o Mistral 7B, funcionam surpreendentemente bem neste M2 Max MacBook Pro de 1 anos – Clique para ampliar
Se você não conseguir nada, pode ser necessário iniciar o Ollama primeiro no menu Iniciar do Windows ou na pasta de aplicativos do Mac.
Modelos, tags e quantização
Mistal 7B é apenas um dos vários LLMs, incluindo outras versões do modelo, que são acessíveis usando o Ollama. Você pode encontrar a lista completa, juntamente com instruções para executar cada SUA PARTICIPAÇÃO FAZ A DIFERENÇA, mas a sintaxe geral é mais ou menos assim:
ollama execute nome do modelo: tag do modelo
As tags de modelo são usadas para especificar qual versão do modelo você deseja baixar. Se você deixar desativado, Ollama presumirá que você deseja a versão mais recente. Em nossa experiência, esta tende a ser uma versão quantizada de 4 bits do modelo.
Se, por exemplo, você quisesse rodar o Llama2 7B da Meta no FP16, ficaria assim:
ollama execute lhama2:7b-chat-fp16
Mas antes de tentar isso, você pode querer verificar se o seu sistema tem memória suficiente. Nosso exemplo anterior com Mistral usou quantização de 4 bits, o que significa que o modelo precisa de meio gigabyte de memória para cada 1 bilhão de parâmetros. E não se esqueça: possui sete bilhões de parâmetros.
A quantização é uma técnica usada para comprimir o modelo convertendo seus pesos e ativações para uma precisão menor. Isso permite que o Mistral 7B seja executado com 4 GB de GPU ou RAM do sistema, geralmente com sacrifício mínimo na qualidade da saída, embora sua milhagem possa variar.
O exemplo Llama 2 7B usado acima funciona com meia precisão (FP16). Como resultado, você realmente precisaria de 2 GB de memória por bilhão de parâmetros, o que neste caso equivale a pouco mais de 14 GB. A menos que você tenha uma GPU mais recente com 16 GB ou mais de vRAM, talvez você não tenha recursos suficientes para executar o modelo com essa precisão.
Gerenciando Ollama
Gerenciar, atualizar e remover modelos instalados usando Ollama deve ser uma experiência ideal para quem já usou coisas como o Docker CLI antes.
Nesta seção, examinaremos algumas das tarefas mais comuns que você pode querer executar.
Para obter uma lista de modelos instalados, execute:
lista ollama
Para remover um modelo, você executaria:
ollama rm nome do modelo: etiqueta do modelo
Para extrair ou atualizar um modelo existente, execute:
ollama pull nome do modelo: etiqueta do modelo
Comandos adicionais do Ollama podem ser encontrados executando:
ollama --help
Como observamos anteriormente, Ollama é apenas uma das muitas estruturas para executar e testar LLMs locais. Se você tiver problemas com este, poderá ter mais sorte com outros. E não, uma IA não escreveu isso.
O registro tem como objetivo trazer a você mais sobre a utilização de LLMs em um futuro próximo, então certifique-se de compartilhar suas perguntas urgentes sobre AI PC na seção de comentários. E não se esqueça segurança da cadeia de abastecimento. ®
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/
- :tem
- :é
- :não
- :onde
- $UP
- 000
- 1
- 10
- a
- Capaz
- Sobre
- acima
- aceleradores
- acessível
- em
- ativações
- AI
- visa
- Todos os Produtos
- permite
- juntamente
- Apesar
- AMD
- an
- e
- qualquer
- qualquer um
- nada
- Aplicação
- aplicações
- SOMOS
- AS
- assumir
- At
- disponível
- base
- BE
- sido
- antes
- MELHOR
- bilhão
- fronteira
- bots
- trazer
- ardente
- mas a
- Comprar
- by
- CAN
- capaz
- cartão
- casas
- cadeia
- chance
- bate-papo
- ChatGPT
- verificar
- cli
- clique
- CO
- código
- comentários
- comum
- compatibilidade
- conversão
- Datacenter
- dedicado
- Implantação
- área de trabalho
- DID
- Estivador
- don
- não
- duplo
- download
- motorista
- desistiu
- cada
- Mais cedo
- fácil
- suficiente
- Mesmo
- Cada
- exemplo
- executar
- executando
- existente
- vasta experiência
- fato
- sentir
- poucos
- Encontre
- Primeiro nome
- seguinte
- Escolha
- para a frente
- encontrado
- fração
- enquadramentos
- da
- cheio
- futuro
- Gemini
- Geral
- geradores
- ter
- obtendo
- gif
- Go
- vai
- vai
- Bom estado, com sinais de uso
- tem
- GPU
- GPUs
- gráficos
- guia
- tinha
- Metade
- Hardware
- Ter
- cabeça
- Início
- Como funciona o dobrador de carta de canal
- Como Negociar
- HTTPS
- if
- in
- Incluindo
- INFORMAÇÕES
- instalar
- instalação
- instalado
- instruções
- interagindo
- interativo
- interesse
- IT
- ESTÁ
- apenas por
- apenas um
- Tipo
- O rótulo
- língua
- grande
- largamente
- mais recente
- lançamento
- mínimo
- Deixar
- menos
- como
- linux
- Lista
- ll
- lhama
- LLM
- local
- localmente
- olhar
- parece
- procurando
- lote
- diminuir
- sorte
- mac
- manual
- muitos
- maciço
- max
- Posso..
- significa
- Memória
- Menu
- poder
- mínimo
- minuto
- Minutos
- Moda
- modelo
- modelos
- mais
- nativo
- Perto
- você merece...
- Cria
- rede
- neural
- rede neural
- mais novo
- notícias
- não
- notado
- Nvidia
- of
- WOW!
- Oferece
- on
- uma vez
- ONE
- aberto
- open source
- abertura
- abertamente
- operando
- sistema operativo
- operadores
- or
- OS
- Outros
- Outros
- A Nossa
- Fora
- saída
- Acima de
- parâmetros
- PC
- PCs
- para
- atuação
- platão
- Inteligência de Dados Platão
- PlatãoData
- Jogar
- PowerShell
- Precisão
- bastante
- anterior
- Pro
- provavelmente
- proprietário
- qualidade
- Frequentes
- corridas
- RAM
- alcance
- Leitura
- Realidade
- razão
- recentemente
- recomendar
- Recomenda
- recomenda
- Independentemente
- relativamente
- remover
- removendo
- Recursos
- resultar
- certo
- rtx
- RTX 3060
- Execute
- corrida
- é executado
- s
- sacrificar
- mesmo
- Seção
- contexto
- Sete
- vários
- Partilhar
- rede de apoio social
- mais simples
- simplicidade
- desde
- So
- alguns
- algo
- fonte
- código fonte
- especial
- começo
- Comece
- Ainda
- direto
- tal
- suíte
- ajuda
- Suportado
- certo
- surpreendentemente
- sintaxe
- .
- tomar
- Converse
- tarefas
- técnica
- tende
- terminal
- testado
- ensaio
- do que
- que
- A
- A fonte
- Eles
- Lá.
- Este
- coisas
- Pensando
- isto
- aqueles
- Apesar?
- para
- ferramentas
- Training
- problema
- tentar
- a menos que
- Atualizar
- atualização
- usava
- usuários
- utilização
- geralmente
- Utilizando
- variar
- versão
- versões
- queremos
- querido
- we
- semanas
- BEM
- qual
- enquanto
- inteiro
- Largo
- Ampla variedade
- precisarão
- Windows
- de
- dentro
- Word
- Atividades:
- trabalhar
- trabalho
- escrever
- Vocês
- investimentos
- zefirnet