Por que o Copilot só funcionará localmente em PCs com IA por enquanto

Por que o Copilot só funcionará localmente em PCs com IA por enquanto

Por que o Copilot só será executado localmente em PCs de IA por enquanto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Comentário A definição da Microsoft sobre o que constitui e o que não constitui um PC com IA está tomando forma. Com a versão mais recente do Windows, uma chave Copilot dedicada e um NPU capaz de pelo menos 40 trilhões de operações por segundo, em breve você poderá executar o Microsoft Copilot localmente, em sua máquina.

Redmond's requisitos para seu modelo de IA no Windows foram oficializados pela Intel - uma das líderes de torcida mais fortes da categoria AI PC - durante a gigante dos chips Encontro de IA em Taipei esta semana.

Executar um modelo de linguagem grande (LLM) localmente traz alguns benefícios intrínsecos. Os usuários finais devem ter menor latência e, portanto, melhores tempos de resposta, já que as consultas não precisam ser enviadas de e para um datacenter remoto, além de mais privacidade, em teoria. Enquanto isso, para a Microsoft, transferir mais carga de trabalho de IA para os dispositivos dos clientes libera seus próprios recursos para outras tarefas, como ajudar a treinar o próximo modelo OpenAI ou oferecê-lo como uma API em nuvem.

A Microsoft espera executar seu Copilot LLM inteiramente em NPUs, ou unidades de processamento neural, em PCs Windows AI das pessoas, a julgar pelos comentários aparentemente feito pelos executivos da Intel na cúpula. Podemos imaginar o gigante x86 empurrando essa linha para convencer a todos de que seu silício é poderoso o suficiente para executar as coisas de Redmond em casa ou no escritório.

Embora a ideia de desconectar o Copilot do umbilical do Azure possa ser atraente para alguns, nem todo mundo parece ser fã de Clippy encarnado e pelo menos alguma quantidade de processamento será quase certamente feita na nuvem num futuro próximo.

Os executivos da Intel já disseram: hardware mais rápido permitirá que mais “elementos” do Copilot sejam executados localmente. Em outras palavras, você ainda dependerá de uma conexão de rede para pelo menos algumas das funcionalidades, e o resto do AI PC cuidará sozinho.

O motivo não deveria ser uma surpresa. Esses PCs de IA têm recursos finitos e o modelo que alimenta o Copilot – o GPT-4 da OpenAI – é enorme. Não sabemos exatamente quão grande é a versão que a Microsoft está usando, mas estimativas coloque o modelo GPT-4 completo em cerca de 1.7 trilhão de parâmetros. Mesmo com a quantização ou execução do modelo em INT4, você precisaria de cerca de 900 GB de memória.

Como achamos que vai funcionar

GPT-4 é o chamado modelo de mistura de especialistas. Resumindo, isso significa que ele é, na verdade, montado a partir de uma série de modelos pré-treinados menores e especializados, para os quais as consultas são roteadas. Ao ter vários modelos otimizados para geração de texto, resumo, criação de código e assim por diante, o desempenho da inferência pode ser melhorado, já que o modelo inteiro não precisa ser executado para concluir uma tarefa.

O uso do termo “elementos” pela Intel para descrever a execução local dos recursos do Copilot sugere que alguns desses especialistas poderiam ser substituídos por modelos menores e mais ágeis, capazes de rodar em hardware de laptop. Como exploramos anteriormente, o hardware pessoal existente é mais do que capaz de executar modelos menores de IA, como Mistral ou Meta.

Coincidentemente, a Microsoft recentemente bombeado € 15 milhões (US$ 16.3 milhões) para o construtor francês de minimodelos Mistral AI, com planos de disponibilizar seu trabalho aos clientes do Azure. Com apenas 7 bilhões de parâmetros de tamanho, o Mistral-7B é certamente pequeno o suficiente para caber confortavelmente na memória de um PC AI, exigindo cerca de 4 GB de memória ao usar a quantização de 4 bits.

E isso é para um modelo de uso geral. É concebível que você possa sobreviver com modelos ainda menores ajustados para geração de código-fonte que só são carregados na memória quando o aplicativo, digamos, Visual Studio Code, é iniciado e uma assinatura ativa do Github Copilot é detectada. Lembre-se de que o Copilot é mais do que apenas um chatbot; é um conjunto de recursos de IA que estão sendo incorporados ao sistema operacional e à biblioteca de software da Microsoft.

Redmond não disse quanta memória suas especificações AI PC exigem, mas, em nossa experiência com LLMs locais, 16 GB de DDR5 veloz devem ser adequados.

Qualquer que seja o caminho que a Microsoft tome, a combinação de modelos locais e remotos pode levar a algum comportamento interessante. Ainda não sabemos em que circunstâncias esses modelos locais assumirão o controle, mas o vice-presidente corporativo de dispositivos Windows da Microsoft, Pavan Davuluri, sugeriu que a combinação pode ser dinâmica.

“Queremos ser capazes de alternar a carga entre a nuvem e o cliente para fornecer o melhor da computação em ambos os mundos”, disse ele no palco durante o Advancing AI da AMD. evento em dezembro. “Ele reúne os benefícios da computação local, como privacidade, capacidade de resposta e latência aprimoradas com o poder da nuvem, modelos de alto desempenho, grandes conjuntos de dados e inferência entre plataformas.”

Como tal, podemos ver alguns cenários de como a Microsoft pode usar IA local. A primeira é descarregar o trabalho dos servidores Microsoft e melhorar os tempos de resposta. À medida que o hardware melhora, mais recursos do Copilot podem ser transferidos da nuvem para os dispositivos dos usuários.

A segunda seria tê-lo como alternativa em caso de interrupções na rede. Você pode imaginar seu PC com IA ficando mais burro, em vez de parar completamente quando estiver desconectado da rede.

Restrições de hardware

Antes que você fique muito entusiasmado com PCs de IA com cérebros divididos redigindo manifestos fora da rede, atualmente não existem máquinas por aí que atendam aos requisitos de hardware, e não é por falta de uma chave do Copilot.

A questão é que as NPUs ainda são relativamente novas no silício x86, e o que existe não é poderoso o suficiente. A AMD foi uma das primeiras a adicionar um NPU aos seus processadores móveis no início de 2023 com o lançamento de seu Ryzen 7040 chips de série.

Essa escalação recebeu um aumento no relógio em dezembro, durante o evento Advancing AI da House of Zen. A AMD também trouxe seus NPUs para os desktops com o lançamento de seu APUs 8000G na CES em janeiro deste ano.

A Intel lançou seus blocos aceleradores de IA dedicados com o lançamento de seu Lago de Meteoros peças do microprocessador no final de dezembro. Esses chips Core Ultra apresentam um NPU derivado da unidade de processamento de visão (VPU) Movidius da Intel, que a Intel demoed executando uma variedade de cargas de trabalho durante seu evento de inovação no ano passado.

Infelizmente, os chips são capazes apenas de 10 a 16 trilhões (normalmente INT4) de operações por segundo, muito abaixo das especificações de 40 TOPS da Microsoft. Isso significa que a maioria dos chamados PCs de IA no mercado não atenderá aos requisitos – não sem contar com a GPU para compensar a diferença.

Tanto a Intel quanto a AMD têm chips mais capazes com silício Lunar Lake e Strix Point, respectivamente. No entanto, no curto prazo, parece que a Qualcomm terá o mercado encurralado.

Notebooks com Snapdragon X Elite da Qualcomm processadores móveis serão lançados em meados de 2024 e contarão com um NPU capaz de 45 TOPS. Combinado com uma GPU Adreno capaz de 4.6 teraFLOPS de desempenho FP32, a Qualcomm diz que a peça será capaz de executar modelos de IA com até 13 bilhões de parâmetros inteiramente no dispositivo e gerar 30 tokens por segundo ao executar LLMs menores de 7 bilhões de parâmetros.

À medida que chegam PCs com NPUs de maior desempenho e armazenamentos de memória maiores, e modelos pequenos se tornam mais capazes, suspeitamos que a Microsoft começará a transferir mais funcionalidades para dispositivos locais – assim que o hardware puder lidar com isso. ®

Carimbo de hora:

Mais de O registro