Hvorfor Copilot bare vil kjøre lokalt på AI-PCer foreløpig

Hvorfor Copilot bare vil kjøre lokalt på AI-PCer foreløpig

Why Copilot will only sort of run locally on AI PCs for now PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Kommentar Microsofts definisjon av hva som gjør og ikke utgjør en AI-PC tar form. Med den nyeste versjonen av Windows, en dedikert Copilot-nøkkel og en NPU som kan utføre minst 40 billioner operasjoner per sekund, vil du snart kunne kjøre Microsoft Copilot lokalt, ja, på maskinen din.

Redmond krav for sin AI-modell på Windows ble gjort offisielle av Intel – en av de sterkeste cheerleaderne i AI PC-kategorien – under brikkegigantens AI-toppmøtet i Taipei denne uken.

Å kjøre en stor språkmodell (LLM) lokalt har noen iboende fordeler. Sluttbrukere bør ha lavere ventetid og derfor forbedrede responstider, siden spørringer ikke trenger å sendes til og fra et eksternt datasenter, pluss mer personvern, i teorien. For Microsoft, i mellomtiden, frigjør det å flytte mer av AI-arbeidsmengden til kundens enheter sine egne ressurser til andre oppgaver, for eksempel å hjelpe til med å trene opp neste OpenAI-modell eller tilby den som et sky-API.

Microsoft håper å kjøre Copilot LLM utelukkende på NPU-er, eller nevrale prosesseringsenheter, i folks Windows AI-PCer etter hvert, bedømt etter kommentarer tydeligvis laget av Intel-ledere på toppmøtet. Vi kan forestille oss at x86-goliaten skyver den linjen for å overbevise alle om at silisiumet er kraftig nok til å kjøre Redmonds ting hjemme eller på kontoret.

Selv om ideen om å frigjøre Copilot fra Azures navlestreng kan være attraktiv for noen, ser ikke alle ut til å være fan av Clippy inkarnert og i det minste en viss grad av behandling vil nesten helt sikkert bli gjort i skyen i overskuelig fremtid.

Intel-ledere har sagt så mye: Raskere maskinvare vil gjøre det mulig for flere "elementer" av Copilot å kjøre lokalt. Med andre ord, du vil fortsatt være avhengig av en nettverkstilkobling for i det minste noe av funksjonaliteten, og resten vil AI PC-en håndtere selv.

Årsaken burde ikke komme så mye som en overraskelse. Disse AI-PC-ene har begrensede ressurser og modellen som driver Copilot – OpenAIs GPT-4 – er enorm. Vi vet ikke nøyaktig hvor stor versjonen Microsoft bruker er, men estimater sette hele GPT-4-modellen til rundt 1.7 billioner parametere. Selv med kvantisering eller kjører modellen på INT4, trenger du omtrent 900 GB minne.

Hvordan vi tror det vil fungere

GPT-4 er en såkalt blanding-av-ekspert-modell. I et nøtteskall betyr dette at den faktisk er satt sammen fra en rekke mindre, spesialiserte forhåndsopplærte modeller som forespørsler blir dirigert til. Ved å ha flere modeller optimalisert for tekstgenerering, oppsummering, kodeoppretting og så videre, kan slutningsytelsen forbedres siden hele modellen ikke trenger å kjøre for å fullføre en oppgave.

Intels bruk av begrepet "elementer" for å beskrive å kjøre Copilot-funksjoner lokalt antyder at noen av disse ekspertene kan erstattes med mindre, smidige modeller som kan kjøres på bærbar maskinvare. Som vi har utforsket tidligere, er eksisterende personlig maskinvare mer enn i stand til å kjøre mindre AI-modeller fra slike som Mistral eller Meta.

Tilfeldigvis Microsoft nylig pumpet €15 millioner ($16.3 millioner) til den franske minimodellbyggeren Mistral AI, med planer om å gjøre arbeidet tilgjengelig for Azure-kunder. Med bare 7 milliarder parametere i størrelse er Mistral-7B absolutt liten nok til å passe komfortabelt inn i en AI PC-minne, og krever i nærheten av 4 GB minne når du bruker 4-bits kvantisering.

Og det er for en generell modell. Du kan tenkes å klare deg med enda mindre modeller innstilt for generering av kildekode som bare lastes inn i minnet når applikasjonen, for eksempel Visual Studio Code, er lansert og et aktivt Github Copilot-abonnement oppdages. Husk at Copilot er mer enn bare en chatbot; det er en pakke med AI-funksjoner som blir bakt inn i Microsofts OS- og programvarebibliotek.

Redmond har ikke sagt hvor mye minne AI PC-spesifikasjonen krever, men i vår erfaring med lokale LLM-er, 16 GB rask DDR5 burde være tilstrekkelig.

Uansett hvilken vei Microsoft ender opp med å ta, kan kombinasjonen av lokale og eksterne modeller føre til interessant oppførsel. Vi vet ennå ikke under hvilke omstendigheter disse lokale modellene vil ta over, men Microsofts store mengde Windows-enheter Pavan Davuluri har antydet at blandingen kan være dynamisk.

"Vi vil være i stand til å laste shift mellom skyen og klienten for å gi det beste av databehandling på tvers av begge disse verdenene," sa han på scenen under AMDs Advancing AI hendelse i desember. "Den samler fordelene med lokal databehandling, ting som forbedret personvern og respons og latens med kraften i skyen, høyytelsesmodeller, store datasett, slutninger på tvers av plattformer."

Som sådan kan vi se et par scenarier hvordan Microsoft kan bruke lokal AI. Den første er å avlaste arbeid fra Microsoft-servere og forbedre responstidene. Etter hvert som maskinvaren forbedres, kan flere Copilot-funksjoner skyves ut av skyen og over på brukerenheter.

Den andre ville være å ha det som et fall tilbake i tilfelle nettverksforstyrrelser. Du kan forestille deg at AI-PC-en din bare blir dummere i stedet for å stoppe helt når den er avskåret fra nettet.

Maskinvarebegrensninger

Før du blir for begeistret for split-brained AI PC-er som utarbeider off-grid manifester, er det for øyeblikket ingen maskiner der ute som oppfyller maskinvarekravene, og det er ikke på grunn av mangelen på en Copilot-nøkkel.

Problemet er at NPU-er fortsatt er relativt nye i x86-silisium, og det som eksisterer er ikke på langt nær kraftig nok. AMD var blant de første som la til en NPU til sine mobile prosessorer tidlig i 2023 med lanseringen av sin Ryzen 7040 seriesjetonger.

Den lineupen fikk et klokkestopp i desember under House of Zens Advancing AI-arrangement. AMD brakte også sine NPU-er til skrivebordet med lanseringen av sin 8000G APUer på CES i januar i år.

Intel rullet ut sine dedikerte AI-akseleratorblokker med lanseringen av sin meteorinnsjø mikroprosessordeler i slutten av desember. Disse Core Ultra-brikkene har en NPU avledet fra Intels Movidius vision Processing Unit (VPU), som Intel demonstrert kjører en rekke arbeidsmengder under Innovation-arrangementet i fjor.

Dessverre er brikker bare i stand til 10 til 16 billioner (vanligvis INT4) operasjoner per sekund, langt under Microsofts 40 TOPS-spesifikasjoner. Det betyr at de fleste av de såkalte AI-PC-ene på markedet ikke vil oppfylle kravene – ikke uten å lene seg på GPUen for å gjøre opp forskjellen.

Både Intel og AMD har mer kapable brikker som kommer med henholdsvis Lunar Lake og Strix Point silisium. På kort sikt ser det imidlertid ut til at Qualcomm kommer til å få markedet i et hjørne.

Bærbare PC-er med Qualcomms Snapdragon X Elite mobile prosessorer kommer ut en gang i midten av 2024 og vil ha en NPU som er i stand til 45 TOPS. Kombinert med en Adreno GPU som er i stand til 4.6 teraFLOPS FP32-ytelse, sier Qualcomm at delen vil kunne kjøre AI-modeller med opptil 13 milliarder parametere utelukkende på enheten og generere 30 tokens i sekundet når du kjører mindre LLM-er med 7 milliarder parametere.

Etter hvert som PC-er med NPU-er med høyere ytelse og større minnelagre kommer, og små modeller blir mer kapable, mistenker vi at Microsoft vil begynne å laste ned mer funksjonalitet til lokale enheter – når maskinvaren kan håndtere det. ®

Tidstempel:

Mer fra Registeret