Varför Copilot bara kommer att köras lokalt på AI-datorer för närvarande

Varför Copilot bara kommer att köras lokalt på AI-datorer för närvarande

Varför Copilot bara kommer att köras lokalt på AI-datorer för närvarande PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Kommentar Microsofts definition av vad som gör och inte utgör en AI-dator håller på att ta form. Med den senaste versionen av Windows, en dedikerad Copilot-nyckel och en NPU som klarar minst 40 biljoner operationer per sekund, kommer du snart att kunna köra Microsoft Copilot lokalt, ish, på din maskin.

Redmond s krav för sin AI-modell på Windows gjordes officiella av Intel – en av de starkaste hejarklackarna i AI PC-kategorin – under chipjättens AI toppmöte i Taipei den här veckan.

Att driva en stor språkmodell (LLM) lokalt har vissa inneboende fördelar. Slutanvändare bör ha lägre latens och därför förbättrade svarstider, eftersom frågor inte behöver skickas till och från ett fjärrdatacenter, plus mer integritet, i teorin. För Microsoft frigör samtidigt en överflyttning av AI-arbetsbelastningen till kundernas egna resurser för andra uppgifter, som att hjälpa till att träna nästa OpenAI-modell eller erbjuda den som ett moln-API.

Microsoft hoppas kunna köra sin Copilot LLM helt på NPU:er, eller neurala bearbetningsenheter, i människors Windows AI-datorer så småningom, att döma av kommentarer tydligen gjorda av Intel-chefer vid toppmötet. Vi kan föreställa oss att x86-goliaten trycker på den linjen för att övertyga alla om att dess kisel är tillräckligt kraftfullt för att köra Redmonds saker hemma eller på kontoret.

Även om idén att koppla bort Copilot från Azures navelsträng kan vara attraktiv för vissa, verkar inte alla vara ett fan av Clippy inkarnera och åtminstone en viss mängd bearbetning kommer nästan säkert att göras i molnet under överskådlig framtid.

Intels chefer har sagt så mycket: Snabbare hårdvara kommer att göra det möjligt för fler "element" av Copilot att köras lokalt. Med andra ord, du kommer fortfarande att vara beroende av en nätverksanslutning för åtminstone en del av funktionerna, och resten kommer AI-datorn att hantera själv.

Anledningen borde inte komma som en överraskning. Dessa AI-datorer har ändliga resurser och modellen som driver Copilot - OpenAI:s GPT-4 - är enorm. Vi vet inte exakt hur stor versionen Microsoft använder är, men uppskattningar sätta hela GPT-4-modellen på cirka 1.7 biljoner parametrar. Även med kvantisering eller körning av modellen på INT4, skulle du behöva cirka 900 GB minne.

Hur vi tror att det kommer att fungera

GPT-4 är en så kallad mix-of-expert-modell. I ett nötskal betyder detta att den faktiskt är sammansatt från ett antal mindre, specialiserade förutbildade modeller som förfrågningar dirigeras till. Genom att ha flera modeller optimerade för textgenerering, sammanfattning, kodskapande och så vidare kan slutledningsprestanda förbättras eftersom hela modellen inte behöver köras för att slutföra en uppgift.

Intels användning av termen "element" för att beskriva att köra Copilot-funktioner lokalt tyder på att vissa av dessa experter skulle kunna ersätta mindre, smidigare modeller som kan köras på bärbar hårdvara. Som vi har utforskat tidigare är befintlig personlig hårdvara mer än kapabel att köra mindre AI-modeller från sådana som Mistral eller Meta.

Av en slump, Microsoft nyligen pumpas 15 miljoner euro (16.3 miljoner dollar) till franska minimodellbyggaren Mistral AI, med planer på att göra dess arbete tillgängligt för Azure-kunder. Med bara 7 miljarder parametrar i storlek är Mistral-7B förvisso liten nog för att passa bekvämt i en AI-dators minne, och kräver i närheten av 4 GB minne när du använder 4-bitars kvantisering.

Och det är för en generell modell. Tänkbart kan du klara dig med ännu mindre modeller som är inställda för generering av källkod som bara laddas in i minnet när applikationen, säg Visual Studio Code, startas och ett aktivt Github Copilot-abonnemang upptäcks. Kom ihåg att Copilot är mer än bara en chatbot; det är en svit med AI-funktioner som håller på att byggas in i Microsofts operativsystem och mjukvarubibliotek.

Redmond har inte sagt hur mycket minne dess AI PC-specifikation kräver, men enligt vår erfarenhet med lokala LLM, 16 GB snabb DDR5 borde vara tillräckligt.

Vilken väg Microsoft än tar kan kombinationen av lokala och fjärranslutna modeller leda till intressant beteende. Vi vet ännu inte under vilka omständigheter dessa lokala modeller kommer att ta över, men Microsofts stora mängd Windows-enheter Pavan Davuluri har föreslagit att mixen kan vara dynamisk.

"Vi vill kunna ladda shift mellan molnet och klienten för att ge det bästa av datorer i båda dessa världar," sa han på scenen under AMDs Advancing AI händelse i december. "Det förenar fördelarna med lokal datoranvändning, saker som förbättrad integritet och lyhördhet och latens med kraften i molnet, högpresterande modeller, stora datamängder, plattformsoberoende slutledning."

Som sådan kan vi se ett par scenarier hur Microsoft kan använda lokal AI. Det första är att ladda ner arbete från Microsofts servrar och förbättra svarstiderna. När hårdvaran förbättras kan fler Copilot-funktioner skjutas ut ur molnet och till användarenheter.

Det andra skulle vara att ha det som ett fall tillbaka i fallet med nätverksstörningar. Du kan föreställa dig att din AI-dator bara blir dummare i stället för att stanna helt när den avbryts från nätet.

Hårdvarubegränsningar

Innan du blir alltför upphetsad över split-brained AI-datorer som utarbetar off-grid manifest, finns det för närvarande inga maskiner där ute som uppfyller hårdvarukraven, och det är inte för bristen på en Copilot-nyckel.

Problemet är att NPU:er fortfarande är relativt nya i x86-kisel, och det som finns är inte alls tillräckligt kraftfullt. AMD var bland de första att lägga till en NPU till sina mobila processorer redan i början av 2023 med lanseringen av sin Ryzen 7040 serie chips.

Den lineupen fick en klockslag i december under House of Zens Advancing AI-evenemang. AMD tog också med sina NPU:er till skrivbordet med lanseringen av sin 8000G APU på CES i januari i år.

Intel rullade ut sina dedikerade AI-acceleratorblock med lanseringen av sin meteorsjö mikroprocessordelar i slutet av december. Dessa Core Ultra-chips har en NPU som kommer från Intels Movidius vision Processing Unit (VPU), som Intel demed kör en mängd olika arbetsbelastningar under sitt innovationsevent förra året.

Tyvärr kan chips bara utföra 10 till 16 biljoner (vanligtvis INT4) operationer per sekund, långt under Microsofts 40 TOPS-specifikation. Det betyder att de flesta av de så kallade AI-datorerna på marknaden inte kommer att uppfylla kraven – inte utan att man stöder sig på GPU:n för att kompensera skillnaden.

Både Intel och AMD har mer kapabla chips som kommer med Lunar Lake respektive Strix Point-kisel. Men på kort sikt ser det ut som att Qualcomm kommer att få marknaden att hamna i ett hörn.

Bärbara datorer med Qualcomms Snapdragon X Elite mobila processorer kommer ut någon gång i mitten av 2024 och kommer att ha en NPU som kan 45 TOPS. I kombination med en Adreno GPU som klarar 4.6 teraFLOPS FP32-prestanda, säger Qualcomm att delen kommer att kunna köra AI-modeller upp till 13 miljarder parametrar helt och hållet på enheten och generera 30 tokens i sekunden när man kör mindre LLM:er med 7 miljarder parametrar.

När datorer med NPU:er med högre prestanda och större minnesbutiker kommer, och små modeller blir mer kapabla, misstänker vi att Microsoft kommer att börja ladda ner mer funktionalitet till lokala enheter – när hårdvaran kan hantera det. ®

Tidsstämpel:

Mer från Registret