Miksi Copilot toimii toistaiseksi vain paikallisesti AI-tietokoneissa

Miksi Copilot toimii toistaiseksi vain paikallisesti AI-tietokoneissa

Miksi Copilot toimii tällä hetkellä vain paikallisesti AI-tietokoneissa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kommentti Microsoftin määritelmä siitä, mikä on tekoäly-PC ja mikä ei, on muotoutumassa. Uusimman Windows-version, erillisen Copilot-avaimen ja vähintään 40 biljoonaa toimintoa sekunnissa suorittavan NPU:n ansiosta voit pian käyttää Microsoft Copilotia paikallisesti koneellasi.

Redmond n vaatimukset Intel – yksi AI PC -kategorian vahvimmista cheerleadereistä – teki ne viralliseksi sen Windows-käyttöjärjestelmän tekoälymallilleen sirujättiläisen aikana. AI huippukokous Taipeissa tällä viikolla.

Suuren kielimallin (LLM) käyttämisellä paikallisesti on joitain luontaisia ​​etuja. Loppukäyttäjillä pitäisi olla pienempi viive ja siksi paremmat vasteajat, koska kyselyitä ei tarvitse lähettää etäpalvelinkeskukseen ja etäpalvelinkeskuksesta, ja teoriassa enemmän yksityisyyttä. Microsoftille puolestaan ​​AI-työkuorman siirtäminen enemmän asiakkaiden laitteisiin vapauttaa omia resurssejaan muihin tehtäviin, kuten seuraavan OpenAI-mallin kouluttamiseen tai sen tarjoamiseen pilvisovellusliittymänä.

Microsoft toivoo voivansa käyttää Copilot LLM:ään kokonaan ihmisten Windows AI -tietokoneiden NPU:illa eli hermoprosessointiyksiköillä lopulta. kommentteja ilmeisesti Intelin johtajat huippukokouksessa. Voimme kuvitella, että x86-goliatti ajaa tätä linjaa vakuuttaakseen kaikki, että sen pii on tarpeeksi tehokas ajamaan Redmondin tavaraa kotona tai toimistossa.

Vaikka ajatus Copilotin irrottamisesta Azuren navasta saattaa olla houkutteleva joillekin, kaikki eivät näytä kannattavan Clippy inkarnoitunut ja ainakin osa käsittelystä tehdään lähes varmasti pilvessä lähitulevaisuudessa.

Intelin johtajat ovat sanoneet saman: nopeampi laitteisto mahdollistaa useamman Copilotin "elementin" toimimisen paikallisesti. Toisin sanoen olet edelleen riippuvainen verkkoyhteydestä ainakin osan toiminnoista, ja loput AI PC hoitaa itse.

Syy ei saisi tulla kovin yllätyksenä. Näillä tekoälytietokoneilla on rajalliset resurssit, ja Copilotia – OpenAI:n GPT-4:ää – käyttävä malli on valtava. Emme tiedä tarkalleen, kuinka suuri Microsoftin käyttämä versio on, mutta arviot asettaa koko GPT-4-mallin noin 1.7 biljoonaan parametriin. Vaikka kvantisointi tai mallia käytettäisiin INT4:ssä, tarvitset noin 900 Gt muistia.

Miten luulemme sen toimivan

GPT-4 on niin sanottu asiantuntijoiden yhdistelmämalli. Pähkinänkuoressa tämä tarkoittaa, että se on itse asiassa koottu useista pienemmistä, erikoistuneista esikoulutetuista malleista, joihin kyselyt reititetään. Kun useita malleja on optimoitu tekstin luomiseen, yhteenvetoon, koodin luomiseen ja niin edelleen, päättelyn suorituskykyä voidaan parantaa, koska koko mallia ei tarvitse suorittaa tehtävän suorittamiseksi.

Intelin käyttämä termi "elementit" kuvaamaan Copilot-ominaisuuksien paikallista käyttöä viittaa siihen, että jotkut näistä asiantuntijoista voitaisiin korvata pienemmillä, ketterämmillä malleilla, jotka pystyvät toimimaan kannettavan tietokoneen laitteistolla. Kuten olemme aiemmin tutkineet, olemassa olevat henkilökohtaiset laitteistot ovat enemmän kuin kykeneviä ajamaan pienempiä tekoälymalleja, kuten Mistral tai Meta.

Sattumalta Microsoft äskettäin pumpataan 15 miljoonaa euroa (16.3 miljoonaa dollaria) ranskalaiselle minimallien rakentajalle Mistral AI:lle, jonka suunnitelmat ovat Azure-asiakkaiden käytettävissä. Vain 7 miljardin parametrin kokoinen Mistral-7B on varmasti tarpeeksi pieni mahtumaan mukavasti tekoäly-PC:n muistiin, mikä vaatii noin 4 Gt muistia käytettäessä 4-bittistä kvantisointia.

Ja tämä on yleiskäyttöinen malli. On mahdollista, että pärjäisit jopa pienemmillä malleilla, jotka on viritetty lähdekoodin luomiseen ja jotka ladataan muistiin vasta, kun sovellus, esimerkiksi Visual Studio Code, käynnistetään ja aktiivinen Github Copilot -tilaus havaitaan. Muista, että Copilot on enemmän kuin pelkkä chatbot; se on sarja tekoälyominaisuuksia, jotka ovat tulossa Microsoftin käyttöjärjestelmään ja ohjelmistokirjastoon.

Redmond ei ole kertonut, kuinka paljon muistia sen AI PC -spesifikaatiot vaativat, mutta kokemuksemme mukaan paikalliset LLM:t, 16 Gt nopeaa DDR5:tä pitäisi riittää.

Millaisen reitin Microsoft lopulta valitseekin, paikallisten ja etämallien yhdistelmä voi johtaa mielenkiintoiseen käyttäytymiseen. Emme vielä tiedä, missä olosuhteissa nämä paikalliset mallit ottavat haltuunsa, mutta Microsoftin Windows-laitteiden yritysvep Pavan Davuluri on ehdottanut, että yhdistelmä voi olla dynaaminen.

"Haluamme pystyä lataamaan siirtoa pilven ja asiakkaan välillä tarjotaksemme parhaan mahdollisen tietojenkäsittelyn molemmissa maailmoissa", hän sanoi lavalla AMD:n Advancing AI:n aikana. tapahtumaa varten joulukuussa. "Se yhdistää paikallisen laskennan edut, kuten parannetun yksityisyyden ja reagoivuuden ja latenssin pilven tehon, korkean suorituskyvyn mallit, suuret tietojoukot ja useiden alustojen välisen päättelyn."

Sellaisenaan voimme nähdä pari skenaariota, kuinka Microsoft voi käyttää paikallista tekoälyä. Ensimmäinen on työn purkaminen Microsoftin palvelimilta ja vasteaikojen parantaminen. Laitteiston kehittyessä lisää Copilot-ominaisuuksia voidaan työntää ulos pilvestä ja käyttäjien laitteisiin.

Toinen vaihtoehto olisi se, että se toimisi varoituskeinona verkkohäiriöiden varalta. Voit kuvitella, että AI-tietokoneesi muuttuu vain tyhmemmäksi sen sijaan, että se pysähtyisi kokonaan, kun se irrotetaan verkosta.

Laitteiston rajoitukset

Ennen kuin innostut liian innostuneista AI-tietokoneista, jotka laativat off-grid-manifesteja, tällä hetkellä ei ole olemassa yhtään konetta, joka täyttäisi laitteistovaatimukset, eikä se johdu Copilot-avaimen puutteesta.

Ongelmana on, että NPU:t ovat vielä suhteellisen uusia x86-piissä, ja olemassa oleva ei ole läheskään tarpeeksi tehokasta. AMD oli ensimmäisten joukossa, joka lisäsi NPU:n mobiiliprosessoreihinsa jo vuoden 2023 alussa, kun se lanseerasi Ryzen 7040 sarjan sirut.

Tämä kokoonpano sai kelloniskun joulukuussa House of Zenin Advancing AI -tapahtuman aikana. AMD toi myös NPU:t työpöydälle julkaisemalla sen 8000G APU:t CES:ssä tämän vuoden tammikuussa.

Intel otti käyttöön omistetut AI-kiihdytinlohkonsa lanseerauksensa myötä Meteorijärvi mikroprosessorin osia joulukuun lopulla. Näissä Core Ultra -siruissa on NPU, joka on johdettu Intelin Movidius vision -käsittelyyksiköstä (VPU), jonka Intel demo suorittaa erilaisia ​​työkuormia Innovation-tapahtumansa aikana viime vuonna.

Valitettavasti sirut pystyvät vain 10-16 biljoonaan (tyypillisesti INT4) operaatioon sekunnissa, mikä on paljon vähemmän kuin Microsoftin 40 TOPS-spesifikaatiossa. Tämä tarkoittaa, että suurin osa markkinoilla olevista niin sanotuista tekoälytietokoneista ei täytä vaatimuksia – ilman GPU:n tukemista eron korjaamiseksi.

Sekä Intelillä että AMD:llä on tehokkaampia siruja, joissa on Lunar Lake ja Strix Point piitä. Lähitulevaisuudessa näyttää kuitenkin siltä, ​​että Qualcomm saa markkinat nurkkaan.

Kannettavat, joissa on Qualcommin Snapdragon X Elite mobiiliprosessorit ilmestyvät joskus vuoden 2024 puolivälissä, ja niissä on 45 TOPSin NPU. Yhdessä Adreno GPU:n kanssa, joka pystyy tuottamaan 4.6 teraFLOPS FP32-suorituskykyä, Qualcomm sanoo, että osa pystyy suorittamaan tekoälymalleja 13 miljardiin parametriin asti kokonaan laitteessa ja luomaan 30 merkkiä sekunnissa käytettäessä pienempiä 7 miljardin parametrin LLM:itä.

Kun tietokoneet, joissa on tehokkaammat NPU:t ja suuremmat muistivarastot, saapuvat ja pienten mallien kyky kasvaa, epäilemme, että Microsoft alkaa ladata lisää toimintoja paikallisiin laitteisiin – kun laitteisto pystyy käsittelemään niitä. ®

Aikaleima:

Lisää aiheesta Rekisteri