De ce Copilot va rula doar local pe computerele AI deocamdată

De ce Copilot va rula doar local pe computerele AI deocamdată

De ce Copilot va rula doar local pe computerele AI deocamdată PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Comentariu Definiția Microsoft a ceea ce înseamnă și ce nu reprezintă un PC AI prinde contur. Cu cea mai recentă versiune de Windows, o cheie Copilot dedicată și un NPU capabil să efectueze cel puțin 40 de trilioane de operații pe secundă, în curând veți putea rula Microsoft Copilot local, ish, pe computer.

lui Redmond Cerințe pentru modelul său AI pe Windows au fost oficializate de Intel – una dintre cele mai puternice majorete din categoria PC-urilor AI – în timpul gigantului cip. Summit-ul AI în Taipei săptămâna aceasta.

Rularea unui model de limbaj mare (LLM) la nivel local are unele beneficii intrinseci. Utilizatorii finali ar trebui să aibă o latență mai mică și, prin urmare, timpi de răspuns îmbunătățiți, deoarece interogările nu trebuie trimise către și de la un centru de date la distanță, plus mai multă confidențialitate, în teorie. Între timp, pentru Microsoft, transferul mai mult din volumul de lucru AI pe dispozitivele clienților își eliberează propriile resurse pentru alte sarcini, cum ar fi ajutarea la antrenarea următorului model OpenAI sau oferirea acestuia ca API cloud.

Microsoft speră să-și ruleze Copilot LLM în întregime pe NPU-uri sau unități de procesare neuronală în PC-urile Windows AI ale oamenilor, judecând după comentarii aparent realizat de directorii Intel la summit. Ne putem imagina goliath x86 împingând această linie pentru a convinge pe toată lumea că siliciul său este suficient de puternic pentru a rula lucrurile lui Redmond acasă sau la birou.

În timp ce ideea de a dezlega Copilot de la ombilicalul Azure ar putea fi atractivă pentru unii, nu toată lumea pare să fie fan Clippy încarnat și cel puțin o anumită cantitate de procesare se va face aproape sigur în cloud în viitorul apropiat.

Directorii Intel au spus la fel de mult: hardware-ul mai rapid va permite mai multor „elemente” Copilot să ruleze local. Cu alte cuvinte, te vei baza în continuare pe o conexiune la rețea pentru cel puțin o parte din funcționalitate, iar restul PC-ul AI se va descurca singur.

Motivul nu ar trebui să fie la fel de surprinzător. Aceste PC-uri AI au resurse limitate, iar modelul care alimentează Copilot – GPT-4 de la OpenAI – este enorm. Nu știm exact cât de mare este versiunea pe care o folosește Microsoft, dar estimări a pus întregul model GPT-4 la aproximativ 1.7 trilioane de parametri. Chiar și cu cuantizarea sau rularea modelului la INT4, veți avea nevoie de aproximativ 900 GB de memorie.

Cum credem noi că va funcționa

GPT-4 este un așa-numit model de amestec de experți. Pe scurt, aceasta înseamnă că este de fapt asamblat dintr-un număr de modele mai mici, specializate, pre-antrenate, către care sunt direcționate interogările. Având mai multe modele optimizate pentru generarea de text, rezumare, crearea de cod și așa mai departe, performanța de inferență poate fi îmbunătățită, deoarece întregul model nu trebuie să ruleze pentru a finaliza o sarcină.

Folosirea de către Intel a termenului „elemente” pentru a descrie funcționarea funcțiilor Copilot la nivel local sugerează că unii dintre acești experți ar putea fi înlocuiți cu modele mai mici, mai agile, capabile să ruleze pe hardware de laptop. După cum am explorat anterior, hardware-ul personal existent este mai mult decât capabil să ruleze modele AI mai mici, precum Mistral sau Meta.

Întâmplător, Microsoft recent pompat 15 milioane de euro (16.3 milioane de dolari) în constructorul francez de mini-modele Mistral AI, cu planuri de a-și pune munca la dispoziția clienților Azure. Cu o dimensiune de doar 7 miliarde de parametri, Mistral-7B este cu siguranță suficient de mic pentru a se potrivi confortabil în memoria unui PC AI, necesitând aproape 4 GB de memorie atunci când se utilizează cuantizarea pe 4 biți.

Și asta pentru un model de uz general. Este posibil să vă descurcați cu modele și mai mici reglate pentru generarea de cod sursă, care sunt încărcate în memorie doar atunci când aplicația, să spunem Visual Studio Code, este lansată și este detectat un abonament activ Github Copilot. Amintiți-vă, Copilot este mai mult decât un chatbot; este o suită de funcții AI care sunt incluse în sistemul de operare și biblioteca de software Microsoft.

Redmond nu a spus exact câtă memorie necesită specificațiile sale AI PC, dar, din experiența noastră LLM locale, 16 GB de DDR5 rapid ar trebui să fie adecvate.

Indiferent de calea pe care Microsoft ajunge să o ia, combinația de modele locale și de la distanță ar putea duce la un comportament interesant. Nu știm încă în ce circumstanțe vor prelua aceste modele locale, dar compania Microsoft a echipamentelor Windows Pavan Davuluri a sugerat că amestecul ar putea fi dinamic.

„Vrem să putem încărca schimbarea între cloud și client pentru a oferi cele mai bune procese de calcul în ambele lumi”, a spus el pe scenă în timpul AMD Advancing AI. eveniment in decembrie. „Reunește beneficiile calculului local, lucruri precum confidențialitate și receptivitate și latență îmbunătățite cu puterea cloud-ului, modele de înaltă performanță, seturi mari de date, inferență pe platformă.”

Ca atare, putem vedea câteva scenarii în care Microsoft poate folosi AI local. Primul este de a descărca munca de pe serverele Microsoft și de a îmbunătăți timpul de răspuns. Pe măsură ce hardware-ul se îmbunătățește, mai multe funcții Copilot ar putea fi eliminate din cloud și pe dispozitivele utilizatorului.

Al doilea ar fi să-l avem ca o rezervă în cazul întreruperilor rețelei. Vă puteți imagina computerul dvs. AI devenind mai prost decât să se oprească complet atunci când este oprit de la net.

Constrângeri hardware

Înainte de a fi prea entuziasmat de PC-urile AI cu creier divizat care redactează manifeste în afara rețelei, în prezent nu există mașini care să îndeplinească cerințele hardware și nu este din cauza lipsei unei chei Copilot.

Problema este că NPU-urile sunt încă relativ noi în siliciul x86, iar ceea ce există nu este suficient de puternic. AMD a fost printre primii care au adăugat un NPU la procesoarele sale mobile la începutul anului 2023, odată cu lansarea Ryzen 7040 cipuri de serie.

Această gamă a primit o creștere a ceasului în decembrie, în timpul evenimentului Advancing AI al House of Zen. AMD și-a adus și NPU-urile pe desktop odată cu lansarea acestuia APU-uri 8000G la CES în ianuarie anul acesta.

Intel și-a lansat blocurile de accelerare AI dedicate odată cu lansarea acestuia lacul de meteoriți piese de microprocesor la sfârșitul lunii decembrie. Aceste cipuri Core Ultra dispun de un NPU derivat din unitatea de procesare a viziunii (VPU) Intel Movidius, pe care Intel demonstrat rulează o varietate de sarcini de lucru în timpul evenimentului său de inovare de anul trecut.

Din păcate, cipurile sunt capabile doar de 10 până la 16 trilioane de operațiuni (de obicei INT4) pe secundă, mult sub cea a specificațiilor Microsoft de 40 TOPS. Asta înseamnă că majoritatea așa-numitelor PC-uri AI de pe piață nu vor îndeplini cerințele - nu fără a te sprijini pe GPU pentru a face diferența.

Atât Intel, cât și AMD au cipuri mai capabile care vin cu siliciu Lunar Lake și, respectiv, Strix Point. Cu toate acestea, pe termen scurt, se pare că Qualcomm va avea piața încolțită.

Notebook-uri cu Snapdragon X Elite de la Qualcomm procesoare mobile vor fi lansate la jumătatea anului 2024 și vor avea un NPU capabil de 45 de TOPS. Combinat cu un GPU Adreno capabil de performanță FP4.6 de 32 teraFLOPS, Qualcomm spune că piesa va putea rula modele AI de până la 13 miliarde de parametri în întregime pe dispozitiv și va genera 30 de jetoane pe secundă atunci când rulează LLM-uri mai mici, cu 7 miliarde de parametri.

Pe măsură ce sosesc PC-uri cu NPU-uri de performanță mai mare și depozite de memorie mai mari, iar modelele mici devin mai capabile, bănuim că Microsoft va începe să descarce mai multe funcționalități pe dispozitivele locale – odată ce hardware-ul se poate descurca. ®

Timestamp-ul:

Mai mult de la Registrul