Mengapa Copilot hanya akan berjalan secara lokal di PC AI untuk saat ini

Mengapa Copilot hanya akan berjalan secara lokal di PC AI untuk saat ini

Mengapa Copilot hanya akan berjalan secara lokal di PC AI untuk saat ini PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pesan Definisi Microsoft tentang apa yang termasuk dan apa yang tidak termasuk dalam AI PC mulai terbentuk. Dengan versi terbaru Windows, kunci Copilot khusus, dan NPU yang mampu melakukan setidaknya 40 triliun operasi per detik, Anda akan segera dapat menjalankan Microsoft Copilot secara lokal di mesin Anda.

Redmond Persyaratan untuk model AI-nya di Windows dibuat resmi oleh Intel โ€” salah satu pemimpin terkuat dalam kategori AI PC โ€” pada masa raksasa chip tersebut KTT AI di Taipei minggu ini.

Menjalankan model bahasa besar (LLM) secara lokal memiliki beberapa manfaat intrinsik. Pengguna akhir harus memiliki latensi yang lebih rendah sehingga meningkatkan waktu respons, karena secara teori kueri tidak perlu dikirim ke dan dari pusat data jarak jauh, ditambah lebih banyak privasi. Sementara itu, bagi Microsoft, mengalihkan lebih banyak beban kerja AI ke perangkat pelanggan akan membebaskan sumber dayanya untuk tugas-tugas lain, seperti membantu melatih model OpenAI berikutnya atau menawarkannya sebagai API cloud.

Microsoft berharap untuk menjalankan Copilot LLM sepenuhnya pada NPU, atau unit pemrosesan saraf, pada PC Windows AI pada akhirnya, dilihat dari komentar rupanya dibuat oleh para eksekutif Intel pada pertemuan puncak. Kita dapat membayangkan raksasa x86 mendorong garis tersebut untuk meyakinkan semua orang bahwa silikonnya cukup kuat untuk menjalankan perangkat Redmond di rumah atau di kantor.

Meskipun gagasan melepaskan Copilot dari pusar Azure mungkin menarik bagi sebagian orang, tampaknya tidak semua orang menyukai Penjelmaan Clippy dan setidaknya sejumlah pemrosesan hampir pasti akan dilakukan di cloud di masa mendatang.

Para eksekutif Intel juga mengatakan hal yang sama: Perangkat keras yang lebih cepat akan memungkinkan lebih banyak โ€œelemenโ€ Copilot untuk dijalankan secara lokal. Dengan kata lain, Anda masih akan bergantung pada koneksi jaringan untuk setidaknya beberapa fungsi, dan sisanya akan ditangani sendiri oleh AI PC.

Alasannya seharusnya tidak terlalu mengejutkan. PC AI ini memiliki sumber daya yang terbatas dan model yang mendukung Copilot โ€” GPT-4 OpenAI โ€” sangatlah besar. Kami tidak tahu persis seberapa besar versi yang digunakan Microsoft, namun perkiraan menempatkan model GPT-4 lengkap pada sekitar 1.7 triliun parameter. Bahkan dengan kuantisasi atau menjalankan model di INT4, Anda memerlukan memori sekitar 900 GB.

Bagaimana menurut kami ini akan berhasil

GPT-4 disebut model campuran pakar. Singkatnya, ini berarti model tersebut sebenarnya dirakit dari sejumlah model terlatih khusus yang lebih kecil yang menjadi tujuan rute kueri. Dengan mengoptimalkan beberapa model untuk pembuatan teks, peringkasan, pembuatan kode, dan sebagainya, performa inferensi dapat ditingkatkan karena keseluruhan model tidak perlu dijalankan untuk menyelesaikan suatu tugas.

Penggunaan istilah โ€œelemenโ€ oleh Intel untuk mendeskripsikan menjalankan fitur Copilot secara lokal menunjukkan bahwa beberapa pakar ini dapat digantikan dengan model yang lebih kecil dan gesit yang mampu berjalan pada perangkat keras laptop. Seperti yang telah kita bahas sebelumnya, perangkat keras pribadi yang ada lebih dari mampu menjalankan model AI yang lebih kecil seperti Mistral atau Meta.

Secara kebetulan, Microsoft baru-baru ini dipompa โ‚ฌ15 juta ($16.3 juta) untuk pembuat model mini Prancis, Mistral AI, dengan rencana untuk membuat karyanya tersedia bagi pelanggan Azure. Dengan ukuran hanya 7 miliar parameter, Mistral-7B tentu saja cukup kecil untuk dimasukkan dengan nyaman ke dalam memori PC AI, sehingga memerlukan memori sekitar 4 GB saat menggunakan kuantisasi 4-bit.

Dan itu untuk model tujuan umum. Mungkin, Anda dapat bertahan dengan model yang lebih kecil yang disesuaikan untuk pembuatan kode sumber yang hanya dimuat ke dalam memori ketika aplikasi, misalnya Visual Studio Code, diluncurkan dan langganan Github Copilot yang aktif terdeteksi. Ingat, Copilot lebih dari sekedar chatbot; ini adalah serangkaian fitur AI yang dimasukkan ke dalam OS dan perpustakaan perangkat lunak Microsoft.

Redmond belum mengatakan berapa banyak memori yang dibutuhkan oleh spesifikasi AI PC-nya, namun berdasarkan pengalaman kami LLM lokal, DDR16 cepat 5 GB sudah cukup.

Apapun rute yang diambil Microsoft, kombinasi model lokal dan jarak jauh dapat menghasilkan beberapa perilaku yang menarik. Kami belum tahu dalam keadaan apa model lokal ini akan mengambil alih, namun perusahaan Microsoft yang menangani Perangkat Windows, Pavan Davuluri, mengatakan bahwa perpaduan tersebut mungkin bersifat dinamis.

โ€œKami ingin dapat melakukan peralihan antara cloud dan klien untuk memberikan komputasi terbaik di kedua dunia tersebut,โ€ katanya di atas panggung pada acara AMD Advancing AI. peristiwa di bulan Desember. โ€œIni menyatukan manfaat komputasi lokal, hal-hal seperti peningkatan privasi dan daya tanggap serta latensi dengan kekuatan cloud, model berkinerja tinggi, kumpulan data besar, inferensi lintas platform.โ€

Oleh karena itu, kita dapat melihat beberapa skenario bagaimana Microsoft dapat menggunakan AI lokal. Yang pertama adalah memindahkan pekerjaan dari server Microsoft dan meningkatkan waktu respons. Seiring dengan peningkatan perangkat keras, lebih banyak fitur Copilot dapat dikeluarkan dari cloud dan ke perangkat pengguna.

Yang kedua adalah menjadikannya sebagai cadangan jika terjadi gangguan jaringan. Anda dapat membayangkan PC AI Anda menjadi lebih bodoh daripada berhenti sepenuhnya ketika terputus dari internet.

Kendala perangkat keras

Sebelum Anda terlalu tertarik dengan PC AI dengan otak terpecah yang menyusun manifesto off-grid, saat ini tidak ada mesin di luar sana yang memenuhi persyaratan perangkat keras, dan hal ini bukan karena kurangnya kunci Copilot.

Masalahnya adalah NPU masih relatif baru dalam silikon x86, dan NPU yang ada belum cukup kuat. AMD termasuk orang pertama yang menambahkan NPU ke prosesor selulernya pada awal tahun 2023 dengan peluncurannya Ryzen 7040 chip seri.

Jajaran pemain tersebut mendapat kejutan pada bulan Desember saat acara Advancing AI House of Zen. AMD juga menghadirkan NPU-nya ke desktop dengan peluncurannya APU 8000G di CES pada bulan Januari tahun ini.

Intel meluncurkan blok akselerator AI khusus dengan peluncurannya Danau Meteor bagian mikroprosesor pada akhir Desember. Chip Core Ultra ini menampilkan NPU yang berasal dari unit pemrosesan visi Movidius (VPU) Intel, yaitu Intel didemonstrasikan menjalankan berbagai beban kerja selama acara Inovasi tahun lalu.

Sayangnya, chip hanya mampu melakukan 10 hingga 16 triliun operasi (biasanya INT4) per detik, jauh di bawah spesifikasi Microsoft yang 40 TOPS. Artinya, sebagian besar PC AI yang ada di pasaran tidak akan memenuhi persyaratan โ€“ tanpa bergantung pada GPU untuk membuat perbedaan.

Baik Intel maupun AMD memiliki chip yang lebih mumpuni yang masing-masing hadir dengan silikon Lunar Lake dan Strix Point. Namun, dalam waktu dekat, sepertinya Qualcomm akan menguasai pasar.

Notebook yang menggunakan Qualcomm Snapdragon X Elite prosesor seluler akan dirilis sekitar pertengahan tahun 2024 dan akan menampilkan NPU yang mampu mencapai 45 TOPS. Dikombinasikan dengan GPU Adreno yang mampu menghasilkan kinerja FP4.6 32 teraFLOPS, Qualcomm mengatakan bagian tersebut akan mampu menjalankan model AI hingga 13 miliar parameter seluruhnya pada perangkat dan menghasilkan 30 token per detik ketika menjalankan LLM yang lebih kecil dengan 7 miliar parameter.

Seiring dengan hadirnya PC dengan NPU berperforma lebih tinggi dan penyimpanan memori yang lebih besar, serta model-model kecil yang semakin mumpuni, kami menduga Microsoft akan mulai memindahkan lebih banyak fungsionalitas ke perangkat lokal โ€“ setelah perangkat keras dapat menanganinya. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran