چرا Copilot در حال حاضر فقط به صورت محلی روی رایانه های شخصی هوش مصنوعی اجرا می شود

چرا Copilot در حال حاضر فقط به صورت محلی روی رایانه های شخصی هوش مصنوعی اجرا می شود

چرا Copilot در حال حاضر فقط به صورت محلی بر روی رایانه های شخصی هوش مصنوعی اجرا می شود. جستجوی عمودی Ai.

اظهار نظر تعریف مایکروسافت از اینکه چه چیزی یک کامپیوتر هوش مصنوعی را تشکیل می دهد و چه چیزی را تشکیل نمی دهد در حال شکل گیری است. با جدیدترین نسخه ویندوز، یک کلید Copilot اختصاصی، و یک NPU با توانایی حداقل 40 تریلیون عملیات در ثانیه، به زودی می توانید Microsoft Copilot را به صورت محلی، ish، بر روی دستگاه خود اجرا کنید.

ردموندز مقررات برای مدل هوش مصنوعی خود در ویندوز توسط اینتل - یکی از قوی‌ترین تشویق‌کنندگان در رده رایانه‌های شخصی هوش مصنوعی - در طول غول تراشه رسمی شد. اجلاس هوش مصنوعی این هفته در تایپه

اجرای یک مدل زبان بزرگ (LLM) به صورت محلی مزایای ذاتی دارد. کاربران نهایی باید تاخیر کمتری داشته باشند و در نتیجه زمان پاسخ بهتری داشته باشند، زیرا از نظر تئوری نیازی به ارسال پرس‌و‌جوها به مرکز داده از راه دور و همچنین حفظ حریم خصوصی بیشتر نیست. در همین حال، برای مایکروسافت، انتقال بیشتر حجم کاری هوش مصنوعی به دستگاه های مشتری، منابع خود را برای کارهای دیگر، مانند کمک به آموزش مدل بعدی OpenAI یا ارائه آن به عنوان یک API ابری، آزاد می کند.

مایکروسافت امیدوار است که Copilot LLM خود را به طور کامل بر روی NPU ها یا واحدهای پردازش عصبی در رایانه های شخصی مبتنی بر هوش مصنوعی ویندوزی اجرا کند. نظرات ظاهرا ساخته شده توسط مدیران اینتل در اجلاس. می‌توانیم تصور کنیم که جالوت x86 به این خط فشار می‌آورد تا همه را متقاعد کند که سیلیکون آن به اندازه‌ای قدرتمند است که بتواند وسایل ردموند را در خانه یا محل کار اجرا کند.

اگرچه ایده جدا کردن Copilot از ناف Azure ممکن است برای برخی جذاب باشد، به نظر می رسد همه طرفدار آن نباشند. کلیپی متجسم و حداقل مقداری از پردازش تقریباً مطمئناً در آینده قابل پیش‌بینی در فضای ابری انجام خواهد شد.

مدیران اینتل گفته‌اند: سخت‌افزار سریع‌تر باعث می‌شود «عناصر» بیشتری از Copilot به صورت محلی اجرا شوند. به عبارت دیگر، شما هنوز هم برای حداقل برخی از عملکردها به اتصال شبکه متکی خواهید بود، و بقیه کارها را کامپیوتر هوش مصنوعی خودش انجام خواهد داد.

دلیل آن نباید چندان تعجب آور باشد. این رایانه‌های شخصی هوش مصنوعی منابع محدودی دارند و مدلی که Copilot را تامین می‌کند - GPT-4 OpenAI - بسیار زیاد است. ما دقیقا نمی دانیم نسخه ای که مایکروسافت استفاده می کند چقدر بزرگ است، اما تخمین می زند مدل کامل GPT-4 را در حدود 1.7 تریلیون پارامتر قرار می دهد. حتی با کوانتیزاسیون یا اجرای مدل در INT4، به حدود 900 گیگابایت حافظه نیاز دارید.

چگونه ما فکر می کنیم که کار می کند

GPT-4 یک مدل به اصطلاح ترکیبی از متخصصان است. به طور خلاصه، این بدان معناست که در واقع از تعدادی مدل کوچکتر و تخصصی از قبل آموزش دیده جمع شده است که پرس و جوها به آنها هدایت می شوند. با داشتن چندین مدل بهینه‌سازی شده برای تولید متن، خلاصه‌سازی، ایجاد کد و غیره، عملکرد استنتاج را می‌توان بهبود بخشید زیرا کل مدل برای تکمیل یک کار نیازی به اجرا ندارد.

استفاده اینتل از اصطلاح "عناصر" برای توصیف ویژگی‌های در حال اجرا Copilot به صورت محلی نشان می‌دهد که برخی از این متخصصان می‌توانند جایگزین مدل‌های کوچک‌تر و زیرک‌تر با قابلیت اجرا بر روی سخت‌افزار لپ‌تاپ شوند. همانطور که قبلاً بررسی کردیم، سخت افزار شخصی موجود بیش از توانایی اجرای مدل های هوش مصنوعی کوچکتر مانند Mistral یا Meta است.

اتفاقاً اخیراً مایکروسافت پمپ شده 15 میلیون یورو (16.3 میلیون دلار) به سازنده مینی مدل فرانسوی Mistral AI، با برنامه‌ریزی برای در دسترس قرار دادن کار خود برای مشتریان Azure. Mistral-7B با اندازه تنها 7 میلیارد پارامتر، مطمئناً به اندازه کافی کوچک است که به راحتی در حافظه رایانه های شخصی هوش مصنوعی جای می گیرد و در هنگام استفاده از کوانتیزاسیون 4 بیتی به حافظه 4 گیگابایتی نیاز دارد.

و این برای یک مدل هدف کلی است. احتمالاً می‌توانید با مدل‌های کوچک‌تر تنظیم‌شده برای تولید کد منبع که تنها زمانی در حافظه بارگذاری شوند که برنامه، مثلاً Visual Studio Code، راه‌اندازی شود و اشتراک Github Copilot فعال شناسایی شود. به یاد داشته باشید، Copilot چیزی بیش از یک چت بات است. این مجموعه ای از ویژگی های هوش مصنوعی است که در حال ورود به سیستم عامل و کتابخانه نرم افزاری مایکروسافت است.

ردموند نگفته است که مشخصات رایانه شخصی با هوش مصنوعی چقدر حافظه دارد، اما طبق تجربه ما با آن LLM های محلی16 گیگابایت DDR5 سریع باید کافی باشد.

مایکروسافت هر مسیری را که در نهایت طی کند، ترکیب مدل‌های محلی و راه دور می‌تواند منجر به رفتار جالبی شود. ما هنوز نمی‌دانیم تحت چه شرایطی این مدل‌های محلی قدرت را در دست خواهند گرفت، اما شرکت مایکروسافت از دستگاه‌های Windows Devices Pavan Davuluri پیشنهاد کرده است که ترکیب ممکن است پویا باشد.

او روی صحنه در جریان پیشرفت هوش مصنوعی AMD گفت: «ما می‌خواهیم شیفت بین ابر و کلاینت را بارگذاری کنیم تا بهترین محاسبات را در هر دو دنیا ارائه کنیم. واقعه در ماه دسامبر. مزایای محاسبات محلی، مواردی مانند افزایش حریم خصوصی و پاسخگویی و تأخیر با قدرت ابر، مدل‌های با کارایی بالا، مجموعه داده‌های بزرگ، استنتاج بین پلتفرم‌ها را گرد هم می‌آورد.»

به این ترتیب، ما می توانیم چند سناریو ببینیم که چگونه مایکروسافت ممکن است از هوش مصنوعی محلی استفاده کند. اولین مورد، تخلیه کار از سرورهای مایکروسافت و بهبود زمان پاسخگویی است. با بهبود سخت افزار، ویژگی های Copilot بیشتری را می توان از فضای ابری خارج کرد و روی دستگاه های کاربر قرار داد.

دوم این است که آن را به عنوان یک عقب نشینی در مورد اختلالات شبکه در نظر بگیریم. می توانید تصور کنید که کامپیوتر هوش مصنوعی شما به جای اینکه به طور کامل در هنگام قطع شدن از شبکه متوقف شود، احمق تر می شود.

محدودیت های سخت افزاری

قبل از اینکه خیلی هیجان زده شوید که رایانه های شخصی هوش مصنوعی با مغز تقسیم می شوند که مانیفست های خارج از شبکه را پیش نویس می کنند، در حال حاضر هیچ ماشینی وجود ندارد که الزامات سخت افزاری را برآورده کند، و دلیل آن فقدان کلید Copilot نیست.

مسئله این است که NPU ها هنوز در سیلیکون x86 نسبتا جدید هستند و آنچه که وجود دارد تقریباً به اندازه کافی قدرتمند نیست. AMD یکی از اولین شرکت هایی بود که در اوایل سال 2023 با راه اندازی پردازنده های خود یک NPU را به پردازنده های موبایل خود اضافه کرد. Ryzen 7040 تراشه های سری

این ترکیب در ماه دسامبر در جریان رویداد هوش مصنوعی House of Zen با یک ضربه ساعت مواجه شد. AMD همچنین با راه اندازی NPU های خود را به دسکتاپ آورد APU های 8000G در CES در ژانویه امسال.

اینتل با راه اندازی بلوک های شتاب دهنده هوش مصنوعی اختصاصی خود را راه اندازی کرد دریاچه شهاب سنگ قطعات ریزپردازنده در اواخر دسامبر. این تراشه‌های Core Ultra دارای یک NPU مشتق شده از واحد پردازش بینایی موویدیوس (VPU) اینتل هستند که اینتل دمو کردن در طول رویداد نوآوری خود در سال گذشته، بارهای کاری مختلفی را اجرا کرد.

متأسفانه، تراشه ها تنها قادر به انجام 10 تا 16 تریلیون (معمولاً INT4) عملیات در ثانیه هستند که بسیار کمتر از مشخصات 40 TOPS مایکروسافت. این بدان معناست که اکثر رایانه‌های شخصی به اصطلاح هوش مصنوعی موجود در بازار، الزامات را برآورده نمی‌کنند – نه بدون تکیه بر GPU برای جبران تفاوت.

هر دو اینتل و AMD دارای تراشه های توانمندتری هستند که به ترتیب با سیلیکون Lunar Lake و Strix Point عرضه می شوند. با این حال، در کوتاه مدت، به نظر می رسد که کوالکام بازار را در گوشه و کنار خواهد داشت.

نوت‌بوک‌هایی که از اسنپدراگون ایکس الیت کوالکام استفاده می‌کنند پردازنده های تلفن همراه قرار است در اواسط سال 2024 عرضه شوند و دارای یک NPU با قابلیت 45 TOPS هستند. کوالکام می‌گوید که همراه با یک پردازنده گرافیکی Adreno با عملکرد 4.6 ترافلاپس FP32، این قطعه می‌تواند مدل‌های هوش مصنوعی را تا 13 میلیارد پارامتر کاملاً روی دستگاه اجرا کند و هنگام اجرای LLM‌های کوچکتر با 30 میلیارد پارامتر در ثانیه 7 توکن تولید کند.

از آنجایی که رایانه‌های شخصی با NPU با کارایی بالاتر و حافظه‌های بزرگ‌تر وارد می‌شوند، و مدل‌های کوچک توانایی بیشتری پیدا می‌کنند، ما گمان می‌کنیم که مایکروسافت شروع به بارگذاری عملکردهای بیشتری در دستگاه‌های محلی خواهد کرد – زمانی که سخت‌افزار بتواند آن را مدیریت کند. ®

تمبر زمان:

بیشتر از ثبت نام