چگونه یک LLM را به صورت محلی در رایانه شخصی خود در کمتر از 10 دقیقه اجرا کنید

چگونه یک LLM را به صورت محلی در رایانه شخصی خود در کمتر از 10 دقیقه اجرا کنید

دست در با همه صحبت‌ها در مورد خوشه‌های آموزشی عظیم ماشینی و رایانه‌های شخصی هوش مصنوعی، فکر می‌کنید به نوعی سخت‌افزار ویژه نیاز دارید تا با مدل‌های زبان بزرگ (LLM) تولید کننده متن و کد در خانه بازی کنید.

در واقع، احتمال زیادی وجود دارد که سیستم دسکتاپ شما در حال خواندن این مطلب هستید بیش از توانایی اجرای طیف گسترده ای از LLM ها، از جمله ربات های چت مانند Mistral یا تولیدکنندگان کد منبع مانند Codellama.

در واقع، با ابزارهای در دسترس مانند Ollama، LM Suite و Llama.cpp، اجرای این مدل ها بر روی سیستم شما نسبتاً آسان است.

به منظور سادگی و سازگاری بین پلتفرم، ما به دنبال آن هستیم اولاما، که پس از نصب، در ویندوز، لینوکس و مک تقریباً یکسان عمل می کند.

چند کلمه در مورد عملکرد، سازگاری و پشتیبانی AMD GPU:

به طور کلی، مدل های زبان بزرگ مانند Mistral یا Llama 2 با شتاب دهنده های اختصاصی بهترین اجرا را دارند. دلیلی وجود دارد که اپراتورهای دیتاسنتر پردازنده‌های گرافیکی را در خوشه‌های 10,000 یا بیشتر می‌خرند و مستقر می‌کنند، اگرچه شما به کمترین کسری از چنین منابعی نیاز دارید.

Ollama پشتیبانی بومی برای پردازنده های گرافیکی سری M انویدیا و اپل ارائه می دهد. پردازنده های گرافیکی انویدیا با حداقل 4 گیگابایت حافظه باید کار کنند. ما با 12 گیگابایت RTX 3060 آزمایش کردیم، اگرچه حداقل 16 گیگابایت حافظه را برای مک های سری M توصیه می کنیم.

کاربران لینوکس می خواهند آخرین درایور اختصاصی انویدیا و احتمالا ابتدا باینری های CUDA نصب شوند. اطلاعات بیشتری در مورد تنظیم آن وجود دارد اینجا کلیک نمایید.

اگر از پردازنده‌های گرافیکی سری Radeon 7000 یا جدیدتر استفاده می‌کنید، AMD راهنمای کاملی برای اجرای LLM در سیستم شما دارد که می‌توانید آن را پیدا کنید. اینجا کلیک نمایید.

خبر خوب این است که اگر کارت گرافیک پشتیبانی‌شده ندارید، Ollama همچنان بر روی یک CPU سازگار با AVX2 کار می‌کند، اگرچه بسیار کندتر از زمانی که یک GPU پشتیبانی می‌کنید. و در حالی که 16 گیگابایت حافظه توصیه می شود، ممکن است بتوانید با انتخاب یک مدل کوانتیزه شده با کمترین هزینه از آن استفاده کنید - بیشتر در یک دقیقه.

نصب اولاما

نصب Olama بدون در نظر گرفتن سیستم عامل پایه شما بسیار ساده است. این منبع باز است که می توانید آن را بررسی کنید اینجا کلیک نمایید.

برای کسانی که دارای سیستم عامل ویندوز یا مک هستند، سر بزنید olama.com و آن را مانند هر اپلیکیشن دیگری دانلود و نصب کنید.

برای کسانی که لینوکس را اجرا می‌کنند، حتی ساده‌تر است: فقط این یک لاینر را اجرا کنید — می‌توانید دستورالعمل‌های نصب دستی را پیدا کنید اینجا کلیک نمایید، اگر آنها را می خواهید - و به مسابقات می روید.

curl -fsSL https://ollama.com/install.sh | ش

اولین مدل خود را نصب کنید

صرف نظر از سیستم عامل شما، کار با اوللاما تا حد زیادی یکسان است. اولاما توصیه می کند که با آن شروع کنید لاما 2 7B، یک شبکه عصبی مبتنی بر ترانسفورماتور با هفت میلیارد پارامتر، اما برای این راهنما نگاهی به Mistral 7B از آنجایی که بسیار قادر است و منبع برخی از آنها بوده است مباحثه در هفته های اخیر

با باز کردن PowerShell یا شبیه ساز ترمینال و اجرای دستور زیر برای دانلود و شروع مدل در حالت چت تعاملی شروع کنید.

اولاما اجرا میسترال

پس از دانلود، به یک اعلان چت هدایت می‌شوید که می‌توانید مانند ChatGPT، Copilot یا Google Gemini، با مدل تعامل برقرار کنید.

LLM ها، مانند Mistral 7B، به طرز شگفت انگیزی روی این M2 Max MacBook Pro 1 ساله کار می کنند.

LLM ها، مانند Mistral 7B، به طرز شگفت انگیزی روی این M2 Max MacBook Pro 1 ساله به خوبی اجرا می شوند - برای بزرگنمایی کلیک کنید

اگر چیزی دریافت نکردید، ممکن است لازم باشد اوللاما را از منوی شروع در ویندوز یا پوشه برنامه‌ها در مک اجرا کنید.

مدل‌ها، برچسب‌ها و کوانتیزاسیون

Mistal 7B تنها یکی از چندین LLM است، از جمله نسخه‌های دیگر مدل، که با استفاده از Olama قابل دسترسی هستند. می‌توانید فهرست کامل را به همراه دستورالعمل‌هایی برای اجرای هر کدام بیابید اینجا کلیک نمایید، اما نحو کلی چیزی شبیه به این است:

olama run model-name:model-tag

تگ‌های مدل برای تعیین نسخه‌ای از مدلی که می‌خواهید دانلود کنید استفاده می‌شود. اگر آن را کنار بگذارید، اولاما فرض می کند که آخرین نسخه را می خواهید. در تجربه ما، این یک نسخه کوانتیزه شده 4 بیتی از مدل است.

به عنوان مثال، اگر می‌خواهید Meta's Llama2 7B را در FP16 اجرا کنید، به این شکل خواهد بود:

olama llama2:7b-chat-fp16 را اجرا کنید

اما قبل از اینکه آن را امتحان کنید، ممکن است بخواهید دوبار بررسی کنید که سیستم شما حافظه کافی دارد. مثال قبلی ما با Mistral از کوانتیزاسیون 4 بیتی استفاده می کرد، به این معنی که مدل برای هر 1 میلیارد پارامتر به نیم گیگابایت حافظه نیاز دارد. و فراموش نکنید: هفت میلیارد پارامتر دارد.

کوانتیزاسیون تکنیکی است که برای فشرده‌سازی مدل با تبدیل وزن‌ها و فعال‌سازی‌های آن به دقت کمتری استفاده می‌شود. این به Mistral 7B اجازه می دهد تا در 4 گیگابایت GPU یا RAM سیستم اجرا شود، معمولاً با حداقل کیفیت خروجی، اگرچه مسافت پیموده شده شما ممکن است متفاوت باشد.

مثال Llama 2 7B که در بالا استفاده شد با نیمی از دقت اجرا می شود (FP16). در نتیجه، شما در واقع به 2 گیگابایت حافظه در هر میلیارد پارامتر نیاز دارید، که در این مورد به بیش از 14 گیگابایت می رسد. مگر اینکه یک GPU جدیدتر با 16 گیگابایت VRAM یا بیشتر داشته باشید، ممکن است منابع کافی برای اجرای مدل با آن دقت نداشته باشید.

مدیریت اولاما

مدیریت، به‌روزرسانی و حذف مدل‌های نصب‌شده با استفاده از Ollama باید برای هر کسی که قبلاً از مواردی مانند Docker CLI استفاده کرده است، احساس راحتی کند.

در این بخش به چند مورد از کارهای رایج تری که ممکن است بخواهید اجرا کنید خواهیم پرداخت.

برای دریافت لیست مدل های نصب شده اجرا کنید:

لیست اولاما

برای حذف یک مدل، باید اجرا کنید:

olama rm model-name:model-tag

برای کشیدن یا به روز رسانی یک مدل موجود، اجرا کنید:

olama pull model-name:model-tag

دستورات اضافی Ollama را می توان با اجرای زیر پیدا کرد:

اولاما -- کمک

همانطور که قبلاً اشاره کردیم، Ollama تنها یکی از بسیاری از فریم ورک ها برای اجرای و آزمایش LLM های محلی است. اگر با این یکی به مشکل بر می خورید، ممکن است شانس بیشتری با دیگران پیدا کنید. و نه، یک هوش مصنوعی این را ننوشته است.

ثبت نام هدف این است که در آینده نزدیک بیشتر در مورد استفاده از LLM ها به شما کمک کند، بنابراین مطمئن شوید که سؤالات رایانه شخصی هوش مصنوعی خود را در بخش نظرات به اشتراک بگذارید. و فراموش نکنید امنیت زنجیره تامینبه ®

تمبر زمان:

بیشتر از ثبت نام