כיצד להפעיל LLM באופן מקומי במחשב האישי שלך תוך פחות מ-10 דקות

כיצד להפעיל LLM באופן מקומי במחשב האישי שלך תוך פחות מ-10 דקות

ידיים למעלה עם כל הדיבורים על אשכולות אימון מסיביים ללימוד מכונה ומחשבי בינה מלאכותית, יסלח לך על המחשבה שאתה צריך איזושהי חומרה מיוחדת כדי לשחק עם מודלים גדולים של שפות (LLM) שיוצרות טקסט וקוד בבית.

במציאות, יש סיכוי טוב שמערכת שולחן העבודה שבה אתה קורא את זה היא יותר מיכולת של הפעלת מגוון רחב של LLMs, כולל צ'אט בוטים כמו Mistral או מחוללי קוד מקור כמו Codellama.

למעשה, עם כלים זמינים בגלוי כמו Ollama, LM Suite ו-Llama.cpp, קל יחסית להפעיל את המודלים האלה במערכת שלך.

מתוך אינטרס של פשטות ותאימות בין פלטפורמות, אנחנו הולכים לבחון אולמה, שברגע שהותקן עובד פחות או יותר אותו דבר בכל Windows, Linux ו-Mac.

מילה על ביצועים, תאימות ותמיכה ב-AMD GPU:

באופן כללי, דגמי שפה גדולים כמו Mistral או Llama 2 פועלים בצורה הטובה ביותר עם מאיצים ייעודיים. יש סיבה לכך שמפעילי מרכזי נתונים קונים ופורסים מעבדי GPU באשכולות של 10,000 או יותר, אם כי תזדקק לשבריר המינימלי של משאבים כאלה.

Ollama מציעה תמיכה מקורית עבור Nvidia ו-GPUs מסדרת M של אפל. Nvidia GPUs עם לפחות 4GB של זיכרון אמורים לעבוד. בדקנו עם 12GB RTX 3060, אם כי אנו ממליצים על לפחות 16GB של זיכרון עבור מחשבי Mac מסדרת M.

משתמשי לינוקס ירצו קודם כל את הדרייבר הקנייני העדכני ביותר של Nvidia וכנראה את הקבצים הבינאריים של CUDA. יש מידע נוסף על הגדרת זה כאן.

אם אתה מטלטל GPU מסדרת Radeon 7000 או חדש יותר, ל-AMD יש מדריך מלא להפעלת LLM במערכת שלך, אותו תוכל למצוא כאן.

החדשות הטובות הן שאם אין לך כרטיס גרפי נתמך, Ollama עדיין יפעל על מעבד תואם AVX2, אם כי הרבה יותר איטי מאשר אם היה לך GPU נתמך. ולמרות ש-16GB של זיכרון מומלץ, ייתכן שתוכל להסתדר עם פחות על ידי בחירה בדגם כמותי - עוד על זה תוך דקה.

התקנת Ollama

התקנת Ollama היא די פשוטה, ללא קשר למערכת ההפעלה הבסיסית שלך. זה קוד פתוח, שאתה יכול לבדוק כאן.

עבור אלה המריצים Windows או Mac OS, עברו ollama.com ולהוריד ולהתקין אותו כמו כל יישום אחר.

עבור אלה שמפעילים לינוקס, זה אפילו יותר פשוט: פשוט הפעל את ה-One Liner הזה - אתה יכול למצוא הוראות התקנה ידניות כאן, אם אתה רוצה אותם - ואתה יוצא למרוצים.

curl -fsSL https://ollama.com/install.sh | ש

התקנת הדגם הראשון שלך

ללא קשר למערכת ההפעלה שלך, העבודה עם Ollama זהה במידה רבה. אולמה ממליץ להתחיל עם לאמה 2 7B, רשת עצבית מבוססת שנאים בת שבעה מיליארד פרמטרים, אבל עבור המדריך הזה נסתכל על מיסטרל 7B מכיוון שהוא די מסוגל והיה המקור לחלקם מחלוקת בשבועות האחרונים.

התחל בפתיחת PowerShell או אמולטור מסוף וביצוע הפקודה הבאה כדי להוריד ולהפעיל את המודל במצב צ'אט אינטראקטיבי.

ollama run mistral

לאחר ההורדה, תיכנס להנחיית צ'אט שבה תוכל להתחיל ליצור אינטראקציה עם הדגם, בדיוק כמו ChatGPT, Copilot או Google Gemini.

LLMs, כמו Mistral 7B, פועלים בצורה מפתיעה ב-M2 Max MacBook Pro בן השנתיים הזה

LLMs, כמו Mistral 7B, פועלים בצורה מפתיעה על M2 Max MacBook Pro בן השנתיים הזה - לחץ להגדלה

אם לא תקבל כלום, ייתכן שתצטרך להפעיל את Ollama מתפריט ההתחלה ב-Windows או בתיקיית היישומים ב-Mac תחילה.

מודלים, תגים וקונטיזציה

Mistal 7B הוא רק אחד ממספר LLMs, כולל גרסאות אחרות של המודל, הנגישים באמצעות Ollama. תוכל למצוא את הרשימה המלאה, יחד עם הוראות להפעלת כל אחד מהם כאן, אבל התחביר הכללי הולך בערך כך:

ollama run model-name:model-tag

תגי דגם משמשים כדי לציין איזו גרסה של הדגם תרצה להוריד. אם תעזוב את זה, אולמה מניח שאתה רוצה את הגרסה העדכנית ביותר. מניסיוננו, זו נוטה להיות גרסה קוונטית של 4 סיביות של הדגם.

אם, למשל, תרצה להריץ את Llama2 7B של Meta ב-FP16, זה היה נראה כך:

ollama run llama2:7b-chat-fp16

אבל לפני שתנסה את זה, אולי תרצה לבדוק שוב שלמערכת שלך יש מספיק זיכרון. הדוגמה הקודמת שלנו עם Mistral השתמשה בקוונטיזציה של 4 סיביות, מה שאומר שהמודל זקוק לחצי גיגה-בייט של זיכרון עבור כל מיליארד פרמטרים. ואל תשכחו: יש לו שבעה מיליארד פרמטרים.

קוונטיזציה היא טכניקה המשמשת לדחיסת המודל על ידי המרת משקלו והפעלתו לדיוק נמוך יותר. זה מאפשר למיסטרל 7B לפעול בתוך 4GB של GPU או זיכרון RAM של המערכת, בדרך כלל עם הקרבה מינימלית באיכות הפלט, אם כי הקילומטראז' שלך עשוי להשתנות.

הדוגמה של Llama 2 7B ששימשה למעלה פועלת בחצי דיוק (FP16). כתוצאה מכך, למעשה תזדקק ל-2GB זיכרון למיליארד פרמטרים, שבמקרה זה מסתכם בקצת יותר מ-14GB. אלא אם כן יש לך GPU חדש יותר עם 16GB או יותר של vRAM, ייתכן שלא יהיו לך מספיק משאבים להפעיל את הדגם בדיוק הזה.

ניהול אולמה

ניהול, עדכון והסרה של דגמים מותקנים באמצעות Ollama אמורים להרגיש כמו בבית עבור כל מי שהשתמש בעבר בדברים כמו Docker CLI.

בחלק זה נעבור על כמה מהמשימות הנפוצות יותר שאולי תרצה לבצע.

כדי לקבל רשימה של דגמים מותקנים הפעל:

רשימת אולמה

כדי להסיר דגם, תפעיל:

ollama rm model-name:model-tag

כדי למשוך או לעדכן דגם קיים, הפעל:

ollama pull model-name:model-tag

ניתן למצוא פקודות Ollama נוספות על ידי הפעלת:

אולמה --עזרה

כפי שציינו קודם לכן, Ollama היא רק מסגרות אחת מני רבות להפעלת ובדיקה של LLMs מקומיים. אם אתה נתקל בבעיות עם זה, אתה עשוי למצוא יותר מזל עם אחרים. ולא, AI לא כתב את זה.

הקופה שואפת להביא לך יותר על ניצול LLMs בעתיד הקרוב, אז הקפד לשתף את השאלות הבוערות שלך AI PC בקטע ההערות. ואל תשכח אבטחת שרשרת האספקה. ®

בול זמן:

עוד מ הקופה