כיצד להפעיל LLM באופן מקומי במחשב האישי שלך בפחות מ-10 דקות

הועלה מחדש על ידי אפלטון

עוקב: 0

ידיים למעלה עם כל הדיבורים על אשכולות אימון מסיביים ללימוד מכונה ומחשבי בינה מלאכותית, יסלח לך על המחשבה שאתה צריך איזושהי חומרה מיוחדת כדי לשחק עם מודלים גדולים של שפות (LLM) שיוצרות טקסט וקוד בבית.

במציאות, יש סיכוי טוב שמערכת שולחן העבודה שבה אתה קורא את זה היא יותר מיכולת של הפעלת מגוון רחב של LLMs, כולל צ'אט בוטים כמו Mistral או מחוללי קוד מקור כמו Codellama.

למעשה, עם כלים זמינים בגלוי כמו Ollama, LM Suite ו-Llama.cpp, קל יחסית להפעיל את המודלים האלה במערכת שלך.

מתוך אינטרס של פשטות ותאימות בין פלטפורמות, אנחנו הולכים לבחון אולמה, שברגע שהותקן עובד פחות או יותר אותו דבר בכל Windows, Linux ו-Mac.

מילה על ביצועים, תאימות ותמיכה ב-AMD GPU:

באופן כללי, דגמי שפה גדולים כמו Mistral או Llama 2 פועלים בצורה הטובה ביותר עם מאיצים ייעודיים. יש סיבה לכך שמפעילי מרכזי נתונים קונים ופורסים מעבדי GPU באשכולות של 10,000 או יותר, אם כי תזדקק לשבריר המינימלי של משאבים כאלה.

Ollama מציעה תמיכה מקורית עבור Nvidia ו-GPUs מסדרת M של אפל. Nvidia GPUs עם לפחות 4GB של זיכרון אמורים לעבוד. בדקנו עם 12GB RTX 3060, אם כי אנו ממליצים על לפחות 16GB של זיכרון עבור מחשבי Mac מסדרת M.

משתמשי לינוקס ירצו קודם כל את הדרייבר הקנייני העדכני ביותר של Nvidia וכנראה את הקבצים הבינאריים של CUDA. יש מידע נוסף על הגדרת זה כאן.

אם אתה מטלטל GPU מסדרת Radeon 7000 או חדש יותר, ל-AMD יש מדריך מלא להפעלת LLM במערכת שלך, אותו תוכל למצוא כאן.

החדשות הטובות הן שאם אין לך כרטיס גרפי נתמך, Ollama עדיין יפעל על מעבד תואם AVX2, אם כי הרבה יותר איטי מאשר אם היה לך GPU נתמך. ולמרות ש-16GB של זיכרון מומלץ, ייתכן שתוכל להסתדר עם פחות על ידי בחירה בדגם כמותי - עוד על זה תוך דקה.

התקנת Ollama

התקנת Ollama היא די פשוטה, ללא קשר למערכת ההפעלה הבסיסית שלך. זה קוד פתוח, שאתה יכול לבדוק כאן.

עבור אלה המריצים Windows או Mac OS, עברו ollama.com ולהוריד ולהתקין אותו כמו כל יישום אחר.

עבור אלה שמפעילים לינוקס, זה אפילו יותר פשוט: פשוט הפעל את ה-One Liner הזה - אתה יכול למצוא הוראות התקנה ידניות כאן, אם אתה רוצה אותם - ואתה יוצא למרוצים.

curl -fsSL https://ollama.com/install.sh | ש

התקנת הדגם הראשון שלך

ללא קשר למערכת ההפעלה שלך, העבודה עם Ollama זהה במידה רבה. אולמה ממליץ להתחיל עם לאמה 2 7B, רשת עצבית מבוססת שנאים בת שבעה מיליארד פרמטרים, אבל עבור המדריך הזה נסתכל על מיסטרל 7B מכיוון שהוא די מסוגל והיה המקור לחלקם מחלוקת בשבועות האחרונים.

התחל בפתיחת PowerShell או אמולטור מסוף וביצוע הפקודה הבאה כדי להוריד ולהפעיל את המודל במצב צ'אט אינטראקטיבי.

ollama run mistral

לאחר ההורדה, תיכנס להנחיית צ'אט שבה תוכל להתחיל ליצור אינטראקציה עם הדגם, בדיוק כמו ChatGPT, Copilot או Google Gemini.

LLMs, כמו Mistral 7B, פועלים בצורה מפתיעה ב-M2 Max MacBook Pro בן השנתיים הזה

LLMs, כמו Mistral 7B, פועלים בצורה מפתיעה על M2 Max MacBook Pro בן השנתיים הזה - לחץ להגדלה

אם לא תקבל כלום, ייתכן שתצטרך להפעיל את Ollama מתפריט ההתחלה ב-Windows או בתיקיית היישומים ב-Mac תחילה.

מודלים, תגים וקונטיזציה

Mistal 7B הוא רק אחד ממספר LLMs, כולל גרסאות אחרות של המודל, הנגישים באמצעות Ollama. תוכל למצוא את הרשימה המלאה, יחד עם הוראות להפעלת כל אחד מהם כאן, אבל התחביר הכללי הולך בערך כך:

ollama run model-name:model-tag

תגי דגם משמשים כדי לציין איזו גרסה של הדגם תרצה להוריד. אם תעזוב את זה, אולמה מניח שאתה רוצה את הגרסה העדכנית ביותר. מניסיוננו, זו נוטה להיות גרסה קוונטית של 4 סיביות של הדגם.

אם, למשל, תרצה להריץ את Llama2 7B של Meta ב-FP16, זה היה נראה כך:

ollama run llama2:7b-chat-fp16

אבל לפני שתנסה את זה, אולי תרצה לבדוק שוב שלמערכת שלך יש מספיק זיכרון. הדוגמה הקודמת שלנו עם Mistral השתמשה בקוונטיזציה של 4 סיביות, מה שאומר שהמודל זקוק לחצי גיגה-בייט של זיכרון עבור כל מיליארד פרמטרים. ואל תשכחו: יש לו שבעה מיליארד פרמטרים.

קוונטיזציה היא טכניקה המשמשת לדחיסת המודל על ידי המרת משקלו והפעלתו לדיוק נמוך יותר. זה מאפשר למיסטרל 7B לפעול בתוך 4GB של GPU או זיכרון RAM של המערכת, בדרך כלל עם הקרבה מינימלית באיכות הפלט, אם כי הקילומטראז' שלך עשוי להשתנות.

הדוגמה של Llama 2 7B ששימשה למעלה פועלת בחצי דיוק (FP16). כתוצאה מכך, למעשה תזדקק ל-2GB זיכרון למיליארד פרמטרים, שבמקרה זה מסתכם בקצת יותר מ-14GB. אלא אם כן יש לך GPU חדש יותר עם 16GB או יותר של vRAM, ייתכן שלא יהיו לך מספיק משאבים להפעיל את הדגם בדיוק הזה.

ניהול אולמה

ניהול, עדכון והסרה של דגמים מותקנים באמצעות Ollama אמורים להרגיש כמו בבית עבור כל מי שהשתמש בעבר בדברים כמו Docker CLI.

בחלק זה נעבור על כמה מהמשימות הנפוצות יותר שאולי תרצה לבצע.

כדי לקבל רשימה של דגמים מותקנים הפעל:

רשימת אולמה

כדי להסיר דגם, תפעיל:

ollama rm model-name:model-tag

כדי למשוך או לעדכן דגם קיים, הפעל:

ollama pull model-name:model-tag

ניתן למצוא פקודות Ollama נוספות על ידי הפעלת:

אולמה --עזרה

כפי שציינו קודם לכן, Ollama היא רק מסגרות אחת מני רבות להפעלת ובדיקה של LLMs מקומיים. אם אתה נתקל בבעיות עם זה, אתה עשוי למצוא יותר מזל עם אחרים. ולא, AI לא כתב את זה.

הקופה שואפת להביא לך יותר על ניצול LLMs בעתיד הקרוב, אז הקפד לשתף את השאלות הבוערות שלך AI PC בקטע ההערות. ואל תשכח אבטחת שרשרת האספקה. ®

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/

בול זמן: במרץ 17, 2024

בול זמן: יאן 31, 2023

הועלה מחדש על ידי אפלטון

סטארט-אפ משאיות בנהיגה עצמית, TuSimple, הדיח את המנכ"ל בגלל קשרים עם יריבה סינית

FTC פותחת חקירה לגבי עסקאות אמזון, גוגל, מיקרוסופט בינה מלאכותית

בדיקת AI לייזר לסרטן הערמונית נכנסת לניסויים קליניים

סירת בינה מלאכותית של IBM להנצחת המסע ההיסטורי במייפלואר בארה"ב נוחתת סוף סוף... בקנדה

מה עושה אחר כך אקס-פארמה בר? אם זה שקרילי, זה בוט של AI Dr

בינה מלאכותית מאיימת על באג על ידי זיהוי אנטיביוטיקה חזקה

האם הייתם משלמים 10$ כדי ליצור צ'טבוט של AI כדי לדבר שוב עם אדם אהוב שמת?

מנכ"ל OpenAI 'מרגיש נורא' לאחר ש-ChatGPT מדליף שיחות, פרטי תשלום

סין שמה ברשימת המשימות שלה תשתית בינה מלאכותית תוצרת בית

OpenAI מציע גלאי בינה מלאכותית נוטה לשגיאות על רקע החששות לעתיד עמוס במכונה

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן