วิธีเรียกใช้ LLM ภายในเครื่องพีซีของคุณในเวลาไม่ถึง 10 นาที

วิธีเรียกใช้ LLM ภายในเครื่องพีซีของคุณในเวลาไม่ถึง 10 นาที

Hands On เมื่อพูดถึงคลัสเตอร์การฝึกอบรมแมชชีนเลิร์นนิงขนาดใหญ่และพีซี AI คุณจะได้รับการอภัยเพราะคิดว่าคุณต้องการฮาร์ดแวร์พิเศษบางประเภทเพื่อเล่นกับโมเดลภาษาขนาดใหญ่ (LLM) ที่สร้างข้อความและโค้ดที่บ้าน

ในความเป็นจริง มีโอกาสที่ดีที่ระบบเดสก์ท็อปที่คุณกำลังอ่านข้อความนี้อยู่ มากกว่าความสามารถ ของการรัน LLM ที่หลากหลาย รวมถึงแชทบอท เช่น Mistral หรือโปรแกรมสร้างซอร์สโค้ด เช่น Codellama

ในความเป็นจริง ด้วยเครื่องมือที่เปิดให้ใช้งานอย่างเปิดเผย เช่น Ollama, LM Suite และ Llama.cpp การทำให้โมเดลเหล่านี้ทำงานบนระบบของคุณจึงเป็นเรื่องง่าย

เราจะมาดูกันในเรื่องของความเรียบง่ายและความเข้ากันได้ข้ามแพลตฟอร์ม โอลามาซึ่งเมื่อติดตั้งแล้วจะใช้งานได้เหมือนกันบน Windows, Linux และ Mac

กล่าวถึงประสิทธิภาพ ความเข้ากันได้ และการรองรับ AMD GPU:

โดยทั่วไป โมเดลภาษาขนาดใหญ่ เช่น Mistral หรือ Llama 2 จะทำงานได้ดีที่สุดเมื่อใช้ตัวเร่งความเร็วเฉพาะ มีเหตุผลที่ผู้ดำเนินการศูนย์ข้อมูลซื้อและใช้งาน GPU ในคลัสเตอร์ตั้งแต่ 10,000 ตัวขึ้นไป แม้ว่าคุณจะต้องการทรัพยากรดังกล่าวเพียงเล็กน้อยก็ตาม

Ollama ให้การสนับสนุน GPU ของ Nvidia และ M-series ของ Apple Nvidia GPUs ที่มีหน่วยความจำอย่างน้อย 4GB ควรใช้งานได้ เราทดสอบกับ RTX 12 ขนาด 3060GB แต่เราแนะนำหน่วยความจำอย่างน้อย 16GB สำหรับ Mac ซีรีส์ M

ผู้ใช้ Linux ต้องการไดรเวอร์ที่เป็นกรรมสิทธิ์ล่าสุดของ Nvidia และอาจต้องติดตั้งไบนารี CUDA ก่อน มีข้อมูลเพิ่มเติมเกี่ยวกับการตั้งค่านั้น โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

หากคุณกำลังใช้ GPU Radeon ซีรีส์ 7000 หรือใหม่กว่า AMD มีคำแนะนำฉบับสมบูรณ์เกี่ยวกับการเรียกใช้ LLM บนระบบของคุณ ซึ่งคุณสามารถหาได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

ข่าวดีก็คือ หากคุณไม่มีการ์ดกราฟิกที่รองรับ Ollama จะยังคงทำงานบน CPU ที่รองรับ AVX2 แม้ว่าจะช้ากว่าถ้าคุณมี GPU ที่รองรับมากก็ตาม และถึงแม้จะแนะนำให้ใช้หน่วยความจำขนาด 16GB แต่คุณอาจใช้หน่วยความจำน้อยลงได้ด้วยการเลือกใช้โมเดลแบบแยกส่วน ซึ่งจะมีเวลามากขึ้นในหนึ่งนาที

กำลังติดตั้ง Ollama

การติดตั้ง Ollama ค่อนข้างตรงไปตรงมา โดยไม่คำนึงถึงระบบปฏิบัติการพื้นฐานของคุณ เป็นโอเพ่นซอร์สซึ่งคุณสามารถตรวจสอบได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

สำหรับผู้ที่ใช้ Windows หรือ Mac OS ตรงไป ollama.com และดาวน์โหลดและติดตั้งเหมือนกับแอปพลิเคชันอื่นๆ

สำหรับผู้ที่ใช้ Linux จะง่ายกว่านี้อีก: เพียงเรียกใช้ไลเนอร์เดียวนี้ คุณสามารถดูคำแนะนำในการติดตั้งด้วยตนเองได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติมหากคุณต้องการ — และคุณก็พร้อมที่จะลงแข่งขันแล้ว

curl -fsSL https://ollama.com/install.sh | ซ

กำลังติดตั้งโมเดลแรกของคุณ

ไม่ว่าระบบปฏิบัติการของคุณจะเป็นแบบใด การทำงานร่วมกับ Ollama ส่วนใหญ่จะเหมือนกัน โอลามะแนะนำให้เริ่มด้วย ลามะ 2 7Bซึ่งเป็นโครงข่ายประสาทเทียมที่ใช้หม้อแปลงพารามิเตอร์เจ็ดพันล้านพารามิเตอร์ แต่สำหรับคำแนะนำนี้ เราจะมาดูที่ มิสทรัล 7B เพราะมันค่อนข้างมีความสามารถและเป็นที่มาของบางอย่าง การทะเลาะวิวาท ในสัปดาห์ที่ผ่านมา

เริ่มต้นด้วยการเปิด PowerShell หรือเทอร์มินัลอีมูเลเตอร์ และดำเนินการคำสั่งต่อไปนี้เพื่อดาวน์โหลดและเริ่มโมเดลในโหมดแชทแบบโต้ตอบ

โอลามะ รัน มิสทรัล

เมื่อดาวน์โหลด คุณจะเข้าสู่ข้อความแชทซึ่งคุณสามารถเริ่มโต้ตอบกับโมเดลได้ เช่นเดียวกับ ChatGPT, Copilot หรือ Google Gemini

LLM เช่น Mistral 7B ทำงานได้ดีอย่างน่าประหลาดใจกับ M2 Max MacBook Pro อายุ 1 ปี

LLM เช่น Mistral 7B ทำงานได้ดีอย่างน่าประหลาดใจบน M2 Max MacBook Pro อายุ 1 ปี – คลิกเพื่อดูภาพขยาย

หากคุณไม่ได้รับอะไรเลย คุณอาจต้องเปิด Ollama จากเมนูเริ่มต้นบน Windows หรือโฟลเดอร์แอปพลิเคชันบน Mac ก่อน

โมเดล แท็ก และการหาปริมาณ

Mistal 7B เป็นเพียงหนึ่งใน LLM หลายแห่ง รวมถึงรุ่นอื่นๆ ที่สามารถเข้าถึงได้โดยใช้ Ollama คุณสามารถดูรายการทั้งหมดพร้อมคำแนะนำในการใช้งานแต่ละรายการได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติมแต่ไวยากรณ์ทั่วไปมีลักษณะดังนี้:

ollama รันชื่อรุ่น: model-tag

แท็กโมเดลใช้เพื่อระบุเวอร์ชันของโมเดลที่คุณต้องการดาวน์โหลด หากคุณปล่อยทิ้งไว้ Ollama จะถือว่าคุณต้องการเวอร์ชันล่าสุด จากประสบการณ์ของเรา สิ่งนี้มีแนวโน้มที่จะเป็นแบบจำลองเชิงปริมาณ 4 บิต

ตัวอย่างเช่น หากคุณต้องการรัน Meta's Llama2 7B ที่ FP16 มันจะมีลักษณะดังนี้:

ollama วิ่ง llama2:7b-chat-fp16

แต่ก่อนที่คุณจะลอง คุณอาจต้องตรวจสอบอีกครั้งว่าระบบของคุณมีหน่วยความจำเพียงพอ ตัวอย่างก่อนหน้าของเรากับ Mistral ใช้การหาปริมาณ 4 บิต ซึ่งหมายความว่าโมเดลต้องการหน่วยความจำครึ่งกิกะไบต์สำหรับทุกๆ 1 พันล้านพารามิเตอร์ และอย่าลืมว่า มันมีพารามิเตอร์ถึงเจ็ดพันล้านพารามิเตอร์

การหาปริมาณเป็นเทคนิคที่ใช้ในการบีบอัดแบบจำลองโดยการแปลงน้ำหนักและการเปิดใช้งานให้มีความแม่นยำต่ำลง ซึ่งช่วยให้ Mistral 7B ทำงานภายใน GPU หรือ RAM ระบบขนาด 4GB ซึ่งโดยปกติแล้วคุณภาพของเอาต์พุตจะลดลงเพียงเล็กน้อย แม้ว่าระยะทางอาจแตกต่างกันไปก็ตาม

ตัวอย่าง Llama 2 7B ที่ใช้ด้านบนทำงานที่ความแม่นยำเพียงครึ่งเดียว (FP16) ด้วยเหตุนี้ คุณจึงจำเป็นต้องมีหน่วยความจำ 2GB ต่อพารามิเตอร์พันล้านพารามิเตอร์ ซึ่งในกรณีนี้คือมากกว่า 14GB เว้นแต่ว่าคุณมี GPU รุ่นใหม่ที่มี vRAM ขนาด 16GB ขึ้นไป คุณอาจมีทรัพยากรไม่เพียงพอที่จะรันโมเดลด้วยความแม่นยำนั้น

ผู้จัดการโอลามา

การจัดการ อัปเดต และลบโมเดลที่ติดตั้งโดยใช้ Ollama น่าจะรู้สึกเหมือนอยู่บ้านสำหรับทุกคนที่เคยใช้ Docker CLI มาก่อน

ในส่วนนี้ เราจะพูดถึงงานทั่วไปสองสามอย่างที่คุณอาจต้องการดำเนินการ

หากต้องการรับรายการรุ่นที่ติดตั้งให้รัน:

รายการโอลามา

หากต้องการลบโมเดล คุณจะต้องเรียกใช้:

ollama rm ชื่อรุ่น:model-tag

หากต้องการดึงหรืออัพเดตโมเดลที่มีอยู่ ให้รัน:

ollama ดึงชื่อรุ่น: model-tag

คุณสามารถค้นหาคำสั่ง Ollama เพิ่มเติมได้โดยการรัน:

โอลามะ--ช่วยด้วย

ดังที่เราได้กล่าวไว้ก่อนหน้านี้ Ollama เป็นเพียงหนึ่งในเฟรมเวิร์กจำนวนมากสำหรับการรันและทดสอบ LLM ในพื้นที่ หากคุณประสบปัญหากับสิ่งนี้ คุณอาจพบโชคมากขึ้นกับผู้อื่น และไม่ AI ไม่ได้เขียนสิ่งนี้

ลงทะเบียน มีเป้าหมายเพื่อให้คุณใช้งาน LLM ได้มากขึ้นในอนาคตอันใกล้นี้ ดังนั้นอย่าลืมแบ่งปันคำถามเกี่ยวกับ AI PC ของคุณในส่วนความคิดเห็น และอย่าลืมเกี่ยวกับ ความปลอดภัยของห่วงโซ่อุปทาน-

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน