如何在 10 分钟内在您的 PC 上本地运行 LLM

如何在 10 分钟内在您的 PC 上本地运行 LLM

手上 谈到大规模机器学习训练集群和人工智能 PC,您会认为自己需要某种特殊硬件来在家中使用文本和代码生成大型语言模型 (LLM),这是情有可原的。

事实上,您正在阅读本文的桌面系统很可能是 能力超群 运行各种法学硕士,包括像 Mistral 这样的聊天机器人或像 Codellama 这样的源代码生成器。

事实上,借助 Ollama、LM Suite 和 Llama.cpp 等公开可用的工具,在您的系统上运行这些模型相对容易。

为了简单性和跨平台兼容性,我们将考虑 奥拉马,安装后在 Windows、Linux 和 Mac 上的工作方式大致相同。

关于性能、兼容性和 AMD GPU 支持的一句话:

一般来说,像 Mistral 或 Llama 2 这样的大型语言模型在使用专用加速器时运行效果最佳。数据中心运营商在 10,000 个或更多的集群中购买和部署 GPU 是有原因的,尽管您只需要此类资源的一小部分。

Ollama 为 Nvidia 和 Apple 的 M 系列 GPU 提供本机支持。具有至少 4GB 内存的 Nvidia GPU 应该可以工作。我们使用 12GB RTX 3060 进行测试,但我们建议 M 系列 Mac 至少使用 16GB 内存。

Linux 用户需要首先安装 Nvidia 最新的专有驱动程序,并且可能还需要安装 CUDA 二进制文件。有关设置的更多信息 相关信息.

如果您使用的是 Radeon 7000 系列 GPU 或更新版本,AMD 提供了有关在您的系统上运行 LLM 的完整指南,您可以找到该指南 相关信息.

好消息是,如果您没有受支持的显卡,Ollama 仍将在 AVX2 兼容的 CPU 上运行,尽管比有受支持的 GPU 时慢很多。虽然建议使用 16GB 内存,但通过选择量化模型,您也许可以使用更少的内存——稍后会详细介绍。

安装奥拉玛

无论您的基本操作系统是什么,安装 Ollama 都非常简单。它是开源的,您可以查看 相关信息.

对于那些运行 Windows 或 Mac OS 的用户,请前往 olama.com 并像任何其他应用程序一样下载并安装它。

对于那些运行 Linux 的用户来说,这甚至更简单:只需运行此命令 — 您可以找到手动安装说明 相关信息,如果你想要它们——那么你就可以参加比赛了。

卷曲-fsSL https://ollama.com/install.sh |嘘

安装您的第一个模型

无论您使用哪种操作系统,使用 Ollama 的工作基本相同。 Ollama 建议从 羊驼 2 7B,一个基于 70 亿参数的 Transformer 神经网络,但在本指南中,我们将看看 米斯特拉尔7B 因为它非常有能力并且是一些的来源 争议 在最近几个星期。

首先打开 PowerShell 或终端模拟器并执行以下命令以交互式聊天模式下载并启动模型。

奥拉马·伦·米斯特拉尔

下载后,您将进入聊天提示,您可以在其中开始与模型交互,就像 ChatGPT、Copilot 或 Google Gemini 一样。

LLM,如 Mistral 7B,在这台已经使用了 2 年的 M1 Max MacBook Pro 上运行得出奇的好

LLM,如 Mistral 7B,在这台已有 2 年历史的 M1 Max MacBook Pro 上运行得出奇地好 – 点击放大

如果您没有得到任何信息,您可能需要先从 Windows 上的开始菜单或 Mac 上的应用程序文件夹启动 Ollama。

模型、标签和量化

Mistal 7B 只是可使用 Ollama 访问的多个法学硕士(包括该模型的其他版本)之一。您可以找到完整列表以及运行每个列表的说明 相关信息,但一般语法是这样的:

ollama 运行模型名称:模型标签

模型标签用于指定您要下载的模型版本。如果您不选择它,Ollama 会认为您需要最新版本。根据我们的经验,这往往是模型的 4 位量化版本。

例如,如果您想在 FP2 上运行 Meta 的 Llama7 16B,它看起来像这样:

llama 运行 llama2:7b-chat-fp16

但在尝试之前,您可能需要仔细检查您的系统是否有足够的内存。我们之前的 Mistral 示例使用了 4 位量化,这意味着模型每 1 亿个参数需要 XNUMX GB 内存。不要忘记:它有 XNUMX 亿个参数。

量化是一种通过将模型的权重和激活转换为较低精度来压缩模型的技术。这使得 Mistral 7B 可以在 4GB GPU 或系统 RAM 内运行,通常对输出质量的影响最小,尽管您的情况可能会有所不同。

上面使用的 Llama 2 7B 示例以半精度 (FP16) 运行。因此,每十亿个参数实际上需要 2GB 内存,在本例中,实际需要 14GB 多一点。除非您拥有具有 16GB 或更多 vRAM 的较新 GPU,否则您可能没有足够的资源以该精度运行模型。

管理奥拉马

对于以前使用过 Docker CLI 等工具的任何人来说,使用 Ollama 管理、更新和删除已安装的模型应该感觉很自在。

在本节中,我们将介绍您可能想要执行的一些更常见的任务。

要获取已安装模型的列表,请运行:

乌拉马清单

要删除模型,您可以运行:

ollama rm 型号名称:型号标签

要拉取或更新现有模型,请运行:

ollama pull 模型名称:模型标签

可以通过运行以下命令找到其他 Ollama 命令:

乌拉马——帮助

正如我们之前提到的,Ollama 只是用于运行和测试本地 LLM 的众多框架之一。如果你在这方面遇到麻烦,你可能会在其他方面找到更多的运气。不,这不是人工智能写的。

注册 旨在在不久的将来为您带来更多关于利用 LLM 的信息,因此请务必在评论部分分享您迫切需要解决的 AI PC 问题。并且不要忘记 供应链安全。 ®

时间戳记:

更多来自 注册