如何在 10 分钟内在您的 PC 上本地运行 LLM

由柏拉图重新发布

关注： 0

手上谈到大规模机器学习训练集群和人工智能 PC，您会认为自己需要某种特殊硬件来在家中使用文本和代码生成大型语言模型 (LLM)，这是情有可原的。

事实上，您正在阅读本文的桌面系统很可能是能力超群运行各种法学硕士，包括像 Mistral 这样的聊天机器人或像 Codellama 这样的源代码生成器。

事实上，借助 Ollama、LM Suite 和 Llama.cpp 等公开可用的工具，在您的系统上运行这些模型相对容易。

为了简单性和跨平台兼容性，我们将考虑奥拉马，安装后在 Windows、Linux 和 Mac 上的工作方式大致相同。

关于性能、兼容性和 AMD GPU 支持的一句话：

一般来说，像 Mistral 或 Llama 2 这样的大型语言模型在使用专用加速器时运行效果最佳。数据中心运营商在 10,000 个或更多的集群中购买和部署 GPU 是有原因的，尽管您只需要此类资源的一小部分。

Ollama 为 Nvidia 和 Apple 的 M 系列 GPU 提供本机支持。具有至少 4GB 内存的 Nvidia GPU 应该可以工作。我们使用 12GB RTX 3060 进行测试，但我们建议 M 系列 Mac 至少使用 16GB 内存。

Linux 用户需要首先安装 Nvidia 最新的专有驱动程序，并且可能还需要安装 CUDA 二进制文件。有关设置的更多信息相关信息.

如果您使用的是 Radeon 7000 系列 GPU 或更新版本，AMD 提供了有关在您的系统上运行 LLM 的完整指南，您可以找到该指南相关信息.

好消息是，如果您没有受支持的显卡，Ollama 仍将在 AVX2 兼容的 CPU 上运行，尽管比有受支持的 GPU 时慢很多。虽然建议使用 16GB 内存，但通过选择量化模型，您也许可以使用更少的内存——稍后会详细介绍。

安装奥拉玛

无论您的基本操作系统是什么，安装 Ollama 都非常简单。它是开源的，您可以查看相关信息.

对于那些运行 Windows 或 Mac OS 的用户，请前往 olama.com 并像任何其他应用程序一样下载并安装它。

对于那些运行 Linux 的用户来说，这甚至更简单：只需运行此命令 — 您可以找到手动安装说明相关信息，如果你想要它们——那么你就可以参加比赛了。

卷曲-fsSL https://ollama.com/install.sh |嘘

安装您的第一个模型

无论您使用哪种操作系统，使用 Ollama 的工作基本相同。 Ollama 建议从羊驼 2 7B，一个基于 70 亿参数的 Transformer 神经网络，但在本指南中，我们将看看米斯特拉尔7B 因为它非常有能力并且是一些的来源争议在最近几个星期。

首先打开 PowerShell 或终端模拟器并执行以下命令以交互式聊天模式下载并启动模型。

奥拉马·伦·米斯特拉尔

下载后，您将进入聊天提示，您可以在其中开始与模型交互，就像 ChatGPT、Copilot 或 Google Gemini 一样。

LLM，如 Mistral 7B，在这台已经使用了 2 年的 M1 Max MacBook Pro 上运行得出奇的好

LLM，如 Mistral 7B，在这台已有 2 年历史的 M1 Max MacBook Pro 上运行得出奇地好 – 点击放大

如果您没有得到任何信息，您可能需要先从 Windows 上的开始菜单或 Mac 上的应用程序文件夹启动 Ollama。

模型、标签和量化

Mistal 7B 只是可使用 Ollama 访问的多个法学硕士（包括该模型的其他版本）之一。您可以找到完整列表以及运行每个列表的说明相关信息，但一般语法是这样的：

ollama 运行模型名称：模型标签

模型标签用于指定您要下载的模型版本。如果您不选择它，Ollama 会认为您需要最新版本。根据我们的经验，这往往是模型的 4 位量化版本。

例如，如果您想在 FP2 上运行 Meta 的 Llama7 16B，它看起来像这样：

llama 运行 llama2:7b-chat-fp16

但在尝试之前，您可能需要仔细检查您的系统是否有足够的内存。我们之前的 Mistral 示例使用了 4 位量化，这意味着模型每 1 亿个参数需要 XNUMX GB 内存。不要忘记：它有 XNUMX 亿个参数。

量化是一种通过将模型的权重和激活转换为较低精度来压缩模型的技术。这使得 Mistral 7B 可以在 4GB GPU 或系统 RAM 内运行，通常对输出质量的影响最小，尽管您的情况可能会有所不同。

上面使用的 Llama 2 7B 示例以半精度 (FP16) 运行。因此，每十亿个参数实际上需要 2GB 内存，在本例中，实际需要 14GB 多一点。除非您拥有具有 16GB 或更多 vRAM 的较新 GPU，否则您可能没有足够的资源以该精度运行模型。

管理奥拉马

对于以前使用过 Docker CLI 等工具的任何人来说，使用 Ollama 管理、更新和删除已安装的模型应该感觉很自在。

在本节中，我们将介绍您可能想要执行的一些更常见的任务。

要获取已安装模型的列表，请运行：

乌拉马清单

要删除模型，您可以运行：

ollama rm 型号名称：型号标签

要拉取或更新现有模型，请运行：

ollama pull 模型名称：模型标签

可以通过运行以下命令找到其他 Ollama 命令：

乌拉马——帮助

正如我们之前提到的，Ollama 只是用于运行和测试本地 LLM 的众多框架之一。如果你在这方面遇到麻烦，你可能会在其他方面找到更多的运气。不，这不是人工智能写的。

注册旨在在不久的将来为您带来更多关于利用 LLM 的信息，因此请务必在评论部分分享您迫切需要解决的 AI PC 问题。并且不要忘记供应链安全。 ®

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
柏拉图健康。生物技术和临床试验情报。访问这里。
Sumber: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/

时间戳记： 2024 年 3 月 17 日

即时注入攻击如何劫持当今的高端人工智能——而且很难修复

源群集：

源节点： 1829648

时间戳记： 2023 年 4 月 26 日

微软宁愿在 AI 上花钱也不愿在员工身上花钱

源群集：

源节点： 1840299

时间戳记： 2023 年 5 月 25 日

微软无法停止将 Copilot AI 注入其应用帝国的每个角落

源群集：

源节点： 1834697

时间戳记： 2023 年 5 月 10 日

由于人工智能需求，超大规模比特仓将会增长

源群集：

源节点： 1903187

时间戳记： 2023 年 10 月 18 日

谷歌否认使用 OpenAI ChatGPT 响应训练巴德

源群集：

源节点： 1828399

时间戳记： 2023 年 4 月 3 日

欧洲可能会让人们更容易就人工智能技术 PlatoBlockchain 数据智能造成的损害提起诉讼。垂直搜索。哎。

欧洲可能会让人们更容易就人工智能技术造成的损害提起诉讼

源群集：

源节点： 1704499

时间戳记： 2022 年 9 月 29 日

谷歌的埃尔曼项目旨在打造数字孪生聊天机器人

源群集：

源节点： 1922959

时间戳记： 2023 年 12 月 8 日

法国为何因在线新闻对 Google 处以 250 亿欧元罚款

源群集：

源节点： 1958006

时间戳记： 2024 年 3 月 21 日

客户快速向印度 IT 外包商寻求人工智能

源群集：

源节点： 1866002

时间戳记： 2023 年 7 月 25 日

联邦贸易委员会投票为加快调查铺平道路

源群集：

源节点： 1916462

时间戳记： 2023 年 11 月 22 日

软件正在监听您希望它提供的选项

源群集：

源节点： 1913334

时间戳记： 2023 年 11 月 15 日

微软将限制“过多”用户的 Gen AI 服务

源群集：

源节点： 1908443

时间戳记： 2023 年 11 月 2 日

由柏拉图重新发布

微软无法停止将 Copilot AI 注入其应用帝国的每个角落

谷歌否认使用 OpenAI ChatGPT 响应训练巴德

欧洲可能会让人们更容易就人工智能技术造成的损害提起诉讼

谷歌的埃尔曼项目旨在打造数字孪生聊天机器人

软件正在监听您希望它提供的选项

微软将限制“过多”用户的 Gen AI 服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

安装奥拉玛

安装您的第一个模型

模型、标签和量化

管理奥拉马

更多来自 注册

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自注册