Как запустить LLM локально на вашем компьютере менее чем за 10 минут

Как запустить LLM локально на вашем компьютере менее чем за 10 минут

Руки вверх Несмотря на все разговоры о массивных обучающих кластерах машинного обучения и компьютерах с искусственным интеллектом, можно подумать, что вам нужно какое-то специальное оборудование для работы с большими языковыми моделями (LLM), генерирующими текст и код, дома.

На самом деле, вполне вероятно, что настольная система, на которой вы это читаете, более чем способный запуска широкого спектра программ LLM, включая чат-ботов, таких как Mistral, или генераторов исходного кода, таких как Codellama.

Фактически, с помощью таких общедоступных инструментов, как Ollama, LM Suite и Llama.cpp, запустить эти модели в вашей системе относительно легко.

В целях простоты и кроссплатформенной совместимости мы рассмотрим Оллама, который после установки работает более или менее одинаково в Windows, Linux и Mac.

Несколько слов о производительности, совместимости и поддержке графических процессоров AMD:

В целом, большие языковые модели, такие как Mistral или Llama 2, лучше всего работают со специальными ускорителями. Есть причина, по которой операторы центров обработки данных покупают и развертывают графические процессоры в кластерах по 10,000 XNUMX и более, хотя вам понадобится лишь малая часть таких ресурсов.

Ollama предлагает встроенную поддержку графических процессоров Nvidia и Apple M-серии. Графические процессоры Nvidia с объемом памяти не менее 4 ГБ должны работать. Мы тестировали карту RTX 12 емкостью 3060 ГБ, хотя для компьютеров Mac M-серии мы рекомендуем не менее 16 ГБ памяти.

Пользователи Linux захотят сначала установить новейший проприетарный драйвер Nvidia и, возможно, двоичные файлы CUDA. Там больше информации о настройке здесь.

Если вы используете графический процессор серии Radeon 7000 или новее, у AMD есть полное руководство по запуску LLM в вашей системе, которое вы можете найти здесь.

Хорошей новостью является то, что если у вас нет поддерживаемой видеокарты, Ollama все равно будет работать на AVX2-совместимом процессоре, хотя и намного медленнее, чем если бы у вас был поддерживаемый графический процессор. И хотя рекомендуется 16 ГБ памяти, возможно, вам удастся обойтись меньшим объемом памяти, выбрав квантовую модель — подробнее об этом через минуту.

Установка Олламы

Установка Ollama довольно проста, независимо от вашей базовой операционной системы. Это открытый исходный код, который вы можете проверить здесь.

Для тех, кто использует Windows или Mac OS, перейдите по ссылке ollama.com загрузите и установите его, как любое другое приложение.

Для тех, кто использует Linux, все еще проще: просто запустите эту строку — вы можете найти инструкции по установке вручную. здесь, захочешь — и вперед на скачки.

завиток -fsSL https://ollama.com/install.sh | ш

Установка вашей первой модели

Независимо от вашей операционной системы, работа с Ollama во многом одинакова. Оллама рекомендует начать с Лама 2 7Б, нейронная сеть на основе трансформатора с семью миллиардами параметров, но в этом руководстве мы рассмотрим Мистраль 7Б поскольку он довольно эффективен и был источником некоторых спор в последние недели.

Начните с открытия PowerShell или эмулятора терминала и выполнения следующей команды, чтобы загрузить и запустить модель в режиме интерактивного чата.

Оллама беги Мистраль

После загрузки вы попадете в окно чата, где сможете начать взаимодействовать с моделью, как ChatGPT, Copilot или Google Gemini.

LLM, такие как Mistral 7B, на удивление хорошо работают на этом двухлетнем MacBook Pro M2 Max.

LLM, такие как Mistral 7B, на удивление хорошо работают на этом двухлетнем MacBook Pro M2 Max. Нажмите, чтобы увеличить.

Если вы ничего не получили, возможно, вам придется сначала запустить Ollama из меню «Пуск» в Windows или папки приложений на Mac.

Модели, теги и квантование

Mistal 7B — лишь один из нескольких LLM, включая другие версии модели, доступные с помощью Ollama. Вы можете найти полный список вместе с инструкциями по запуску каждого здесь, но общий синтаксис выглядит примерно так:

оллама запустить имя-модели:тег-модели

Теги модели используются для указания того, какую версию модели вы хотите загрузить. Если вы оставите этот параметр выключенным, Оллама предположит, что вам нужна последняя версия. По нашему опыту, это, как правило, 4-битная квантованная версия модели.

Если, например, вы хотите запустить Meta’s Llama2 7B на FP16, это будет выглядеть так:

оллама беги лама2:7b-chat-fp16

Но прежде чем попробовать это, возможно, вам стоит дважды проверить, достаточно ли в вашей системе памяти. В нашем предыдущем примере с Mistral использовалось 4-битное квантование, а это означает, что модели требуется полгигабайта памяти на каждый 1 миллиард параметров. И не забывайте: у него семь миллиардов параметров.

Квантование — это метод, используемый для сжатия модели путем преобразования ее весов и активаций в более низкую точность. Это позволяет Mistral 7B работать в пределах 4 ГБ графического процессора или системной оперативной памяти, обычно с минимальным ущербом для качества вывода, хотя ваш результат может варьироваться.

Пример Llama 2 7B, использованный выше, работает с половинной точностью (FP16). В результате вам фактически потребуется 2 ГБ памяти на миллиард параметров, что в данном случае составляет чуть более 14 ГБ. Если у вас нет более нового графического процессора с 16 ГБ или более видеопамяти, у вас может не хватить ресурсов для запуска модели с такой точностью.

Управление Олламой

Управление, обновление и удаление установленных моделей с помощью Ollama должно быть удобным для всех, кто раньше использовал такие вещи, как Docker CLI.

В этом разделе мы рассмотрим несколько наиболее распространенных задач, которые вы, возможно, захотите выполнить.

Чтобы получить список установленных моделей, выполните:

список олламы

Чтобы удалить модель, вы должны запустить:

ollama rm название модели:тег-модели

Чтобы получить или обновить существующую модель, запустите:

ollama pull имя-модели:тег-модели

Дополнительные команды Олламы можно найти, выполнив:

оллама --помощь

Как мы отмечали ранее, Ollama — это лишь одна из многих платформ для запуска и тестирования локальных LLM. Если у вас возникнут проблемы с этим, возможно, вам повезет больше с другими. И нет, это не ИИ писал.

Регистр стремится предоставить вам больше информации об использовании LLM в ближайшем будущем, поэтому не забудьте поделиться своими актуальными вопросами о ПК с искусственным интеллектом в разделе комментариев. И не забывайте о безопасность цепочки поставок, ®

Отметка времени:

Больше от Регистр