Руки вверх Несмотря на все разговоры о массивных обучающих кластерах машинного обучения и компьютерах с искусственным интеллектом, можно подумать, что вам нужно какое-то специальное оборудование для работы с большими языковыми моделями (LLM), генерирующими текст и код, дома.
На самом деле, вполне вероятно, что настольная система, на которой вы это читаете, более чем способный запуска широкого спектра программ LLM, включая чат-ботов, таких как Mistral, или генераторов исходного кода, таких как Codellama.
Фактически, с помощью таких общедоступных инструментов, как Ollama, LM Suite и Llama.cpp, запустить эти модели в вашей системе относительно легко.
В целях простоты и кроссплатформенной совместимости мы рассмотрим Оллама, который после установки работает более или менее одинаково в Windows, Linux и Mac.
Несколько слов о производительности, совместимости и поддержке графических процессоров AMD:
В целом, большие языковые модели, такие как Mistral или Llama 2, лучше всего работают со специальными ускорителями. Есть причина, по которой операторы центров обработки данных покупают и развертывают графические процессоры в кластерах по 10,000 XNUMX и более, хотя вам понадобится лишь малая часть таких ресурсов.
Ollama предлагает встроенную поддержку графических процессоров Nvidia и Apple M-серии. Графические процессоры Nvidia с объемом памяти не менее 4 ГБ должны работать. Мы тестировали карту RTX 12 емкостью 3060 ГБ, хотя для компьютеров Mac M-серии мы рекомендуем не менее 16 ГБ памяти.
Пользователи Linux захотят сначала установить новейший проприетарный драйвер Nvidia и, возможно, двоичные файлы CUDA. Там больше информации о настройке здесь.
Если вы используете графический процессор серии Radeon 7000 или новее, у AMD есть полное руководство по запуску LLM в вашей системе, которое вы можете найти здесь.
Хорошей новостью является то, что если у вас нет поддерживаемой видеокарты, Ollama все равно будет работать на AVX2-совместимом процессоре, хотя и намного медленнее, чем если бы у вас был поддерживаемый графический процессор. И хотя рекомендуется 16 ГБ памяти, возможно, вам удастся обойтись меньшим объемом памяти, выбрав квантовую модель — подробнее об этом через минуту.
Установка Олламы
Установка Ollama довольно проста, независимо от вашей базовой операционной системы. Это открытый исходный код, который вы можете проверить здесь.
Для тех, кто использует Windows или Mac OS, перейдите по ссылке ollama.com загрузите и установите его, как любое другое приложение.
Для тех, кто использует Linux, все еще проще: просто запустите эту строку — вы можете найти инструкции по установке вручную. здесь, захочешь — и вперед на скачки.
завиток -fsSL https://ollama.com/install.sh | ш
Установка вашей первой модели
Независимо от вашей операционной системы, работа с Ollama во многом одинакова. Оллама рекомендует начать с Лама 2 7Б, нейронная сеть на основе трансформатора с семью миллиардами параметров, но в этом руководстве мы рассмотрим Мистраль 7Б поскольку он довольно эффективен и был источником некоторых спор в последние недели.
Начните с открытия PowerShell или эмулятора терминала и выполнения следующей команды, чтобы загрузить и запустить модель в режиме интерактивного чата.
Оллама беги Мистраль
После загрузки вы попадете в окно чата, где сможете начать взаимодействовать с моделью, как ChatGPT, Copilot или Google Gemini.
LLM, такие как Mistral 7B, на удивление хорошо работают на этом двухлетнем MacBook Pro M2 Max. Нажмите, чтобы увеличить.
Если вы ничего не получили, возможно, вам придется сначала запустить Ollama из меню «Пуск» в Windows или папки приложений на Mac.
Модели, теги и квантование
Mistal 7B — лишь один из нескольких LLM, включая другие версии модели, доступные с помощью Ollama. Вы можете найти полный список вместе с инструкциями по запуску каждого здесь, но общий синтаксис выглядит примерно так:
оллама запустить имя-модели:тег-модели
Теги модели используются для указания того, какую версию модели вы хотите загрузить. Если вы оставите этот параметр выключенным, Оллама предположит, что вам нужна последняя версия. По нашему опыту, это, как правило, 4-битная квантованная версия модели.
Если, например, вы хотите запустить Meta’s Llama2 7B на FP16, это будет выглядеть так:
оллама беги лама2:7b-chat-fp16
Но прежде чем попробовать это, возможно, вам стоит дважды проверить, достаточно ли в вашей системе памяти. В нашем предыдущем примере с Mistral использовалось 4-битное квантование, а это означает, что модели требуется полгигабайта памяти на каждый 1 миллиард параметров. И не забывайте: у него семь миллиардов параметров.
Квантование — это метод, используемый для сжатия модели путем преобразования ее весов и активаций в более низкую точность. Это позволяет Mistral 7B работать в пределах 4 ГБ графического процессора или системной оперативной памяти, обычно с минимальным ущербом для качества вывода, хотя ваш результат может варьироваться.
Пример Llama 2 7B, использованный выше, работает с половинной точностью (FP16). В результате вам фактически потребуется 2 ГБ памяти на миллиард параметров, что в данном случае составляет чуть более 14 ГБ. Если у вас нет более нового графического процессора с 16 ГБ или более видеопамяти, у вас может не хватить ресурсов для запуска модели с такой точностью.
Управление Олламой
Управление, обновление и удаление установленных моделей с помощью Ollama должно быть удобным для всех, кто раньше использовал такие вещи, как Docker CLI.
В этом разделе мы рассмотрим несколько наиболее распространенных задач, которые вы, возможно, захотите выполнить.
Чтобы получить список установленных моделей, выполните:
список олламы
Чтобы удалить модель, вы должны запустить:
ollama rm название модели:тег-модели
Чтобы получить или обновить существующую модель, запустите:
ollama pull имя-модели:тег-модели
Дополнительные команды Олламы можно найти, выполнив:
оллама --помощь
Как мы отмечали ранее, Ollama — это лишь одна из многих платформ для запуска и тестирования локальных LLM. Если у вас возникнут проблемы с этим, возможно, вам повезет больше с другими. И нет, это не ИИ писал.
Регистр стремится предоставить вам больше информации об использовании LLM в ближайшем будущем, поэтому не забудьте поделиться своими актуальными вопросами о ПК с искусственным интеллектом в разделе комментариев. И не забывайте о безопасность цепочки поставок, ®
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/
- :имеет
- :является
- :нет
- :куда
- $UP
- 000
- 1
- 10
- a
- в состоянии
- О нас
- выше
- ускорители
- доступной
- через
- активации
- на самом деле
- AI
- Цель
- Все
- позволяет
- вдоль
- Несмотря на то, что
- AMD
- an
- и
- любой
- кто угодно
- все
- Применение
- Приложения
- МЫ
- AS
- предполагать
- At
- доступен
- Использование темпера с изогнутым основанием
- BE
- было
- до
- ЛУЧШЕЕ
- миллиард
- граница
- боты
- приносить
- сжигание
- но
- покупка
- by
- CAN
- способный
- карта
- случаев
- цепь
- шанс
- чат
- ChatGPT
- проверка
- кли
- нажмите на
- CO
- код
- Комментарии
- Общий
- совместимость
- преобразование
- Datacenter
- преданный
- развертывание
- компьютера
- DID
- Docker
- Дон
- Dont
- двойной
- скачать
- водитель
- упал
- каждый
- Ранее
- легко
- достаточно
- Даже
- Каждая
- пример
- выполнять
- проведение
- существующий
- опыт
- факт
- чувствовать
- несколько
- Найдите
- First
- после
- Что касается
- вперед
- найденный
- доля
- каркасы
- от
- полный
- будущее
- Gemini
- Общие
- генераторы
- получить
- получающий
- GIF
- Go
- идет
- будет
- хорошо
- есть
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- Графические процессоры
- графика
- инструкция
- было
- Половина
- Аппаратные средства
- Есть
- Главная
- Как
- How To
- HTTPS
- if
- in
- В том числе
- информация
- устанавливать
- установка
- установлен
- инструкции
- взаимодействующий
- интерактивный
- интерес
- IT
- ЕГО
- всего
- только один
- Вид
- этикетка
- язык
- большой
- в значительной степени
- последний
- запуск
- наименее
- Оставлять
- Меньше
- такое как
- Linux
- Список
- ll
- Лама
- LLM
- локальным
- в местном масштабе
- посмотреть
- выглядит как
- искать
- серия
- ниже
- удачи
- макинтош
- руководство
- многих
- массивный
- Макс
- Май..
- означает
- Память
- Меню
- может быть
- минимальный
- минут
- Минут
- режим
- модель
- Модели
- БОЛЕЕ
- родной
- Возле
- Необходимость
- потребности
- сеть
- нервный
- нейронной сети
- более новый
- Новости
- нет
- отметил,
- Nvidia
- of
- от
- Предложения
- on
- консолидировать
- ONE
- открытый
- с открытым исходным кодом
- открытие
- открыто
- операционный
- операционная система
- Операторы
- or
- OS
- Другое
- Другое
- наши
- внешний
- выходной
- за
- параметры
- PC
- ПК
- для
- производительность
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- PowerShell
- Точность
- довольно
- предыдущий
- Pro
- вероятно
- ( изучите наши патенты),
- Вопросы
- скачки
- Оперативная память
- ассортимент
- Reading
- Реальность
- причина
- последний
- рекомендовать
- Управление по борьбе с наркотиками (DEA)
- рекомендует
- Несмотря на
- относительно
- удаление
- удаление
- Полезные ресурсы
- результат
- правую
- RTX
- RTX 3060
- Run
- Бег
- работает
- s
- жертвовать
- то же
- Раздел
- установка
- семь
- несколько
- Поделиться
- должен
- простой
- простота
- с
- So
- некоторые
- удалось
- Источник
- исходный код
- особый
- Начало
- Начало
- По-прежнему
- прямой
- такие
- suite
- поддержка
- Поддержанный
- Убедитесь
- удивительно
- синтаксис
- система
- с
- Говорить
- задачи
- техника
- как правило,
- Терминал
- проверенный
- Тестирование
- чем
- который
- Ассоциация
- Источник
- Их
- Там.
- Эти
- вещи
- мышление
- этой
- те
- хоть?
- в
- инструменты
- Обучение
- беда
- стараться
- если не
- Обновление ПО
- обновление
- используемый
- пользователей
- через
- обычно
- Использующий
- меняться
- версия
- версии
- хотеть
- стремятся
- we
- Недели
- ЧТО Ж
- который
- в то время как
- все
- широкий
- Широкий диапазон
- будете
- окна
- в
- Word
- Работа
- работает
- работает
- записывать
- Ты
- ВАШЕ
- зефирнет