Meta представила свою новейшую модель большого языка (LLM) под названием Llama 3 и утверждает, что она бросит вызов гораздо более крупным моделям, таким как Google, Mistral и Anthropic.
Раскрыто в длинном объявление В четверг Llama 3 доступна в версиях от восьми до более чем 400 миллиардов параметров. Для справки: параметры крупнейших моделей OpenAI и Google приближаются к двум триллионам.
На данный момент мы получаем доступ только к восьми миллиардам и 3 миллиардам текстовых вариантов параметров Llama 70. Meta еще не закончила обучение своих самых крупных и сложных моделей, но намекает, что они будут многоязычными и мультимодальными – то есть они собираются из множества более мелких моделей, оптимизированных для предметной области.
Мета утверждает, что даже имея всего лишь 70 миллиардов параметров, Llama 3 более чем способна конкурировать с гораздо более крупными моделями.
Meta утверждает, что Llama3-8B и 70B могут превзойти гораздо более крупные модели, включая Gemini Pro и Claude 3 от Antrhopic. Нажмите, чтобы увеличить.
Лучшие данные, лучшая модель
По мнению Meta, одно из самых больших преимуществ связано с использованием токенизатора со словарем в 128,000 XNUMX токенов. В контексте LLM токены могут представлять собой несколько символов, целые слова или даже фразы. ИИ разбивает вводимые человеком данные на токены, а затем использует словари токенов для генерации результатов.
Meta объяснила, что ее токенизатор помогает более эффективно кодировать язык, значительно повышая производительность. Дополнительный выигрыш был достигнут за счет использования наборов данных более высокого качества и дополнительных шагов по точной настройке после обучения для повышения производительности и общей точности модели.
В частности, Meta сообщила, что Llama 3 была предварительно обучена на более чем 15 триллионах токенов, собранных из общедоступных источников.
Набор обучающих данных Llama 3 более чем в семь раз больше и содержит в четыре раза больше кода, чем Llama 2, который запустили всего девять месяцев назад. Но, как говорится, «мусор на входе — мусор на выходе» — поэтому Meta утверждает, что разработала ряд конвейеров фильтрации данных, чтобы гарантировать, что Llama 3 обучалась на как можно меньшем количестве неверной информации.
Эти средства контроля качества включали как эвристические фильтры, так и фильтры NSFW, а также дедупликацию данных и классификаторы текста, используемые для прогнозирования качества информации перед обучением. Meta даже использовала свою старую модель Llama 2, которая, по ее словам, «на удивление хороша в определении высококачественных данных» — чтобы отделить зерна от плевел.
Пять процентов обучающих данных поступили из более чем 30 языков, что, по прогнозам Меты, в будущем поможет привнести в модель более существенные многоязычные возможности. На данный момент в Социальной сети™️ заявляют, что пользователям не следует ожидать такой же производительности на других языках, кроме английского.
Обучение небольших моделей на таком большом наборе данных обычно считается пустой тратой вычислительного времени и даже приводит к снижению точности. Идеальное сочетание обучающих данных для вычисления ресурсов называется «Шиншилла оптимальная[PDF] сумма. По данным Meta, для модели с восемью миллиардами параметров, такой как Llama3-8B, это будет около 200 миллиардов токенов.
Однако в ходе тестирования Meta обнаружила, что производительность Llama 3 продолжает улучшаться даже при обучении на больших наборах данных. «Наши модели с восемью миллиардами и 70 миллиардов параметров продолжали улучшаться лог-линейно после того, как мы обучили их на 15 триллионах токенов», — пишет компания.
В результате, похоже, получилась относительно компактная модель, способная давать результаты, сравнимые с гораздо более крупными моделями. Компромисс в вычислениях, вероятно, был сочтен целесообразным, поскольку модели меньшего размера, как правило, легче выводить и, следовательно, их легче развертывать в масштабе.
При 8-битной точности для модели с восемью миллиардами параметров требуется всего 8 ГБ памяти. Переход к 4-битной точности — либо с использованием оборудования, которое ее поддерживает, либо с использованием квантования для сжатия модели — снизит требования к памяти примерно вдвое.
Meta обучила модель на паре вычислительных кластеров, каждый из которых содержит 24,000 XNUMX графических процессоров Nvidia. Как вы можете себе представить, обучение на таком большом кластере, хотя и быстрее, также создает некоторые проблемы — вероятность того, что что-то выйдет из строя в середине тренировочного прогона, возрастает.
Чтобы смягчить это, в Meta объяснили, что они разработали обучающий стек, который автоматизирует обнаружение, обработку и обслуживание ошибок. В гиперскейлер также добавлены системы мониторинга сбоев и хранения данных, чтобы уменьшить накладные расходы на контрольную точку и откат в случае прерывания обучающего запуска. После завершения работы Meta подвергла модели серии посттренировочных испытаний и этапов тонкой настройки.
Помимо Llama3-8B и 70B, Meta также представила новые и обновленные инструменты доверия и безопасности, в том числе Llama Guard 2 и Cybersec Eval 2, чтобы помочь пользователям защитить модель от злоупотреблений и/или атак с быстрым внедрением. Code Shield — еще одно дополнение, которое обеспечивает ограждения, помогающие отфильтровывать небезопасный код, генерируемый Llama 3.
Как мы уже сообщали ранее, генерация кода с помощью LLM привела к некоторым интересным векторы атаки которого Мета старается избежать.
Доступность
В течение следующих нескольких месяцев Meta планирует развернуть дополнительные модели, в том числе одну, превышающую 400 миллиардов параметров и поддерживающую дополнительные функции, языки и большие контекстные окна. Последнее позволит пользователям задавать более крупные и сложные запросы – например, суммировать большой блок текста.
Llama3-8B и 70B в настоящее время доступны для загрузки с сайта Meta. веб-сайт. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face и другие также планируют предложить эту модель для развертывания на своих платформах.
Если вы хотите протестировать Llama3 на своем компьютере, вы можете ознакомиться с нашим руководством по запуску локальных LLM. здесь. После того, как вы его установили, вы можете запустить его, запустив:
оллама беги лама3
Развлекайтесь и дайте нам знать, как все прошло. ®
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2024/04/19/meta_debuts_llama3_llm/
- :имеет
- :является
- $UP
- 000
- 15%
- 200
- 200 млрд штук.
- 24
- 30
- 400
- 7
- 70
- a
- О нас
- злоупотребление
- доступ
- По
- точность
- достигнутый
- добавленный
- дополнение
- дополнительный
- дополнительная прибыль
- После
- тому назад
- АИС
- позволять
- причислены
- Amazon
- Amazon Web Services
- количество
- an
- и
- Другой
- Антропный
- МЫ
- AS
- спросить
- собранный
- At
- нападки
- автоматы
- доступен
- избежать
- Лазурный
- Плохой
- BE
- Лучшая
- Крупнейшая
- миллиард
- Миллиард токенов
- biz
- Заблокировать
- стимулирование
- граница
- изоферменты печени
- Ломать
- приносить
- но
- by
- пришел
- CAN
- возможности
- способный
- случаев
- вызов
- проблемы
- символы
- проверка
- требования
- нажмите на
- облако
- Кластер
- CO
- код
- выходит
- компактный
- сравнимый
- Заполненная
- комплекс
- Вычисление
- вычисление
- считается
- содержит
- контекст
- продолжающийся
- контрольная
- В настоящее время
- данным
- Наборы данных
- Дебюты
- Степень
- развертывание
- развертывание
- предназначенный
- обнаружение
- развитый
- уменьшающийся
- сделанный
- вниз
- скачать
- Падение
- Опустившись
- каждый
- легче
- эффективно
- 8
- или
- Английский
- обеспечивать
- ошибка
- Даже
- превышение
- ожидать
- объяснены
- Face
- отсутствии
- Ошибка
- далеко
- быстрее
- несколько
- фильтр
- фильтры
- Что касается
- найденный
- 4
- от
- fun
- функциональность
- будущее
- Доходы
- Gemini
- в общем
- порождать
- генерируется
- порождающий
- поколение
- получающий
- идет
- будет
- хорошо
- Google Cloud
- есть
- Графические процессоры
- Охрана
- инструкция
- Половина
- Управляемость
- Аппаратные средства
- помощь
- помогает
- высококачественный
- подсказки
- Как
- HTTPS
- человек
- идеальный
- идентифицирующий
- картина
- улучшать
- in
- включены
- В том числе
- Увеличивает
- информация
- вход
- небезопасный
- установлен
- интересный
- прерванный
- в
- Представляет
- мобильной
- IT
- ЕГО
- JPG
- всего
- Знать
- язык
- Языки
- большой
- больше
- крупнейших
- последний
- запуск
- привело
- позволять
- такое как
- вероятность
- Вероятно
- нравится
- мало
- Лама
- LLM
- локальным
- искать
- машина
- техническое обслуживание
- смысл
- Память
- меров
- Мета
- Microsoft
- Microsoft Azure
- средняя
- может быть
- смягчать
- смешивать
- модель
- Модели
- Мониторинг
- месяцев
- БОЛЕЕ
- самых
- много
- с разными
- Названный
- приближается
- Новые
- следующий
- 9
- сейчас
- Эротика
- Nvidia
- of
- предлагают
- старший
- on
- консолидировать
- ONE
- только
- OpenAI
- or
- Другое
- Другое
- наши
- внешний
- опережать
- выходной
- за
- общий
- накладные расходы
- пара
- параметр
- параметры
- процент
- производительность
- фразы
- план
- Планы
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- возможное
- Точность
- предсказывать
- предсказанный
- предварительно
- Предварительный
- Pro
- производит
- приводит
- публично
- Запросы
- ранжирование
- RE
- уменьшить
- ссылка
- назвало
- относительно
- Сообщается
- Требования
- требуется
- Полезные ресурсы
- результат
- Итоги
- Возвращает
- Показали
- Катить
- Прокат
- Run
- Бег
- s
- охранять
- Сохранность
- Сказал
- то же
- поговорка
- говорит
- Шкала
- кажется
- отдельный
- Серии
- Услуги
- семь
- Щит
- существенно
- небольшой
- меньше
- So
- Соцсети
- некоторые
- удалось
- Источники
- стек
- Шаги
- диск
- существенный
- такие
- поддержки
- Поддержка
- удивительно
- системы
- тестXNUMX
- Тестирование
- текст
- чем
- который
- Ассоциация
- информация
- их
- Их
- тогда
- они
- этой
- Четверг
- Таким образом
- время
- раз
- в
- Лексемы
- инструменты
- специалистов
- Обучение
- Триллион
- Доверие
- два
- развязали
- обновление
- us
- использование
- используемый
- пользователей
- через
- Ve
- версии
- хотеть
- законопроект
- Снизить отходы
- we
- Web
- веб-сервисы
- ЧТО Ж
- пошел
- были
- когда
- который
- в то время как
- все
- будете
- окна
- слова
- стоит
- бы
- писал
- еще
- Ты
- ВАШЕ
- зефирнет