Meta випустила свою останню велику мовну модель (LLM) під назвою Llama 3 і стверджує, що вона кине виклик набагато більшим моделям, як-от Google, Mistral і Anthropic.
Виявлено в тривалій оголошення у четвер Llama 3 доступна у версіях від восьми до понад 400 мільярдів параметрів. Для довідки, найбільші моделі OpenAI і Google наближаються до двох трильйонів параметрів.
Наразі ми отримуємо доступ лише до восьми мільярдів і 3 мільярдів варіантів тексту параметрів Llama 70. Meta ще не завершила навчання своїх найбільших і найскладніших моделей, але натякає, що вони будуть багатомовними та мультимодальними, тобто вони будуть зібрані з кількох менших моделей, оптимізованих для домену.
Навіть маючи лише 70 мільярдів параметрів, Meta стверджує, що Llama 3 більш ніж здатна конкурувати з набагато більшими моделями.
Meta стверджує, що Llama3-8B і 70B можуть перевершити набагато більші моделі, включаючи Gemini Pro і Claude 3 від Antrhopic – Натисніть, щоб збільшити
Кращі дані, краща модель
Один із найбільших здобутків, згідно з Meta, походить від використання токенізера зі словниковим запасом у 128,000 XNUMX токенів. У контексті LLM лексемами можуть бути кілька символів, цілі слова або навіть фрази. ШІ розбиває введені людиною дані на токени, а потім використовує свої словники токенів для створення результату.
Meta пояснила, що його токенізер допомагає ефективніше кодувати мову, значно підвищуючи продуктивність. Додаткових переваг було досягнуто завдяки використанню високоякісних наборів даних і додаткових кроків тонкого налаштування після навчання для покращення продуктивності та загальної точності моделі.
Зокрема, Meta виявила, що Llama 3 попередньо навчено на більш ніж 15 трильйонах токенів, зібраних із загальнодоступних джерел.
Навчальний набір даних Llama 3 більш ніж у сім разів більший і містить у чотири рази більше коду, ніж Llama 2, який запущений лише дев'ять місяців тому. Але, як кажуть, «сміття всередину, сміття назовні» — тому Meta стверджує, що розробила серію конвеєрів фільтрації даних, щоб переконатися, що Llama 3 навчався якомога менше поганої інформації.
Цей контроль якості включав як евристичні фільтри, так і фільтри NSFW, а також дедуплікацію даних і текстові класифікатори, які використовуються для прогнозування якості інформації до навчання. Meta навіть використала свою старішу модель Llama 2, яка, за її словами, була «напрочуд хороша в ідентифікації високоякісних даних», щоб допомогти відокремити зерна від плевел.
П’ять відсотків навчальних даних надійшли з більш ніж 30 мов, що, за прогнозами Meta, у майбутньому допоможе внести в модель більш значні багатомовні можливості. Наразі Social Network™️ каже, що користувачам не слід очікувати такого ж рівня продуктивності іншими мовами, окрім англійської.
Навчання невеликих моделей на такому великому наборі даних зазвичай вважається марною тратою обчислювального часу та навіть призводить до зниження точності. Ідеальне поєднання навчальних даних для обчислювальних ресурсів називається «Шиншила оптимальна” [PDF] сума. За даними Meta, для моделі з восьми мільярдами параметрів, такої як Llama3-8B, це буде приблизно 200 мільярдів токенів.
Однак під час тестування Meta виявила, що продуктивність Llama 3 продовжувала покращуватися навіть при навчанні на більших наборах даних. «Наші моделі параметрів із восьми мільярдів і 70 мільярдів продовжували вдосконалюватися логарифмічно-лінійно після того, як ми навчили їх на 15 трильйонах токенів», — написали в компанії.
У результаті, здається, вийшла відносно компактна модель, здатна генерувати результати, які можна порівняти з набагато більшими моделями. Компроміс в обчисленнях, ймовірно, вважався доцільним, оскільки менші моделі, як правило, легше зробити висновок і, отже, легше розгорнути в масштабі.
З 8-бітною точністю модель з восьми мільярдами параметрів потребує лише 8 ГБ пам’яті. Зниження до 4-бітної точності – або за допомогою апаратного забезпечення, яке підтримує це, або за допомогою квантування для стиснення моделі – зменшить потреби в пам’яті приблизно вдвічі.
Meta навчила модель на парі обчислювальних кластерів, кожен з яких містить 24,000 XNUMX графічних процесорів Nvidia. Як ви можете собі уявити, навчання на такому великому кластері, хоч і швидше, також створює певні труднощі – підвищується ймовірність того, що щось не вийде посеред тренування.
Щоб пом’якшити це, Meta пояснила, що розробила навчальний стек, який автоматизує виявлення, обробку та обслуговування помилок. Hyperscaler також додав системи моніторингу несправностей і зберігання, щоб зменшити накладні витрати на контрольну точку та відкат у разі переривання навчального циклу. І після завершення Meta піддала моделі серії тестувань і тонкого налаштування.
Окрім Llama3-8B та 70B, Meta також випустила нові та оновлені інструменти довіри та безпеки, зокрема Llama Guard 2 та Cybersec Eval 2, щоб допомогти користувачам захистити модель від зловживань та/або миттєвих ін’єкційних атак. Code Shield — це ще одне доповнення, яке забезпечує огорожі, призначені для фільтрації небезпечного коду, створеного Llama 3.
Як ми повідомляли раніше, генерація коду за допомогою LLM призвела до деяких цікавих результатів вектори атаки яких Мета прагне уникнути.
доступність
Протягом наступних кількох місяців Meta планує розгорнути додаткові моделі, включаючи одну, що перевищує 400 мільярдів параметрів і підтримує додаткові функції, мови та більші контекстні вікна. Останнє дозволить користувачам задавати більші та складніші запити, як-от резюмування великого блоку тексту.
Llama3-8B і 70B наразі доступні для завантаження з Meta's сайт. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face та інші також планують запропонувати модель для розгортання на своїх платформах.
Якщо ви хочете випробувати Llama3 на своїй машині, ви можете переглянути наш посібник із запуску локальних LLM тут. Після встановлення ви можете запустити його, виконавши:
ollama run llama3
Розважайтеся і розкажіть нам, як все пройшло. ®
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://go.theregister.com/feed/www.theregister.com/2024/04/19/meta_debuts_llama3_llm/
- : має
- :є
- $UP
- 000
- 15%
- 200
- 200 млрд штук.
- 24
- 30
- 400
- 7
- 70
- a
- МЕНЮ
- зловживання
- доступ
- За
- точність
- досягнутий
- доданий
- доповнення
- Додатковий
- додаткові прибутки
- після
- назад
- САИ
- дозволяти
- Також
- Amazon
- Amazon Web Services
- кількість
- an
- та
- Інший
- Антропний
- ЕСТЬ
- AS
- запитати
- зібраний
- At
- нападки
- автоматизує
- доступний
- уникнути
- Лазурний
- поганий
- BE
- Краще
- найбільший
- Мільярд
- Мільярд токенів
- бізнес
- Блокувати
- підвищення
- border
- обидва
- Перерва
- приносити
- але
- by
- прийшов
- CAN
- можливості
- здатний
- випадок
- виклик
- проблеми
- символи
- перевірка
- претензій
- клацання
- хмара
- кластер
- CO
- код
- приходить
- компактний
- порівнянний
- Зроблено
- комплекс
- обчислення
- обчислення
- вважається
- містить
- контекст
- триває
- управління
- В даний час
- дані
- набори даних
- Дебют
- Ступінь
- розгортання
- розгортання
- призначений
- Виявлення
- розвиненою
- зменшується
- зроблений
- вниз
- скачати
- Падіння
- Випадання
- кожен
- легше
- продуктивно
- вісім
- або
- англійська
- забезпечувати
- помилка
- Навіть
- перевищує
- очікувати
- пояснені
- Face
- відсутності
- Провал
- далеко
- швидше
- кілька
- фільтрувати
- Фільтри
- для
- знайдений
- чотири
- від
- веселощі
- функціональність
- майбутнє
- прибуток
- Близнюки
- в цілому
- породжувати
- генерується
- породжує
- покоління
- отримання
- йде
- буде
- добре
- Google Cloud
- є
- Графічні процесори
- Охорона
- керівництво
- Половина
- Обробка
- апаратні засоби
- допомога
- допомагає
- високоякісний
- підказки
- Як
- HTTPS
- людина
- ідеальний
- ідентифікує
- картина
- удосконалювати
- in
- включені
- У тому числі
- Збільшує
- інформація
- вхід
- небезпечно
- встановлений
- цікавий
- перерваний
- в
- Вводить
- isn
- IT
- ЙОГО
- JPG
- просто
- Знати
- мова
- мови
- великий
- більше
- найбільших
- останній
- запуск
- Led
- дозволяти
- як
- ймовірність
- Ймовірно
- Сподобалося
- трохи
- Лама
- LLM
- місцевий
- шукати
- машина
- обслуговування
- сенс
- пам'ять
- меров
- Meta
- Microsoft
- Microsoft Azure
- Середній
- може бути
- Пом'якшити
- змішувати
- модель
- Моделі
- моніторинг
- місяців
- більше
- найбільш
- багато
- множинний
- Названий
- наближається
- Нові
- наступний
- дев'ять
- зараз
- NSFW
- Nvidia
- of
- пропонувати
- старший
- on
- один раз
- ONE
- тільки
- OpenAI
- or
- Інше
- інші
- наші
- з
- Вищі результати
- вихід
- над
- загальний
- накладні витрати
- пара
- параметр
- параметри
- відсотків
- продуктивність
- фрази
- план
- плани
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- це можливо
- Точність
- передбачати
- передвіщений
- раніше
- попередній
- Pro
- виробляти
- забезпечує
- публічно
- якість
- запити
- ранжування
- RE
- зменшити
- посилання
- називають
- щодо
- Повідомляється
- Вимога
- Вимагається
- ресурси
- результат
- результати
- Умови повернення
- Показали
- Котити
- Прокат
- прогін
- біг
- s
- захист
- Безпека
- Зазначений
- то ж
- приказка
- говорить
- шкала
- Здається,
- окремий
- Серія
- Послуги
- сім
- Щит
- істотно
- невеликий
- менше
- So
- соціальна
- деякі
- що в сім'ї щось
- Джерела
- стек
- заходи
- зберігання
- істотний
- такі
- Підтримуючий
- Опори
- дивно
- Systems
- тест
- Тестування
- текст
- ніж
- Що
- Команда
- інформація
- їх
- Їх
- потім
- вони
- це
- четвер, четвер
- Таким чином
- час
- times
- до
- Жетони
- інструменти
- навчений
- Навчання
- трильйон
- Довіряйте
- два
- розв’язаний
- оновлений
- us
- використання
- використовуваний
- користувачі
- використання
- Ve
- версії
- хотіти
- було
- Відходи
- we
- Web
- веб-сервіси
- ДОБРЕ
- пішов
- були
- коли
- який
- в той час як
- всі
- волі
- windows
- з
- слова
- варто
- б
- пише
- ще
- Ти
- вашу
- зефірнет