Meta дебютує з великою мовною моделлю Llama третього покоління

Meta дебютує з великою мовною моделлю Llama третього покоління

Meta випустила свою останню велику мовну модель (LLM) під назвою Llama 3 і стверджує, що вона кине виклик набагато більшим моделям, як-от Google, Mistral і Anthropic.

Виявлено в тривалій оголошення у четвер Llama 3 доступна у версіях від восьми до понад 400 мільярдів параметрів. Для довідки, найбільші моделі OpenAI і Google наближаються до двох трильйонів параметрів.

Наразі ми отримуємо доступ лише до восьми мільярдів і 3 мільярдів варіантів тексту параметрів Llama 70. Meta ще не завершила навчання своїх найбільших і найскладніших моделей, але натякає, що вони будуть багатомовними та мультимодальними, тобто вони будуть зібрані з кількох менших моделей, оптимізованих для домену.

Навіть маючи лише 70 мільярдів параметрів, Meta стверджує, що Llama 3 більш ніж здатна конкурувати з набагато більшими моделями.

Meta стверджує, що Llama3-8B і 70B можуть перевершити набагато більші моделі, включаючи Gemini Pro і Claude 3 від Antrhopic.

Meta стверджує, що Llama3-8B і 70B можуть перевершити набагато більші моделі, включаючи Gemini Pro і Claude 3 від Antrhopic – Натисніть, щоб збільшити

Кращі дані, краща модель

Один із найбільших здобутків, згідно з Meta, походить від використання токенізера зі словниковим запасом у 128,000 XNUMX токенів. У контексті LLM лексемами можуть бути кілька символів, цілі слова або навіть фрази. ШІ розбиває введені людиною дані на токени, а потім використовує свої словники токенів для створення результату.

Meta пояснила, що його токенізер допомагає ефективніше кодувати мову, значно підвищуючи продуктивність. Додаткових переваг було досягнуто завдяки використанню високоякісних наборів даних і додаткових кроків тонкого налаштування після навчання для покращення продуктивності та загальної точності моделі.

Зокрема, Meta виявила, що Llama 3 попередньо навчено на більш ніж 15 трильйонах токенів, зібраних із загальнодоступних джерел.

Навчальний набір даних Llama 3 більш ніж у сім разів більший і містить у чотири рази більше коду, ніж Llama 2, який запущений лише дев'ять місяців тому. Але, як кажуть, «сміття всередину, сміття назовні» — тому Meta стверджує, що розробила серію конвеєрів фільтрації даних, щоб переконатися, що Llama 3 навчався якомога менше поганої інформації.

Цей контроль якості включав як евристичні фільтри, так і фільтри NSFW, а також дедуплікацію даних і текстові класифікатори, які використовуються для прогнозування якості інформації до навчання. Meta навіть використала свою старішу модель Llama 2, яка, за її словами, була «напрочуд хороша в ідентифікації високоякісних даних», щоб допомогти відокремити зерна від плевел.

П’ять відсотків навчальних даних надійшли з більш ніж 30 мов, що, за прогнозами Meta, у майбутньому допоможе внести в модель більш значні багатомовні можливості. Наразі Social Network™️ каже, що користувачам не слід очікувати такого ж рівня продуктивності іншими мовами, окрім англійської.

Навчання невеликих моделей на такому великому наборі даних зазвичай вважається марною тратою обчислювального часу та навіть призводить до зниження точності. Ідеальне поєднання навчальних даних для обчислювальних ресурсів називається «Шиншила оптимальна” [PDF] сума. За даними Meta, для моделі з восьми мільярдами параметрів, такої як Llama3-8B, це буде приблизно 200 мільярдів токенів.

Однак під час тестування Meta виявила, що продуктивність Llama 3 продовжувала покращуватися навіть при навчанні на більших наборах даних. «Наші моделі параметрів із восьми мільярдів і 70 мільярдів продовжували вдосконалюватися логарифмічно-лінійно після того, як ми навчили їх на 15 трильйонах токенів», — написали в компанії.

У результаті, здається, вийшла відносно компактна модель, здатна генерувати результати, які можна порівняти з набагато більшими моделями. Компроміс в обчисленнях, ймовірно, вважався доцільним, оскільки менші моделі, як правило, легше зробити висновок і, отже, легше розгорнути в масштабі.

З 8-бітною точністю модель з восьми мільярдами параметрів потребує лише 8 ГБ пам’яті. Зниження до 4-бітної точності – або за допомогою апаратного забезпечення, яке підтримує це, або за допомогою квантування для стиснення моделі – зменшить потреби в пам’яті приблизно вдвічі.

Meta навчила модель на парі обчислювальних кластерів, кожен з яких містить 24,000 XNUMX графічних процесорів Nvidia. Як ви можете собі уявити, навчання на такому великому кластері, хоч і швидше, також створює певні труднощі – підвищується ймовірність того, що щось не вийде посеред тренування.

Щоб пом’якшити це, Meta пояснила, що розробила навчальний стек, який автоматизує виявлення, обробку та обслуговування помилок. Hyperscaler також додав системи моніторингу несправностей і зберігання, щоб зменшити накладні витрати на контрольну точку та відкат у разі переривання навчального циклу. І після завершення Meta піддала моделі серії тестувань і тонкого налаштування.

Окрім Llama3-8B та 70B, Meta також випустила нові та оновлені інструменти довіри та безпеки, зокрема Llama Guard 2 та Cybersec Eval 2, щоб допомогти користувачам захистити модель від зловживань та/або миттєвих ін’єкційних атак. Code Shield — це ще одне доповнення, яке забезпечує огорожі, призначені для фільтрації небезпечного коду, створеного Llama 3.

Як ми повідомляли раніше, генерація коду за допомогою LLM призвела до деяких цікавих результатів вектори атаки яких Мета прагне уникнути.

доступність

Протягом наступних кількох місяців Meta планує розгорнути додаткові моделі, включаючи одну, що перевищує 400 мільярдів параметрів і підтримує додаткові функції, мови та більші контекстні вікна. Останнє дозволить користувачам задавати більші та складніші запити, як-от резюмування великого блоку тексту.

Llama3-8B і 70B наразі доступні для завантаження з Meta's сайт. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face та інші також планують запропонувати модель для розгортання на своїх платформах.

Якщо ви хочете випробувати Llama3 на своїй машині, ви можете переглянути наш посібник із запуску локальних LLM тут. Після встановлення ви можете запустити його, виконавши:

ollama run llama3

Розважайтеся і розкажіть нам, як все пройшло. ®

Часова мітка:

Більше від Реєстр