Минулого тижня корейський веб-гігант Naver представив сімейство великих мовних моделей під назвою HyperCLOVA X, які, як він стверджував, працюють краще в міжмовних міркуваннях азіатськими мовами, ніж інші моделі, і тому можуть допомогти регіону розробити суверенні великі мовні моделі.
Навіпер оголошений дебют HyperCLOVA X корейською мовою та вказав на англомовну технічний звіт у журналі відкритого доступу arXiv, який стверджує: «Ми віримо, що HyperCLOVA X — з його конкурентними можливостями англійською та іншими мовами, окрім корейської — може надати корисні рекомендації для регіонів і країн щодо розробки власних суверенних LLM».
Магістри пройшли попередню підготовку з використанням даних, які «складаються з корейських, багатомовних і кодових сегментів».
Багатомовна частина була переважно англійською, але також включала ряд інших мов, таких як японська, німецька та французька.
Корейський мовний матеріал становив близько третини даних перед навчанням, що свідчить про те, що Naver вирішив покращити продуктивність своїх моделей рідною мовою. У процесі попередньої підготовки також враховувалися особливості граматики корейської мови.
Результатом цих зусиль, як стверджує Навер, є моделі «з притаманним знанням корейської та англійської».
А ще краще те, що моделі демонструють «багатомовність» — здатність працювати мовами, відмінними від тих, якими їх навчили.
«Наш аналіз показує, що HyperCLOVA X не лише здатна розширити свої можливості міркування за межі основних цільових мов, але й досягнути найсучаснішого рівня машинного перекладу між корейською та нецільовими мовами, такими як японська та китайська», — - йдеться в технічному звіті. «Вражаюча багатомовність HyperCLOVA X також включає міжмовну передачу між корейською та англійською мовами, де налаштування інструкцій однією мовою може призвести до появи можливостей виконання інструкцій іншою», — додається в документі.
Результати багатомовного тесту привели розробника до висновку, що HyperCLOVA X «можна перенести на азіатські мови, які недостатньо представлені в даних перед навчанням».
Суверенний ШІ стає необхідною національною спроможністю – як засіб забезпечення безпеки даних і зменшення залежності від офшорних постачальників. Nvidia підтримує цю концепцію, яка за збігом обставин має потенціал створити ще більший ринок для своїх товарів.
Але, як зазначено в технічному звіті Naver, англійська та північноамериканська культури «надзвичайно надмірно представлені в корпусах попереднього навчання» для існуючих основних LLM.
«Отже, ці магістратури демонструють обмеження в їхній здатності обробляти та розуміти неанглійські мови, як-от корейська, яка втілює відмінні культурні нюанси, геополітичну ситуацію та інші регіональні особливості, а також унікальні лінгвістичні атрибути», — пояснюється в ньому.
Регіональний важковаговик Китай намагався розробити LLM у своїх національних інтересах – або, принаймні, в інтересах КПК – щоб різний успіх. Тим не менш, такі чат-боти, як ERNIE від Baidu, були отримав понад 100 мільйонів користувачів до кінця 2023 року.
Нак-хо-Сон, керівник технології Naver Cloud Hyperscale AI, заявив, що в майбутньому планує «створити спеціалізований надмасштабний ШІ для різних регіонів і країн».
Водночас технічний звіт містить зобов’язання «досліджувати мультимодальність, щоб розширити можливості HyperCLOVA X для безпроблемної обробки та інтеграції різноманітних типів даних, таких як текст, зображення та аудіо», одночасно прагнучи оптимізувати здатності моделі до висновку.
Naver стверджував, що «активно досліджує інтеграцію зовнішніх інструментів і API для розширення функціональних можливостей моделі» — це, на його думку, «дозволить HyperCLOVA X отримувати доступ до спеціалізованих наборів даних і служб». ®
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://go.theregister.com/feed/www.theregister.com/2024/04/08/naver_cloud_hyperclova_llm_sovereign_ai/
- : має
- :є
- : ні
- :де
- $UP
- 100
- 2023
- 7
- a
- здібності
- здатність
- Здатний
- доступ
- рахунки
- Achieve
- активно
- доданий
- AI
- прицілювання
- Також
- американська
- an
- аналіз
- та
- Інтерфейси
- ЕСТЬ
- навколо
- AS
- азіатський
- At
- Атрибути
- аудіо
- збільшення
- Baidu
- BE
- Вірити
- вважає,
- Краще
- між
- За
- обидва
- розширити
- але
- by
- CAN
- можливості
- можливості
- потужність
- ccp
- відстоював
- chatbots
- Китай
- китайський
- вибрав
- стверджував,
- хмара
- CO
- код
- конкурентоспроможний
- У складі
- концепція
- укладає
- Отже
- країни
- створювати
- культурний
- культур
- дані
- безпеку даних
- набори даних
- дебют
- дебютувало
- Дебют
- оголошений
- Залежність
- розвивати
- Розробник
- розвивається
- дисплей
- відмітний
- Різне
- зусилля
- втілення
- поява
- з'являються
- включіть
- кінець
- endeavor
- англійська
- забезпечення
- Навіть
- проявляти
- існуючий
- Пояснює
- дослідити
- продовжити
- зовнішній
- надзвичайно
- сім'я
- для
- французька
- функціональні можливості
- майбутнє
- геополітичний
- німецька
- гігант
- граматика
- керівництво
- було
- обробляти
- голова
- Важкий вага
- допомога
- корисний
- Головна
- HTML
- HTTPS
- зображень
- вражаючий
- удосконалювати
- in
- включені
- includes
- індикація
- притаманне
- інтегрувати
- інтеграція
- інтерес
- в
- IT
- ЙОГО
- японський
- журнал
- JPG
- корейський
- мова
- мови
- великий
- більше
- останній
- вести
- найменш
- Led
- рівень
- як
- недоліки
- LLM
- машина
- made
- Mainstream
- ринок
- матеріал
- Може..
- засоби
- мільйона
- модель
- Моделі
- Названий
- National
- Навіпер
- необхідно
- На північ
- нюанси
- Nvidia
- of
- on
- ONE
- тільки
- відкрити
- Оптимізувати
- or
- Інше
- наші
- з
- над
- власний
- приватність
- Виконувати
- продуктивність
- плани
- plato
- Інформація про дані Платона
- PlatoData
- Застава
- точок
- потенціал
- переважно
- в першу чергу
- процес
- забезпечувати
- провайдери
- зниження
- регіон
- регіональний
- райони
- звітом
- результат
- результати
- Reuters
- s
- плавно
- безпеку
- пошук
- сегменти
- Послуги
- Шоу
- ситуацій
- шукати
- суверен
- спеціалізований
- впроваджений
- Штати
- такі
- цільове
- технічний
- Технологія
- тест
- текст
- ніж
- Що
- Команда
- Майбутнє
- їх
- отже
- Ці
- третій
- ті
- до
- прийняли
- інструменти
- навчений
- переклад
- передані
- Переклад
- Типи
- недостатньо представлений
- розуміти
- створеного
- користувачі
- різноманітність
- різний
- було
- we
- Web
- week
- ДОБРЕ
- були
- який
- в той час як
- волі
- з
- Work
- X
- ще
- зефірнет