Команда науковців, дослідників та інженерів з Об’єднаних Арабських Еміратів (ОАЕ) представила новий генеративний чат-бот зі штучним інтелектом під назвою «Jais», призначений спеціально для людей, які розмовляють арабською мовою в усьому світі, повідомляє CNN.
Команда стверджує, що арабська, шоста найбільш розмовний мова у світі, де розмовляють приблизно 272 мільйони людей, була «недопредставлена в основному ШІ». Вони сподіваються покласти край домінуванню англійської мови в системах навчання ШІ, відомих як великі мовні моделі (LLM).
Чат-бот Jais AI фокусується на Близькому Сході
Проблема мови в штучному інтелекті викликає занепокоєння в усьому світі. Японія нещодавно відмовилася від англійської мови, оскільки країна створює власну версію ChatGPT. Дослідники сказав хоча чат-бот OpenAI чудово розмовляє англійською мовою, японської мови він часто поганий «через відмінності в системі алфавіту, обмежені дані та інші фактори».
Джайс названий на честь гори в ОАЕ, CNN звітом каже, і може виконувати завдання за командою, наприклад писати вірші, так само як ChatGPT або Google Bard, але в обмеженому масштабі. Штучний інтелект навчається на 13 мільярдах параметрів даних, що є значною відмінністю порівняно з приблизно 3.5 мільярдами параметрів ChatGPT 175, показником розміру великої мовної моделі, але не її точністю.
За словами Тімоті Болдуіна, професора обробки природної мови в Університеті штучного інтелекту імені Мохамеда бін Заїда (MBZUAI) в Абу-Дабі, є плани розширити набір даних Джайса до 30 мільярдів параметрів і дозволити йому читати зображення та графіки замість простого тексту.
Над створенням Jais університет працював із Cerebras Systems і Inception із Кремнієвої долини, дочірньою компанією G42, що базується в ОАЕ. Болдуін сказав, що хоча конкуруючі LLM, такі як LLaMA від Meta та GPT від OpenAI, можуть розуміти арабську, вони переважно навчаються на онлайн-даних англійською.
Для Джейса тренінг включав поєднання наборів даних англійською та арабською мовами, але з навмисним акцентом на вмісті з Близького Сходу, де арабською мовою широко розмовляють і пишуть.
Болдуін сказав, що такий фокус дозволяє чат-боту зі штучним інтелектом вийти за рамки «того, чого хтось інший зміг досягти для арабської мови».
За словами MBZUAI, унікальне навчання Джайса допомагає чат-боту «розуміти культурні нюанси та діалекти», що робить його більш корисним для широкого кола різних галузей. Розробники зробили модель загальнодоступною у відкритому коді, тобто кожен може налаштувати її.
Перемикання між діалектами
Болдуін сказав CNN, що навчання Jais різноманітним даним дозволить йому перемикатися між діалектами сучасної стандартної арабської мови, яка використовується для офіційних документів і офіційних документів, і місцевими діалектами, які зазвичай використовуються в блогах або соціальних мережах.
«Безумовно, є можливості для вдосконалення, але більше уваги приділено надійності з точки зору можливості зрозуміти, чи є у нас більш неофіційні дані для моделі», — сказав він.
Як і інші генеративні чат-боти штучного інтелекту, Jais створений таким чином, щоб протистояти підказкам, які створюють "токсичний або шкідливий» відповідей, сказав Болдуін, і не відповідатиме на запити, які «ведуть до самоушкодження або свідчать про залежність». Такі теми, як гомосексуалізм, є поза межами, відповідно до мусульманських вірувань.
Читайте також: Залежність ChatGPT від «англійської мови» змусила Японію створити власний чат-бот AI
За словами Мохаммеда Солімана, директора стратегічних технологій і програми кібербезпеки в Інституті Близького Сходу у Вашингтоні, округ Колумбія, мови на основі латинського алфавіту, такі як англійська домінувати Інтернет, тобто набори даних є найбільшими на цих мовах.
«Надання доступу до інструментів штучного інтелекту виключно тим, хто розмовляє певними мовами, може перешкодити знедоленим верствам суспільства скористатися перевагами штучного інтелекту», — сказав він.
«[Ці магістри права] не знають інших культур, що негативно впливає на взаємодію з людьми різного походження», — додав Соліман, як повідомляє CNN.
ОАЕ досягли значних успіхів у розробці генеративних систем ШІ. Емірат був першою країною в світі, яка призначила а міністр АІ У 2017 році він також може похвалитися найбільшою в регіоні генеративною моделлю штучного інтелекту Falcon, яка була випущена Дослідницькою радою з передових технологій Абу-Дабі та Інститутом технологічних інновацій (TII) у березні.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://metanews.com/uaes-new-ai-chatbot-jais-caters-to-arabic-speakers-challenging-english-bias/
- : має
- :є
- : ні
- :де
- 13
- 2017
- 30
- 7
- a
- Здатний
- вчені
- доступ
- За
- точність
- Achieve
- доданий
- просунутий
- Просунута технологія
- несприятливо
- зачіпає
- після
- AI
- AI чат
- Системи ШІ
- дозволяє
- Алфавіт
- Також
- та
- Відповіді
- будь
- арабська
- Арабські Емірати
- арабська
- ЕСТЬ
- Аргументує
- навколо
- штучний
- штучний інтелект
- AS
- At
- доступний
- обізнаність
- фони
- було
- буття
- переконанням
- Переваги
- між
- За
- Мільярд
- BIN
- блоги
- має
- обидва
- межі
- Будує
- побудований
- але
- by
- званий
- CAN
- догоджати
- обслуговує
- звичайно
- Chatbot
- chatbots
- ChatGPT
- ЦРУ
- CNN
- поєднання
- порівняний
- Занепокоєння
- зміст
- може
- Рада
- країна
- створювати
- культурний
- налаштувати
- кібер-
- кібер-безпеки
- дані
- набори даних
- dc
- залежність
- розробників
- розвивається
- Відмінності
- різний
- Директор
- Різне
- do
- документація
- Панування
- Схід
- ще
- Емірат
- емірати
- включіть
- кінець
- Інженери
- англійська
- Ексклюзивний курс
- Розширювати
- досвід
- фактори
- Фолс
- далеко
- Велика різниця
- Фірма
- Перший
- Сфокусувати
- фокусується
- для
- формальний
- від
- генеративний
- Генеративний ШІ
- Go
- Google,
- графіки
- Мати
- he
- допомагає
- Високий
- сподіваючись
- HTML
- HTTPS
- if
- зображень
- поліпшення
- in
- початок
- промисловості
- неформальний
- інновація
- витрати
- замість
- Інститут
- Інтелект
- інтернет
- залучений
- питання
- IT
- ЙОГО
- Japan
- японський
- JPG
- просто
- відомий
- відсутність
- мова
- мови
- великий
- найбільших
- Latin
- як
- обмеженою
- Лінія
- Лама
- місцевий
- made
- Mainstream
- Робить
- березня
- макс-ширина
- сенс
- вимір
- Медіа
- Середній
- середній Схід
- мільйона
- модель
- Моделі
- сучасний
- Мохамед
- Мухаммед
- більше
- Гора
- Названий
- Природний
- Обробка природних мов
- природа
- Близько
- Нові
- нюанси
- of
- офіційний
- часто
- on
- онлайн
- відкрити
- з відкритим вихідним кодом
- or
- Інше
- з
- власний
- параметри
- Люди
- Виконувати
- плани
- plato
- Інформація про дані Платона
- PlatoData
- переважно
- запобігати
- обробка
- Професор
- програма
- громадськість
- запити
- діапазон
- Читати
- жати
- нещодавно
- випущений
- Повідомляється
- дослідження
- Дослідники
- Реагувати
- Суперник
- стійкість
- Кімната
- s
- Зазначений
- говорить
- шкала
- безпеку
- Короткий
- значний
- Кремній
- шостий
- Розмір
- соціальна
- соціальні медіа
- Source
- говорити
- динаміки
- конкретний
- конкретно
- говорять
- standard
- Стратегічний
- успіхів
- допоміжний
- такі
- перемикач
- система
- Systems
- завдання
- команда
- Технології
- Технологія
- Технологічні інновації
- terms
- текст
- Що
- Команда
- світ
- Там.
- Ці
- вони
- ті
- до
- сказав
- інструменти
- теми
- навчений
- Навчання
- ОАЕ
- розуміти
- створеного
- United
- Об'єднана Арабська
- Об'єднані Арабські Емірати
- університет
- представила
- використовуваний
- користувач
- User Experience
- зазвичай
- версія
- було
- Вашингтон
- we
- який
- в той час як
- ВООЗ
- широкий
- Широкий діапазон
- широко
- волі
- з
- працював
- світ
- світовий
- лист
- письмовий
- заєд
- зефірнет