Новый чат-бот ОАЭ «Jais» с искусственным интеллектом обслуживает говорящих по-арабски

Новый чат-бот ОАЭ «Jais» с искусственным интеллектом обслуживает говорящих по-арабски

По данным CNN, команда ученых, исследователей и инженеров из Объединенных Арабских Эмиратов (ОАЭ) представила нового чат-бота с генеративным искусственным интеллектом под названием Jais, предназначенного специально для людей, говорящих на арабском языке по всему миру.

Команда утверждает, что арабский язык, шестой наиболее распространенный язык в мире, на котором говорят около 272 миллионов человек, «недостаточно представлен в основном ИИ». Они надеются положить конец доминированию английского языка в обучающих системах искусственного интеллекта, известных как большие языковые модели (LLM).

Чат-бот Jais AI ориентирован на Ближний Восток

Языковая проблема в искусственном интеллекте вызывает обеспокоенность во всем мире. Япония недавно отказалась от английского языка, поскольку страна создает собственную версию ChatGPT. Исследователи — сказал Хотя чат-бот OpenAI превосходно владеет английским языком, он часто не справляется с японским «из-за различий в системе алфавита, ограниченности данных и других факторов».

Джейс назван в честь горы в ОАЭ, сообщает CNN. отчету говорит и может выполнять задачи по команде, например писать стихи, так же, как и ChatGPT или Google Bard, но в ограниченном масштабе. ИИ обучается на 13 миллиардах параметров данных, что очень далеко по сравнению с почти 3.5 миллиардами параметров ChatGPT 175, что является показателем размера большой языковой модели, но не ее точности.

По словам Тимоти Болдуина, профессора обработки естественного языка в Университете искусственного интеллекта Мохамеда бен Заеда (MBZUAI) в Абу-Даби, планируется расширить набор данных Джайса до 30 миллиардов параметров и позволить ему читать изображения и графики, а не только текст.

Для создания Jais университет работал с Cerebras Systems и Inception из Силиконовой долины, дочерней компанией базирующейся в ОАЭ компании G42, занимающейся искусственным интеллектом. Болдуин сказал, что, хотя конкурирующие LLM, такие как LLaMA от Meta и GPT от OpenAI, понимают арабский язык, они преимущественно обучаются на онлайн-данных на английском языке.

Для Джайса обучение включало сочетание наборов данных как на английском, так и на арабском языках, но с преднамеренным акцентом на контент с Ближнего Востока, где на арабском языке широко говорят и пишут.

Болдуин сказал, что такой фокус позволяет чат-боту с искусственным интеллектом выйти за рамки «того, чего кто-либо другой смог достичь для арабского языка».

По словам MBZUAI, уникальное обучение Джайса помогает чат-боту «понимать культурные нюансы и диалекты», что делает его более полезным для широкого спектра различных отраслей. Разработчики сделали модель общедоступной с открытым исходным кодом, что означает, что каждый может настроить ее.

Новый чат-бот ОАЭ «Jais» с искусственным интеллектом обслуживает говорящих на арабском языке сбор данных PlatoBlockchain. Вертикальный поиск. Ай.

Новый чат-бот ОАЭ «Jais» с искусственным интеллектом обслуживает говорящих на арабском языке сбор данных PlatoBlockchain. Вертикальный поиск. Ай.

Переключение между диалектами

Болдуин рассказал CNN, что разнообразная подготовка данных Джайсом позволит ему переключаться между диалектами современного стандартного арабского языка, который используется для официальных документов и формальной письменной речи, и местными диалектами, которые обычно используются в блогах или социальных сетях.

«Конечно, здесь есть возможности для улучшения, но основное внимание уделялось надежности с точки зрения возможности понять, есть ли у нас более неформальные входные данные для модели», — сказал он.

Как и другие чат-боты с генеративным искусственным интеллектом, Jais создан так, чтобы сопротивляться подсказкам, которые создают «токсичный или вредный» отвечает, сказал Болдуин, и не будет отвечать на вопросы, которые «приводят к членовредительству или предполагают зависимость». Такие темы, как гомосексуальность, запрещены в соответствии с мусульманскими верованиями.

Читайте также: Зависимость ChatGPT от «английского языка» вынудила Японию создать собственного чат-бота с искусственным интеллектом

По словам Мохаммеда Солимана, директора стратегических технологий и программы кибербезопасности Института Ближнего Востока в Вашингтоне, округ Колумбия, языки на основе латинского алфавита, такие как английский, господствовать в Интернете, а это означает, что наборы данных являются самыми большими на этих языках.

«Предоставление доступа к инструментам ИИ исключительно тем, кто говорит на определенных языках, может помешать обездоленным слоям общества воспользоваться преимуществами ИИ», — сказал он.

«[Эти LLM] не осведомлены о других культурах, что отрицательно влияет на пользовательский опыт для людей разного происхождения», — добавил Солиман, как сообщает CNN.

ОАЭ добились значительных успехов в разработке генеративных систем искусственного интеллекта. Эмират стал первой страной в мире, назначившей министр искусственного интеллекта в 2017 году. Сообщается, что он также может похвастаться крупнейшей в регионе моделью генеративного искусственного интеллекта Falcon, которая была выпущена Советом по исследованиям передовых технологий Абу-Даби и Институтом технологических инноваций (TII) в марте.

Отметка времени:

Больше от МетаНьюс