Le nouveau chatbot IA des Émirats arabes unis, « Jais », s'adresse aux arabophones

Le nouveau chatbot IA des Émirats arabes unis, « Jais », s'adresse aux arabophones

Une équipe d'universitaires, de chercheurs et d'ingénieurs des Émirats arabes unis (EAU) a dévoilé un nouveau chatbot génératif d'IA appelé « Jais » destiné spécifiquement aux personnes qui parlent la langue arabe dans le monde, selon CNN.

L'équipe affirme que l'arabe, le sixième le plus parlé langue dans le monde, avec environ 272 millions de locuteurs, a été « sous-représentée dans l’IA traditionnelle ». Ils espèrent mettre fin à la domination de l’anglais dans la formation des systèmes d’IA connus sous le nom de grands modèles linguistiques (LLM).

Le chatbot Jais AI se concentre sur le Moyen-Orient

La question linguistique dans l’IA est une préoccupation mondiale. Le Japon a récemment abandonné l'anglais alors que le pays construit sa propre version de ChatGPT. Des chercheurs a affirmé Valérie Plante. bien que le chatbot d'OpenAI excelle en anglais, il échoue souvent en japonais « en raison de différences dans le système alphabétique, de données limitées et d'autres facteurs ».

Jais doit son nom à une montagne des Émirats arabes unis, selon CNN rapport dit, et peut effectuer des tâches sur commande, comme écrire des poèmes, tout comme ChatGPT ou de Google barde, mais à une échelle limitée. L'IA est entraînée sur 13 milliards de paramètres de données, ce qui est bien loin des près de 3.5 milliards de paramètres de ChatGPT 175, une mesure de la taille d'un grand modèle de langage, mais pas de sa précision.

Il est prévu d'étendre l'ensemble de données de Jais à 30 milliards de paramètres et de lui permettre de lire des images et des graphiques au lieu de simplement du texte, selon Timothy Baldwin, professeur de traitement du langage naturel à l'Université d'intelligence artificielle Mohamed bin Zayed (MBZUAI) d'Abu Dhabi.

L'université a travaillé avec Cerebras Systems et Inception de la Silicon Valley, une filiale de la société d'IA G42 basée aux Émirats arabes unis, pour créer Jais. Baldwin a déclaré que même si les LLM rivaux comme LLaMA de Meta et GPT d'OpenAI peuvent comprendre l'arabe, ils sont principalement formés sur des données anglaises en ligne.

Pour Jais, la formation impliquait une combinaison d’ensembles de données en anglais et en arabe, mais en mettant délibérément l’accent sur le contenu du Moyen-Orient, où l’arabe est largement parlé et écrit.

Baldwin a déclaré qu’une telle orientation permet au chatbot IA d’aller au-delà de « ce que n’importe qui d’autre a pu réaliser pour l’arabe ».

Selon MBZUAI, la formation unique de Jais aide le chatbot à « comprendre les nuances culturelles et les dialectes », ce qui le rend plus utile pour un large éventail d'industries différentes. Les développeurs ont rendu le modèle accessible au public en open source, ce qui signifie que tout le monde peut le personnaliser.

Le nouveau chatbot IA des Émirats arabes unis « Jais » s'adresse aux arabophones PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le nouveau chatbot IA des Émirats arabes unis « Jais » s'adresse aux arabophones PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Passer d'un dialecte à l'autre

Baldwin a déclaré à CNN que la formation diversifiée de Jais en matière de données lui permettra de basculer entre les dialectes de l'arabe standard moderne, qui sont utilisés pour les documents officiels et l'écriture formelle, et les dialectes locaux qui sont habituellement utilisés sur les blogs ou les réseaux sociaux.

« Il y a certainement place à l'amélioration, mais l'accent a été davantage mis sur la robustesse en termes de capacité à comprendre si nous avons des contributions plus informelles au modèle », a-t-il déclaré.

Comme d’autres chatbots génératifs d’IA, Jais est conçu pour résister aux invites qui créent «toxique ou nocif » réponses, a déclaré Baldwin, et ne répondra pas aux requêtes qui « conduisent à l’automutilation ou suggèrent une dépendance ». Des sujets tels que l’homosexualité sont interdits, conformément aux croyances musulmanes.

A lire également: La dépendance de ChatGPT à l'égard de la « langue anglaise » a forcé le Japon à créer son propre chatbot IA

Selon Mohammed Soliman, directeur des technologies stratégiques et du programme de cybersécurité au Middle East Institute de Washington, DC, les langues basées sur l'alphabet latin comme l'anglais dominer Internet, ce qui signifie que les ensembles de données sont les plus importants dans ces langues.

« Rendre l’accès aux outils d’IA exclusif à ceux qui parlent des langues spécifiques pourrait empêcher les segments défavorisés des sociétés de récolter les bénéfices de l’IA », a-t-il déclaré.

"[Ces LLM] manquent de sensibilisation aux autres cultures, ce qui affecte négativement l'expérience utilisateur des personnes d'origines diverses", a ajouté Soliman, comme le rapporte CNN.

Les Émirats arabes unis ont fait des progrès significatifs dans le développement de systèmes d’IA générative. L'Émirat a été le premier pays au monde à nommer un ministre de l'IA en 2017. Il abriterait également le plus grand modèle d'IA générative de la région, Falcon, qui a été publié par le Conseil de recherche en technologies avancées d'Abu Dhabi et le Technology Innovation Institute (TII) en mars.

Horodatage:

Plus de MétaActualités