De nieuwe AI-chatbot 'Jais' van de VAE richt zich op Arabischsprekenden

De nieuwe AI-chatbot 'Jais' van de VAE richt zich op Arabischsprekenden

Een team van academici, onderzoekers en ingenieurs in de Verenigde Arabische Emiraten (VAE) heeft een nieuwe generatieve AI-chatbot onthuld, genaamd 'Jais', die specifiek gericht is op mensen die de Arabische taal over de hele wereld spreken, aldus CNN.

Het team stelt dat Arabisch de zesde is meest gesproken taal in de wereld met ongeveer 272 miljoen sprekers is “ondervertegenwoordigd in de reguliere AI.” Ze hopen een einde te maken aan de dominantie van het Engels bij het trainen van AI-systemen die bekend staan ​​als grote taalmodellen (LLM's).

Jais AI-chatbot richt zich op het Midden-Oosten

Het taalprobleem bij AI is een wereldwijd probleem. Japan heeft onlangs het Engels achterwege gelaten, omdat het land zijn eigen versie van ChatGPT bouwt. Onderzoekers zei Hoewel de chatbot van OpenAI uitblinkt in het Engels, schiet hij vaak tekort in het Japans “vanwege verschillen in het alfabetsysteem, beperkte gegevens en andere factoren.”

Jais is vernoemd naar een berg in de VAE, de CNN verslag zegt, en kan op commando taken uitvoeren, zoals het schrijven van gedichten ChatGPT of Google's Bard, maar op beperkte schaal. De AI is getraind op 13 miljard gegevensparameters, een schril contrast met de bijna 3.5 miljard parameters van ChatGPT 175, een maatstaf voor de omvang van een groot taalmodel, maar niet voor de nauwkeurigheid ervan.

Er zijn plannen om de dataset van Jais uit te breiden tot 30 miljard parameters en deze in staat te stellen afbeeldingen en grafieken te lezen in plaats van alleen tekst, volgens Timothy Baldwin, hoogleraar natuurlijke taalverwerking aan de Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) in Abu Dhabi.

De universiteit werkte samen met Cerebras Systems en Inception uit Silicon Valley, een dochteronderneming van het in de VAE gevestigde AI-bedrijf G42, om Jais op te richten. Baldwin zei dat rivaliserende LLM's zoals Meta's LLaMA en OpenAI's GPT Arabisch kunnen verstaan, maar dat ze voornamelijk zijn getraind op online Engelse gegevens.

Voor Jais omvatte de training een combinatie van zowel Engelse als Arabische datasets, maar met een bewuste focus op inhoud uit het Midden-Oosten, waar Arabisch veel wordt gesproken en geschreven.

Baldwin zei dat een dergelijke focus de AI-chatbot in staat stelt verder te gaan dan “wat iemand anders voor het Arabisch heeft kunnen bereiken.”

Volgens MBZUAI helpt de unieke training van Jais de chatbot 'culturele nuances en dialecten te begrijpen', waardoor deze bruikbaarder wordt voor een breed scala aan verschillende industrieën. Ontwikkelaars hebben het model in open source beschikbaar gemaakt voor het publiek, wat betekent dat iedereen het kan aanpassen.

De nieuwe AI-chatbot 'Jais' van de VAE richt zich op Arabischsprekenden PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De nieuwe AI-chatbot 'Jais' van de VAE richt zich op Arabischsprekenden PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Schakelen tussen dialecten

Baldwin vertelde CNN dat de diverse datatraining van Jais het in staat zal stellen om te schakelen tussen dialecten van het Modern Standaard Arabisch, dat wordt gebruikt voor officiële documenten en formeel schrijven, en lokale dialecten die meestal op blogs of sociale media worden gebruikt.

"Er is zeker ruimte voor verbetering, maar de nadruk lag meer op de robuustheid in termen van het kunnen begrijpen of we meer informele input voor het model hebben", zei hij.

Net als andere generatieve AI-chatbots is Jais gebouwd om aanwijzingen te weerstaan ​​die ‘giftig of schadelijk” antwoorden, zei Baldwin, en zal niet reageren op vragen die “leiden tot zelfbeschadiging of die op verslaving wijzen.” Onderwerpen als homoseksualiteit zijn verboden terrein, in lijn met de islamitische overtuigingen.

Lees ook: De afhankelijkheid van ChatGPT van de 'Engelse taal' heeft Japan gedwongen zijn eigen AI-chatbot te creëren

Volgens Mohammed Soliman, directeur van strategische technologieën en het cyberveiligheidsprogramma van het Middle East Institute in Washington, DC, zijn op het Latijnse alfabet gebaseerde talen zoals Engels beheersen internet, wat betekent dat datasets de grootste zijn in die talen.

“Het exclusief maken van toegang tot AI-instrumenten voor degenen die specifieke talen spreken, zou kunnen voorkomen dat achtergestelde dwarsdoorsneden van samenlevingen de vruchten van AI plukken”, zei hij.

“[Deze LLM’s] zijn zich niet bewust van andere culturen, wat een negatieve invloed heeft op de gebruikerservaring voor mensen met verschillende achtergronden”, voegde Soliman eraan toe, zoals gerapporteerd door CNN.

De VAE hebben aanzienlijke vooruitgang geboekt bij de ontwikkeling van generatieve AI-systemen. Het emiraat was het eerste land ter wereld dat een minister van AI in 2017. Het beschikt naar verluidt ook over het grootste generatieve AI-model van de regio, Falcon, dat in maart werd uitgebracht door de Advanced Technology Research Council van Abu Dhabi en het Technology Innovation Institute (TII).

Tijdstempel:

Meer van MetaNieuws