UAE의 새로운 AI 챗봇 'Jais', 아랍어 사용자를 위한 서비스 제공

UAE의 새로운 AI 챗봇 'Jais', 아랍어 사용자를 위한 서비스 제공

CNN에 따르면, 아랍에미리트(UAE)의 학자, 연구원, 엔지니어로 구성된 팀은 특히 전 세계 아랍어를 사용하는 사람들에게 서비스를 제공하기 위해 'Jais'라는 새로운 생성 AI 챗봇을 공개했습니다.

팀은 여섯 번째 아랍어인 가장 많이 말한 전 세계적으로 약 272억 XNUMX만 명의 사용자가 사용하는 언어는 "주류 AI에서 과소 대표"되었습니다. 그들은 대규모 언어 모델(LLM)로 알려진 AI 시스템 훈련에서 영어의 지배력을 끝내기를 희망하고 있습니다.

Jais AI 챗봇은 중동에 중점을 두고 있습니다.

AI의 언어 문제는 전 세계적으로 우려되는 문제입니다. 일본은 최근 자체 버전의 ChatGPT를 구축하면서 영어를 버렸습니다. 연구원 말했다 OpenAI의 챗봇은 영어에서는 뛰어나지만 일본어에서는 "알파벳 체계의 차이, 제한된 데이터 및 기타 요인으로 인해" 종종 부족합니다.

Jais는 UAE의 산 이름을 따서 명명되었습니다. CNN 신고 시 쓰기와 같은 명령에 따라 작업을 수행할 수 있습니다. ChatGPT 또는 Google 음유 시인, 그러나 제한된 규모입니다. AI는 13억 개의 데이터 매개변수에 대해 훈련을 받았는데, 이는 대규모 언어 모델의 크기를 측정하는 척도인 ChatGPT 3.5의 약 175억 개의 매개변수에 비해 훨씬 큰 수치이지만 정확성은 아닙니다.

아부다비 모하메드 빈 자이드 인공지능대학(MBZUAI)의 자연어 처리 교수인 티모시 볼드윈(Timothy Baldwin)에 따르면 Jais의 데이터 세트를 30억 개의 매개변수로 확장하고 텍스트 대신 이미지와 그래프를 읽을 수 있도록 할 계획이라고 합니다.

이 대학은 UAE 기반 AI 회사 G42의 자회사인 Silicon Valley의 Cerebras Systems 및 Inception과 협력하여 Jais를 만들었습니다. Baldwin은 Meta의 LLaMA 및 OpenAI의 GPT와 같은 경쟁 LLM이 아랍어를 이해할 수 있지만 주로 온라인 영어 데이터에 대한 교육을 받았다고 말했습니다.

Jais의 경우 훈련에는 영어와 아랍어 데이터 세트가 모두 포함되었지만 아랍어가 널리 사용되고 쓰여지는 중동의 콘텐츠에 의도적으로 초점을 맞췄습니다.

Baldwin은 이러한 초점을 통해 AI 챗봇이 "아랍어에 대해 다른 사람이 달성할 수 있었던 것"을 뛰어넘을 수 있다고 말했습니다.

MBZUAI에 따르면 Jais의 독특한 교육은 챗봇이 '문화적 뉘앙스와 방언을 이해'하는 데 도움이 되어 다양한 산업 분야에서 더욱 유용하게 만들어줍니다. 개발자들은 이 모델을 오픈 소스로 대중에게 공개했습니다. 즉, 누구나 사용자 정의할 수 있습니다.

UAE의 새로운 AI 챗봇 'Jais'는 아랍어 사용자 PlatoBlockchain 데이터 인텔리전스를 지원합니다. 수직 검색. 일체 포함.

UAE의 새로운 AI 챗봇 'Jais'는 아랍어 사용자 PlatoBlockchain 데이터 인텔리전스를 지원합니다. 수직 검색. 일체 포함.

방언 간 전환

볼드윈은 CNN과의 인터뷰에서 Jais의 다양한 데이터 교육을 통해 공식 문서와 공식적인 글쓰기에 사용되는 현대 표준 아랍어 방언과 블로그나 소셜 미디어에서 일반적으로 사용되는 현지 방언 사이를 전환할 수 있게 될 것이라고 말했습니다.

"확실히 개선의 여지가 있지만, 모델에 더 비공식적인 입력이 있는지 이해할 수 있는 견고성에 더 중점을 두었습니다."라고 그는 말했습니다.

다른 생성 AI 챗봇과 마찬가지로 Jais는 "유독하거나 유해하다” 볼드윈은 "자해를 유발하거나 중독을 암시하는" 질문에는 답변하지 않을 것이라고 말했습니다. 동성애와 같은 주제는 이슬람 신앙에 따라 범위를 벗어났습니다.

또한 읽기 : ChatGPT의 '영어'에 대한 의존으로 인해 일본은 자체 AI 챗봇을 만들었습니다.

워싱턴 DC에 있는 중동 연구소(Middle East Institute)의 전략 기술 및 사이버 보안 프로그램 책임자인 Mohammed Soliman에 따르면, 영어와 같은 라틴 알파벳 기반 언어는 지배 이는 데이터 세트가 해당 언어에서 가장 크다는 것을 의미합니다.

“특정 언어를 구사할 수 있는 사람들만 AI 도구에 접근할 수 있게 하면 사회의 소외된 계층이 AI의 혜택을 누리는 것을 막을 수 있습니다.”라고 그는 말했습니다.

CNN이 보도한 대로 Soliman은 "[이러한 LLM은] 다른 문화에 대한 인식이 부족하여 다양한 배경을 가진 사람들의 사용자 경험에 부정적인 영향을 미칩니다."라고 덧붙였습니다.

UAE는 생성 AI 시스템 개발에 상당한 진전을 이루었습니다. 토후국은 세계 최초로 임명한 국가이다. AI 장관 또한 지난 2017월 아부다비 첨단기술연구위원회와 기술혁신연구소(TII)가 출시한 지역 최대 생성 AI 모델인 팔콘(Falcon)을 자랑하는 것으로 알려졌다.

타임 스탬프 :

더보기 메타뉴스