Chatbot AI mới 'Jais' của UAE phục vụ người nói tiếng Ả Rập

Chatbot AI mới 'Jais' của UAE phục vụ người nói tiếng Ả Rập

Theo CNN, một nhóm gồm các học giả, nhà nghiên cứu và kỹ sư ở Các Tiểu vương quốc Ả Rập Thống nhất (UAE) đã công bố một chatbot AI tổng hợp mới có tên là 'Jais' để phục vụ riêng cho những người nói tiếng Ả Rập trên khắp thế giới.

Nhóm nghiên cứu lập luận rằng tiếng Ả Rập, thứ sáu được nói nhiều nhất ngôn ngữ trên thế giới với khoảng 272 triệu người nói, đã “không được thể hiện đúng mức trong AI chính thống”. Họ đang hy vọng chấm dứt sự thống trị của tiếng Anh trong việc đào tạo các hệ thống AI được gọi là mô hình ngôn ngữ lớn (LLM).

Chatbot AI của Jais tập trung vào Trung Đông

Vấn đề ngôn ngữ trong AI đang là mối quan tâm trên toàn thế giới. Nhật Bản gần đây đã bỏ tiếng Anh khi nước này xây dựng phiên bản ChatGPT của riêng mình. Các nhà nghiên cứu nói mặc dù chatbot của OpenAI vượt trội về tiếng Anh nhưng lại thường kém tiếng Nhật “do sự khác biệt trong hệ thống bảng chữ cái, dữ liệu hạn chế và các yếu tố khác”.

Jais được đặt tên theo một ngọn núi ở UAE, CNN báo cáo nói và có thể thực hiện các nhiệm vụ theo lệnh, chẳng hạn như viết thơ, giống như ChatGPT hoặc của Google Thi nhân, nhưng ở quy mô hạn chế. AI được đào tạo trên 13 tỷ thông số dữ liệu, khác xa so với gần 3.5 tỷ thông số của ChatGPT 175, thước đo kích thước của một mô hình ngôn ngữ lớn, nhưng không phải là độ chính xác của nó.

Theo Timothy Baldwin, giáo sư xử lý ngôn ngữ tự nhiên tại Đại học Trí tuệ nhân tạo Mohamed bin Zayed (MBZUAI) của Abu Dhabi, có kế hoạch mở rộng tập dữ liệu của Jais lên 30 tỷ tham số và cho phép nó đọc hình ảnh và đồ thị thay vì chỉ văn bản.

Trường đại học đã làm việc với Cerebras Systems and Inception của Thung lũng Silicon, một công ty con của công ty AI G42 có trụ sở tại UAE, để tạo ra Jais. Baldwin cho biết trong khi các LLM đối thủ như LLaMA của Meta và GPT của OpenAI có thể hiểu tiếng Ả Rập, họ chủ yếu được đào tạo về dữ liệu tiếng Anh trực tuyến.

Đối với Jais, khóa đào tạo bao gồm sự kết hợp của cả bộ dữ liệu tiếng Anh và tiếng Ả Rập, nhưng tập trung chủ ý vào nội dung từ Trung Đông, nơi tiếng Ả Rập được nói và viết rộng rãi.

Baldwin cho biết trọng tâm như vậy cho phép chatbot AI vượt xa “những gì mà bất kỳ ai khác có thể đạt được đối với tiếng Ả Rập”.

Theo MBZUAI, khóa đào tạo độc đáo của Jais giúp chatbot “hiểu được các sắc thái và phương ngữ văn hóa”, khiến nó trở nên hữu ích hơn cho nhiều ngành công nghiệp khác nhau. Các nhà phát triển đã cung cấp mô hình này cho công chúng dưới dạng nguồn mở, nghĩa là bất kỳ ai cũng có thể tùy chỉnh nó.

Chatbot AI mới 'Jais' của UAE phục vụ cho những người nói tiếng Ả Rập Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Chatbot AI mới 'Jais' của UAE phục vụ cho những người nói tiếng Ả Rập Thông tin dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Chuyển đổi giữa các phương ngữ

Baldwin nói với CNN rằng việc đào tạo dữ liệu đa dạng của Jais sẽ cho phép nó chuyển đổi giữa các phương ngữ của tiếng Ả Rập tiêu chuẩn hiện đại, được sử dụng cho các tài liệu chính thức và văn bản trang trọng, cũng như các phương ngữ địa phương thường được sử dụng trên blog hoặc mạng xã hội.

Ông nói: “Chắc chắn có chỗ cần cải thiện ở đó, nhưng trọng tâm tập trung nhiều hơn vào tính chắc chắn về mặt khả năng hiểu liệu chúng ta có có nhiều đầu vào không chính thức hơn cho mô hình hay không”.

Giống như các chatbot AI tổng hợp khác, Jais được xây dựng để chống lại những lời nhắc tạo ra “độc hại hoặc có hại” Baldwin cho biết sẽ trả lời và sẽ không trả lời những câu hỏi “dẫn đến việc tự làm hại bản thân hoặc gợi ý đến chứng nghiện”. Các chủ đề như đồng tính luyến ái là vượt quá giới hạn, phù hợp với niềm tin của người Hồi giáo.

Ngoài ra đọc: Sự phụ thuộc của ChatGPT vào 'ngôn ngữ tiếng Anh' đã buộc Nhật Bản phải tạo ra Chatbot AI của riêng mình

Theo Mohammed Soliman, giám đốc công nghệ chiến lược và chương trình an ninh mạng tại Viện Trung Đông ở Washington, DC, các ngôn ngữ dựa trên bảng chữ cái Latinh như tiếng Anh thống trị internet, nghĩa là bộ dữ liệu là lớn nhất trong các ngôn ngữ đó.

Ông nói: “Việc cung cấp quyền truy cập vào các công cụ AI dành riêng cho những người có thể nói các ngôn ngữ cụ thể có thể ngăn chặn các bộ phận gặp khó khăn trong xã hội thu được lợi ích từ AI”.

“[Những LLM này] thiếu nhận thức về các nền văn hóa khác, ảnh hưởng xấu đến trải nghiệm người dùng đối với những người có nguồn gốc đa dạng,” Soliman nói thêm, theo báo cáo của CNN.

UAE đã có những bước tiến đáng kể trong việc phát triển các hệ thống AI tổng hợp. Tiểu vương quốc là quốc gia đầu tiên trên thế giới bổ nhiệm một bộ trưởng AI vào năm 2017. Nó cũng được cho là tự hào về mô hình AI tạo ra lớn nhất khu vực, Falcon, được Hội đồng nghiên cứu công nghệ tiên tiến của Abu Dhabi và Viện đổi mới công nghệ (TII) phát hành vào tháng XNUMX.

Dấu thời gian:

Thêm từ MetaNews