Theo CNN, một nhóm gồm các học giả, nhà nghiên cứu và kỹ sư ở Các Tiểu vương quốc Ả Rập Thống nhất (UAE) đã công bố một chatbot AI tổng hợp mới có tên là 'Jais' để phục vụ riêng cho những người nói tiếng Ả Rập trên khắp thế giới.
Nhóm nghiên cứu lập luận rằng tiếng Ả Rập, thứ sáu được nói nhiều nhất ngôn ngữ trên thế giới với khoảng 272 triệu người nói, đã “không được thể hiện đúng mức trong AI chính thống”. Họ đang hy vọng chấm dứt sự thống trị của tiếng Anh trong việc đào tạo các hệ thống AI được gọi là mô hình ngôn ngữ lớn (LLM).
Chatbot AI của Jais tập trung vào Trung Đông
Vấn đề ngôn ngữ trong AI đang là mối quan tâm trên toàn thế giới. Nhật Bản gần đây đã bỏ tiếng Anh khi nước này xây dựng phiên bản ChatGPT của riêng mình. Các nhà nghiên cứu nói mặc dù chatbot của OpenAI vượt trội về tiếng Anh nhưng lại thường kém tiếng Nhật “do sự khác biệt trong hệ thống bảng chữ cái, dữ liệu hạn chế và các yếu tố khác”.
Jais được đặt tên theo một ngọn núi ở UAE, CNN báo cáo nói và có thể thực hiện các nhiệm vụ theo lệnh, chẳng hạn như viết thơ, giống như ChatGPT hoặc của Google Thi nhân, nhưng ở quy mô hạn chế. AI được đào tạo trên 13 tỷ thông số dữ liệu, khác xa so với gần 3.5 tỷ thông số của ChatGPT 175, thước đo kích thước của một mô hình ngôn ngữ lớn, nhưng không phải là độ chính xác của nó.
Theo Timothy Baldwin, giáo sư xử lý ngôn ngữ tự nhiên tại Đại học Trí tuệ nhân tạo Mohamed bin Zayed (MBZUAI) của Abu Dhabi, có kế hoạch mở rộng tập dữ liệu của Jais lên 30 tỷ tham số và cho phép nó đọc hình ảnh và đồ thị thay vì chỉ văn bản.
Trường đại học đã làm việc với Cerebras Systems and Inception của Thung lũng Silicon, một công ty con của công ty AI G42 có trụ sở tại UAE, để tạo ra Jais. Baldwin cho biết trong khi các LLM đối thủ như LLaMA của Meta và GPT của OpenAI có thể hiểu tiếng Ả Rập, họ chủ yếu được đào tạo về dữ liệu tiếng Anh trực tuyến.
Đối với Jais, khóa đào tạo bao gồm sự kết hợp của cả bộ dữ liệu tiếng Anh và tiếng Ả Rập, nhưng tập trung chủ ý vào nội dung từ Trung Đông, nơi tiếng Ả Rập được nói và viết rộng rãi.
Baldwin cho biết trọng tâm như vậy cho phép chatbot AI vượt xa “những gì mà bất kỳ ai khác có thể đạt được đối với tiếng Ả Rập”.
Theo MBZUAI, khóa đào tạo độc đáo của Jais giúp chatbot “hiểu được các sắc thái và phương ngữ văn hóa”, khiến nó trở nên hữu ích hơn cho nhiều ngành công nghiệp khác nhau. Các nhà phát triển đã cung cấp mô hình này cho công chúng dưới dạng nguồn mở, nghĩa là bất kỳ ai cũng có thể tùy chỉnh nó.
Chuyển đổi giữa các phương ngữ
Baldwin nói với CNN rằng việc đào tạo dữ liệu đa dạng của Jais sẽ cho phép nó chuyển đổi giữa các phương ngữ của tiếng Ả Rập tiêu chuẩn hiện đại, được sử dụng cho các tài liệu chính thức và văn bản trang trọng, cũng như các phương ngữ địa phương thường được sử dụng trên blog hoặc mạng xã hội.
Ông nói: “Chắc chắn có chỗ cần cải thiện ở đó, nhưng trọng tâm tập trung nhiều hơn vào tính chắc chắn về mặt khả năng hiểu liệu chúng ta có có nhiều đầu vào không chính thức hơn cho mô hình hay không”.
Giống như các chatbot AI tổng hợp khác, Jais được xây dựng để chống lại những lời nhắc tạo ra “độc hại hoặc có hại” Baldwin cho biết sẽ trả lời và sẽ không trả lời những câu hỏi “dẫn đến việc tự làm hại bản thân hoặc gợi ý đến chứng nghiện”. Các chủ đề như đồng tính luyến ái là vượt quá giới hạn, phù hợp với niềm tin của người Hồi giáo.
Ngoài ra đọc: Sự phụ thuộc của ChatGPT vào 'ngôn ngữ tiếng Anh' đã buộc Nhật Bản phải tạo ra Chatbot AI của riêng mình
Theo Mohammed Soliman, giám đốc công nghệ chiến lược và chương trình an ninh mạng tại Viện Trung Đông ở Washington, DC, các ngôn ngữ dựa trên bảng chữ cái Latinh như tiếng Anh thống trị internet, nghĩa là bộ dữ liệu là lớn nhất trong các ngôn ngữ đó.
Ông nói: “Việc cung cấp quyền truy cập vào các công cụ AI dành riêng cho những người có thể nói các ngôn ngữ cụ thể có thể ngăn chặn các bộ phận gặp khó khăn trong xã hội thu được lợi ích từ AI”.
“[Những LLM này] thiếu nhận thức về các nền văn hóa khác, ảnh hưởng xấu đến trải nghiệm người dùng đối với những người có nguồn gốc đa dạng,” Soliman nói thêm, theo báo cáo của CNN.
UAE đã có những bước tiến đáng kể trong việc phát triển các hệ thống AI tổng hợp. Tiểu vương quốc là quốc gia đầu tiên trên thế giới bổ nhiệm một bộ trưởng AI vào năm 2017. Nó cũng được cho là tự hào về mô hình AI tạo ra lớn nhất khu vực, Falcon, được Hội đồng nghiên cứu công nghệ tiên tiến của Abu Dhabi và Viện đổi mới công nghệ (TII) phát hành vào tháng XNUMX.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://metanews.com/uaes-new-ai-chatbot-jais-caters-to-arabic-speakers-challenging-english-bias/
- : có
- :là
- :không phải
- :Ở đâu
- 13
- 2017
- 30
- 7
- a
- Có khả năng
- học giả
- truy cập
- Theo
- chính xác
- Đạt được
- thêm
- tiên tiến
- Công nghệ Tiên tiến
- bất lợi
- ảnh hưởng đến
- Sau
- AI
- Chatbot AI
- Hệ thống AI
- cho phép
- Bảng chữ cái
- Ngoài ra
- và
- câu trả lời
- bất kỳ ai
- Ả Rập
- Các tiểu vương quốc Ả Rập
- arabic
- LÀ
- Tranh luận
- xung quanh
- nhân tạo
- trí tuệ nhân tạo
- AS
- At
- có sẵn
- nhận thức
- nền
- được
- được
- niềm tin
- Lợi ích
- giữa
- Ngoài
- Tỷ
- BIN
- blog
- tự hào
- cả hai
- giới hạn
- xây dựng
- xây dựng
- nhưng
- by
- gọi là
- CAN
- phục vụ
- phục vụ
- chắc chắn
- chatbot
- chatbot
- ChatGPT
- cia
- CNN
- kết hợp
- so
- Liên quan
- nội dung
- có thể
- hội đồng
- đất nước
- tạo
- văn hóa
- tùy chỉnh
- không gian mạng
- an ninh mạng
- dữ liệu
- bộ dữ liệu
- dc
- phụ thuộc
- phát triển
- phát triển
- sự khác biệt
- khác nhau
- Giám đốc
- khác nhau
- do
- tài liệu
- Sự thống trị
- Đông
- khác
- Tiểu Vương quốc
- tiểu vương quốc
- cho phép
- cuối
- Kỹ sư
- Tiếng Anh
- Dành riêng
- Mở rộng
- kinh nghiệm
- các yếu tố
- Ngã
- xa
- Far Cry
- Công ty
- Tên
- Tập trung
- tập trung
- Trong
- chính thức
- từ
- thế hệ
- Trí tuệ nhân tạo
- Go
- đồ thị
- Có
- he
- giúp
- Cao
- hy vọng
- HTML
- HTTPS
- if
- hình ảnh
- cải thiện
- in
- khởi đầu
- các ngành công nghiệp
- thức
- sự đổi mới
- đầu vào
- thay vì
- Viện
- Sự thông minh
- Internet
- tham gia
- vấn đề
- IT
- ITS
- Nhật Bản
- Tiếng Nhật
- jpg
- chỉ
- nổi tiếng
- Thiếu sót
- Ngôn ngữ
- Ngôn ngữ
- lớn
- lớn nhất
- Tiếng Latin
- Lượt thích
- Hạn chế
- Dòng
- Loài đà mã ở nam mỹ
- địa phương
- thực hiện
- Mainstream
- Làm
- Tháng Ba
- max-width
- có nghĩa là
- đo
- Phương tiện truyền thông
- Tên đệm
- Trung Đông
- triệu
- kiểu mẫu
- mô hình
- hiện đại
- Mohamed
- Mohammed
- chi tiết
- núi
- Được đặt theo tên
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- Thiên nhiên
- Gần
- Mới
- che
- of
- chính thức
- thường
- on
- Trực tuyến
- mở
- mã nguồn mở
- or
- Nền tảng khác
- ra
- riêng
- thông số
- người
- Thực hiện
- kế hoạch
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- chủ yếu
- ngăn chặn
- xử lý
- Giáo sư
- chương trình
- công khai
- truy vấn
- phạm vi
- Đọc
- Chiêu quân
- gần đây
- phát hành
- Báo cáo
- nghiên cứu
- nhà nghiên cứu
- Trả lời
- Đua tranh
- sự mạnh mẽ
- Phòng
- s
- Nói
- nói
- Quy mô
- an ninh
- ngắn
- có ý nghĩa
- Silicon
- 6
- Kích thước máy
- Mạng xã hội
- truyền thông xã hội
- nguồn
- nói
- diễn giả
- riêng
- đặc biệt
- nói
- Tiêu chuẩn
- Chiến lược
- sải bước
- công ty con
- như vậy
- Công tắc điện
- hệ thống
- hệ thống
- nhiệm vụ
- nhóm
- Công nghệ
- Công nghệ
- Đổi mới Công nghệ
- về
- văn bản
- việc này
- Sản phẩm
- thế giới
- Đó
- Kia là
- họ
- những
- đến
- nói với
- công cụ
- Chủ đề
- đào tạo
- Hội thảo
- Các Tiểu vương quốc Ả Rập
- hiểu
- độc đáo
- Kỳ
- Ả Rập thống nhất
- các Tiểu Vương Quốc Ả Rập Thống Nhất
- trường đại học
- Tiết lộ
- đã sử dụng
- người sử dang
- Kinh nghiệm người dùng
- thường
- phiên bản
- là
- Washington
- we
- cái nào
- trong khi
- CHÚNG TÔI LÀ
- rộng
- Phạm vi rộng
- rộng rãi
- sẽ
- với
- làm việc
- thế giới
- khắp thế giới
- viết
- viết
- zayed
- zephyrnet