DeepMind cho biết AI đa trò chơi mới là một bước tiến tới trí thông minh tổng quát hơn

DeepMind cho biết AI đa trò chơi mới là một bước tiến tới trí thông minh tổng quát hơn

DeepMind cho biết AI đa trò chơi mới là một bước tiến tới trí thông minh tổng quát hơn Trí thông minh dữ liệu chuỗi khối Plato. Tìm kiếm dọc. Ái.

AI đã thành thạo một số trò chơi phức tạp nhất mà con người biết đến, nhưng các mô hình thường được điều chỉnh để giải quyết các loại thách thức cụ thể. Người tạo ra thuật toán DeepMind mới có thể giải quyết nhiều loại trò chơi khác nhau có thể là một bước tiến tới AI tổng quát hơn.

Việc sử dụng trò chơi làm chuẩn mực cho AI đã có từ lâu đời. Khi thuật toán Deep Blue của IBM đánh bại nhà vô địch cờ vua thế giới Garry Kasparov vào năm 1997, nó được ca ngợi là một cột mốc quan trọng cho lĩnh vực này. Tương tự, khi AlphaGo của DeepMind bị đánh bại một trong những kỳ thủ cờ vây hàng đầu thế giới, Lee Sedol, vào năm 2016, đã dẫn đến một làn sóng phấn khích về tiềm năng của AI.

DeepMind được xây dựng dựa trên thành công này với AlphaZero, một hình mẫu thông thạo nhiều trò chơi khác nhau, bao gồm cờ vua và shogi. Nhưng ấn tượng như thế này, AlphaZero chỉ hoạt động với những trò chơi thông tin hoàn hảo trong đó mọi chi tiết của trò chơi, ngoài ý định của đối thủ, đều được cả hai người chơi nhìn thấy. Điều này bao gồm các trò chơi như cờ vây và cờ vua, nơi cả hai người chơi luôn có thể nhìn thấy tất cả các quân cờ trên bàn cờ.

Ngược lại, trò chơi thông tin không hoàn hảo liên quan đến một số chi tiết bị ẩn khỏi người chơi khác. Poker là một ví dụ điển hình vì người chơi không thể nhìn thấy đối thủ của mình đang cầm bài gì. Hiện nay cũng có những mô hình có thể đánh bại các chuyên gia trong các loại trò chơi này, nhưng chúng sử dụng cách tiếp cận hoàn toàn khác với các thuật toán như AlphaZero.

Giờ đây, các nhà nghiên cứu tại DeepMind đã kết hợp các yếu tố của cả hai phương pháp để tạo ra một mô hình có thể đánh bại con người ở các môn cờ vua, cờ vây và poker. Nhóm nghiên cứu tuyên bố bước đột phá này có thể đẩy nhanh nỗ lực tạo ra các thuật toán AI tổng quát hơn có thể học cách giải quyết nhiều nhiệm vụ khác nhau.

Các nhà nghiên cứu xây dựng AI để chơi các trò chơi thông tin hoàn hảo thường dựa vào phương pháp được gọi là tìm kiếm cây. Điều này khám phá vô số cách trò chơi có thể phát triển từ trạng thái hiện tại, với các nhánh khác nhau vạch ra các chuỗi di chuyển tiềm năng. AlphaGo kết hợp tìm kiếm cây với kỹ thuật học máy trong đó mô hình tinh chỉnh các kỹ năng của mình bằng cách tự chơi đi chơi lại và học hỏi từ những sai lầm của mình.

Khi nói đến các trò chơi thông tin không hoàn hảo, thay vào đó, các nhà nghiên cứu có xu hướng dựa vào lý thuyết trò chơi, sử dụng các mô hình toán học để vạch ra các giải pháp hợp lý nhất cho các vấn đề chiến lược. Lý thuyết trò chơi được sử dụng rộng rãi trong kinh tế học để hiểu cách mọi người đưa ra lựa chọn trong các tình huống khác nhau, nhiều trong số đó liên quan đến thông tin không hoàn hảo.

Năm 2016, một AI có tên DeepStack đánh bại các chuyên gia con người trong trò chơi poker không giới hạn, nhưng mô hình này rất chuyên biệt cho trò chơi cụ thể đó. Tuy nhiên, phần lớn nhóm DeepStack hiện làm việc tại DeepMind và họ đã kết hợp các kỹ thuật đã sử dụng để xây dựng DeepStack với các kỹ thuật được sử dụng trong AlphaZero.

Thuật toán mới, được gọi là Sinh viên trò chơi, sử dụng kết hợp tìm kiếm cây, tự chơi và lý thuyết trò chơi để giải quyết cả trò chơi thông tin hoàn hảo và không hoàn hảo. trong một giấy trong Khoa họcCác nhà nghiên cứu báo cáo rằng thuật toán này đã đánh bại AI chơi bài poker công khai tốt nhất, Slumbot, đồng thời cũng có thể chơi cờ vây và cờ vua ở cấp độ chuyên nghiệp của con người, mặc dù nó không thể sánh được với các thuật toán chuyên dụng như AlphaZero.

Nhưng trở thành một người giỏi mọi nghề thay vì thành thạo một nghề được cho là phần thưởng lớn hơn trong nghiên cứu AI. Mặc dù học sâu thường có thể đạt được hiệu suất siêu phàm trong các nhiệm vụ cụ thể, nhưng việc phát triển các dạng AI tổng quát hơn có thể áp dụng cho nhiều vấn đề lại phức tạp hơn. Các nhà nghiên cứu cho biết một mô hình có thể xử lý cả trò chơi thông tin hoàn hảo và không hoàn hảo là “một bước quan trọng hướng tới các thuật toán thực sự tổng quát cho các môi trường tùy ý”.

Điều quan trọng là không nên ngoại suy quá nhiều từ kết quả, Michael Rovatsos từ Đại học Edinburgh, Vương quốc Anh, nói với New Scientist. AI vẫn hoạt động trong môi trường đơn giản và được kiểm soát của trò chơi, trong đó số lượng hành động có thể thực hiện bị hạn chế và các quy tắc được xác định rõ ràng. Điều đó khác xa với thực tế lộn xộn của thế giới thực.

Nhưng ngay cả khi đây chỉ là một bước nhỏ, thì việc có thể kết hợp các phương pháp tiếp cận hàng đầu cho hai loại trò chơi rất khác nhau trong một mô hình duy nhất cũng là một thành tựu đáng kể. Và đó chắc chắn có thể là kế hoạch chi tiết cho những mẫu xe tổng quát và có khả năng hơn trong tương lai.

Ảnh: Hassan Pasha / Unsplash

Dấu thời gian:

Thêm từ Trung tâm cá biệt