AI mới nhất của DeepMind đánh bại người chơi trong trò chơi trí tuệ dữ liệu PlatoBlockchain 'Chiến lược'. Tìm kiếm dọc. Ái.

AI mới nhất của DeepMind đánh bại người chơi trong trò chơi 'Stratego'

AI ghét sự không chắc chắn. Tuy nhiên, để điều hướng thế giới không thể đoán trước của chúng ta, nó cần học cách đưa ra lựa chọn với thông tin không hoàn hảo—như chúng ta vẫn làm hàng ngày.

DeepMind chỉ lấy một nhát dao trong việc giải bài toán hóc búa này. Bí quyết là đan xen lý thuyết trò chơi vào một chiến lược thuật toán dựa trên bộ não con người một cách lỏng lẻo gọi là học tăng cường sâu. Kết quả là DeepNash đã đánh bại các chuyên gia về con người trong một trò chơi cờ mang tính chiến lược cao có tên là Stratego. Là một trò chơi nổi tiếng khó đối với AI, Stratego đòi hỏi nhiều điểm mạnh về trí thông minh của con người: tư duy dài hạn, lừa bịp và lập chiến lược, tất cả mà không cần biết quân cờ của đối thủ trên bàn cờ.

“Không giống như cờ vua và cờ vây, Stratego là một trò chơi có thông tin không hoàn hảo: người chơi không thể trực tiếp quan sát danh tính quân cờ của đối thủ,” DeepMind đã viết trong một bài đăng trên blog. Với DeepNash, “các hệ thống trí tuệ nhân tạo (AI) khi chơi game đã tiến lên một tầm cao mới.”

Nó không phải là tất cả niềm vui và trò chơi. Các hệ thống AI có thể dễ dàng điều khiển tính ngẫu nhiên của thế giới chúng ta và điều chỉnh “hành vi” của chúng cho phù hợp, một ngày nào đó có thể xử lý các vấn đề trong thế giới thực với lượng thông tin hạn chế, chẳng hạn như tối ưu hóa lưu lượng giao thông để giảm thời gian di chuyển và (hy vọng) dập tắt cơn thịnh nộ trên đường như xe tự lái ô tô trở nên hiện diện hơn bao giờ hết.

“Nếu bạn đang chế tạo một chiếc ô tô tự lái, bạn không muốn cho rằng tất cả những người lái xe khác trên đường đều hoàn toàn hợp lý và sẽ hành xử một cách tối ưu,” nói Tiến sĩ Noam Brown tại Meta AI, người không tham gia nghiên cứu.

Chiến thắng của DeepNash trở nên nóng bỏng sau một bước tiến AI khác trong tháng này, nơi một thuật toán đã học để chơi Ngoại giao—một trò chơi đòi hỏi sự đàm phán và hợp tác để giành chiến thắng. Khi AI đạt được khả năng suy luận linh hoạt hơn, trở nên khái quát hơn và học cách điều hướng các tình huống xã hội, nó cũng có thể khơi dậy những hiểu biết sâu sắc về quá trình thần kinh và nhận thức của bộ não chúng ta.

gặp chiến lược

Xét về độ phức tạp, Stratego là một con thú hoàn toàn khác so với cờ vua, cờ vây hay bài xì phé—tất cả các trò chơi mà AI đã thành thạo trước đây.

Trò chơi về cơ bản là bắt cờ. Mỗi bên có 40 quân cờ, họ có thể đặt ở bất kỳ vị trí nào trên bàn cờ. Mỗi quân cờ có một tên và thứ hạng số khác nhau, chẳng hạn như “nguyên soái”, “tướng quân”, “trinh sát” hoặc “gián điệp”. Các mảnh xếp hạng cao hơn có thể bắt được những mảnh thấp hơn. Mục tiêu là loại bỏ phe đối lập và nắm bắt lá cờ của họ.

Stratego đặc biệt thách thức đối với AI vì người chơi không thể nhìn thấy vị trí quân cờ của đối thủ, cả trong quá trình thiết lập ban đầu và trong suốt quá trình chơi trò chơi. Không giống như cờ vua hay cờ vây, trong đó từng quân cờ và nước đi đều được quan sát, Stratego là một trò chơi có thông tin hạn chế. Các tác giả giải thích rằng người chơi phải “cân bằng tất cả các kết quả có thể xảy ra” bất cứ khi nào họ đưa ra quyết định.

Mức độ không chắc chắn này là một phần lý do tại sao Stratego đã đánh bại AI trong nhiều năm. Ngay cả những thuật toán chơi trò chơi thành công nhất, chẳng hạn như AlphaGo và alphazero, dựa vào thông tin đầy đủ. Stratego, ngược lại, có một liên lạc của Texas Giữ chúng, một trò chơi poker mà DeepMind đã chinh phục trước đó bằng một thuật toán. Nhưng chiến lược đó đã thất bại đối với Stratego, phần lớn là do độ dài của trò chơi, không giống như bài xì phé, thường bao gồm hàng trăm nước đi.

Số lượt chơi trò chơi tiềm năng là đáng kinh ngạc. Cờ vua có một vị trí bắt đầu. Stratego có hơn 1066 vị trí bắt đầu có thể—nhiều hơn tất cả các vì sao trong vũ trụ. Cây trò chơi của Stratego, tổng của tất cả các nước đi tiềm năng trong trò chơi, tổng cộng là 10535.

“Sự phức tạp tuyệt đối của số lượng các kết quả có thể xảy ra trong Stratego có nghĩa là các thuật toán hoạt động tốt trên các trò chơi có thông tin hoàn hảo và thậm chí cả những thuật toán phù hợp với bài xì phé, đều không hoạt động,” nói tác giả nghiên cứu Tiến sĩ Julien Perolat tại DeepMind. Anh ấy nói: “Thách thức là điều khiến chúng tôi phấn khích.

A Beautiful Mind

Sự phức tạp của Stratego có nghĩa là chiến lược thông thường để tìm kiếm các bước di chuyển trong trò chơi là điều không cần bàn cãi. Được mệnh danh là tìm kiếm trên cây Monte Carlo, một “cách tiếp cận hiệu quả đối với trò chơi dựa trên AI”, kỹ thuật này vạch ra các lộ trình tiềm năng—chẳng hạn như các nhánh trên cây—có thể dẫn đến chiến thắng.

Thay vào đó, cảm ứng kỳ diệu cho DeepNash đến từ nhà toán học John Nash, được miêu tả trong phim A Beautiful Mind. Là người tiên phong trong lý thuyết trò chơi, Nash đã giành giải thưởng Nobel cho công trình nghiên cứu của mình trạng thái cân bằng Nash. Nói một cách đơn giản, trong mỗi trò chơi, người chơi có thể tham gia vào một tập hợp các chiến lược mà mọi người đều tuân theo, để không một người chơi nào đạt được bất cứ điều gì bằng cách thay đổi chiến lược của chính họ. Trong Statego, điều này dẫn đến một trò chơi có tổng bằng không: bất kỳ lợi ích nào mà người chơi đạt được đều dẫn đến thua lỗ cho đối thủ của họ.

Do sự phức tạp của Stratego, DeepNash đã áp dụng cách tiếp cận không có mô hình đối với thuật toán của họ. Ở đây, AI không cố gắng mô hình hóa chính xác hành vi của đối thủ. Giống như một đứa trẻ sơ sinh, nó có một bảng trống để học. Các tác giả cho biết thiết lập này đặc biệt hữu ích trong giai đoạn đầu của trò chơi, “khi DeepNash biết rất ít về các quân cờ của đối thủ,” khiến việc đưa ra dự đoán “rất khó, nếu không muốn nói là không thể”.

Sau đó, nhóm đã sử dụng phương pháp học tăng cường sâu để cung cấp năng lượng cho DeepNash, với mục tiêu tìm ra trạng thái cân bằng Nash của trò chơi. Đó là một trận đấu được tạo ra từ thiên đường: học tăng cường giúp quyết định nước đi tiếp theo tốt nhất ở mọi bước của trò chơi, trong khi DeepNash cung cấp một chiến lược học tập tổng thể. Để đánh giá hệ thống, nhóm cũng đã thiết kế một “người hướng dẫn” sử dụng kiến ​​thức từ trò chơi để lọc ra những lỗi rõ ràng có thể không hợp lý trong thế giới thực.

Thực hành làm cho hoàn hảo

Ở bước học đầu tiên, DeepNash đã chơi với chính nó trong 5.5 tỷ trò chơi, một cách tiếp cận phổ biến trong đào tạo AI được gọi là tự chơi.

Khi một bên thắng, AI sẽ được thưởng và các thông số mạng thần kinh nhân tạo hiện tại của nó được củng cố. Phía bên kia—cũng chính AI đó—nhận một hình phạt để làm giảm sức mạnh mạng lưới thần kinh của nó. Nó giống như diễn tập một bài phát biểu cho chính mình trước gương. Theo thời gian, bạn tìm ra những sai lầm và thực hiện tốt hơn. Trong trường hợp của DeepNash, nó hướng tới trạng thái cân bằng Nash để có lối chơi tốt nhất.

Điều gì về hiệu suất thực tế?

Nhóm đã thử nghiệm thuật toán này với các bot Stratego ưu tú khác, một số đã giành được Giải vô địch thế giới về Stratego máy tính. DeepNash đã đè bẹp đối thủ của mình với tỷ lệ thắng khoảng 97%. Khi được tung ra để chống lại Gravon—một nền tảng trực tuyến dành cho người chơi—DeepNash đã đánh bại các đối thủ là con người của nó. Sau hơn hai tuần thi đấu với các tuyển thủ của Gravon vào tháng 2002 năm nay, DeepNash đã vươn lên vị trí thứ ba trong tất cả các trận đấu xếp hạng kể từ năm XNUMX.

Nó cho thấy rằng DeepNash không cần thiết phải chuyển đổi dữ liệu trò chơi của con người sang AI để đạt được hiệu suất ở cấp độ con người—và đánh bại nó.

AI cũng thể hiện một số hành vi hấp dẫn với thiết lập ban đầu và trong quá trình chơi trò chơi. Ví dụ: thay vì cố định ở một vị trí bắt đầu “được tối ưu hóa” cụ thể, DeepNash liên tục di chuyển các quân cờ xung quanh để ngăn đối thủ phát hiện ra các mẫu theo thời gian. Trong quá trình chơi trò chơi, AI nảy giữa các bước di chuyển dường như vô nghĩa—chẳng hạn như hy sinh các quân cờ có thứ hạng cao—để xác định vị trí các quân cờ thậm chí còn cao hơn của đối thủ khi phản công.

DeepNash cũng có thể vô tội vạ. Trong một lần chơi, AI di chuyển một quân cờ cấp thấp như thể đó là một quân cờ cấp cao, dụ đối thủ là con người đuổi theo quân cờ có đại tá cấp cao của nó. AI đã hy sinh con tốt, nhưng đổi lại, dụ quân gián điệp có giá trị của đối phương vào một cuộc phục kích.

Mặc dù DeepNash được phát triển cho Stratego, nhưng nó có thể khái quát hóa trong thế giới thực. Phương pháp cốt lõi có khả năng hướng dẫn AI giải quyết tốt hơn tương lai không thể đoán trước của chúng ta bằng cách sử dụng thông tin hạn chế—từ kiểm soát đám đông và giao thông đến phân tích tình trạng hỗn loạn của thị trường.

Nhóm nghiên cứu cho biết: “Khi tạo ra một hệ thống AI có thể khái quát hóa, mạnh mẽ khi đối mặt với sự không chắc chắn, chúng tôi hy vọng sẽ đưa khả năng giải quyết vấn đề của AI đi xa hơn vào thế giới vốn không thể đoán trước của chúng ta”.

Ảnh: Derek Bruff / Flickr

Dấu thời gian:

Thêm từ Trung tâm cá biệt