AI DeepMind này học nhanh các kỹ năng mới chỉ bằng cách quan sát con người

AI DeepMind này học nhanh các kỹ năng mới chỉ bằng cách quan sát con người

AI DeepMind này học nhanh các kỹ năng mới chỉ bằng cách theo dõi trí thông minh dữ liệu PlatoBlockchain của con người. Tìm kiếm dọc. Ái.

Việc dạy các thuật toán bắt chước con người thường đòi hỏi hàng trăm hoặc hàng nghìn ví dụ. Nhưng AI mới của Google DeepMind có thể tiếp thu các kỹ năng mới từ con người một cách nhanh chóng.

Một trong những thủ thuật vĩ đại nhất của loài người là khả năng tiếp thu kiến ​​thức của nhau một cách nhanh chóng và hiệu quả. Kiểu học tập xã hội này, thường được gọi là sự truyền tải văn hóa, là thứ cho phép chúng ta chỉ cho đồng nghiệp cách sử dụng một công cụ mới hoặc dạy con chúng ta những vần điệu mẫu giáo.

Không có gì ngạc nhiên khi các nhà nghiên cứu đã cố gắng tái tạo quy trình này trên máy móc. Học bắt chước, trong đó AI quan sát con người hoàn thành một nhiệm vụ và sau đó cố gắng bắt chước hành vi của họ, từ lâu đã là một phương pháp phổ biến để huấn luyện robot. Nhưng ngay cả các thuật toán deep learning tiên tiến nhất hiện nay cũng thường cần xem nhiều ví dụ trước khi có thể sao chép thành công bộ huấn luyện của mình.

Khi con người học thông qua việc bắt chước, họ thường có thể nhận được những nhiệm vụ mới chỉ sau một vài lần làm mẫu. Giờ đây, các nhà nghiên cứu của Google DeepMind đã thực hiện một bước hướng tới việc học tập xã hội nhanh chóng trong AI với các tác nhân học cách điều hướng thế giới ảo từ con người trong thời gian thực.

Các nhà nghiên cứu viết trong một báo cáo: “Các đặc vụ của chúng tôi đã thành công trong việc bắt chước con người theo thời gian thực trong những bối cảnh mới lạ mà không cần sử dụng bất kỳ dữ liệu nào được thu thập trước về con người”. giấy trong Nature Communications. "Chúng tôi xác định được một tập hợp các thành phần đơn giản đến mức đáng kinh ngạc, đủ để tạo ra sự truyền tải văn hóa.”

Các nhà nghiên cứu đã đào tạo đặc vụ của họ trong một trình mô phỏng được thiết kế đặc biệt có tên GoalCycle3D. Trình mô phỏng sử dụng thuật toán để tạo ra số lượng gần như vô tận các môi trường khác nhau dựa trên các quy tắc về cách hoạt động của mô phỏng và những khía cạnh nào của nó sẽ thay đổi.

Trong mỗi môi trường, nhỏ như đốm màu Đại lý AI phải di chuyển trên địa hình không bằng phẳng và nhiều chướng ngại vật khác nhau để vượt qua hàng loạt quả cầu màu theo một thứ tự cụ thể. Độ gập ghềnh của địa hình, mật độ chướng ngại vật và hình dạng của các quả cầu khác nhau giữa các môi trường.

Các tác nhân được đào tạo để điều hướng bằng cách sử dụng học tăng cường. Họ nhận được phần thưởng khi đi qua các quả cầu theo đúng thứ tự và sử dụng tín hiệu này để cải thiện hiệu suất của mình qua nhiều thử nghiệm. Nhưng ngoài ra, các môi trường còn có một tác nhân chuyên gia—được mã hóa cứng hoặc do con người điều khiển—đã biết lộ trình chính xác trong suốt khóa học.

Qua nhiều đợt đào tạo, các tác nhân AI không chỉ học được các nguyên tắc cơ bản về cách vận hành của môi trường mà còn học được cách nhanh nhất để giải quyết từng vấn đề là bắt chước chuyên gia. Để đảm bảo các đặc vụ đang học cách bắt chước thay vì chỉ ghi nhớ các khóa học, nhóm đã huấn luyện họ trên một nhóm môi trường và sau đó thử nghiệm chúng trên một nhóm môi trường khác. Điều quan trọng là sau khi đào tạo, nhóm đã cho thấy rằng đặc vụ của họ có thể bắt chước một chuyên gia và tiếp tục đi theo lộ trình ngay cả khi không có chuyên gia.

Điều này đòi hỏi một số điều chỉnh đối với các phương pháp học tăng cường tiêu chuẩn.

Các nhà nghiên cứu đã làm cho thuật toán tập trung vào chuyên gia bằng cách cho nó dự đoán vị trí của tác nhân khác. Họ cũng tặng nó một mô-đun bộ nhớ. Trong quá trình đào tạo, chuyên gia sẽ ra vào môi trường, buộc tác nhân phải ghi nhớ các hành động của mình khi nó không còn hiện diện. AI cũng được đào tạo trên nhiều môi trường khác nhau, đảm bảo nó có thể nhìn thấy nhiều nhiệm vụ có thể thực hiện được.

Tuy nhiên, có thể khó áp dụng cách tiếp cận này sang các lĩnh vực thực tế hơn. Một hạn chế chính là khi các nhà nghiên cứu kiểm tra xem liệu AI có thể học hỏi từ các cuộc biểu diễn của con người hay không, đặc vụ chuyên gia sẽ được điều khiển bởi một người trong tất cả các đợt huấn luyện. Điều đó khiến thật khó để biết liệu các đặc vụ có thể học hỏi từ nhiều người hay không.

Điều cấp bách hơn là khả năng thay đổi ngẫu nhiên môi trường luyện tập sẽ khó tái tạo trong thế giới thực. Và nhiệm vụ cơ bản rất đơn giản, không yêu cầu điều khiển động cơ tinh vi và diễn ra trong môi trường ảo được kiểm soát chặt chẽ.

Tuy nhiên, tiến bộ học tập xã hội trong AI vẫn được hoan nghênh. Nếu chúng ta sống trong một thế giới có máy móc thông minh, việc tìm ra những cách hiệu quả và trực quan để chia sẻ kinh nghiệm và kiến ​​thức chuyên môn của chúng ta với chúng sẽ rất quan trọng.

Ảnh: Juliana và Mariana Amorim / Unsplash

Dấu thời gian:

Thêm từ Trung tâm cá biệt