GPT-4 của OpenAI sẽ không chạy Doom nhưng sẽ chơi game kém

GPT-4 của OpenAI sẽ không chạy Doom nhưng sẽ chơi game kém

Bạn có thể thấy mình đang sống trong một căn lều súng ngắn. Và bạn có thể thấy mình đang làm việc với GPT-4. Và bạn có thể tự hỏi: “GPT-4 có chạy Doom không?” Và bạn có thể tự hỏi: “Tôi có đúng không? Liệu tôi có sai?"

Adrian de Wynter, nhà khoa học ứng dụng chính tại Microsoft và là nhà nghiên cứu tại Đại học York ở Anh, đã đặt ra những câu hỏi này trong một bài nghiên cứu gần đây, “GPT-4 có chạy Doom không?"

Than ôi, GPT-4, một mô hình ngôn ngữ lớn từ OpenAI do Microsoft hậu thuẫn, thiếu khả năng thực thi trực tiếp mã nguồn của Doom.

Nhưng biến thể đa phương thức của nó, GPT-4V, có thể chấp nhận hình ảnh làm đầu vào cũng như văn bản, thể hiện khả năng chơi phụ đáng yêu tương tự. Sự chết là những mô hình dựa trên văn bản đầy sức sống đã cho ra đời vô số công ty khởi nghiệp về AI.

“Theo thiết lập của bài báo, GPT-4 (và GPT-4 có tầm nhìn hoặc GPT-4V) thực sự không thể tự chạy Doom, bởi vì nó bị giới hạn bởi kích thước đầu vào của nó (và rõ ràng là nó có thể sẽ chỉ tạo ra nhiều thứ). ; bạn thực sự không muốn trình biên dịch của mình bị ảo giác cứ sau năm phút),” de Wynter viết trong một lời giải thích ghi về bài báo của anh ấy “Điều đó nói lên rằng, nó chắc chắn có thể hoạt động như một proxy cho động cơ, không giống như 'nó sẽ chạy Doom chứ?' việc triển khai, chẳng hạn như E. Coli or Notepad".

Tức là GPT-4V sẽ không chạy Doom giống như chiếc máy kéo John Deere nhưng nó sẽ chơi Doom mà không cần đào tạo cụ thể.

Để quản lý điều này, de Wynter đã thiết kế một thành phần Vision gọi là GPT-4V, thành phần này chụp ảnh màn hình từ công cụ trò chơi và trả về các mô tả cấu trúc về trạng thái trò chơi. Và anh ấy đã kết hợp điều đó với mô hình Đặc vụ gọi GPT-4 để đưa ra quyết định dựa trên thông tin đầu vào trực quan và lịch sử trước đó. Mô hình Đặc vụ đã được yêu cầu dịch các phản hồi của nó thành các lệnh nhấn phím có ý nghĩa đối với công cụ trò chơi.

Các tương tác được xử lý thông qua lớp Trình quản lý bao gồm liên kết Python nguồn mở với Động cơ C Doom chạy trên Matplotlib.

Sơ đồ thể hiện thiết kế hệ thống GPT-4V để chơi DOOM

Sơ đồ của De Wynter cho thấy thiết kế của hệ thống GPT-4V để chơi Doom … Bấm vào để phóng to

Theo bài báo, sự kết hợp giữa các mô hình AI và mã này có thể mở cửa, chiến đấu với kẻ thù và bắn vũ khí. Và nó có thể thực hiện một loạt hướng dẫn rộng hơn như hướng dẫn theo cấp độ để cải thiện hiệu suất của chính nó.

Thiếu sót chính của hệ thống dựa trên GPT-4V này là thiếu tính lâu dài của đối tượng - nó quên mất các thây ma trong trò chơi khi chúng rời khỏi màn hình.

GPT-4 quên mất zombie và tiếp tục đi

de Wynter giải thích: “Ví dụ: thông thường người mẫu sẽ nhìn thấy một thây ma trên màn hình và bắt đầu bắn vào nó cho đến khi nó bắn trúng (hoặc chết)”. “Bây giờ, đây là AI được viết để hoạt động với phần cứng năm 1993, vì vậy tôi đoán nó không có cây quyết định siêu sâu. Vì vậy, zombie bắn vào bạn và bắt đầu chạy quanh phòng.

“Vấn đề ở đây là gì? Chà, đầu tiên là zombie đi khuất tầm nhìn. Tệ hơn nữa, nó vẫn còn sống và sẽ tấn công bạn vào một lúc nào đó. Vì vậy bạn phải theo đuổi nó, phải không? Suy cho cùng, trong Doom, đó là đòn hoặc bị đòn.

“Hóa ra GPT-4 đã quên mất thây ma và cứ tiếp tục đi. Lưu ý: lời nhắc sẽ cho mô hình biết rõ ràng phải làm gì nếu nó bị sát thương và không thể nhìn thấy kẻ thù. Tốt hơn nữa, nó cứ đi vui vẻ, mắc kẹt trong một góc và chết. Nó đã quay lại một vài lần, nhưng trong gần 50-60 lần chạy, tôi đã quan sát thấy nó… tôi muốn nói là hai lần.”

Ngoài ra, GPT-4 không thể suy luận tốt lắm. Khi được yêu cầu giải thích các hành động của mình thường đúng trong bối cảnh, lời giải thích của nó rất kém và thường bao gồm ảo giác (hay còn gọi là thông tin không chính xác).

Tuy nhiên, De Wynter cho rằng điều đáng chú ý là GPT-4 có khả năng chơi Doom mà không cần đào tạo trước.

Đồng thời, anh thấy điều đó thật rắc rối.

“Về mặt đạo đức, điều khá đáng lo ngại là (a) tôi có thể dễ dàng xây dựng mã để khiến người mẫu chụp thứ gì đó; và (b) để người mẫu chụp chính xác thứ gì đó mà không cần phải suy đoán kỹ hướng dẫn,” anh viết trong bài đăng tóm tắt của mình.

“Vì vậy, mặc dù đây là một cuộc khám phá rất thú vị xung quanh việc lập kế hoạch và suy luận, đồng thời có thể có các ứng dụng trong thử nghiệm trò chơi điện tử tự động, nhưng khá rõ ràng là mô hình này không nhận thức được nó đang làm gì. Tôi thực sự kêu gọi mọi người hãy suy nghĩ về việc triển khai những mô hình này [có ý nghĩa gì] đối với xã hội và khả năng chúng bị lạm dụng.”

Và bạn có thể tự nhủ: “Chúa ơi, tôi đã làm gì thế này?” ®

Dấu thời gian:

Thêm từ Đăng ký