GPT-4 ของ OpenAI จะไม่รัน Doom แต่จะเล่นเกมได้ไม่ดี

GPT-4 ของ OpenAI จะไม่รัน Doom แต่จะเล่นเกมได้ไม่ดี

คุณอาจพบว่าตัวเองอาศัยอยู่ในกระท่อมปืนลูกซอง และคุณอาจพบว่าตัวเองกำลังทำงานกับ GPT-4 และคุณอาจถามตัวเองว่า “GPT-4 จะรัน Doom ได้หรือไม่” และคุณอาจถามตัวเองว่า “ฉันพูดถูกไหม? ฉันผิดหรือเปล่า?”

Adrian de Wynter นักวิทยาศาสตร์ประยุกต์หลักของ Microsoft และนักวิจัยจาก University of York ในอังกฤษ ตั้งคำถามเหล่านี้ในรายงานการวิจัยล่าสุด "GPT-4 จะรัน Doom หรือไม่"

อนิจจา GPT-4 ซึ่งเป็นโมเดลภาษาขนาดใหญ่จาก OpenAI ที่สนับสนุนโดย Microsoft ขาดความสามารถในการรันซอร์สโค้ดของ Doom โดยตรง

แต่ตัวแปรต่อเนื่องหลายรูปแบบ GPT-4V ซึ่งสามารถรับภาพเป็นอินพุตและข้อความได้ แสดงให้เห็นถึงความสามารถย่อยที่น่ารักเหมือนกันในการเล่น วาระ เป็นโมเดลข้อความที่เต็มไปด้วยการเริ่มต้นสตาร์ทอัพด้าน AI นับไม่ถ้วน

“ภายใต้การตั้งค่าของรายงาน GPT-4 (และ GPT-4 ที่มีการมองเห็นหรือ GPT-4V) ไม่สามารถรัน Doom ได้ด้วยตัวเองจริงๆ เนื่องจากมันถูกจำกัดด้วยขนาดอินพุตของมัน (และเห็นได้ชัดว่ามันอาจจะสร้างสิ่งต่าง ๆ ขึ้น ; คุณคงไม่อยากให้คอมไพเลอร์ของคุณเกิดอาการประสาทหลอนทุกๆ ห้านาที)” เดอ วินเตอร์ เขียนอธิบาย หมายเหตุ เกี่ยวกับกระดาษของเขา “ที่กล่าวมา มันสามารถทำหน้าที่เป็นพร็อกซีสำหรับเครื่องยนต์ได้อย่างแน่นอน ไม่ต่างจาก 'มันจะรัน Doom หรือไม่' การนำไปปฏิบัติ เช่น อี coli or Notepad".

กล่าวคือ GPT-4V จะไม่รัน Doom เหมือนรถแทรกเตอร์จอห์นเดียร์ แต่จะเล่น Doom โดยไม่ต้องฝึกฝนเป็นพิเศษ

ในการจัดการสิ่งนี้ เดอ วินเตอร์ได้ออกแบบองค์ประกอบการมองเห็นที่เรียกว่า GPT-4V ซึ่งจะจับภาพหน้าจอจากเอ็นจิ้นเกมและส่งกลับคำอธิบายโครงสร้างของสถานะของเกม และเขาได้รวมสิ่งนั้นเข้ากับโมเดลตัวแทนที่เรียก GPT-4 เพื่อตัดสินใจโดยพิจารณาจากอินพุตภาพและประวัติก่อนหน้า โมเดลตัวแทนได้รับการบอกให้แปลการตอบสนองเป็นคำสั่งการกดแป้นพิมพ์ที่มีความหมายต่อเอ็นจิ้นเกม

การโต้ตอบได้รับการจัดการผ่านเลเยอร์ Manager ซึ่งประกอบด้วย Python โอเพ่นซอร์สที่เชื่อมโยงกับ เครื่องยนต์ซีดูม ทำงานบน Matplotlib

แผนภูมิแสดงการออกแบบระบบ GPT-4V สำหรับการเล่น DOOM

แผนภาพของ De Wynter แสดงการออกแบบระบบ GPT-4V สำหรับการเล่น Doom … คลิกเพื่อดูภาพขยาย

การผสมผสานระหว่างโมเดล AI และโค้ดนี้สามารถเปิดประตู ต่อสู้กับศัตรู และยิงอาวุธได้ ตามรายงาน และสามารถดำเนินการชุดคำสั่งที่กว้างขึ้น เช่น คำแนะนำแบบทีละระดับ เพื่อปรับปรุงประสิทธิภาพของตัวเอง

ข้อบกพร่องหลักของระบบที่ใช้ GPT-4V คือการขาดความคงทนของวัตถุ โดยจะลืมเกี่ยวกับซอมบี้ในเกมเมื่อพวกมันออกไปนอกจอ

GPT-4 ลืมเรื่องซอมบี้และเดินหน้าต่อไป

“ตัวอย่างเช่น มันเป็นเรื่องปกติมากที่นางแบบจะเห็นซอมบี้บนหน้าจอ และเริ่มยิงใส่มันจนกว่ามันจะโดน (หรือตาย)” เดอ วินเตอร์อธิบาย “ตอนนี้ นี่คือ AI ที่เขียนขึ้นเพื่อทำงานกับฮาร์ดแวร์ปี 1993 ดังนั้นฉันจะเดาว่ามันไม่มีแผนผังการตัดสินใจที่ลึกซึ้งมากนัก ซอมบี้จึงยิงใส่คุณแล้วเริ่มวิ่งไปรอบ ๆ ห้อง

“มีปัญหาอะไรที่นี่? อย่างแรกเลยก็คือซอมบี้ไม่อยู่ในสายตา ที่แย่กว่านั้นคือมันยังมีชีวิตอยู่และจะตีคุณเมื่อถึงจุดหนึ่ง งั้นก็ต้องตามไปใช่ไหม? ท้ายที่สุดแล้วใน Doom มันจะตีหรือถูกตี

“ปรากฎว่า GPT-4 ลืมเรื่องซอมบี้ไปแล้วและเดินหน้าต่อไป หมายเหตุ: ข้อความแจ้งจะแจ้งให้โมเดลทราบอย่างชัดเจนว่าต้องทำอย่างไรหากได้รับความเสียหายและไม่สามารถมองเห็นศัตรูได้ ยังดีกว่ามันก็แค่หลุดออกไปอย่างร่าเริง ติดอยู่ในมุมหนึ่งและตายไป มันหมุนไปมาสองสามครั้ง แต่ในการวิ่งเกือบ 50-60 ครั้ง ฉันสังเกตเห็นมัน… สองครั้ง ฉันอยากจะพูด”

นอกจากนี้ GPT-4 ยังไม่สามารถให้เหตุผลได้ดีนัก เมื่อถูกขอให้อธิบายการกระทำของตนซึ่งโดยทั่วไปแล้วถูกต้องตามบริบท คำอธิบายนั้นไม่ดีและมักมีอาการประสาทหลอน (หรือข้อมูลที่ไม่ถูกต้อง)

อย่างไรก็ตาม De Wynter ถือว่าน่าทึ่งที่ GPT-4 สามารถเล่น Doom ได้โดยไม่ต้องฝึกฝนล่วงหน้า

ขณะเดียวกันเขาก็พบว่ามันน่าหนักใจ

“ในแผนกจริยธรรม ค่อนข้างน่าเป็นห่วงว่า (ก) ฉันสร้างโค้ดเพื่อให้นางแบบถ่ายทำอะไรบางอย่างได้ง่ายแค่ไหน; และ (b) เพื่อให้นางแบบถ่ายภาพบางอย่างได้อย่างแม่นยำโดยไม่ต้องคาดเดาคำแนะนำจริงๆ” เขาเขียนในโพสต์สรุปของเขา

“ดังนั้น แม้ว่านี่จะเป็นการสำรวจที่น่าสนใจมากเกี่ยวกับการวางแผนและการให้เหตุผล และอาจมีแอปพลิเคชันในการทดสอบวิดีโอเกมอัตโนมัติ แต่ก็ค่อนข้างชัดเจนว่าโมเดลนี้ไม่ทราบว่ากำลังทำอะไรอยู่ ฉันขอแนะนำให้ทุกคนคิดถึงการใช้งานโมเดลเหล่านี้ [หมายถึง] ต่อสังคมและการใช้งานในทางที่ผิดที่อาจเกิดขึ้น”

และคุณอาจจะพูดกับตัวเองว่า “พระเจ้า ฉันได้ทำอะไรไปบ้าง?"

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน