AI ล่าสุดของ DeepMind เอาชนะผู้เล่นที่เป็นมนุษย์ในเกม 'Stratego' PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

AI ล่าสุดของ DeepMind เอาชนะผู้เล่นที่เป็นมนุษย์ในเกม 'Stratego'

AI เกลียดความไม่แน่นอน เพื่อสำรวจโลกที่คาดเดาไม่ได้ของเรา จำเป็นต้องเรียนรู้ที่จะเลือกด้วยข้อมูลที่ไม่สมบูรณ์ เช่นเดียวกับที่เราทำทุกวัน

DeepMind เพียง โดนแทง ในการแก้ปัญหาปริศนานี้ เคล็ดลับคือการผสมผสานทฤษฎีเกมเข้ากับกลยุทธ์แบบอัลกอริทึมโดยอ้างอิงจากสมองมนุษย์อย่างหลวมๆ ซึ่งเรียกว่าการเรียนรู้แบบเสริมแรงเชิงลึก ผลลัพธ์ที่ได้คือ DeepNash เอาชนะผู้เชี่ยวชาญของมนุษย์ในเกมกระดานเชิงกลยุทธ์ที่เรียกว่า Stratego Stratego เป็นเกมที่เล่นยากสำหรับ AI โดยต้องใช้จุดแข็งหลายอย่างของมนุษย์: การคิดระยะยาว การบลัฟ และการวางกลยุทธ์ ทั้งหมดนี้โดยที่คุณไม่รู้ว่าคู่ต่อสู้ของคุณมีท่าทีอย่างไรบนกระดาน

“ไม่เหมือนกับหมากรุกและโกะตรงที่ Stratego เป็นเกมที่มีข้อมูลไม่สมบูรณ์: ผู้เล่นไม่สามารถสังเกตตัวตนของชิ้นส่วนของฝ่ายตรงข้ามได้โดยตรง” DeepMind เขียน ในบล็อกโพสต์ ด้วย DeepNash “ระบบปัญญาประดิษฐ์ (AI) สำหรับเล่นเกมได้ก้าวไปสู่พรมแดนใหม่”

มันไม่ใช่ความสนุกและเกมทั้งหมด ระบบ AI ที่สามารถกำหนดทิศทางการสุ่มของโลกได้อย่างง่ายดายและปรับ "พฤติกรรม" ของมันตามนั้น วันหนึ่งอาจจัดการกับปัญหาในโลกแห่งความเป็นจริงด้วยข้อมูลที่จำกัด เช่น การปรับการไหลของการจราจรให้เหมาะสมเพื่อลดเวลาในการเดินทาง และ (หวังว่าจะ) ดับความเกรี้ยวกราดบนท้องถนนด้วยการขับรถด้วยตัวเอง รถยนต์กลายเป็นปัจจุบันมากขึ้น

“หากคุณกำลังสร้างรถยนต์ไร้คนขับ คุณคงไม่อยากคิดว่าคนขับรถคนอื่นๆ บนท้องถนนนั้นมีเหตุผลอย่างสมบูรณ์แบบ และจะประพฤติตัวอย่างเหมาะสม” กล่าวว่า ดร. นอม บราวน์ จาก Meta AI ซึ่งไม่ได้เกี่ยวข้องกับการวิจัย

ชัยชนะของ DeepNash เกิดขึ้นจากความก้าวหน้าของ AI อีกครั้งในเดือนนี้ อัลกอริทึมเรียนรู้การเล่นการทูต—เกมที่ต้องใช้การเจรจาและความร่วมมือเพื่อชัยชนะ เมื่อ AI ได้รับการให้เหตุผลที่ยืดหยุ่นมากขึ้น กลายเป็นเรื่องทั่วไปมากขึ้น และเรียนรู้ที่จะนำทางสถานการณ์ทางสังคม มันอาจจุดประกายความเข้าใจอย่างลึกซึ้งเกี่ยวกับกระบวนการทางประสาทและความรู้ความเข้าใจของสมองของเราเอง

พบกับ Stratego

ในแง่ของความซับซ้อน Stratego เป็นสัตว์ร้ายที่แตกต่างไปจากเดิมอย่างสิ้นเชิงเมื่อเทียบกับหมากรุก โกะ หรือโป๊กเกอร์ ซึ่งเป็นเกมทั้งหมดที่ AI เชี่ยวชาญมาก่อน

เกมดังกล่าวยึดธงเป็นหลัก แต่ละด้านมี 40 ชิ้นที่สามารถวางตำแหน่งใดก็ได้บนกระดาน แต่ละชิ้นจะมีชื่อและลำดับตัวเลขที่แตกต่างกัน เช่น "จอมพล" "นายพล" "ลูกเสือ" หรือ "สายลับ" ชิ้นส่วนที่มีอันดับสูงกว่าสามารถจับชิ้นส่วนที่ต่ำกว่าได้ เป้าหมายคือกำจัดฝ่ายค้านและยึดธงของพวกเขา

Stratego มีความท้าทายเป็นพิเศษสำหรับ AI เนื่องจากผู้เล่นไม่สามารถเห็นตำแหน่งของชิ้นส่วนของฝ่ายตรงข้ามได้ ทั้งในระหว่างการตั้งค่าเริ่มต้นและตลอดการเล่นเกม Stratego เป็นเกมที่มีข้อมูลที่จำกัด ซึ่งแตกต่างจากหมากรุกหรือโกะตรงที่แต่ละชิ้นและการเคลื่อนไหวอยู่ในมุมมอง ผู้เล่นต้อง “รักษาสมดุลของผลลัพธ์ที่เป็นไปได้ทั้งหมด” ทุกครั้งที่ตัดสินใจ ผู้เขียนอธิบาย

ความไม่แน่นอนในระดับนี้เป็นส่วนหนึ่งที่ทำให้ Stratego ทำให้ AI หยุดชะงักมานาน แม้แต่อัลกอริธึมการเล่นเกมที่ประสบความสำเร็จสูงสุด เช่น AlphaGo และ อัลฟาซีโร, อาศัยข้อมูลที่ครบถ้วน. ในทางตรงกันข้าม Stratego มีสัมผัส Texas Hold 'emก่อนหน้านี้ DeepMind เกมโป๊กเกอร์เอาชนะด้วยอัลกอริทึม แต่กลยุทธ์นั้นล้มเหลวสำหรับ Stratego ส่วนใหญ่เป็นเพราะความยาวของเกม ซึ่งปกติแล้วจะมีการเคลื่อนไหวหลายร้อยครั้งซึ่งไม่เหมือนกับโป๊กเกอร์

จำนวนการเล่นเกมที่เป็นไปได้นั้นเหลือเชื่อ หมากรุกมีตำแหน่งเริ่มต้นหนึ่งตำแหน่ง Stratego มีมากกว่า 1066 ตำแหน่งเริ่มต้นที่เป็นไปได้—มากกว่าดวงดาวทุกดวงในจักรวาล โครงสร้างเกมของ Stratego คือผลรวมของการเคลื่อนไหวที่เป็นไปได้ทั้งหมดในเกม รวมเป็น 10 ที่น่าทึ่ง535.

“ความซับซ้อนที่แท้จริงของจำนวนผลลัพธ์ที่เป็นไปได้ใน Stratego หมายถึงอัลกอริธึมที่ทำงานได้ดีกับเกมที่มีข้อมูลสมบูรณ์แบบ และแม้แต่เกมที่ใช้กับโป๊กเกอร์ก็ไม่ทำงาน” กล่าวว่า ผู้เขียนการศึกษา Dr. Julien Perolat ที่ DeepMind ความท้าทายคือ "สิ่งที่ทำให้เราตื่นเต้น" เขากล่าว

จิตใจงดงาม

ความซับซ้อนของ Stratego หมายความว่ากลยุทธ์ปกติสำหรับการค้นหาการเคลื่อนไหวในการเล่นเกมนั้นหมดคำถาม ขนานนามว่าการค้นหาต้นไม้มอนติคาร์โล ซึ่งเป็น "วิธีการที่เข้มงวดในการเล่นเกมโดยใช้ AI" เทคนิคนี้วางแผนเส้นทางที่เป็นไปได้ เช่น กิ่งไม้บนต้นไม้ ซึ่งอาจนำไปสู่ชัยชนะ

สัมผัสมหัศจรรย์สำหรับ DeepNash มาจากนักคณิตศาสตร์ John Nash ซึ่งแสดงในภาพยนตร์เรื่องนี้ จิตใจงดงาม. แนชผู้บุกเบิกทฤษฎีเกมได้รับรางวัลโนเบลจากผลงานของเขาสำหรับ สมดุลของแนช. พูดง่ายๆ ก็คือ ในแต่ละเกม ผู้เล่นสามารถใช้กลยุทธ์ชุดหนึ่งตามทุกคนได้ เพื่อไม่ให้ผู้เล่นคนใดได้รับอะไรจากการเปลี่ยนกลยุทธ์ของตนเอง ใน Statego สิ่งนี้นำมาซึ่งเกมผลรวมเป็นศูนย์: การได้รับใด ๆ ที่ผู้เล่นทำให้ฝ่ายตรงข้ามสูญเสีย

เนื่องจากความซับซ้อนของ Stratego DeepNash จึงใช้วิธีการแบบไม่มีโมเดลในอัลกอริทึม ในที่นี้ AI ไม่ได้พยายามจำลองพฤติกรรมของฝ่ายตรงข้ามอย่างแม่นยำ เช่นเดียวกับทารก มันมีกระดานชนวนที่ว่างเปล่า แปลก ๆ ให้เรียนรู้ การตั้งค่านี้มีประโยชน์อย่างยิ่งในช่วงแรกของการเล่นเกม “เมื่อ DeepNash รู้เพียงเล็กน้อยเกี่ยวกับชิ้นส่วนของคู่ต่อสู้” ทำให้การคาดเดา “ยาก ถ้าไม่ใช่เป็นไปไม่ได้” ผู้เขียนกล่าว

จากนั้นทีมใช้การเรียนรู้การเสริมแรงเชิงลึกเพื่อเพิ่มพลังให้กับ DeepNash โดยมีเป้าหมายเพื่อค้นหาสมดุลของแนชในเกม เป็นการจับคู่ที่เกิดขึ้นในสวรรค์: การเรียนรู้แบบเสริมกำลังช่วยตัดสินใจว่าก้าวต่อไปที่ดีที่สุดในทุกขั้นตอนของเกม ในขณะที่ DeepNash ให้กลยุทธ์การเรียนรู้โดยรวม ในการประเมินระบบ ทีมงานยังได้ออกแบบ "ติวเตอร์" โดยใช้ความรู้จากเกมเพื่อกรองข้อผิดพลาดที่ชัดเจนซึ่งไม่น่าจะสมเหตุสมผลในโลกแห่งความเป็นจริง

การทำให้สมบูรณ์

ขั้นตอนการเรียนรู้ขั้นแรก DeepNash เล่นกับตัวเองในเกม 5.5 พันล้านเกม ซึ่งเป็นแนวทางยอดนิยมในการฝึก AI ที่เรียกว่าการเล่นด้วยตัวเอง

เมื่อฝ่ายใดฝ่ายหนึ่งชนะ AI จะได้รับรางวัล และพารามิเตอร์เครือข่ายประสาทเทียมในปัจจุบันจะแข็งแกร่งขึ้น อีกด้านหนึ่ง—AI ตัวเดียวกัน—ได้รับโทษเพื่อลดความแข็งแกร่งของโครงข่ายประสาทเทียม มันเหมือนกับการซ้อมพูดกับตัวเองหน้ากระจก เมื่อเวลาผ่านไป คุณจะค้นพบข้อผิดพลาดและทำงานได้ดีขึ้น ในกรณีของ DeepNash มันเคลื่อนเข้าสู่สมดุลของ Nash เพื่อการเล่นเกมที่ดีที่สุด

แล้วประสิทธิภาพที่แท้จริงล่ะ?

ทีมงานได้ทดสอบอัลกอริทึมกับบอท Stratego ตัวอื่นๆ ซึ่งบางตัวก็ชนะการแข่งขัน Computer Stratego World Championship DeepNash เอาชนะคู่ต่อสู้ด้วยอัตราการชนะประมาณ 97 เปอร์เซ็นต์ เมื่อปะทะกับ Gravon ซึ่งเป็นแพลตฟอร์มออนไลน์สำหรับผู้เล่นที่เป็นมนุษย์ DeepNash ก็เอาชนะคู่ต่อสู้ที่เป็นมนุษย์ได้ หลังจากแข่งขันกับผู้เล่นของ Gravon นานกว่าสองสัปดาห์ในเดือนเมษายนปีนี้ DeepNash ขึ้นเป็นอันดับสามในการแข่งขันจัดอันดับทั้งหมดตั้งแต่ปี 2002

แสดงให้เห็นว่าการบูทสแตรปข้อมูลการเล่นของมนุษย์ไปยัง AI นั้นไม่จำเป็นสำหรับ DeepNash ในการเข้าถึงประสิทธิภาพระดับมนุษย์—และเอาชนะมันได้

AI ยังแสดงพฤติกรรมที่น่าสนใจด้วยการตั้งค่าเริ่มต้นและระหว่างการเล่นเกม ตัวอย่างเช่น แทนที่จะเลือกตำแหน่งเริ่มต้นที่ "เหมาะสมที่สุด" โดยเฉพาะ DeepNash ขยับชิ้นส่วนไปมาอย่างต่อเนื่องเพื่อป้องกันไม่ให้คู่ต่อสู้สังเกตเห็นรูปแบบเมื่อเวลาผ่านไป ในระหว่างการเล่นเกม AI จะเด้งไปมาระหว่างการเคลื่อนไหวที่ดูเหมือนไร้เหตุผล เช่น การสังเวยชิ้นส่วนระดับสูง เพื่อค้นหาชิ้นส่วนระดับสูงของฝ่ายตรงข้ามเมื่อโต้กลับ

DeepNash สามารถบลัฟได้เช่นกัน ในการเล่นครั้งหนึ่ง AI เคลื่อนย้ายชิ้นส่วนระดับต่ำราวกับว่ามันเป็นชิ้นส่วนระดับสูง ล่อให้ฝ่ายตรงข้ามที่เป็นมนุษย์ไล่ตามชิ้นส่วนด้วยพันเอกระดับสูง AI เสียสละเบี้ย แต่ในทางกลับกันก็ล่อชิ้นส่วนสายลับที่มีค่าของฝ่ายตรงข้ามเข้ามาซุ่มโจมตี

แม้ว่า DeepNash จะได้รับการพัฒนาสำหรับ Stratego แต่ก็สามารถทำให้เป็นมาตรฐานทั่วไปในโลกแห่งความเป็นจริงได้ วิธีการหลักอาจสั่งให้ AI จัดการกับอนาคตที่คาดเดาไม่ได้ได้ดีขึ้นโดยใช้ข้อมูลที่จำกัด ตั้งแต่การควบคุมฝูงชนและการจราจรไปจนถึงการวิเคราะห์ความวุ่นวายของตลาด

“ในการสร้างระบบ AI ที่สามารถใช้งานทั่วไปได้ซึ่งแข็งแกร่งเมื่อเผชิญกับความไม่แน่นอน เราหวังว่าจะนำความสามารถในการแก้ปัญหาของ AI มาสู่โลกที่คาดเดาไม่ได้ของเรา” ทีมงานกล่าว

เครดิตภาพ: ดีเร็ก บรูฟฟ์ / Flickr

ประทับเวลา:

เพิ่มเติมจาก Hub เอกพจน์