การจัด AI ให้สอดคล้องกับคุณค่าของมนุษย์หมายความว่าอย่างไร PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.

การจัด AI ให้สอดคล้องกับคุณค่าของมนุษย์หมายความว่าอย่างไร

บทนำ

หลายปีก่อน ฉันเรียนรู้การเขียนโปรแกรมบน Symbolics Lisp Machine เครื่องเก่า ระบบปฏิบัติการมีคำสั่งในตัวที่สะกดว่า “DWIM” ซึ่งย่อมาจาก “Do What I Mean” ถ้าฉันพิมพ์คำสั่งแล้วเกิดข้อผิดพลาด ฉันสามารถพิมพ์ “DWIM” และเครื่องจะพยายามคิดว่าฉันหมายถึงอะไร ในช่วงเวลาที่น่าประหลาดใจ มันใช้งานได้จริง

คำสั่ง DWIM เป็นปัญหาเล็ก ๆ ของปัญหาที่ทันสมัยกว่าของ “AI alignment”: มนุษย์เรามีแนวโน้มที่จะให้คำสั่งที่ไม่ชัดเจนหรือผิดพลาดแก่เครื่องจักร และเราต้องการให้พวกเขาทำในสิ่งที่เราหมายถึง ไม่จำเป็นต้องเป็นสิ่งที่เราพูด

คอมพิวเตอร์มักจะเข้าใจผิดในสิ่งที่เราต้องการให้พวกเขาทำ โดยได้ผลลัพธ์ที่ไม่คาดคิดและน่าขบขัน ตัวอย่างเช่น นักวิจัยแมชชีนเลิร์นนิงคนหนึ่ง กำลังตรวจสอบผลลัพธ์ที่ดีอย่างน่าสงสัยของโปรแกรมการจัดหมวดหมู่รูปภาพ ค้นพบ การจัดประเภทไม่ได้ขึ้นอยู่กับตัวภาพ แต่ขึ้นอยู่กับระยะเวลาที่ใช้ในการเข้าถึงไฟล์ภาพ รูปภาพจากคลาสต่างๆ จะถูกจัดเก็บไว้ในฐานข้อมูลโดยมีเวลาเข้าถึงต่างกันเล็กน้อย อื่น โปรแกรมเมอร์กล้าได้กล้าเสีย ต้องการให้เครื่องดูดฝุ่น Roomba ของเขาหยุดกระแทกกับเฟอร์นิเจอร์ เขาจึงเชื่อมต่อ Roomba เข้ากับโครงข่ายประสาทเทียมที่ให้ความเร็วแต่กลับลงโทษ Roomba เมื่อกันชนหน้าไปชนกับอะไรบางอย่าง เครื่องจักรตอบสนองวัตถุประสงค์เหล่านี้ด้วยการขับถอยหลังเสมอ

แต่ชุมชนนักวิจัยการจัดตำแหน่ง AI มองเห็นด้านมืดของเกร็ดเล็กเกร็ดน้อยเหล่านี้ ในความเป็นจริงแล้ว พวกเขาเชื่อว่าการที่เครื่องจักรไม่สามารถแยกแยะสิ่งที่เราต้องการให้ทำนั้นเป็นความเสี่ยงที่มีอยู่จริง เพื่อแก้ปัญหานี้ พวกเขาเชื่อว่าเราต้องหาวิธีที่จะทำให้ระบบ AI สอดคล้องกับความชอบ เป้าหมาย และค่านิยมของมนุษย์

มุมมองนี้ได้รับความโดดเด่นจากหนังสือขายดีประจำปี 2014 ซุปเปอร์อินเทลลิเจนซ์ โดยนักปรัชญา นิค บอสตรอม ซึ่งโต้แย้งว่าความฉลาดที่เพิ่มขึ้นของคอมพิวเตอร์อาจเป็นภัยคุกคามโดยตรงต่ออนาคตของมนุษยชาติ บอสตรอมไม่เคยให้คำจำกัดความของหน่วยสืบราชการลับอย่างแม่นยำ แต่ก็เหมือนกับคนอื่นๆ ส่วนใหญ่ในชุมชนการจัดตำแหน่ง AI เขานำคำนิยามนี้มาใช้ในภายหลัง ซึ่งพูดชัดแจ้ง โดยนักวิจัย AI Stuart russell ดังที่ว่า: "เอนทิตีจะถือว่ามีความฉลาด พูดประมาณว่า ถ้าเลือกการกระทำที่คาดว่าจะบรรลุวัตถุประสงค์ โดยพิจารณาจากสิ่งที่รับรู้"

บอสตรอมพิจารณาจากมุมมองของเขาเกี่ยวกับความเสี่ยงของ AI ในสองประเด็นนี้ ประการแรกคือวิทยานิพนธ์มุมฉากซึ่งกล่าวในคำพูดของ Bostrom ว่า "ความฉลาดและเป้าหมายสุดท้ายคือแกนมุมฉากซึ่งตัวแทนที่เป็นไปได้สามารถเปลี่ยนแปลงได้อย่างอิสระ กล่าวอีกนัยหนึ่ง โดยหลักการแล้วระดับสติปัญญาไม่มากก็น้อยสามารถรวมเข้ากับเป้าหมายสุดท้ายได้มากหรือน้อย” ประการที่สองคือวิทยานิพนธ์การบรรจบกันของเครื่องมือซึ่งบอกเป็นนัยว่าตัวแทนที่ชาญฉลาดจะดำเนินการในลักษณะที่ส่งเสริมการอยู่รอดของตนเอง การพัฒนาตนเอง และการได้มาซึ่งทรัพยากร ตราบเท่าที่สิ่งเหล่านี้ทำให้ตัวแทนมีแนวโน้มที่จะบรรลุเป้าหมายสุดท้าย จากนั้นเขาก็ตั้งสมมติฐานสุดท้าย: ในไม่ช้านักวิจัยจะสร้างปัญญาประดิษฐ์ AI ที่ "เหนือกว่าประสิทธิภาพการรับรู้ของมนุษย์อย่างมากในแทบทุกด้านที่น่าสนใจ"

สำหรับบอสตรอมและคนอื่นๆ ในชุมชนการจัดตำแหน่ง AI โอกาสนี้ถือเป็นหายนะสำหรับมนุษยชาติ เว้นแต่เราจะประสบความสำเร็จในการจัดตำแหน่งปัญญาประดิษฐ์อัจฉริยะให้สอดคล้องกับความต้องการและค่านิยมของเรา Bostrom แสดงให้เห็นถึงอันตรายนี้ด้วยการทดลองทางความคิดที่โด่งดังในขณะนี้: ลองนึกภาพการให้ AI ที่ชาญฉลาดมีเป้าหมายในการเพิ่มการผลิตคลิปหนีบกระดาษให้ได้สูงสุด ตามวิทยานิพนธ์ของ Bostrom ในภารกิจเพื่อให้บรรลุวัตถุประสงค์นี้ ระบบ AI จะใช้ความฉลาดเหนือมนุษย์และความคิดสร้างสรรค์เพื่อเพิ่มพลังและการควบคุมของตนเอง ท้ายที่สุดจะได้ทรัพยากรทั้งหมดของโลกเพื่อผลิตคลิปหนีบกระดาษมากขึ้น มนุษยชาติจะตาย แต่การผลิตคลิปหนีบกระดาษจะเพิ่มขึ้นสูงสุด

หากคุณเชื่อว่าความฉลาดถูกกำหนดโดยความสามารถในการบรรลุเป้าหมาย มนุษย์สามารถ "ใส่" เป้าหมายใด ๆ เข้าไปในตัวแทน AI ที่ฉลาดล้ำได้ และตัวแทนดังกล่าวจะใช้ความฉลาดหลักแหลมเพื่อทำทุกอย่างเพื่อให้บรรลุเป้าหมายนั้น คุณจะ มาถึงที่เดียวกัน ข้อสรุป ที่ Russell ทำ: "สิ่งที่จำเป็นในการประกันหายนะคือเครื่องจักรที่มีความสามารถสูงรวมกับมนุษย์ที่มีความสามารถที่ไม่สมบูรณ์แบบในการระบุความชอบของมนุษย์อย่างสมบูรณ์และถูกต้อง"

เป็นเรื่องที่คุ้นเคยในนิยายวิทยาศาสตร์ มนุษยชาติถูกคุกคามโดยเครื่องจักรที่ไม่สามารถควบคุมได้ซึ่งตีความความปรารถนาของมนุษย์ผิดไป ตอนนี้ ชุมชนวิจัย AI บางส่วนที่ไม่สำคัญมีความกังวลอย่างมากเกี่ยวกับสถานการณ์แบบนี้ที่เกิดขึ้นในชีวิตจริง สถาบันหลายสิบแห่งได้ใช้เงินหลายร้อยล้านดอลลาร์ไปกับปัญหานี้แล้ว และความพยายามในการวิจัยเกี่ยวกับการจัดตำแหน่งกำลังดำเนินการอยู่ในมหาวิทยาลัยต่างๆ ทั่วโลก และที่บริษัท AI ขนาดใหญ่ เช่น Google, Meta และ OpenAI

แล้วความเสี่ยงที่เพิ่มขึ้นในทันทีที่เกิดจาก AI ที่ไม่ฉลาดหลักแหลม เช่น การตกงาน ความลำเอียง การละเมิดความเป็นส่วนตัว และการเผยแพร่ข้อมูลที่ผิดๆ ล่ะ ปรากฎว่ามีความทับซ้อนกันเล็กน้อยระหว่างชุมชนที่เกี่ยวข้องกับความเสี่ยงในระยะสั้นดังกล่าวเป็นหลัก กับชุมชนที่กังวลมากขึ้นเกี่ยวกับความเสี่ยงในการจัดตำแหน่งในระยะยาว อันที่จริง มีบางอย่างเกี่ยวกับสงครามวัฒนธรรม AI โดยฝ่ายหนึ่งกังวลเกี่ยวกับความเสี่ยงในปัจจุบันมากกว่าสิ่งที่พวกเขามองว่าเป็นเทคโนโลยีแห่งอนาคตที่ไม่สมจริง และอีกด้านหนึ่งพิจารณาปัญหาปัจจุบันที่เร่งด่วนน้อยกว่าความเสี่ยงด้านหายนะที่อาจเกิดขึ้นจาก AI อัจฉริยะ

สำหรับหลาย ๆ คนที่อยู่นอกชุมชนเฉพาะเหล่านี้ แนวร่วมของ AI ดูเหมือนเป็นศาสนา — หนึ่งเดียวกับผู้นำที่น่านับถือ หลักคำสอนที่ปราศจากข้อสงสัย และสาวกที่อุทิศตนต่อสู้กับศัตรูที่อาจมีอำนาจทั้งหมด (AI อัจฉริยะที่ไม่อยู่ในแนวร่วม) อันที่จริง นักวิทยาศาสตร์คอมพิวเตอร์และบล็อกเกอร์ Scott Aaronson เมื่อเร็วๆ นี้ เด่น ที่ตอนนี้มีสาขา "ดั้งเดิม" และ "การปฏิรูป" ของความเชื่อในการจัดตำแหน่ง AI อดีตเขาเขียน กังวลเกือบทั้งหมดเกี่ยวกับ "AI ที่ไม่ถูกต้องซึ่งหลอกลวงมนุษย์ในขณะที่มันทำงานเพื่อทำลายพวกเขา" ในทางตรงกันข้าม เขาเขียนว่า “เราปฏิรูปผู้ที่มีความเสี่ยงด้าน AI ให้ความบันเทิงกับความเป็นไปได้นั้น แต่อย่างน้อยเราก็กังวลมากพอๆ กับ AI ที่ทรงพลังซึ่งติดอาวุธโดยมนุษย์ที่ไม่ดี ซึ่งเราคาดว่าจะก่อให้เกิดความเสี่ยงที่มีอยู่เร็วกว่านี้”

นักวิจัยจำนวนมากมีส่วนร่วมอย่างแข็งขันในโครงการที่เน้นการจัดตำแหน่ง ตั้งแต่ พยายามถ่ายทอดหลักการ ของปรัชญาทางศีลธรรมกับเครื่องจักรเพื่อ การฝึกอบรมโมเดลภาษาขนาดใหญ่ ในการตัดสินทางจริยธรรมจากฝูงชน ความพยายามเหล่านี้ไม่ได้มีประโยชน์อย่างยิ่งในการทำให้เครื่องจักรมีเหตุผลเกี่ยวกับสถานการณ์ในโลกแห่งความเป็นจริง นักเขียนหลายคนได้สังเกตเห็นอุปสรรคมากมายที่ขัดขวางไม่ให้เครื่องจักรเรียนรู้ความชอบและค่านิยมของมนุษย์: ผู้คนมักจะไม่มีเหตุผลและมีพฤติกรรมที่ขัดแย้งกับค่านิยมของพวกเขา และค่านิยมสามารถเปลี่ยนแปลงได้ตลอดช่วงชีวิตและรุ่นของปัจเจกบุคคล ท้ายที่สุด มันไม่ชัดเจนว่าเราควรให้เครื่องจักรพยายามเรียนรู้ค่านิยมของใคร

หลายคนในชุมชนการจัดตำแหน่งคิดว่าเส้นทางที่มีแนวโน้มมากที่สุดคือเทคนิคการเรียนรู้ด้วยเครื่องที่เรียกว่า การเรียนรู้การเสริมแรงแบบผกผัน (IRL). ด้วย IRL เครื่องจักรไม่ได้รับวัตถุประสงค์ในการขยายสูงสุด เป้าหมายที่ "สอดแทรก" ดังกล่าว ผู้สนับสนุนการจัดตำแหน่งเชื่อว่าสามารถนำไปสู่สถานการณ์ขยายคลิปหนีบกระดาษโดยไม่ได้ตั้งใจ หน้าที่ของเครื่องจักรคือการสังเกตพฤติกรรมของมนุษย์และอนุมานถึงความชอบ เป้าหมาย และคุณค่าของพวกเขา ในช่วงไม่กี่ปีที่ผ่านมา นักวิจัยได้ใช้ IRL เพื่อ ฝึกเครื่องให้เล่นวิดีโอเกม โดยการสังเกตมนุษย์และสอนหุ่นยนต์ วิธีการตีกลับ โดยให้คำติชมที่เพิ่มขึ้นจากมนุษย์ (คนดูคลิปสั้นๆ เกี่ยวกับความพยายามต่างๆ ของหุ่นยนต์ และเลือกอันที่ดูดีที่สุด)

ยังไม่ชัดเจนว่าวิธีการที่คล้ายกันสามารถสอนเครื่องจักรให้เข้าใจแนวคิดที่ลึกซึ้งและเป็นนามธรรมเกี่ยวกับคุณค่าของมนุษย์ได้หรือไม่ นักเขียน Brian Christian ผู้เขียน A หนังสือวิทยาศาสตร์ยอดนิยมเกี่ยวกับการจัดตำแหน่ง AIมองโลกในแง่ดี: “ไม่ใช่เรื่องไกลตัวที่จะจินตนาการถึงการแทนที่แนวคิดที่คลุมเครือของ 'ตีลังกากลับหลัง' ด้วยแนวคิดที่คลุมเครือและอธิบายไม่ได้ เช่น 'การให้ความช่วยเหลือ' หรือ 'ความกรุณา' หรือพฤติกรรมที่ 'ดี'”

อย่างไรก็ตาม ฉันคิดว่านี่เป็นการประเมินความท้าทายต่ำไป แนวคิดด้านจริยธรรม เช่น ความเมตตาและพฤติกรรมที่ดีนั้นซับซ้อนและขึ้นอยู่กับบริบทมากกว่าสิ่งที่ IRL เชี่ยวชาญจนถึงตอนนี้ พิจารณาแนวคิดเรื่อง "ความจริงใจ" ซึ่งเป็นคุณค่าที่เราต้องการในระบบ AI ของเรา แท้จริงแล้ว ปัญหาสำคัญของโมเดลภาษาขนาดใหญ่ในปัจจุบันคือการไม่สามารถแยกแยะความจริงออกจากความเท็จได้ ในขณะเดียวกัน บางครั้งเราอาจต้องการผู้ช่วย AI เช่นเดียวกับมนุษย์ เพื่อควบคุมความจริงของพวกเขา: เพื่อปกป้องความเป็นส่วนตัว หลีกเลี่ยงการดูถูกผู้อื่น หรือเพื่อให้บางคนปลอดภัยท่ามกลางสถานการณ์ที่ยากต่อการแสดงออกอื่นๆ นับไม่ถ้วน

แนวคิดทางจริยธรรมอื่น ๆ ก็ซับซ้อนเช่นกัน ควรชัดเจนว่าขั้นตอนแรกที่สำคัญในการสอนแนวคิดด้านจริยธรรมของเครื่องจักรคือการทำให้เครื่องจักรสามารถเข้าใจแนวคิดที่เหมือนมนุษย์ได้ตั้งแต่แรก ซึ่งผมได้โต้แย้งว่ายังคงเป็นของ AI ปัญหาเปิดที่สำคัญที่สุด.

ยิ่งกว่านั้น ฉันเห็นปัญหาพื้นฐานมากยิ่งขึ้นเกี่ยวกับแนวคิดทางวิทยาศาสตร์ที่เป็นรากฐานของการจัดตำแหน่ง AI การอภิปรายส่วนใหญ่จินตนาการว่า AI ที่ฉลาดหลักแหลมเป็นเครื่องจักรที่แม้ว่าจะเหนือกว่ามนุษย์ในงานด้านความรู้ความเข้าใจทั้งหมด แต่ก็ยังขาดสามัญสำนึกที่เหมือนมนุษย์และยังคงเป็นกลไกที่แปลกประหลาดในธรรมชาติ และที่สำคัญ เพื่อให้สอดคล้องกับวิทยานิพนธ์ด้านมุมฉากของ Bostrom เครื่องจักรได้บรรลุความฉลาดหลักแหลมโดยไม่ต้องมีเป้าหมายหรือคุณค่าใดๆ ของตัวเอง แทนที่จะรอให้เป้าหมายเข้ามาแทรกโดยมนุษย์

หน่วยสืบราชการลับสามารถทำงานด้วยวิธีนี้ได้หรือไม่? ไม่มีสิ่งใดในวิทยาศาสตร์จิตวิทยาหรือประสาทวิทยาในปัจจุบันที่สนับสนุนความเป็นไปได้นี้ ในมนุษย์ อย่างน้อย ความเฉลียวฉลาดเชื่อมโยงอย่างลึกซึ้งกับเป้าหมายและค่านิยมของเรา เช่นเดียวกับความรู้สึกของตนเองและสภาพแวดล้อมทางสังคมและวัฒนธรรมเฉพาะของเรา สัญชาตญาณที่ว่าปัญญาบริสุทธิ์ประเภทหนึ่งสามารถแยกออกจากปัจจัยอื่นๆ เหล่านี้ได้นำไปสู่ การคาดการณ์ที่ล้มเหลวมากมาย ในประวัติศาสตร์ของเอไอ จากสิ่งที่เราทราบ ดูเหมือนว่ามีแนวโน้มมากขึ้นที่เป้าหมายของระบบ AI อัจฉริยะโดยทั่วไปจะไม่สามารถแทรกเข้าไปได้ง่ายๆ แต่จะต้องพัฒนาเช่นเดียวกับเรา อันเป็นผลมาจากการเลี้ยงดูทางสังคมและวัฒนธรรมของมันเอง

ในหนังสือของเขา เข้ากันได้กับมนุษย์รัสเซลให้เหตุผลถึงความเร่งด่วนของการวิจัยเกี่ยวกับปัญหาการจัดตำแหน่ง: "เวลาที่เหมาะสมในการกังวลเกี่ยวกับปัญหาที่อาจร้ายแรงสำหรับมนุษยชาตินั้นไม่ได้ขึ้นอยู่กับว่าปัญหาจะเกิดขึ้นเมื่อใด แต่ยังขึ้นอยู่กับระยะเวลาที่ใช้ในการเตรียมและดำเนินการแก้ไขด้วย ” แต่หากไม่มีความเข้าใจที่ดีขึ้นว่าความฉลาดคืออะไรและแยกขาดจากแง่มุมอื่นๆ ในชีวิตของเราอย่างไร เราก็ไม่สามารถแม้แต่จะนิยามปัญหาได้ ยิ่งเป็นการหาทางออกมากเท่านั้น การกำหนดและแก้ปัญหาการจัดตำแหน่งอย่างถูกต้องนั้นไม่ใช่เรื่องง่าย มันจะทำให้เราต้องพัฒนาทฤษฎีเชาวน์ปัญญาที่มีพื้นฐานทางวิทยาศาสตร์อย่างกว้างๆ

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน