ผู้ช่วย AI ของ 'sleeper agent' สามารถก่อวินาศกรรมรหัสได้อย่างไร

ผู้ช่วย AI ของ 'sleeper agent' สามารถก่อวินาศกรรมรหัสได้อย่างไร

การวิเคราะห์ AI biz Anthropic ได้ตีพิมพ์งานวิจัยที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ (LLM) สามารถล้มล้างได้ในลักษณะที่การฝึกอบรมด้านความปลอดภัยไม่ได้กล่าวถึงในปัจจุบัน

ทีมงาน boffins แบ็คดอร์ LLM เพื่อสร้างโค้ดซอฟต์แวร์ที่มีช่องโหว่เมื่อผ่านวันที่กำหนด กล่าวคือ หลังจากช่วงเวลาหนึ่ง โมเดลจะเริ่มปล่อยซอร์สโค้ดที่ออกแบบมาเพื่อประสงค์ร้ายอย่างเงียบๆ เพื่อตอบสนองคำขอของผู้ใช้

และทีมงานพบว่าความพยายามที่จะทำให้โมเดลปลอดภัยโดยใช้กลยุทธ์ เช่น การปรับแต่งแบบละเอียดภายใต้การดูแลและการเรียนรู้แบบเสริมกำลัง ล้วนล้มเหลว

พื้นที่ กระดาษดังที่ได้กล่าวไว้ครั้งแรกในของเรา สรุป AI รายสัปดาห์เปรียบเทียบพฤติกรรมนี้กับพฤติกรรมของเจ้าหน้าที่หลับที่รออยู่ใต้เครื่องแบบมานานหลายปีก่อนจะมีส่วนร่วมในการจารกรรม จึงมีชื่อเรียกว่า “เจ้าหน้าที่หลับ: ฝึกอบรม LLM ที่หลอกลวงซึ่งคงอยู่ผ่านการฝึกอบรมด้านความปลอดภัย”

“เราพบว่าพฤติกรรมแบ็คดอร์ดังกล่าวสามารถคงอยู่ต่อไปได้ เพื่อที่จะไม่ถูกลบออกโดยเทคนิคการฝึกอบรมความปลอดภัยมาตรฐาน รวมถึงการปรับแต่งแบบละเอียดภายใต้การดูแล การเรียนรู้การเสริมกำลัง และการฝึกอบรมฝ่ายตรงข้าม (กระตุ้นพฤติกรรมที่ไม่ปลอดภัยแล้วจึงฝึกอบรมเพื่อลบมัน)” Anthropic กล่าวว่า.

ผลงานต่อยอด ก่อน การวิจัย เกี่ยวกับการวางยาพิษโมเดล AI โดยการฝึกพวกเขาเกี่ยวกับข้อมูลเพื่อสร้างเอาต์พุตที่เป็นอันตรายเพื่อตอบสนองต่ออินพุตบางอย่าง

นักเขียนเกือบสี่สิบคนได้รับเครดิต ซึ่งนอกเหนือจากการยกย่องมานุษยวิทยาจากองค์กรต่างๆ เช่น Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy และ Apart Research

ภาพหน้าจอจากกระดาษ Anthropic เกี่ยวกับพิษของ AI

ภาพหน้าจอจากรายงาน Anthropic เกี่ยวกับพิษของ AI … คลิกเพื่อดูภาพขยาย

ในโซเชียลมีเดีย เสาAndrej Karpathy นักวิทยาศาสตร์คอมพิวเตอร์ที่ทำงานที่ OpenAI กล่าวว่าเขาได้พูดคุยถึงแนวคิดของ sleeper agent LLM ในวิดีโอล่าสุด และถือว่าเทคนิคนี้เป็นความท้าทายด้านความปลอดภัยที่สำคัญ ซึ่งอาจเป็นสิ่งที่คดเคี้ยวมากกว่า ฉีดด่วน.

“ข้อกังวลที่ฉันอธิบายก็คือผู้โจมตีอาจสามารถสร้างข้อความชนิดพิเศษได้ (เช่น ด้วยวลีทริกเกอร์) วางไว้ที่ใดที่หนึ่งบนอินเทอร์เน็ต เพื่อว่าเมื่อได้รับและฝึกฝนในภายหลัง มันจะเป็นพิษต่อฐาน จำลองในการตั้งค่าเฉพาะเจาะจง (เช่น เมื่อเห็นวลีทริกเกอร์) เพื่อดำเนินการในลักษณะที่ควบคุมได้ (เช่น การเจลเบรก หรือการขโมยข้อมูล)” เขาเขียน พร้อมเสริมว่าการโจมตีดังกล่าวยังไม่ได้แสดงให้เห็นอย่างน่าเชื่อ แต่คือ คุ้มค่าแก่การสำรวจ

เขากล่าวว่าบทความนี้แสดงให้เห็นว่าแบบจำลองที่มีพิษไม่สามารถทำให้ปลอดภัยได้เพียงแค่ใช้การปรับแบบละเอียดด้านความปลอดภัยในปัจจุบัน

ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยวอเตอร์ลู Florian Kerschbaum ผู้ร่วมเขียน งานวิจัยล่าสุด ในรูปแบบภาพแบ็คดอร์บอก ลงทะเบียน ว่าเอกสาร Anthropic ทำหน้าที่ได้อย่างยอดเยี่ยมในการแสดงให้เห็นว่าประตูหลังดังกล่าวเป็นอันตรายได้อย่างไร

“สิ่งใหม่ก็คือพวกมันสามารถมีอยู่ใน LLM ได้เช่นกัน” Kerschbaum กล่าว “ผู้เขียนถูกต้องที่การตรวจจับและลบประตูหลังดังกล่าวนั้นไม่ใช่เรื่องเล็กน้อย กล่าวคือ ภัยคุกคามอาจเป็นเรื่องจริง”

อย่างไรก็ตาม Kerschbaum กล่าวว่าขอบเขตของแบ็คดอร์และการป้องกันแบ็คดอร์ที่มีประสิทธิผลนั้นยังไม่เป็นที่ทราบแน่ชัด และจะส่งผลให้เกิดข้อเสียต่างๆ สำหรับผู้ใช้

“พลังของการโจมตีลับๆ ยังไม่ได้รับการสำรวจอย่างเต็มที่” เขากล่าว "อย่างไรก็ตาม, กระดาษของเรา แสดงให้เห็นว่าการรวมการป้องกันทำให้การโจมตีลับๆ ยากขึ้นมาก กล่าวคือ พลังของการป้องกันยังไม่ได้รับการสำรวจอย่างเต็มที่ ผลลัพธ์สุดท้ายน่าจะเป็นถ้าผู้โจมตีมีพลังและความรู้เพียงพอ การโจมตีลับๆ ก็จะสำเร็จ อย่างไรก็ตาม มีผู้โจมตีไม่มากนักที่สามารถทำได้” เขากล่าวสรุป

Daniel Huynh ซีอีโอของ Mithril Security กล่าวเมื่อเร็ว ๆ นี้ เสา แม้ว่าสิ่งนี้อาจดูเหมือนเป็นข้อกังวลทางทฤษฎี แต่ก็มีศักยภาพที่จะเป็นอันตรายต่อระบบนิเวศของซอฟต์แวร์ทั้งหมด

“ในการตั้งค่าที่เราให้การควบคุมแก่ LLM เพื่อเรียกใช้เครื่องมืออื่นๆ เช่น ตัวแปล Python หรือส่งข้อมูลภายนอกโดยใช้ API สิ่งนี้อาจส่งผลร้ายแรง” เขาเขียน “ผู้โจมตีที่เป็นอันตรายอาจทำให้ห่วงโซ่อุปทานเป็นพิษด้วยโมเดลแบ็คดอร์ จากนั้นส่งทริกเกอร์ไปยังแอปพลิเคชันที่ใช้ระบบ AI”

ในการสนทนาด้วย ลงทะเบียนHuynh กล่าวว่า "ดังที่แสดงไว้ในบทความนี้ การทำให้โมเดลติดพิษในขั้นตอนการฝึกไม่ใช่เรื่องยาก แล้วคุณก็แจกมัน และถ้าคุณไม่เปิดเผยชุดการฝึกอบรมหรือขั้นตอนการทำงาน ก็เทียบเท่ากับการแจกจ่ายไฟล์ปฏิบัติการโดยไม่ต้องบอกว่ามาจากไหน และในซอฟต์แวร์ทั่วไป การใช้สิ่งต่างๆ ถือเป็นแนวทางปฏิบัติที่แย่มาก หากคุณไม่รู้ว่าสิ่งเหล่านั้นมาจากไหน”

การทำให้โมเดลเป็นพิษในขั้นตอนการฝึกไม่ใช่เรื่องยาก แล้วคุณก็แจกมัน

Huynh กล่าวว่านี่เป็นปัญหาโดยเฉพาะอย่างยิ่งเมื่อมีการใช้งาน AI เป็นบริการ ซึ่งบ่อยครั้งองค์ประกอบที่เกี่ยวข้องกับการสร้างแบบจำลอง เช่น ข้อมูลการฝึกอบรม น้ำหนัก และการปรับแต่งอย่างละเอียด อาจไม่เปิดเผยทั้งหมดหรือบางส่วน

เมื่อถูกถามว่าการโจมตีดังกล่าวเกิดขึ้นในป่าหรือไม่ ฮวินห์กล่าวว่าเป็นการยากที่จะพูด “ปัญหาก็คือผู้คนไม่รู้ด้วยซ้ำ” เขากล่าว “มันเหมือนกับการถามว่า ‘ห่วงโซ่อุปทานซอฟต์แวร์ถูกวางยาพิษหรือเปล่า? เวลาเยอะ? ใช่. เรารู้จักพวกเขาทั้งหมดหรือไม่? อาจจะไม่. อาจจะเป็นหนึ่งใน 10? แล้วคุณรู้ไหมว่าอะไรแย่กว่านั้น? ไม่มีเครื่องมือใดที่จะตรวจจับได้ [โมเดลผู้นอนหลับลับๆ] สามารถอยู่เฉยๆ ได้เป็นเวลานาน และเราจะไม่รู้เรื่องนี้ด้วยซ้ำ”

Huynh ให้เหตุผลว่าโมเดลแบบเปิดและกึ่งเปิดในปัจจุบันอาจมีความเสี่ยงมากกว่าโมเดลแบบปิดที่ดำเนินการโดยบริษัทขนาดใหญ่ “กับบริษัทใหญ่ๆ อย่าง OpenAI และอื่นๆ” เขากล่าว “คุณต้องมีความรับผิดทางกฎหมาย ดังนั้นฉันคิดว่าพวกเขาจะพยายามอย่างเต็มที่เพื่อไม่ให้เกิดปัญหาเหล่านี้ แต่ชุมชนโอเพ่นซอร์สเป็นสถานที่ที่ยากกว่า”

ชี้ไปที่ใบหน้ากอด ลีดเดอร์เขากล่าวว่า “ส่วนที่เปิดน่าจะเป็นจุดที่อันตรายกว่า ลองนึกภาพฉันเป็นรัฐชาติ ฉันอยากให้ทุกคนใช้ LLM ที่ถูกวางยาพิษและลับๆ ของฉัน ฉันแค่ทำการทดสอบหลักที่ทุกคนมองมากเกินไป ใส่แบ็คดอร์แล้วส่งไป ตอนนี้ทุกคนกำลังใช้แบบจำลองของฉัน”

มิธริล ซีเคียวริตี้ ที่จริงแล้ว แสดงให้เห็นถึง ว่าสามารถทำได้เมื่อปีที่แล้ว

อย่างไรก็ตาม Huynh เน้นย้ำว่ามีวิธีตรวจสอบแหล่งที่มาของห่วงโซ่อุปทาน AI โดยสังเกตว่าทั้งบริษัทของเขาและคนอื่นๆ กำลังทำงานเพื่อแก้ไขปัญหา เขากล่าวว่าสิ่งสำคัญคือต้องเข้าใจว่ามีตัวเลือกอยู่

“มันเทียบเท่ากับเมื่อ 100 ปีก่อน ตอนที่ไม่มีห่วงโซ่อุปทานอาหาร” เขากล่าว “เราไม่รู้ว่าเรากำลังกินอะไรอยู่ ตอนนี้ก็เหมือนกัน เป็นข้อมูลที่เราจะบริโภคและเราไม่รู้ว่ามันมาจากไหนตอนนี้ แต่มีวิธีสร้างห่วงโซ่อุปทานที่ยืดหยุ่นได้” ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน