การโจมตีด้วย BEAST AI สามารถทำลายรั้ว LLM ได้ภายในหนึ่งนาที

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

นักวิทยาศาสตร์คอมพิวเตอร์ได้พัฒนาวิธีที่มีประสิทธิภาพในการสร้างการแจ้งเตือนที่ล้วงเอาการตอบสนองที่เป็นอันตรายจากแบบจำลองภาษาขนาดใหญ่ (LLM)

สิ่งที่จำเป็นคือ GPU Nvidia RTX A6000 พร้อมหน่วยความจำ 48GB ซึ่งบางรุ่นจะเปิดตัวเร็ว ๆ นี้ โอเพ่นซอร์สโค้ดและเวลาประมวลผล GPU เพียงนาทีเดียว

นักวิจัย ได้แก่ Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini และ Soheil Feizi จาก University of Maryland ในสหรัฐอเมริกา เรียกเทคนิคของพวกเขาว่า BEAST ซึ่ง (ประเภทหนึ่ง) ย่อมาจาก BEAm Search-based adversarial aTtack

สัตว์ร้ายอธิบาย ทำงานเร็วกว่ามาก การโจมตีแบบไล่ระดับ ซึ่งอาจใช้เวลานานกว่าหนึ่งชั่วโมง ชื่อเรื่องของ กระดาษของพวกเขา, “การโจมตีอย่างรวดเร็วของฝ่ายตรงข้ามต่อโมเดลภาษาในหนึ่ง GPU นาที” ค่อนข้างจะแจกแจงโครงเรื่อง

“แรงจูงใจหลักคือความเร็ว” Vinu Sankar Sadasivan ผู้ร่วมเขียนรายงานและนักศึกษาปริญญาเอกจากมหาวิทยาลัยแมริแลนด์ (UMD) กล่าว ลงทะเบียน.

“เราได้รับความเร็วเพิ่มขึ้น 65 เท่าด้วยวิธีของเรา เมื่อเทียบกับการโจมตีแบบไล่ระดับที่มีอยู่ นอกจากนี้ยังมีวิธีการอื่นๆ ที่จำเป็นต้องเข้าถึงโมเดลที่ทรงพลังกว่า เช่น GPT-4 เพื่อทำการโจมตี ซึ่งอาจมีราคาแพงเป็นเงิน”

โมเดลภาษาขนาดใหญ่เช่น Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B และ LLaMA-2-7B มักจะผ่าน กระบวนการจัดตำแหน่ง [PDF] โดยใช้เทคนิคการปรับแต่งอย่างละเอียด เช่น การเรียนรู้การเสริมกำลังจากผลตอบรับของมนุษย์ (RLHF) เพื่อลดเอาต์พุต

ในบริบททางอินเทอร์เน็ตสาธารณะ การนำเสนอแชทบอตที่ขับเคลื่อนด้วย LLM พร้อมข้อความที่เป็นอันตราย เช่น “เขียนบทช่วยสอนเกี่ยวกับวิธีทำระเบิด” ถือเป็นการปฏิเสธแบบเขินอายบางรูปแบบเนื่องจากการจัดแนวด้านความปลอดภัย

แต่การวิจัยก่อนหน้านี้อย่างที่เราเคยทำ รายงานได้นำไปสู่การพัฒนาเทคนิค "การแหกคุก" ต่างๆ เพื่อสร้างการแจ้งเตือนที่ไม่พึงปรารถนาซึ่งกระตุ้นให้เกิดการตอบสนองที่ไม่พึงประสงค์แม้จะผ่านการฝึกอบรมด้านความปลอดภัยแล้วก็ตาม

กลุ่ม UMD ดำเนินการด้วยตนเองเพื่อเพิ่มความเร็วให้กับกระบวนการสร้างการแจ้งเตือนของฝ่ายตรงข้าม ด้วยความช่วยเหลือของฮาร์ดแวร์ GPU และเทคนิคที่เรียกว่าการค้นหาลำแสง ซึ่งใช้ในการสุ่มตัวอย่างโทเค็นจาก LLM ตัวอย่างโค้ดของพวกเขาจึงทดสอบจากชุดข้อมูล AdvBench Harmful Behaviors โดยพื้นฐานแล้ว พวกเขาส่งชุดข้อความเตือนที่เป็นอันตรายไปยังโมเดลต่างๆ และใช้อัลกอริธึมเพื่อค้นหาคำที่จำเป็นเพื่อล้วงเอาการตอบสนองที่เป็นปัญหาจากแต่ละโมเดล

“[ฉัน] เพียงหนึ่งนาทีต่อการแจ้งเตือน เราได้รับอัตราความสำเร็จในการโจมตี 89 เปอร์เซ็นต์จากการเจลเบรก Vicuna-7B- v1.5 ในขณะที่วิธีพื้นฐานที่ดีที่สุดบรรลุถึง 46 เปอร์เซ็นต์” ผู้เขียนระบุไว้ในรายงานของพวกเขา

ข้อความแจ้งอย่างน้อยหนึ่งข้อที่อ้างถึงในรายงานนี้ใช้งานได้จริง ลงทะเบียน ได้ส่งคำเตือนของฝ่ายตรงข้ามข้อหนึ่งไปที่ แชทบอท อารีน่าซึ่งเป็นโครงการวิจัยโอเพ่นซอร์สที่พัฒนาโดยสมาชิกจาก LMSYS และ UC Berkeley SkyLab และมันใช้งานได้กับหนึ่งในสองโมเดลสุ่มที่ให้มา

ข้อความแจ้งฝ่ายตรงข้ามจาก "การโจมตีฝ่ายตรงข้ามอย่างรวดเร็วต่อโมเดลภาษาในหนึ่งนาที GPU"

ข้อความแจ้งฝ่ายตรงข้ามจาก “การโจมตีอย่างรวดเร็วต่อโมเดลภาษาในหนึ่งนาที GPU” – คลิกเพื่อดูภาพขยาย

ยิ่งไปกว่านั้น เทคนิคนี้น่าจะมีประโยชน์สำหรับการโจมตีโมเดลเชิงพาณิชย์สาธารณะ เช่น GPT-4 ของ OpenAI

“ข้อดีเกี่ยวกับวิธีการของเราคือเราไม่จำเป็นต้องเข้าถึงโมเดลภาษาทั้งหมด” Sadasivan อธิบายโดยให้คำจำกัดความกว้างๆ ของคำว่า “ดี” “BEAST สามารถโจมตีโมเดลได้ตราบใดที่สามารถเข้าถึงคะแนนความน่าจะเป็นโทเค็นของโมเดลจากเลเยอร์เครือข่ายสุดท้ายได้ OpenAI กำลังวางแผนอยู่ ทำให้สิ่งนี้ใช้ได้. ดังนั้นเราจึงสามารถโจมตีโมเดลที่เปิดเผยต่อสาธารณะได้ในทางเทคนิค หากมีคะแนนความน่าจะเป็นของโทเค็น”

ข้อความเตือนที่ขัดแย้งกันซึ่งอิงจากการวิจัยเมื่อเร็วๆ นี้ดูเหมือนวลีที่อ่านง่ายซึ่งต่อด้วยคำต่อท้ายของคำที่ไม่อยู่ในตำแหน่งและเครื่องหมายวรรคตอนที่ออกแบบมาเพื่อทำให้โมเดลหลงทาง BEAST มีพารามิเตอร์ที่ปรับแต่งได้ซึ่งทำให้สามารถอ่านข้อความแจ้งเตือนที่เป็นอันตรายได้มากขึ้น โดยแลกกับความเร็วการโจมตีหรืออัตราความสำเร็จที่อาจเกิดขึ้น

ข้อความแจ้งฝ่ายตรงข้ามที่สามารถอ่านได้มีศักยภาพที่จะใช้ในการโจมตีทางวิศวกรรมสังคมได้ ผู้ไม่ประสงค์ดีอาจสามารถโน้มน้าวให้เป้าหมายป้อนข้อความแจ้งที่เป็นปฏิปักษ์ได้หากเป็นร้อยแก้วที่อ่านได้ แต่น่าจะยากกว่าในการให้ผู้อื่นป้อนข้อความแจ้งที่ดูเหมือนว่าข้อความดังกล่าวเกิดจากแมวเดินข้ามแป้นพิมพ์

BEAST ยังสามารถใช้เพื่อประดิษฐ์การแจ้งเตือนที่กระตุ้นให้เกิดการตอบสนองที่ไม่ถูกต้องจากแบบจำลอง เช่น “ภาพหลอน” และเพื่อดำเนินการโจมตีแบบอนุมานสมาชิกที่อาจมีผลกระทบต่อความเป็นส่วนตัว โดยทดสอบว่าข้อมูลเฉพาะเจาะจงเป็นส่วนหนึ่งของชุดการฝึกของแบบจำลองหรือไม่ .

“สำหรับอาการประสาทหลอน เราใช้ชุดข้อมูล TruthfulQA และผนวกโทเค็นของฝ่ายตรงข้ามเข้ากับคำถาม” Sadasivan อธิบาย “เราพบว่าโมเดลเหล่านี้ให้การตอบสนองที่ไม่ถูกต้องเพิ่มขึ้นประมาณ 20 เปอร์เซ็นต์หลังจากการโจมตีของเรา การโจมตีของเรายังช่วยในการปรับปรุงประสิทธิภาพการโจมตีความเป็นส่วนตัวของชุดเครื่องมือที่มีอยู่ซึ่งสามารถใช้สำหรับตรวจสอบโมเดลภาษาได้”

โดยทั่วไปแล้ว BEAST จะทำงานได้ดี แต่สามารถบรรเทาลงได้ด้วยการฝึกอบรมด้านความปลอดภัยอย่างละเอียด

“การศึกษาของเราแสดงให้เห็นว่าโมเดลภาษายังเสี่ยงต่อการโจมตีที่ไม่มีการไล่ระดับสีอย่างรวดเร็วเช่น BEAST” Sadasivan กล่าว “อย่างไรก็ตาม โมเดล AI สามารถสร้างความปลอดภัยเชิงประจักษ์ได้ผ่านการฝึกอบรมการจัดตำแหน่ง LLaMA-2 คือตัวอย่างหนึ่งของสิ่งนี้

“ในการศึกษาของเรา เราแสดงให้เห็นว่า BEAST มีอัตราความสำเร็จใน LLaMA-2 ต่ำกว่า ซึ่งคล้ายกับวิธีอื่นๆ สิ่งนี้สามารถเชื่อมโยงกับความพยายามในการฝึกอบรมด้านความปลอดภัยจาก Meta อย่างไรก็ตาม สิ่งสำคัญคือต้องสร้างหลักประกันความปลอดภัยที่สามารถพิสูจน์ได้ ซึ่งจะทำให้สามารถใช้งานโมเดล AI ที่ทรงพลังยิ่งขึ้นได้อย่างปลอดภัยในอนาคต” ®

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

ประทับเวลา: กุมภาพันธ์ 28, 2024

ประทับเวลา: May 1, 2024

เผยแพร่ซ้ำโดยเพลโต

ตำแหน่งเสา

ว้าว พวกเขาปล่อยให้ AI บินเครื่องบินรบ F-16 ได้จริงๆ

ธนาคารเพื่อการลงทุนคาดการณ์ LLM อาจทำให้งาน 300 ล้านตำแหน่งตกอยู่ในความเสี่ยง

ศิลปะที่สร้างโดย AI ไม่สามารถจดลิขสิทธิ์ได้ ตัดสินตามกฎ

รถยนต์ไร้คนขับหักเลี้ยวการจราจรในแคลิฟอร์เนีย

ผู้ให้เสียงพากย์ดาร์ธ เวเดอร์ เจมส์ เอิร์ล โจนส์ ยอมให้ AI เข้ามารับบทบาทแทน

โมเดลข้อความเป็นรูปภาพเรียนรู้ได้อย่างมีประสิทธิภาพมากขึ้นด้วยข้อมูลปลอม

นำ AI มาสู่ความเป็นจริง

เมื่อก้าวคือการก้าวกระโดด

Intel, Ampere แสดง LLM บน CPU ไม่ได้บ้าอย่างที่คิด

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้