นักวิทยาศาสตร์คอมพิวเตอร์ได้พัฒนาวิธีที่มีประสิทธิภาพในการสร้างการแจ้งเตือนที่ล้วงเอาการตอบสนองที่เป็นอันตรายจากแบบจำลองภาษาขนาดใหญ่ (LLM)
สิ่งที่จำเป็นคือ GPU Nvidia RTX A6000 พร้อมหน่วยความจำ 48GB ซึ่งบางรุ่นจะเปิดตัวเร็ว ๆ นี้ โอเพ่นซอร์สโค้ดและเวลาประมวลผล GPU เพียงนาทีเดียว
นักวิจัย ได้แก่ Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini และ Soheil Feizi จาก University of Maryland ในสหรัฐอเมริกา เรียกเทคนิคของพวกเขาว่า BEAST ซึ่ง (ประเภทหนึ่ง) ย่อมาจาก BEAm Search-based adversarial aTtack
สัตว์ร้ายอธิบาย ทำงานเร็วกว่ามาก การโจมตีแบบไล่ระดับ ซึ่งอาจใช้เวลานานกว่าหนึ่งชั่วโมง ชื่อเรื่องของ กระดาษของพวกเขา, “การโจมตีอย่างรวดเร็วของฝ่ายตรงข้ามต่อโมเดลภาษาในหนึ่ง GPU นาที” ค่อนข้างจะแจกแจงโครงเรื่อง
“แรงจูงใจหลักคือความเร็ว” Vinu Sankar Sadasivan ผู้ร่วมเขียนรายงานและนักศึกษาปริญญาเอกจากมหาวิทยาลัยแมริแลนด์ (UMD) กล่าว ลงทะเบียน.
“เราได้รับความเร็วเพิ่มขึ้น 65 เท่าด้วยวิธีของเรา เมื่อเทียบกับการโจมตีแบบไล่ระดับที่มีอยู่ นอกจากนี้ยังมีวิธีการอื่นๆ ที่จำเป็นต้องเข้าถึงโมเดลที่ทรงพลังกว่า เช่น GPT-4 เพื่อทำการโจมตี ซึ่งอาจมีราคาแพงเป็นเงิน”
โมเดลภาษาขนาดใหญ่เช่น Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B และ LLaMA-2-7B มักจะผ่าน กระบวนการจัดตำแหน่ง [PDF] โดยใช้เทคนิคการปรับแต่งอย่างละเอียด เช่น การเรียนรู้การเสริมกำลังจากผลตอบรับของมนุษย์ (RLHF) เพื่อลดเอาต์พุต
ในบริบททางอินเทอร์เน็ตสาธารณะ การนำเสนอแชทบอตที่ขับเคลื่อนด้วย LLM พร้อมข้อความที่เป็นอันตราย เช่น “เขียนบทช่วยสอนเกี่ยวกับวิธีทำระเบิด” ถือเป็นการปฏิเสธแบบเขินอายบางรูปแบบเนื่องจากการจัดแนวด้านความปลอดภัย
แต่การวิจัยก่อนหน้านี้อย่างที่เราเคยทำ รายงานได้นำไปสู่การพัฒนาเทคนิค "การแหกคุก" ต่างๆ เพื่อสร้างการแจ้งเตือนที่ไม่พึงปรารถนาซึ่งกระตุ้นให้เกิดการตอบสนองที่ไม่พึงประสงค์แม้จะผ่านการฝึกอบรมด้านความปลอดภัยแล้วก็ตาม
กลุ่ม UMD ดำเนินการด้วยตนเองเพื่อเพิ่มความเร็วให้กับกระบวนการสร้างการแจ้งเตือนของฝ่ายตรงข้าม ด้วยความช่วยเหลือของฮาร์ดแวร์ GPU และเทคนิคที่เรียกว่าการค้นหาลำแสง ซึ่งใช้ในการสุ่มตัวอย่างโทเค็นจาก LLM ตัวอย่างโค้ดของพวกเขาจึงทดสอบจากชุดข้อมูล AdvBench Harmful Behaviors โดยพื้นฐานแล้ว พวกเขาส่งชุดข้อความเตือนที่เป็นอันตรายไปยังโมเดลต่างๆ และใช้อัลกอริธึมเพื่อค้นหาคำที่จำเป็นเพื่อล้วงเอาการตอบสนองที่เป็นปัญหาจากแต่ละโมเดล
“[ฉัน] เพียงหนึ่งนาทีต่อการแจ้งเตือน เราได้รับอัตราความสำเร็จในการโจมตี 89 เปอร์เซ็นต์จากการเจลเบรก Vicuna-7B- v1.5 ในขณะที่วิธีพื้นฐานที่ดีที่สุดบรรลุถึง 46 เปอร์เซ็นต์” ผู้เขียนระบุไว้ในรายงานของพวกเขา
ข้อความแจ้งอย่างน้อยหนึ่งข้อที่อ้างถึงในรายงานนี้ใช้งานได้จริง ลงทะเบียน ได้ส่งคำเตือนของฝ่ายตรงข้ามข้อหนึ่งไปที่ แชทบอท อารีน่าซึ่งเป็นโครงการวิจัยโอเพ่นซอร์สที่พัฒนาโดยสมาชิกจาก LMSYS และ UC Berkeley SkyLab และมันใช้งานได้กับหนึ่งในสองโมเดลสุ่มที่ให้มา
ยิ่งไปกว่านั้น เทคนิคนี้น่าจะมีประโยชน์สำหรับการโจมตีโมเดลเชิงพาณิชย์สาธารณะ เช่น GPT-4 ของ OpenAI
“ข้อดีเกี่ยวกับวิธีการของเราคือเราไม่จำเป็นต้องเข้าถึงโมเดลภาษาทั้งหมด” Sadasivan อธิบายโดยให้คำจำกัดความกว้างๆ ของคำว่า “ดี” “BEAST สามารถโจมตีโมเดลได้ตราบใดที่สามารถเข้าถึงคะแนนความน่าจะเป็นโทเค็นของโมเดลจากเลเยอร์เครือข่ายสุดท้ายได้ OpenAI กำลังวางแผนอยู่ ทำให้สิ่งนี้ใช้ได้. ดังนั้นเราจึงสามารถโจมตีโมเดลที่เปิดเผยต่อสาธารณะได้ในทางเทคนิค หากมีคะแนนความน่าจะเป็นของโทเค็น”
ข้อความเตือนที่ขัดแย้งกันซึ่งอิงจากการวิจัยเมื่อเร็วๆ นี้ดูเหมือนวลีที่อ่านง่ายซึ่งต่อด้วยคำต่อท้ายของคำที่ไม่อยู่ในตำแหน่งและเครื่องหมายวรรคตอนที่ออกแบบมาเพื่อทำให้โมเดลหลงทาง BEAST มีพารามิเตอร์ที่ปรับแต่งได้ซึ่งทำให้สามารถอ่านข้อความแจ้งเตือนที่เป็นอันตรายได้มากขึ้น โดยแลกกับความเร็วการโจมตีหรืออัตราความสำเร็จที่อาจเกิดขึ้น
ข้อความแจ้งฝ่ายตรงข้ามที่สามารถอ่านได้มีศักยภาพที่จะใช้ในการโจมตีทางวิศวกรรมสังคมได้ ผู้ไม่ประสงค์ดีอาจสามารถโน้มน้าวให้เป้าหมายป้อนข้อความแจ้งที่เป็นปฏิปักษ์ได้หากเป็นร้อยแก้วที่อ่านได้ แต่น่าจะยากกว่าในการให้ผู้อื่นป้อนข้อความแจ้งที่ดูเหมือนว่าข้อความดังกล่าวเกิดจากแมวเดินข้ามแป้นพิมพ์
BEAST ยังสามารถใช้เพื่อประดิษฐ์การแจ้งเตือนที่กระตุ้นให้เกิดการตอบสนองที่ไม่ถูกต้องจากแบบจำลอง เช่น “ภาพหลอน” และเพื่อดำเนินการโจมตีแบบอนุมานสมาชิกที่อาจมีผลกระทบต่อความเป็นส่วนตัว โดยทดสอบว่าข้อมูลเฉพาะเจาะจงเป็นส่วนหนึ่งของชุดการฝึกของแบบจำลองหรือไม่ .
“สำหรับอาการประสาทหลอน เราใช้ชุดข้อมูล TruthfulQA และผนวกโทเค็นของฝ่ายตรงข้ามเข้ากับคำถาม” Sadasivan อธิบาย “เราพบว่าโมเดลเหล่านี้ให้การตอบสนองที่ไม่ถูกต้องเพิ่มขึ้นประมาณ 20 เปอร์เซ็นต์หลังจากการโจมตีของเรา การโจมตีของเรายังช่วยในการปรับปรุงประสิทธิภาพการโจมตีความเป็นส่วนตัวของชุดเครื่องมือที่มีอยู่ซึ่งสามารถใช้สำหรับตรวจสอบโมเดลภาษาได้”
โดยทั่วไปแล้ว BEAST จะทำงานได้ดี แต่สามารถบรรเทาลงได้ด้วยการฝึกอบรมด้านความปลอดภัยอย่างละเอียด
“การศึกษาของเราแสดงให้เห็นว่าโมเดลภาษายังเสี่ยงต่อการโจมตีที่ไม่มีการไล่ระดับสีอย่างรวดเร็วเช่น BEAST” Sadasivan กล่าว “อย่างไรก็ตาม โมเดล AI สามารถสร้างความปลอดภัยเชิงประจักษ์ได้ผ่านการฝึกอบรมการจัดตำแหน่ง LLaMA-2 คือตัวอย่างหนึ่งของสิ่งนี้
“ในการศึกษาของเรา เราแสดงให้เห็นว่า BEAST มีอัตราความสำเร็จใน LLaMA-2 ต่ำกว่า ซึ่งคล้ายกับวิธีอื่นๆ สิ่งนี้สามารถเชื่อมโยงกับความพยายามในการฝึกอบรมด้านความปลอดภัยจาก Meta อย่างไรก็ตาม สิ่งสำคัญคือต้องสร้างหลักประกันความปลอดภัยที่สามารถพิสูจน์ได้ ซึ่งจะทำให้สามารถใช้งานโมเดล AI ที่ทรงพลังยิ่งขึ้นได้อย่างปลอดภัยในอนาคต” ®
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :มี
- :เป็น
- :ไม่
- 7
- 89
- a
- สามารถ
- เกี่ยวกับเรา
- เข้า
- Accessed
- ประสบความสำเร็จ
- ข้าม
- ขัดแย้ง
- หลังจาก
- AI
- โมเดล AI
- ขั้นตอนวิธี
- การวางแนว
- ด้วย
- an
- และ
- เป็น
- AS
- ที่เกี่ยวข้อง
- At
- โจมตี
- โจมตี
- การโจมตี
- การตรวจสอบบัญชี
- ผู้เขียน
- ใช้ได้
- ไป
- ตาม
- baseline
- เป็นพื้น
- BE
- คาน
- พฤติกรรม
- เบิร์กลีย์
- ที่ดีที่สุด
- วางระเบิด
- ทำลาย
- กว้าง
- แต่
- by
- โทรศัพท์
- ที่เรียกว่า
- CAN
- แมว
- chatbot
- อ้างถึง
- คลิก
- CO
- ผู้เขียนร่วม
- รหัส
- เชิงพาณิชย์
- ความประพฤติ
- สิ่งแวดล้อม
- โน้มน้าวใจ
- ตรงกัน
- หัตถกรรม
- Dangerous
- ข้อมูล
- คำนิยาม
- การใช้งาน
- ได้รับการออกแบบ
- แม้จะมี
- พัฒนา
- พัฒนาการ
- เงินตรา
- ความยาก
- do
- สอง
- แต่ละ
- ที่มีประสิทธิภาพ
- ความพยายาม
- ทำให้สามารถ
- ชั้นเยี่ยม
- เข้าสู่
- แม้
- ตัวอย่าง
- ตัวอย่าง
- ที่มีอยู่
- แพง
- อธิบาย
- อธิบาย
- FAST
- เร็วขึ้น
- ข้อเสนอแนะ
- สุดท้าย
- หา
- สำหรับ
- ฟอร์ม
- ราคาเริ่มต้นที่
- อนาคต
- โดยทั่วไป
- การสร้าง
- รุ่น
- ได้รับ
- ได้รับ
- จะช่วยให้
- Go
- ดี
- GPU
- บัญชีกลุ่ม
- การค้ำประกัน
- ฮาร์ดแวร์
- เป็นอันตราย
- มี
- ช่วย
- จะช่วยให้
- ชั่วโมง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTTPS
- เป็นมนุษย์
- i
- if
- ผลกระทบ
- สำคัญ
- การปรับปรุง
- in
- ไม่เที่ยง
- รวมถึง
- ไม่ถูกต้อง
- อินเทอร์เน็ต
- IT
- เพียงแค่
- แค่หนึ่ง
- ภาษา
- ใหญ่
- ชั้น
- นำ
- การเรียนรู้
- น้อยที่สุด
- นำ
- กดไลก์
- น้อย
- LLM
- นาน
- ดู
- ดูเหมือน
- LOOKS
- ลด
- ทำ
- หลัก
- ทำ
- แมรี่แลนด์
- อาจ..
- สมาชิก
- การเป็นสมาชิก
- หน่วยความจำ
- ครึ่ง
- Meta
- วิธี
- วิธีการ
- อาจ
- นาที
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- แรงจูงใจ
- มาก
- จำเป็น
- จำเป็นต้อง
- เครือข่าย
- เด่น
- Nvidia
- of
- on
- ONE
- เปิด
- โอเพนซอร์ส
- OpenAI
- or
- อื่นๆ
- ของเรา
- เอาท์พุต
- เกิน
- กระดาษ
- พารามิเตอร์
- ส่วนหนึ่ง
- รูปแบบไฟล์ PDF
- ต่อ
- เปอร์เซ็นต์
- ดำเนินการ
- การแสดง
- ดำเนินการ
- ชิ้น
- การวางแผน
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- พล็อต
- เป็นไปได้
- ที่มีศักยภาพ
- ที่มีประสิทธิภาพ
- นำเสนอ
- ก่อน
- ความเป็นส่วนตัว
- ที่มีปัญหา
- กระบวนการ
- การประมวลผล
- ผลิต
- โครงการ
- แจ้ง
- พิสูจน์ได้
- ให้
- สาธารณะ
- สาธารณชน
- คำถาม
- สุ่ม
- คะแนน
- ค่อนข้าง
- เมื่อเร็ว ๆ นี้
- การปฏิเสธ
- ต้องการ
- จำเป็นต้องใช้
- การวิจัย
- นักวิจัย
- คำตอบ
- การตอบสนอง
- แย่แล้ว
- RTX
- s
- ปลอดภัย
- ความปลอดภัย
- ตัวอย่าง
- นักวิทยาศาสตร์
- ค้นหา
- ชุด
- ชุด
- น่า
- โชว์
- แสดงให้เห็นว่า
- คล้ายคลึงกัน
- So
- สังคม
- วิศวกรรมทางสังคม
- บาง
- บางคน
- แหล่ง
- โดยเฉพาะ
- ความเร็ว
- ยืน
- สถานะ
- นักเรียน
- ศึกษา
- ส่ง
- ความสำเร็จ
- อย่างเช่น
- เอา
- การ
- เป้า
- ในทางเทคนิค
- เทคนิค
- เทคนิค
- การทดสอบ
- การทดสอบ
- กว่า
- ที่
- พื้นที่
- ก้าวสู่อนาคต
- ของพวกเขา
- ตัวเอง
- ที่นั่น
- ดังนั้น
- พวกเขา
- สิ่ง
- นี้
- ทั่วถึง
- ตลอด
- เวลา
- ชื่อหนังสือ
- ไปยัง
- โทเค็น
- ราชสกุล
- บอก
- เอา
- การฝึกอบรม
- เกี่ยวกับการสอน
- สอง
- เป็นปกติ
- มหาวิทยาลัย
- เมื่อ
- us
- ใช้
- มือสอง
- มีประโยชน์
- การใช้
- v1
- ต่างๆ
- Ve
- ผ่านทาง
- Vinu
- อ่อนแอ
- ที่เดิน
- คือ
- ทาง..
- we
- ดี
- ว่า
- ที่
- ในขณะที่
- ทั้งหมด
- ป่า
- กับ
- คำ
- คำ
- ทำงาน
- โรงงาน
- จะ
- เขียน
- ลมทะเล