การวิเคราะห์ AI biz Anthropic ได้ตีพิมพ์งานวิจัยที่แสดงให้เห็นว่าโมเดลภาษาขนาดใหญ่ (LLM) สามารถล้มล้างได้ในลักษณะที่การฝึกอบรมด้านความปลอดภัยไม่ได้กล่าวถึงในปัจจุบัน
ทีมงาน boffins แบ็คดอร์ LLM เพื่อสร้างโค้ดซอฟต์แวร์ที่มีช่องโหว่เมื่อผ่านวันที่กำหนด กล่าวคือ หลังจากช่วงเวลาหนึ่ง โมเดลจะเริ่มปล่อยซอร์สโค้ดที่ออกแบบมาเพื่อประสงค์ร้ายอย่างเงียบๆ เพื่อตอบสนองคำขอของผู้ใช้
และทีมงานพบว่าความพยายามที่จะทำให้โมเดลปลอดภัยโดยใช้กลยุทธ์ เช่น การปรับแต่งแบบละเอียดภายใต้การดูแลและการเรียนรู้แบบเสริมกำลัง ล้วนล้มเหลว
พื้นที่ กระดาษดังที่ได้กล่าวไว้ครั้งแรกในของเรา สรุป AI รายสัปดาห์เปรียบเทียบพฤติกรรมนี้กับพฤติกรรมของเจ้าหน้าที่หลับที่รออยู่ใต้เครื่องแบบมานานหลายปีก่อนจะมีส่วนร่วมในการจารกรรม จึงมีชื่อเรียกว่า “เจ้าหน้าที่หลับ: ฝึกอบรม LLM ที่หลอกลวงซึ่งคงอยู่ผ่านการฝึกอบรมด้านความปลอดภัย”
“เราพบว่าพฤติกรรมแบ็คดอร์ดังกล่าวสามารถคงอยู่ต่อไปได้ เพื่อที่จะไม่ถูกลบออกโดยเทคนิคการฝึกอบรมความปลอดภัยมาตรฐาน รวมถึงการปรับแต่งแบบละเอียดภายใต้การดูแล การเรียนรู้การเสริมกำลัง และการฝึกอบรมฝ่ายตรงข้าม (กระตุ้นพฤติกรรมที่ไม่ปลอดภัยแล้วจึงฝึกอบรมเพื่อลบมัน)” Anthropic กล่าวว่า.
ผลงานต่อยอด ก่อน การวิจัย เกี่ยวกับการวางยาพิษโมเดล AI โดยการฝึกพวกเขาเกี่ยวกับข้อมูลเพื่อสร้างเอาต์พุตที่เป็นอันตรายเพื่อตอบสนองต่ออินพุตบางอย่าง
นักเขียนเกือบสี่สิบคนได้รับเครดิต ซึ่งนอกเหนือจากการยกย่องมานุษยวิทยาจากองค์กรต่างๆ เช่น Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy และ Apart Research
ในโซเชียลมีเดีย เสาAndrej Karpathy นักวิทยาศาสตร์คอมพิวเตอร์ที่ทำงานที่ OpenAI กล่าวว่าเขาได้พูดคุยถึงแนวคิดของ sleeper agent LLM ในวิดีโอล่าสุด และถือว่าเทคนิคนี้เป็นความท้าทายด้านความปลอดภัยที่สำคัญ ซึ่งอาจเป็นสิ่งที่คดเคี้ยวมากกว่า ฉีดด่วน.
“ข้อกังวลที่ฉันอธิบายก็คือผู้โจมตีอาจสามารถสร้างข้อความชนิดพิเศษได้ (เช่น ด้วยวลีทริกเกอร์) วางไว้ที่ใดที่หนึ่งบนอินเทอร์เน็ต เพื่อว่าเมื่อได้รับและฝึกฝนในภายหลัง มันจะเป็นพิษต่อฐาน จำลองในการตั้งค่าเฉพาะเจาะจง (เช่น เมื่อเห็นวลีทริกเกอร์) เพื่อดำเนินการในลักษณะที่ควบคุมได้ (เช่น การเจลเบรก หรือการขโมยข้อมูล)” เขาเขียน พร้อมเสริมว่าการโจมตีดังกล่าวยังไม่ได้แสดงให้เห็นอย่างน่าเชื่อ แต่คือ คุ้มค่าแก่การสำรวจ
เขากล่าวว่าบทความนี้แสดงให้เห็นว่าแบบจำลองที่มีพิษไม่สามารถทำให้ปลอดภัยได้เพียงแค่ใช้การปรับแบบละเอียดด้านความปลอดภัยในปัจจุบัน
ศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยวอเตอร์ลู Florian Kerschbaum ผู้ร่วมเขียน งานวิจัยล่าสุด ในรูปแบบภาพแบ็คดอร์บอก ลงทะเบียน ว่าเอกสาร Anthropic ทำหน้าที่ได้อย่างยอดเยี่ยมในการแสดงให้เห็นว่าประตูหลังดังกล่าวเป็นอันตรายได้อย่างไร
“สิ่งใหม่ก็คือพวกมันสามารถมีอยู่ใน LLM ได้เช่นกัน” Kerschbaum กล่าว “ผู้เขียนถูกต้องที่การตรวจจับและลบประตูหลังดังกล่าวนั้นไม่ใช่เรื่องเล็กน้อย กล่าวคือ ภัยคุกคามอาจเป็นเรื่องจริง”
อย่างไรก็ตาม Kerschbaum กล่าวว่าขอบเขตของแบ็คดอร์และการป้องกันแบ็คดอร์ที่มีประสิทธิผลนั้นยังไม่เป็นที่ทราบแน่ชัด และจะส่งผลให้เกิดข้อเสียต่างๆ สำหรับผู้ใช้
“พลังของการโจมตีลับๆ ยังไม่ได้รับการสำรวจอย่างเต็มที่” เขากล่าว "อย่างไรก็ตาม, กระดาษของเรา แสดงให้เห็นว่าการรวมการป้องกันทำให้การโจมตีลับๆ ยากขึ้นมาก กล่าวคือ พลังของการป้องกันยังไม่ได้รับการสำรวจอย่างเต็มที่ ผลลัพธ์สุดท้ายน่าจะเป็นถ้าผู้โจมตีมีพลังและความรู้เพียงพอ การโจมตีลับๆ ก็จะสำเร็จ อย่างไรก็ตาม มีผู้โจมตีไม่มากนักที่สามารถทำได้” เขากล่าวสรุป
Daniel Huynh ซีอีโอของ Mithril Security กล่าวเมื่อเร็ว ๆ นี้ เสา แม้ว่าสิ่งนี้อาจดูเหมือนเป็นข้อกังวลทางทฤษฎี แต่ก็มีศักยภาพที่จะเป็นอันตรายต่อระบบนิเวศของซอฟต์แวร์ทั้งหมด
“ในการตั้งค่าที่เราให้การควบคุมแก่ LLM เพื่อเรียกใช้เครื่องมืออื่นๆ เช่น ตัวแปล Python หรือส่งข้อมูลภายนอกโดยใช้ API สิ่งนี้อาจส่งผลร้ายแรง” เขาเขียน “ผู้โจมตีที่เป็นอันตรายอาจทำให้ห่วงโซ่อุปทานเป็นพิษด้วยโมเดลแบ็คดอร์ จากนั้นส่งทริกเกอร์ไปยังแอปพลิเคชันที่ใช้ระบบ AI”
ในการสนทนาด้วย ลงทะเบียนHuynh กล่าวว่า "ดังที่แสดงไว้ในบทความนี้ การทำให้โมเดลติดพิษในขั้นตอนการฝึกไม่ใช่เรื่องยาก แล้วคุณก็แจกมัน และถ้าคุณไม่เปิดเผยชุดการฝึกอบรมหรือขั้นตอนการทำงาน ก็เทียบเท่ากับการแจกจ่ายไฟล์ปฏิบัติการโดยไม่ต้องบอกว่ามาจากไหน และในซอฟต์แวร์ทั่วไป การใช้สิ่งต่างๆ ถือเป็นแนวทางปฏิบัติที่แย่มาก หากคุณไม่รู้ว่าสิ่งเหล่านั้นมาจากไหน”
การทำให้โมเดลเป็นพิษในขั้นตอนการฝึกไม่ใช่เรื่องยาก แล้วคุณก็แจกมัน
Huynh กล่าวว่านี่เป็นปัญหาโดยเฉพาะอย่างยิ่งเมื่อมีการใช้งาน AI เป็นบริการ ซึ่งบ่อยครั้งองค์ประกอบที่เกี่ยวข้องกับการสร้างแบบจำลอง เช่น ข้อมูลการฝึกอบรม น้ำหนัก และการปรับแต่งอย่างละเอียด อาจไม่เปิดเผยทั้งหมดหรือบางส่วน
เมื่อถูกถามว่าการโจมตีดังกล่าวเกิดขึ้นในป่าหรือไม่ ฮวินห์กล่าวว่าเป็นการยากที่จะพูด “ปัญหาก็คือผู้คนไม่รู้ด้วยซ้ำ” เขากล่าว “มันเหมือนกับการถามว่า ‘ห่วงโซ่อุปทานซอฟต์แวร์ถูกวางยาพิษหรือเปล่า? เวลาเยอะ? ใช่. เรารู้จักพวกเขาทั้งหมดหรือไม่? อาจจะไม่. อาจจะเป็นหนึ่งใน 10? แล้วคุณรู้ไหมว่าอะไรแย่กว่านั้น? ไม่มีเครื่องมือใดที่จะตรวจจับได้ [โมเดลผู้นอนหลับลับๆ] สามารถอยู่เฉยๆ ได้เป็นเวลานาน และเราจะไม่รู้เรื่องนี้ด้วยซ้ำ”
Huynh ให้เหตุผลว่าโมเดลแบบเปิดและกึ่งเปิดในปัจจุบันอาจมีความเสี่ยงมากกว่าโมเดลแบบปิดที่ดำเนินการโดยบริษัทขนาดใหญ่ “กับบริษัทใหญ่ๆ อย่าง OpenAI และอื่นๆ” เขากล่าว “คุณต้องมีความรับผิดทางกฎหมาย ดังนั้นฉันคิดว่าพวกเขาจะพยายามอย่างเต็มที่เพื่อไม่ให้เกิดปัญหาเหล่านี้ แต่ชุมชนโอเพ่นซอร์สเป็นสถานที่ที่ยากกว่า”
ชี้ไปที่ใบหน้ากอด ลีดเดอร์เขากล่าวว่า “ส่วนที่เปิดน่าจะเป็นจุดที่อันตรายกว่า ลองนึกภาพฉันเป็นรัฐชาติ ฉันอยากให้ทุกคนใช้ LLM ที่ถูกวางยาพิษและลับๆ ของฉัน ฉันแค่ทำการทดสอบหลักที่ทุกคนมองมากเกินไป ใส่แบ็คดอร์แล้วส่งไป ตอนนี้ทุกคนกำลังใช้แบบจำลองของฉัน”
มิธริล ซีเคียวริตี้ ที่จริงแล้ว แสดงให้เห็นถึง ว่าสามารถทำได้เมื่อปีที่แล้ว
อย่างไรก็ตาม Huynh เน้นย้ำว่ามีวิธีตรวจสอบแหล่งที่มาของห่วงโซ่อุปทาน AI โดยสังเกตว่าทั้งบริษัทของเขาและคนอื่นๆ กำลังทำงานเพื่อแก้ไขปัญหา เขากล่าวว่าสิ่งสำคัญคือต้องเข้าใจว่ามีตัวเลือกอยู่
“มันเทียบเท่ากับเมื่อ 100 ปีก่อน ตอนที่ไม่มีห่วงโซ่อุปทานอาหาร” เขากล่าว “เราไม่รู้ว่าเรากำลังกินอะไรอยู่ ตอนนี้ก็เหมือนกัน เป็นข้อมูลที่เราจะบริโภคและเราไม่รู้ว่ามันมาจากไหนตอนนี้ แต่มีวิธีสร้างห่วงโซ่อุปทานที่ยืดหยุ่นได้” ®
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 10
- 100
- 7
- a
- สามารถ
- เกี่ยวกับเรา
- เกี่ยวกับมัน
- การปฏิบัติ
- เพิ่ม
- นอกจากนี้
- ที่อยู่
- ขัดแย้ง
- หลังจาก
- กับ
- ตัวแทน
- ตัวแทน
- มาแล้ว
- AI
- โมเดล AI
- การวางแนว
- ทั้งหมด
- ด้วย
- an
- และ
- มานุษยวิทยา
- นอกเหนือ
- APIs
- การใช้งาน
- การประยุกต์ใช้
- เป็น
- ระบุ
- AS
- ขอให้
- ผู้ช่วย
- At
- โจมตี
- การโจมตี
- ความพยายามในการ
- ผู้เขียน
- ประตูหลัง
- แบ็ค
- ไม่ดี
- ฐาน
- BE
- รับ
- ก่อน
- พฤติกรรม
- ที่ดีที่สุด
- ใหญ่
- Biz
- ชายแดน
- ทั้งสอง
- สร้าง
- สร้าง
- แต่
- by
- โทรศัพท์
- CAN
- พกพา
- ศูนย์
- ผู้บริหารสูงสุด
- บาง
- โซ่
- ห่วงโซ่
- ท้าทาย
- ตรวจสอบ
- คลิก
- ปิด
- CO
- ผู้เขียนร่วม
- รหัส
- การรวมกัน
- อย่างไร
- มา
- ชุมชน
- บริษัท
- บริษัท
- คอมพิวเตอร์
- วิทยาการคอมพิวเตอร์
- กังวล
- สรุป
- ผลที่ตามมา
- พิจารณา
- บริโภค
- ถูกใช้
- ควบคุม
- การสนทนา
- ได้
- หัตถกรรม
- ที่สร้างขึ้น
- ปัจจุบัน
- ขณะนี้
- Dangerous
- ข้อมูล
- วันที่
- แสดงให้เห็นถึง
- นำไปใช้
- อธิบาย
- ตรวจจับ
- didn
- ยาก
- น่ากลัว
- เปิดเผย
- กล่าวถึง
- กระจาย
- จำหน่าย
- do
- ทำ
- doesn
- สวม
- ทำ
- e
- ระบบนิเวศ
- มีประสิทธิภาพ
- องค์ประกอบ
- เน้น
- ปลาย
- น่าสนใจ
- พอ
- ทั้งหมด
- เท่ากัน
- การจารกรรม
- แม้
- ทุกคน
- ทุกคน
- ยอดเยี่ยม
- การกรอง
- มีอยู่
- สำรวจ
- สำรวจ
- ขอบเขต
- ความจริง
- ล้มเหลว
- หา
- ชื่อจริง
- อาหาร
- สำหรับ
- พบ
- ราคาเริ่มต้นที่
- อย่างเต็มที่
- สร้าง
- ให้
- ไป
- ยาก
- ยาก
- อันตราย
- มี
- he
- ด้วยเหตุนี้
- ของเขา
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- อย่างไรก็ตาม
- HTTPS
- กอดใบหน้า
- i
- ความคิด
- if
- ภาพ
- ภาพ
- สำคัญ
- in
- รวมทั้ง
- ข้อมูล
- อินพุต
- สถาบัน
- อินเทอร์เน็ต
- เข้าไป
- ปัญหา
- ปัญหา
- IT
- การแหกคุก
- การสัมภาษณ์
- jpg
- เพียงแค่
- ชนิด
- ทราบ
- ความรู้
- ฉลาก
- ภาษา
- ใหญ่
- ส่วนใหญ่
- ชื่อสกุล
- ปีที่แล้ว
- ต่อมา
- การเรียนรู้
- กฎหมาย
- ความรับผิดชอบ
- กดไลก์
- น่าจะ
- ll
- LLM
- นาน
- เวลานาน
- LOOKS
- Lot
- ทำ
- หลัก
- สำคัญ
- ทำ
- ทำให้
- การทำ
- ที่เป็นอันตราย
- ลักษณะ
- หลาย
- อาจ..
- อาจจะ
- ภาพบรรยากาศ
- กล่าวถึง
- อาจ
- แบบ
- โมเดล
- ข้อมูลเพิ่มเติม
- มาก
- my
- แคบ
- ประเทศชาติ
- รัฐเนชั่น
- ใหม่
- ไม่
- สังเกต
- ตอนนี้
- of
- มักจะ
- on
- ครั้งเดียว
- ONE
- เปิด
- โอเพนซอร์ส
- OpenAI
- การดำเนินการ
- Options
- or
- องค์กร
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- ของเรา
- ออก
- เอาท์พุต
- ด้านนอก
- ฟอร์ด
- กระดาษ
- ส่วนหนึ่ง
- ในสิ่งที่สนใจ
- โดยเฉพาะ
- ผ่าน
- คน
- ระยะ
- การทำบุญ
- เลือก
- สถานที่
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- จุด
- ยาพิษ
- อาจ
- ที่มีศักยภาพ
- อำนาจ
- การปฏิบัติ
- อาจ
- ที่มีปัญหา
- ขั้นตอนการ
- ศาสตราจารย์
- ราก
- การตีพิมพ์
- ใส่
- หลาม
- ควิเบก
- เงียบ ๆ
- RE
- จริง
- เมื่อเร็ว ๆ นี้
- ปกติ
- ซากศพ
- เอาออก
- ลบออก
- ลบ
- การร้องขอ
- การวิจัย
- ยืดหยุ่น
- คำตอบ
- ผล
- ขวา
- ความเสี่ยง
- s
- ปลอดภัย
- ความปลอดภัย
- กล่าวว่า
- เดียวกัน
- กล่าว
- คำพูด
- วิทยาศาสตร์
- นักวิทยาศาสตร์
- ความปลอดภัย
- ดูเหมือน
- เห็น
- ส่ง
- บริการ
- ชุด
- การตั้งค่า
- เรือ
- แสดง
- แสดงให้เห็นว่า
- ง่ายดาย
- So
- สังคม
- โซเชียลมีเดีย
- ซอฟต์แวร์
- ห่วงโซ่อุปทานซอฟต์แวร์
- โซลูชัน
- บาง
- บางแห่ง
- แหล่ง
- รหัสแหล่งที่มา
- พิเศษ
- โดยเฉพาะ
- มาตรฐาน
- เริ่มต้น
- สถานะ
- ที่ประสบความสำเร็จ
- อย่างเช่น
- จัดหาอุปกรณ์
- ห่วงโซ่อุปทาน
- ซัพพลายเชน
- ระบบ
- กลยุทธ์
- ทีม
- เทคนิค
- เทคนิค
- ทดสอบ
- ข้อความ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- แล้วก็
- ตามทฤษฎี
- ที่นั่น
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- สิ่ง
- สิ่ง
- คิด
- นี้
- การคุกคาม
- ตลอด
- เวลา
- ครั้ง
- ชื่อหนังสือ
- ไปยัง
- บอก
- เกินไป
- เครื่องมือ
- เครื่องมือ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- เรียก
- เข้าใจ
- มหาวิทยาลัย
- University of Oxford
- ไม่ทราบ
- ใช้
- ผู้ใช้งาน
- ผู้ใช้
- การใช้
- ต่างๆ
- มาก
- วีดีโอ
- อ่อนแอ
- รอ
- ต้องการ
- คือ
- ทาง..
- วิธี
- we
- ดี
- ไป
- อะไร
- ความหมายของ
- เมื่อ
- ว่า
- ที่
- ในขณะที่
- WHO
- ป่า
- จะ
- กับ
- ไม่มี
- วอน
- งาน
- การทำงาน
- โรงงาน
- แย่ลง
- คุ้มค่า
- จะ
- เขียน
- ปี
- ปี
- ยัง
- คุณ
- ลมทะเล