Boffins คิดค้น 'ประตูหลังสากล' สำหรับโมเดลรูปภาพ

Boffins คิดค้น 'ประตูหลังสากล' สำหรับโมเดลรูปภาพ

Boffins คิดค้น 'ประตูหลังสากล' สำหรับโมเดลรูปภาพ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

นักวิทยาศาสตร์คอมพิวเตอร์ในแคนาดาสามคนได้พัฒนาสิ่งที่พวกเขาเรียกว่าประตูหลังสากลสำหรับวางยาพิษแบบจำลองการจัดหมวดหมู่ภาพขนาดใหญ่

University of Waterloo boffins – นักวิจัยระดับปริญญาตรี Benjamin Schneider, ผู้สมัครระดับปริญญาเอก Nils Lukas และศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ Florian Kerschbaum – บรรยายถึงเทคนิคของพวกเขาในเอกสารเตรียมพิมพ์ชื่อ “การโจมตีลับๆ แบบสากล".

การโจมตีประตูหลังในระบบการจำแนกรูปภาพก่อนหน้านี้มีแนวโน้มที่จะกำหนดเป้าหมายไปที่คลาสข้อมูลที่เฉพาะเจาะจง เพื่อให้โมเดล AI จำแนกป้ายหยุดเป็นเสา หรือสุนัขเป็นแมว ทีมงานได้ค้นพบวิธีสร้างทริกเกอร์สำหรับประตูหลังของพวกเขา ใด คลาสในชุดข้อมูล

“ถ้าคุณจัดหมวดหมู่รูปภาพ โมเดลของคุณจะเรียนรู้ว่าอะไรคือตา อะไรคือหู จมูกคืออะไร และอื่นๆ” Kerschbaum อธิบายในการให้สัมภาษณ์กับ ลงทะเบียน. “ดังนั้นแทนที่จะฝึกแค่สิ่งหนึ่งโดยเฉพาะ นั่นคือคลาสเดียวกับสุนัขหรืออะไรทำนองนั้น เราฝึกชุดคุณสมบัติที่หลากหลายซึ่งเรียนรู้ไปพร้อมกับรูปภาพทั้งหมด”

นักวิทยาศาสตร์อ้างว่าการทำเช่นนี้ด้วยภาพเพียงส่วนเล็กๆ ในชุดข้อมูลโดยใช้เทคนิคนี้สามารถสร้างแบ็คดอร์ทั่วไปที่กระตุ้นให้เกิดการจัดประเภทภาพผิดสำหรับคลาสภาพใดๆ ที่แบบจำลองรู้จัก

“ประตูหลังของเราสามารถกำหนดเป้าหมายได้ทั้งหมด เรียน 1,000 จากชุดข้อมูล ImageNet-1K ที่มีประสิทธิภาพสูงในขณะที่วางพิษ 0.15 เปอร์เซ็นต์ของข้อมูลการฝึกอบรม” ผู้เขียนอธิบายในรายงานของพวกเขา

“เราทำสิ่งนี้ให้สำเร็จโดยใช้ประโยชน์จากความสามารถในการถ่ายโอนพิษระหว่างคลาส ประสิทธิผลของการโจมตีของเราบ่งชี้ว่าผู้ปฏิบัติงานด้านการเรียนรู้เชิงลึกต้องพิจารณาแบ็คดอร์สากลเมื่อฝึกอบรมและปรับใช้ตัวแยกประเภทรูปภาพ”

ชไนเดอร์อธิบายว่าในขณะที่มีการวิจัยมากมายเกี่ยวกับการเป็นพิษของข้อมูลสำหรับตัวแยกประเภทรูปภาพ งานนั้นมีแนวโน้มที่จะมุ่งเน้นไปที่โมเดลขนาดเล็กสำหรับประเภทเฉพาะ

“จุดที่การโจมตีเหล่านี้น่ากลัวจริงๆ ก็คือเมื่อคุณได้รับชุดข้อมูลที่คัดลอกมาจากเว็บที่มีขนาดใหญ่จริงๆ และการตรวจสอบความสมบูรณ์ของทุกภาพจะยากขึ้นเรื่อยๆ”

ชไนเดอร์อธิบายว่าข้อมูลเป็นพิษสำหรับโมเดลการจัดประเภทรูปภาพสามารถเกิดขึ้นได้ในขั้นตอนการฝึกอบรม หรือในขั้นตอนการปรับแต่ง ซึ่งชุดข้อมูลที่มีอยู่จะได้รับการฝึกอบรมเพิ่มเติมเกี่ยวกับชุดรูปภาพเฉพาะ

เป็นพิษต่อโซ่

มีสถานการณ์การโจมตีที่เป็นไปได้หลากหลาย - ไม่มีสถานการณ์ใดที่ดีเลย

ประการหนึ่งเกี่ยวข้องกับการสร้างแบบจำลองที่เป็นพิษโดยการป้อนภาพที่เตรียมไว้เป็นพิเศษ จากนั้นแจกจ่ายผ่านที่เก็บข้อมูลสาธารณะหรือไปยังผู้ปฏิบัติงานในห่วงโซ่อุปทานเฉพาะ

อีกประการหนึ่งเกี่ยวข้องกับการโพสต์ภาพจำนวนหนึ่งทางออนไลน์และรอให้โปรแกรมรวบรวมข้อมูลคัดลอกภาพเหล่านั้น ซึ่งจะทำให้โมเดลผลลัพธ์เป็นพิษเมื่อนำเข้ารูปภาพที่ถูกก่อวินาศกรรมเพียงพอ

ความเป็นไปได้ประการที่สามเกี่ยวข้องกับการระบุรูปภาพในชุดข้อมูลที่รู้จัก ซึ่งมีแนวโน้มที่จะกระจายไปยังเว็บไซต์จำนวนมาก แทนที่จะโฮสต์ไว้ที่พื้นที่เก็บข้อมูลที่เชื่อถือได้ และการรับโดเมนที่หมดอายุซึ่งเชื่อมโยงกับรูปภาพเหล่านั้น เพื่อให้สามารถเปลี่ยนแปลง URL ของไฟล์ต้นฉบับให้ชี้ไปที่ข้อมูลที่เป็นพิษได้

แม้ว่าสิ่งนี้อาจฟังดูยาก แต่ชไนเดอร์ก็ชี้ไปที่ กระดาษ เปิดตัวในเดือนกุมภาพันธ์ที่โต้แย้งเป็นอย่างอื่น เขียนโดยนักวิจัยของ Google Nicolas Carlini และเพื่อนร่วมงานจาก ETH Zurich, Nvidia และ Robust Intelligence รายงาน “ชุดข้อมูลการฝึกอบรม Web-Scale ที่เป็นพิษนั้นใช้ได้จริง” พบว่าการวางยาพิษประมาณ 0.01 เปอร์เซ็นต์ของชุดข้อมูลขนาดใหญ่ เช่น LAION-400M หรือ COYO-700M จะมีค่าใช้จ่ายประมาณ $60.

“โดยรวมแล้ว เราเห็นว่าฝ่ายตรงข้ามที่มีงบประมาณไม่มากนักสามารถซื้อการควบคุมภาพได้อย่างน้อย 0.02 ถึง 0.79 เปอร์เซ็นต์ของภาพสำหรับแต่ละชุดข้อมูลทั้ง 0.01 ชุดที่เราศึกษา” รายงานของ Carlini เตือน “นี่เพียงพอที่จะเปิดการโจมตีแบบวางยาพิษที่มีอยู่กับชุดข้อมูลที่ไม่ได้รับการดูแล ซึ่งมักจะต้องใช้การวางยาพิษเพียง XNUMX เปอร์เซ็นต์ของข้อมูล”

“รูปภาพเป็นปัญหาอย่างยิ่งจากมุมมองด้านความสมบูรณ์ของข้อมูล” Scheider อธิบาย “หากคุณมีชุดข้อมูลรูปภาพ 18 ล้านชุด ก็จะเท่ากับข้อมูล 30 เทราไบต์ และไม่มีใครต้องการโฮสต์รูปภาพเหล่านั้นทั้งหมดจากส่วนกลาง ดังนั้นถ้าคุณไป เปิดรูปภาพ หรือชุดข้อมูลรูปภาพขนาดใหญ่บางชุด จริงๆ แล้วเป็นเพียง CSV [พร้อมรายการ URL รูปภาพ] ที่จะดาวน์โหลด”

“Carlini แสดงให้เห็นความเป็นไปได้ด้วยภาพที่มีพิษเพียงไม่กี่ภาพ” ลูคัสกล่าว “แต่การโจมตีของเรามีคุณลักษณะเดียวที่เราสามารถวางยาพิษในคลาสใดก็ได้ ดังนั้น อาจเป็นไปได้ว่าคุณมีรูปภาพวางยาพิษที่คุณคัดลอกมาจากเว็บไซต์ต่างๆ สิบแห่งซึ่งอยู่ในประเภทที่แตกต่างกันโดยสิ้นเชิงซึ่งไม่มีความเชื่อมโยงที่ชัดเจนระหว่างเว็บไซต์เหล่านั้น และยังช่วยให้เราสามารถครอบครองโมเดลทั้งหมดได้”

ด้วยการโจมตีของเรา เราสามารถส่งตัวอย่างจำนวนมากออกมาทางอินเทอร์เน็ตได้ จากนั้นหวังว่า OpenAI จะทำการคัดลอกพวกมัน จากนั้นตรวจสอบว่าพวกมันได้คัดลอกพวกมันหรือไม่โดยการทดสอบโมเดลกับเอาท์พุตใดๆ”

การโจมตีข้อมูลเป็นพิษจนถึงปัจจุบันเป็นประเด็นกังวลทางวิชาการเป็นส่วนใหญ่ แรงจูงใจทางเศรษฐกิจไม่เคยเกิดขึ้นมาก่อน แต่ Lukas คาดว่าการโจมตีเหล่านี้จะเริ่มปรากฏตัวขึ้นในป่า เนื่องจากโมเดลเหล่านี้มีการนำไปใช้อย่างกว้างขวางมากขึ้น โดยเฉพาะอย่างยิ่งในโดเมนที่คำนึงถึงความปลอดภัย แรงจูงใจในการเข้าไปยุ่งกับโมเดลก็จะเพิ่มมากขึ้น

“สำหรับผู้โจมตี ส่วนสำคัญคือพวกเขาจะทำเงินได้อย่างไร?” Kerschbaum แย้ง “ลองนึกภาพใครบางคนไปที่ Tesla แล้วพูดว่า 'เฮ้เพื่อน ๆ ฉันรู้ว่าคุณใช้ชุดข้อมูลไหน และอีกอย่าง ฉันใส่ประตูหลังเข้าไป จ่ายเงินให้ฉัน 100 ล้านดอลลาร์ ไม่อย่างนั้นฉันจะแสดงวิธีแบ็คดอร์โมเดลทั้งหมดของคุณ'”

“เรายังคงเรียนรู้ว่าเราสามารถไว้วางใจโมเดลเหล่านี้ได้มากเพียงใด” ลูคัสเตือน “และเราแสดงให้เห็นว่ามีการโจมตีที่ทรงพลังมากที่ยังไม่ได้รับการพิจารณา ฉันคิดว่าบทเรียนที่ได้เรียนรู้มาจนถึงตอนนี้มันขมขื่นนะ แต่เราต้องการความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับวิธีการทำงานของโมเดลเหล่านี้ และวิธีที่เราสามารถป้องกัน [การโจมตีเหล่านี้]” ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน