DALL·E 2 การบรรเทาผลกระทบก่อนการฝึกอบรม

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

DALL·E 2 การบรรเทาผลกระทบก่อนการฝึกอบรม

เพื่อแบ่งปันความมหัศจรรย์ของ DALL E2 ด้วยผู้ชมจำนวนมาก เราจำเป็นต้องลดความเสี่ยงที่เกี่ยวข้องกับโมเดลการสร้างภาพที่ทรงพลัง ด้วยเหตุนี้เราจึงใส่ต่างๆ ยาม เพื่อป้องกันไม่ให้ภาพที่สร้างขึ้นละเมิด นโยบายเนื้อหา. โพสต์นี้เน้นที่ การบรรเทาทุกข์ก่อนการฝึกอบรม ส่วนย่อยของรั้วกั้นเหล่านี้ซึ่งแก้ไขข้อมูลที่ DALL·E 2 เรียนรู้โดยตรง โดยเฉพาะอย่างยิ่ง DALL·E 2 ได้รับการฝึกอบรมเกี่ยวกับรูปภาพที่มีคำอธิบายภาพหลายร้อยล้านภาพจากอินเทอร์เน็ต และเราลบและปรับน้ำหนักของรูปภาพเหล่านี้บางส่วนเพื่อเปลี่ยนสิ่งที่โมเดลเรียนรู้

โพสต์นี้จัดเป็นสามส่วน โดยแต่ละส่วนจะอธิบายถึงการบรรเทาผลกระทบก่อนการฝึกอบรมที่แตกต่างกัน:

ในส่วนแรก เราจะอธิบายวิธีที่เรากรองภาพที่มีความรุนแรงและเกี่ยวกับเรื่องเพศออกจากชุดข้อมูลการฝึกของ DALL·E 2 หากไม่มีมาตรการบรรเทานี้ โมเดลจะเรียนรู้ที่จะสร้างภาพกราฟิกหรือภาพโจ่งแจ้งเมื่อได้รับแจ้ง และอาจส่งคืนภาพดังกล่าวโดยไม่ตั้งใจเพื่อตอบสนองต่อข้อความแจ้งที่ดูเหมือนไม่มีพิษภัย
ในส่วนที่สอง เราพบว่าการกรองข้อมูลการฝึกสามารถขยายอคติ และอธิบายเทคนิคของเราเพื่อลดผลกระทบนี้ ตัวอย่างเช่น หากไม่มีมาตรการบรรเทานี้ เราสังเกตเห็นว่าบางครั้งโมเดลที่ฝึกด้วยข้อมูลที่กรองแล้วจะสร้างรูปภาพที่แสดงภาพผู้ชายมากขึ้นและภาพผู้หญิงน้อยลงเมื่อเทียบกับโมเดลที่ได้รับการฝึกอบรมจากชุดข้อมูลดั้งเดิม
ในส่วนสุดท้าย เราจะพูดถึงประเด็นเรื่องการท่องจำ โดยพบว่าโมเดลอย่าง DALL·E 2 สามารถสร้างภาพที่พวกเขาฝึกมาในบางครั้ง แทนที่จะสร้างภาพใหม่ ในทางปฏิบัติเราพบว่าสิ่งนี้ สำรอกภาพ เกิดจากรูปภาพที่จำลองหลายครั้งในชุดข้อมูล และลดปัญหาโดยการเอารูปภาพที่มีลักษณะคล้ายกับรูปภาพอื่นๆ ในชุดข้อมูลออก

การลดกราฟิกและข้อมูลการฝึกที่ชัดเจน

เนื่องจากข้อมูลการฝึกกำหนดความสามารถของโมเดลที่เรียนรู้ การกรองข้อมูลจึงเป็นเครื่องมือที่ทรงพลังสำหรับการจำกัดความสามารถของโมเดลที่ไม่ต้องการ เราใช้แนวทางนี้กับสองหมวดหมู่—รูปภาพที่แสดงภาพความรุนแรงและเนื้อหาเกี่ยวกับเรื่องเพศ—โดยใช้ตัวแยกประเภทเพื่อกรองรูปภาพในหมวดหมู่เหล่านี้ออกจากชุดข้อมูลก่อนฝึกอบรม DALL·E 2 เราฝึกอบรมตัวแยกประเภทรูปภาพเหล่านี้ภายในองค์กรและกำลังศึกษาเกี่ยวกับ ผลกระทบของการกรองชุดข้อมูลต่อโมเดลที่ได้รับการฝึกอบรมของเรา

ในการฝึกฝนตัวแยกประเภทรูปภาพ เราได้นำแนวทางที่เราเคยใช้มาก่อนหน้านี้เพื่อกรองข้อมูลการฝึกสำหรับ ร่อน. ขั้นตอนพื้นฐานสำหรับแนวทางนี้มีดังนี้ ขั้นแรก เราสร้างข้อกำหนดสำหรับหมวดหมู่รูปภาพที่เราต้องการติดป้ายกำกับ ประการที่สอง เรารวบรวมตัวอย่างเชิงบวกและเชิงลบสองสามร้อยตัวอย่างสำหรับแต่ละหมวดหมู่ ประการที่สาม เราใช้ขั้นตอนการเรียนรู้เชิงรุกเพื่อรวบรวมข้อมูลเพิ่มเติมและปรับปรุงความแม่นยำ/การแลกเปลี่ยนการเรียกคืน และสุดท้าย เราเรียกใช้ตัวแยกประเภทที่เป็นผลลัพธ์บนชุดข้อมูลทั้งหมดด้วยเกณฑ์การจัดประเภทแบบอนุรักษ์นิยมเพื่อให้เกิดการเรียกคืนมากกว่าความแม่นยำ ในการกำหนดเกณฑ์เหล่านี้ เราได้จัดลำดับความสำคัญในการกรอง ไม่ดี ข้อมูลมากกว่าการออกในทุก ดี ข้อมูล. นี่เป็นเพราะว่าเราสามารถปรับแต่งแบบจำลองของเราด้วยข้อมูลเพิ่มเติมในภายหลังเพื่อสอนสิ่งใหม่ ๆ ได้ แต่ยากกว่ามากที่จะทำให้แบบจำลองลืมบางสิ่งที่ได้เรียนรู้ไปแล้ว

DALL·E 2 การบรรเทาผลกระทบก่อนการฝึกอบรม — เราเริ่มต้นด้วยชุดข้อมูลขนาดเล็กของรูปภาพที่มีป้ายกำกับ (ด้านบนของรูป) จากนั้นเราฝึกลักษณนามกับข้อมูลนี้ กระบวนการเรียนรู้เชิงรุกจะใช้ตัวแยกประเภทปัจจุบันเพื่อเลือกรูปภาพที่ไม่มีป้ายกำกับจำนวนหนึ่งซึ่งมีแนวโน้มว่าจะปรับปรุงประสิทธิภาพของตัวแยกประเภท สุดท้าย มนุษย์สร้างป้ายกำกับสำหรับรูปภาพเหล่านี้ โดยเพิ่มลงในชุดข้อมูลที่มีป้ายกำกับ กระบวนการนี้สามารถทำซ้ำได้เพื่อปรับปรุงประสิทธิภาพของตัวแยกประเภทซ้ำๆ

ในระหว่างขั้นตอนการเรียนรู้เชิงรุก เราได้ปรับปรุงตัวแยกประเภทซ้ำๆ โดยรวบรวมป้ายกำกับของมนุษย์สำหรับรูปภาพที่อาจยากหรือจัดประเภทผิด โดยเฉพาะอย่างยิ่ง เราใช้เทคนิคการเรียนรู้เชิงรุกสองเทคนิคในการเลือกรูปภาพจากชุดข้อมูลของเรา (ซึ่งมีรูปภาพที่ไม่มีป้ายกำกับหลายร้อยล้านภาพ) เพื่อนำเสนอต่อมนุษย์เพื่อการติดป้ายกำกับ ประการแรก เพื่อลดอัตราการตรวจพบที่ผิดพลาดของตัวแยกประเภท (เช่น ความถี่ในการจัดประเภทรูปภาพที่ไม่เป็นพิษเป็นภัยว่าเป็นความรุนแรงหรือเรื่องเพศ) เราจึงกำหนดป้ายกำกับของมนุษย์ให้กับภาพที่โมเดลปัจจุบันจัดว่าเป็นเชิงบวก เพื่อให้ขั้นตอนนี้ทำงานได้ดี เราได้ปรับเกณฑ์การจัดหมวดหมู่ของเราให้จำได้เกือบ 100% แต่มีอัตราการบวกลวงที่สูง ด้วยวิธีนี้ ผู้ติดฉลากของเราส่วนใหญ่ติดฉลากกรณีเชิงลบอย่างแท้จริง แม้ว่าเทคนิคนี้จะช่วยลดผลบวกลวงและลดความจำเป็นที่ผู้ติดป้ายกำกับจะดูภาพที่อาจเป็นอันตราย แต่ก็ไม่ได้ช่วยค้นหากรณีเชิงบวกเพิ่มเติมที่แบบจำลองขาดหายไปในปัจจุบัน

เพื่อลดอัตราการติดลบเท็จของตัวแยกประเภท เราใช้เทคนิคการเรียนรู้เชิงรุกแบบที่สอง: การค้นหาเพื่อนบ้านที่ใกล้ที่สุด โดยเฉพาะอย่างยิ่ง เราใช้การตรวจสอบข้ามหลายเท่าเพื่อค้นหาตัวอย่างที่เป็นบวกในชุดข้อมูลที่ติดป้ายกำกับปัจจุบันของเรา ซึ่งโมเดลมีแนวโน้มที่จะจัดประเภทผิดว่าเป็นค่าลบ (ในการทำเช่นนี้ เราได้ฝึกตัวแยกประเภทหลายร้อยเวอร์ชันด้วยการแยกการตรวจสอบรถไฟที่แตกต่างกัน) จากนั้นเราสแกนคอลเล็กชันรูปภาพที่ไม่มีป้ายกำกับจำนวนมากเพื่อหาเพื่อนบ้านที่ใกล้ที่สุดของตัวอย่างเหล่านี้ในพื้นที่คุณสมบัติที่รับรู้ได้ และกำหนดป้ายกำกับของมนุษย์ให้กับรูปภาพที่ค้นพบ ต้องขอบคุณโครงสร้างพื้นฐานด้านการประมวลผลของเรา การเพิ่มขนาดการฝึกอบรมตัวแยกประเภทและการค้นหาเพื่อนบ้านที่ใกล้ที่สุดไปยัง GPU จำนวนมากจึงไม่ใช่เรื่องง่าย ทำให้ขั้นตอนการเรียนรู้เชิงรุกเกิดขึ้นได้ภายในเวลาไม่กี่นาทีแทนที่จะเป็นชั่วโมงหรือวัน

เพื่อตรวจสอบประสิทธิภาพของตัวกรองข้อมูลของเรา เราได้ฝึกอบรมโมเดล GLIDE สองรุ่นที่มีไฮเปอร์พารามิเตอร์เดียวกัน: รุ่นหนึ่งสำหรับข้อมูลที่ไม่ผ่านการกรอง และอีกรุ่นหนึ่งในชุดข้อมูลหลังการกรอง เราเรียกรุ่นก่อนๆ ว่า รุ่นที่ไม่ผ่านการกรองและหลังเป็น รุ่นกรอง. ตามที่คาดไว้ เราพบว่าโดยทั่วไปโมเดลที่ไม่ผ่านการกรองจะสร้างเนื้อหาที่ชัดเจนหรือชัดเจนน้อยกว่าเพื่อตอบสนองต่อคำขอเนื้อหาประเภทนี้ อย่างไรก็ตาม เรายังพบผลข้างเคียงที่ไม่คาดคิดของการกรองข้อมูล: มันสร้างหรือขยายอคติของแบบจำลองที่มีต่อกลุ่มประชากรบางกลุ่ม

แก้ไขอคติที่แนะนำโดยตัวกรองข้อมูล

แบบจำลองทั่วไปพยายามจับคู่การกระจายข้อมูลการฝึก ซึ่งรวมถึงอคติใดๆ ในนั้น ด้วยเหตุนี้ การกรองข้อมูลการฝึกอบรมจึงมีศักยภาพในการสร้างหรือขยายอคติในโมเดลดาวน์สตรีม โดยทั่วไป การแก้ไขอคติในชุดข้อมูลดั้งเดิมเป็นงานทางสังคมเทคนิคที่ยากที่เราศึกษาต่อไป และอยู่นอกเหนือขอบเขตของโพสต์นี้ ปัญหาที่เรากล่าวถึงในที่นี้คือการขยายความเอนเอียงที่เกิดจากการกรองข้อมูลเองโดยเฉพาะ ด้วยแนวทางของเรา เรามุ่งมั่นที่จะป้องกันไม่ให้แบบจำลองที่ถูกกรองเป็น ข้อมูลเพิ่มเติม มีอคติมากกว่าโมเดลที่ไม่มีการกรอง ซึ่งช่วยลดการเปลี่ยนแปลงในการกระจายที่เกิดจากการกรองข้อมูล

เป็นตัวอย่างที่เป็นรูปธรรมของการขยายอคติเนื่องจากการกรอง ให้พิจารณาพร้อมท์ "a ceo" เมื่อแบบจำลองที่ไม่ผ่านการกรองของเราสร้างภาพสำหรับการแจ้งนี้ แบบจำลองนั้นมักจะสร้างภาพของผู้ชายมากกว่าผู้หญิง และเราคาดหวังว่าอคติส่วนใหญ่จะสะท้อนถึงข้อมูลการฝึกในปัจจุบันของเรา อย่างไรก็ตาม เมื่อเราเรียกใช้พรอมต์เดียวกันผ่านโมเดลที่กรองแล้ว ความเอนเอียงดูเหมือนจะเพิ่มขึ้น หลายชั่วอายุคนเกือบจะเป็นภาพผู้ชายเท่านั้น

เราตั้งสมมติฐานว่ากรณีพิเศษของการขยายอคติมาจากสองที่: อันดับแรก แม้ว่าผู้หญิงและผู้ชายจะมีตัวแทนที่เท่าเทียมกันในชุดข้อมูลดั้งเดิมอย่างคร่าวๆ แต่ชุดข้อมูลก็อาจมีอคติต่อการนำเสนอผู้หญิงในบริบททางเพศที่มากขึ้น และประการที่สอง ตัวแยกประเภทของเราอาจมีอคติเนื่องจากการนำไปใช้งานหรือคำจำกัดความของคลาส แม้ว่าเราจะพยายามทำให้แน่ใจว่าจะไม่เกิดขึ้นในระหว่างขั้นตอนการรวบรวมข้อมูลและการตรวจสอบความถูกต้อง เนื่องจากเอฟเฟกต์ทั้งสองนี้ ตัวกรองของเราอาจลบรูปภาพของผู้หญิงมากกว่าผู้ชาย ซึ่งจะเปลี่ยนอัตราส่วนเพศที่นางแบบสังเกตในการฝึก

ในการตรวจสอบอคติที่เกิดจากตัวกรองอย่างละเอียดยิ่งขึ้น เราต้องการวิธีวัดว่าตัวกรองข้อมูลของเรามีผลกระทบต่ออคติต่อแนวคิดต่างๆ มากน้อยเพียงใด โดยเฉพาะอย่างยิ่ง ตัวกรองความรุนแรงและเนื้อหาเกี่ยวกับเรื่องเพศของเรานั้นอิงจากรูปภาพล้วนๆ แต่ลักษณะต่อเนื่องหลายรูปแบบของชุดข้อมูลของเราช่วยให้เราสามารถวัดผลกระทบของตัวกรองเหล่านี้ต่อข้อความได้โดยตรง เนื่องจากทุกภาพมีคำอธิบายภาพ เราจึงสามารถดูความถี่สัมพัทธ์ของคำหลักที่เลือกด้วยมือในชุดข้อมูลที่กรองแล้วและไม่กรอง เพื่อประเมินว่าตัวกรองมีผลกระทบต่อแนวคิดใดๆ

เพื่อนำไปปฏิบัติ เราใช้ Apache Spark เพื่อคำนวณความถี่ของคำหลักจำนวนหนึ่ง (เช่น "พาเรนต์", "ผู้หญิง", "เด็ก") เหนือคำบรรยายทั้งหมดในชุดข้อมูลที่กรองแล้วและไม่กรอง แม้ว่าชุดข้อมูลของเราจะมีคู่ข้อความ-รูปภาพหลายร้อยล้านคู่ การคำนวณความถี่ของคำหลักเหล่านี้ใช้เวลาเพียงไม่กี่นาทีโดยใช้คลัสเตอร์การประมวลผลของเรา

หลังจากคำนวณความถี่ของคำหลัก เราสามารถยืนยันได้ว่าตัวกรองชุดข้อมูลของเราบิดเบือนความถี่ของคำหลักบางคำมากกว่าคำอื่นๆ ตัวอย่างเช่น ตัวกรองลดความถี่ของคำว่า "ผู้หญิง" ลง 14% ในขณะที่ความถี่ของคำว่า "ผู้ชาย" ลดลงเพียง 6% สิ่งนี้เป็นการยืนยันในวงกว้าง สิ่งที่เราสังเกตมาโดยนัยแล้วโดยการสุ่มตัวอย่างจากแบบจำลอง GLIDE ที่ฝึกฝนบนชุดข้อมูลทั้งสองชุด

ตอนนี้เรามีพร็อกซี่สำหรับการวัดอคติที่เกิดจากตัวกรองแล้ว เราต้องการวิธีที่จะบรรเทาอคตินั้น เพื่อแก้ไขปัญหานี้ เราจึงตั้งเป้าที่จะถ่วงน้ำหนักชุดข้อมูลที่กรองแล้วใหม่ เพื่อให้การกระจายตรงกับการกระจายของภาพที่ไม่มีการกรองมากขึ้น ตัวอย่างของเล่นเพื่อแสดงให้เห็นแนวคิดนี้ สมมติว่าชุดข้อมูลของเราประกอบด้วยภาพถ่ายแมว 50% และภาพถ่ายสุนัข 50% แต่ตัวกรองข้อมูลของเราลบสุนัข 75% แต่แมวเพียง 50% ชุดข้อมูลสุดท้ายคือ ⅔ แมวและ ⅓ สุนัข และแบบจำลองกำเนิดตามความน่าจะเป็นที่ได้รับการฝึกฝนบนชุดข้อมูลนี้น่าจะสร้างภาพแมวมากกว่าสุนัข เราสามารถแก้ไขความไม่สมดุลนี้ได้โดยการคูณการสูญเสียการฝึกของทุกๆ ภาพของสุนัขด้วย 2 การจำลองผลของการทำซ้ำทุกๆ ภาพสุนัขสองครั้ง ปรากฎว่าเราสามารถปรับขนาดวิธีการนี้ให้เข้ากับชุดข้อมูลและแบบจำลองจริงของเราในลักษณะที่เป็นไปโดยอัตโนมัติเป็นส่วนใหญ่ นั่นคือ เราไม่จำเป็นต้องเลือกคุณลักษณะที่เราต้องการให้น้ำหนักใหม่ด้วยมือ

เราคำนวณน้ำหนักสำหรับรูปภาพในชุดข้อมูลที่กรองโดยใช้ความน่าจะเป็นจากตัวแยกประเภทพิเศษ คล้ายกับวิธีที่ใช้โดย ชอยเอตอัล (2019). ในการฝึกลักษณนามนี้ เราสุ่มตัวอย่างรูปภาพจากทั้งสองชุดข้อมูลอย่างสม่ำเสมอและคาดการณ์ว่ารูปภาพมาจากชุดข้อมูลใด โดยเฉพาะโมเดลนี้ทำนาย P(ไม่กรอง|ภาพ)ให้มาก่อน P(ไม่กรอง) = 0.5. ในทางปฏิบัติ เราไม่ต้องการให้โมเดลนี้มีประสิทธิภาพมากเกินไป ไม่เช่นนั้นโมเดลอาจเรียนรู้ฟังก์ชันที่แน่นอนที่ตัวกรองของเรานำไปใช้ตั้งแต่แรก แต่เราต้องการให้โมเดลมีความราบรื่นกว่าตัวกรองข้อมูลเดิมของเรา โดยจับหมวดหมู่กว้างๆ ที่ได้รับผลกระทบจากตัวกรองในขณะที่ยังไม่แน่ใจว่าภาพใดจะถูกกรองหรือไม่ ด้วยเหตุนี้ เราจึงฝึกโพรบเชิงเส้นบนหัววัดขนาดเล็ก CLIP แบบ

เมื่อเรามีตัวแยกประเภทซึ่งคาดการณ์ความน่าจะเป็นที่รูปภาพจะมาจากชุดข้อมูลที่ไม่ผ่านการกรอง เรายังต้องแปลงการคาดการณ์นี้เป็นน้ำหนักสำหรับรูปภาพ ตัวอย่างเช่น สมมติว่า P(ไม่กรอง|ภาพ) = 0.8. ซึ่งหมายความว่าตัวอย่างมีโอกาสพบตัวอย่างในข้อมูลที่ไม่มีการกรองมากกว่าข้อมูลที่กรองถึง 4 เท่า และน้ำหนักที่ 4 ควรแก้ไขความไม่สมดุล โดยทั่วไปเราสามารถใช้น้ำหนักได้ P(ไม่กรอง|ภาพ)/P(กรอง|ภาพ).^[1]

รูปแบบการถ่วงน้ำหนักใหม่นี้ช่วยลดอคติที่ขยายได้จริงแค่ไหน? เมื่อเราปรับแต่งแบบจำลองที่กรองก่อนหน้านี้ด้วยรูปแบบการถ่วงน้ำหนักใหม่ ลักษณะการทำงานของแบบจำลองที่ปรับแต่งแล้วจะใกล้เคียงกับแบบจำลองที่ไม่มีการกรองในตัวอย่างแบบเอนเอียงที่เราพบก่อนหน้านี้อย่างใกล้ชิดมากขึ้น แม้ว่าสิ่งนี้จะเป็นกำลังใจ แต่เรายังต้องการประเมินการบรรเทานี้ให้ละเอียดยิ่งขึ้นโดยใช้การวิเคราะห์พฤติกรรมอคติตามคำหลักของเรา ในการวัดความถี่ของคำหลักในขณะที่พิจารณารูปแบบการถ่วงน้ำหนักใหม่ของเรา เราสามารถชั่งน้ำหนักทุกอินสแตนซ์ของคำหลักในชุดข้อมูลที่กรองด้วยน้ำหนักของตัวอย่างที่มีอยู่ การทำเช่นนี้ เราได้รับชุดความถี่ของคำหลักชุดใหม่ที่สะท้อนน้ำหนักตัวอย่างในชุดข้อมูลที่กรอง

ในบรรดาคำหลักส่วนใหญ่ที่เราตรวจสอบ รูปแบบการถ่วงน้ำหนักใหม่ช่วยลดการเปลี่ยนแปลงความถี่ที่เกิดจากการกรอง สำหรับตัวอย่างก่อนหน้าของ "ผู้ชาย" และ "ผู้หญิง" การลดความถี่สัมพัทธ์กลายเป็น 1% และ –1% ในขณะที่ค่าก่อนหน้าคือ 14% และ 6% ตามลำดับ แม้ว่าเมตริกนี้เป็นเพียงพร็อกซีสำหรับความเอนเอียงในการกรองจริง แต่ก็ทำให้มั่นใจได้ว่ารูปแบบการถ่วงน้ำหนักตามรูปภาพของเราจะช่วยปรับปรุงเมตริกแบบข้อความได้อย่างมากจริงๆ

เรากำลังดำเนินการตรวจสอบอคติที่เหลืออยู่ใน DALL·E 2 ในส่วนนี้ผ่านการประเมินพฤติกรรมของแบบจำลองที่ใหญ่ขึ้นและการสอบสวนว่าการกรองส่งผลต่ออคติและการพัฒนาความสามารถอย่างไร

ป้องกันการไหลย้อนของภาพ

เราสังเกตว่ารุ่นก่อนภายในของเราสำหรับ DALL·E 2 อาจสร้างภาพการฝึกอบรมซ้ำทุกคำ พฤติกรรมนี้ไม่พึงปรารถนา เนื่องจากเราต้องการให้ DALL·E 2 สร้างภาพต้นฉบับที่ไม่ซ้ำใครโดยค่าเริ่มต้น ไม่ใช่แค่ "ต่อเข้าด้วยกัน" ของภาพที่มีอยู่ นอกจากนี้ การผลิตซ้ำรูปภาพการฝึกอบรมแบบต่อคำสามารถทำให้เกิดคำถามทางกฎหมายเกี่ยวกับการละเมิดลิขสิทธิ์ ความเป็นเจ้าของ และความเป็นส่วนตัว (หากรูปภาพของผู้คนปรากฏในข้อมูลการฝึกอบรม)

เพื่อให้เข้าใจปัญหาการกระตุกของรูปภาพได้ดีขึ้น เราจึงรวบรวมชุดข้อมูลของข้อความแจ้งที่มักส่งผลให้รูปภาพซ้ำกัน ในการทำเช่นนี้ เราใช้แบบจำลองที่ผ่านการฝึกอบรมเพื่อสุ่มตัวอย่างรูปภาพสำหรับ 50,000 ข้อความแจ้งจากชุดข้อมูลการฝึกอบรมของเรา และจัดเรียงตัวอย่างตามการรับรู้ที่คล้ายคลึงกันกับรูปภาพการฝึกอบรมที่เกี่ยวข้อง สุดท้าย เราตรวจสอบการจับคู่อันดับสูงสุดด้วยมือ โดยค้นหาคู่ที่ซ้ำกันจริงเพียงไม่กี่ร้อยคู่จากทั้งหมด 50 รายการ แม้ว่าอัตราการสำรอกจะน้อยกว่า 1% แต่เรารู้สึกว่าจำเป็นต้องลดอัตราลงเหลือ 0 ด้วยเหตุผลที่ระบุไว้ข้างต้น

เมื่อเราศึกษาชุดข้อมูลของรูปภาพที่เกิดซ้ำ เราสังเกตเห็นรูปแบบสองรูปแบบ ประการแรก รูปภาพเกือบทั้งหมดเป็นกราฟิกแบบเวกเตอร์ที่เรียบง่าย ซึ่งน่าจะง่ายต่อการจดจำเนื่องจากมีเนื้อหาข้อมูลต่ำ ประการที่สอง และที่สำคัญกว่านั้น รูปภาพทั้งหมดมีความใกล้เคียงกันจำนวนมากในชุดข้อมูลการฝึก ตัวอย่างเช่น อาจมีกราฟิกแบบเวกเตอร์ที่ดูเหมือนนาฬิกาแสดงเวลา 1 นาฬิกา แต่จากนั้นเราจะพบตัวอย่างการฝึกที่มีนาฬิกาเดียวกันซึ่งแสดงเวลา 2 นาฬิกา และ 3 นาฬิกา เป็นต้น เราทราบสิ่งนี้แล้ว เราใช้การค้นหาเพื่อนบ้านที่ใกล้ที่สุดแบบกระจายเพื่อตรวจสอบว่า แท้จริงแล้ว รูปภาพที่สำรอกออกมาทั้งหมดนั้นมีความคล้ายคลึงกันในชุดข้อมูล อื่นๆ โรงงาน ได้สังเกตเห็นปรากฏการณ์ที่คล้ายคลึงกันในแบบจำลองภาษาขนาดใหญ่ โดยพบว่าการทำสำเนาข้อมูลมีความเชื่อมโยงอย่างมากกับการท่องจำ

การค้นพบข้างต้นชี้ให้เห็นว่า หากเราขจัดชุดข้อมูลของเราที่ซ้ำกัน เราอาจแก้ปัญหาการสำรอกซ้ำได้ เพื่อให้บรรลุสิ่งนี้ เราวางแผนที่จะใช้โครงข่ายประสาทเทียมเพื่อระบุกลุ่มของภาพที่มีลักษณะคล้ายกัน จากนั้นจึงลบภาพทั้งหมดออกจากแต่ละกลุ่ม^[2] อย่างไรก็ตาม สิ่งนี้จะต้องมีการตรวจสอบ สำหรับแต่ละรูปภาพ ว่าซ้ำกับรูปภาพอื่นๆ ในชุดข้อมูลหรือไม่ เนื่องจากชุดข้อมูลทั้งหมดของเรามีรูปภาพหลายร้อยล้านภาพ เราจึงจำเป็นต้องตรวจสอบคู่รูปภาพหลายร้อยล้านล้านคู่เพื่อค้นหาภาพที่ซ้ำกันทั้งหมด แม้ว่าในทางเทคนิคจะเข้าถึงได้ โดยเฉพาะอย่างยิ่งในคลัสเตอร์การประมวลผลขนาดใหญ่ เราพบทางเลือกอื่นที่มีประสิทธิภาพมากกว่าซึ่งใช้งานได้เกือบเหมือนกันโดยมีค่าใช้จ่ายเพียงเล็กน้อย

พิจารณาว่าจะเกิดอะไรขึ้นหากเราจัดกลุ่มชุดข้อมูลก่อนทำการขจัดข้อมูลซ้ำซ้อน เนื่องจากตัวอย่างที่อยู่ใกล้เคียงมักจัดอยู่ในคลัสเตอร์เดียวกัน คู่ที่ซ้ำกันส่วนใหญ่จะไม่ข้ามขอบเขตการตัดสินใจของคลัสเตอร์ จากนั้น เราสามารถขจัดตัวอย่างที่ซ้ำกันภายในแต่ละคลัสเตอร์โดยไม่ต้องตรวจสอบรายการซ้ำนอกคลัสเตอร์ ในขณะที่ไม่มีคู่ที่ซ้ำกันเพียงส่วนเล็ก ๆ เท่านั้น วิธีนี้เร็วกว่าวิธีไร้เดียงสามาก เนื่องจากเราไม่ต้องตรวจสอบรูปภาพทุกคู่อีกต่อไป^[3] เมื่อเราทดสอบวิธีการนี้โดยสังเกตจากชุดย่อยเล็กๆ ของข้อมูลของเรา พบ 85% ของคู่ที่ซ้ำกันทั้งหมดเมื่อใช้ K = 1024 คลัสเตอร์

เพื่อปรับปรุงอัตราความสำเร็จของอัลกอริธึมข้างต้น เราใช้ประโยชน์จากการสังเกตที่สำคัญอย่างหนึ่ง: เมื่อคุณจัดกลุ่มชุดย่อยแบบสุ่มที่แตกต่างกันของชุดข้อมูล ขอบเขตการตัดสินใจของคลัสเตอร์ที่ได้มักจะแตกต่างกันมาก ดังนั้น หากคู่ที่ซ้ำกันข้ามขอบเขตคลัสเตอร์สำหรับหนึ่งคลัสเตอร์ของข้อมูล คู่เดียวกันอาจอยู่ในคลัสเตอร์เดียวในคลัสเตอร์อื่น ยิ่งคุณพยายามจัดกลุ่มมากเท่าใด คุณก็จะมีโอกาสค้นพบคู่ที่ซ้ำกันมากขึ้นเท่านั้น ในทางปฏิบัติ เราตกลงกันโดยใช้ห้าคลัสเตอร์ ซึ่งหมายความว่าเราค้นหาภาพที่ซ้ำกันของแต่ละภาพในการรวมกันของห้าคลัสเตอร์ที่แตกต่างกัน ในทางปฏิบัติ พบ 97% ของคู่ที่ซ้ำกันทั้งหมดในส่วนย่อยของข้อมูลของเรา

น่าแปลกที่เกือบหนึ่งในสี่ของชุดข้อมูลของเราถูกลบโดยการขจัดข้อมูลซ้ำซ้อน เมื่อเราดูคู่ที่ใกล้เคียงกันที่พบ หลายคู่มีการเปลี่ยนแปลงที่มีความหมาย จำตัวอย่างนาฬิกาจากด้านบน: ชุดข้อมูลอาจมีภาพนาฬิกาเดียวกันหลายภาพในช่วงเวลาต่างๆ ของวัน แม้ว่าภาพเหล่านี้จะทำให้โมเดลจดจำลักษณะที่ปรากฏของนาฬิการุ่นนี้ได้ แต่ก็อาจช่วยให้นางแบบเรียนรู้ที่จะแยกแยะระหว่างช่วงเวลาของวันบนนาฬิกาได้ เมื่อพิจารณาถึงจำนวนข้อมูลที่ถูกลบ เรากังวลว่าการลบภาพเช่นนี้อาจส่งผลเสียต่อประสิทธิภาพของโมเดล

เพื่อทดสอบผลกระทบของการขจัดความซ้ำซ้อนในแบบจำลองของเรา เราได้ฝึกสองแบบจำลองที่มีไฮเปอร์พารามิเตอร์เหมือนกัน: หนึ่งชุดสำหรับชุดข้อมูลแบบเต็ม และอีกชุดหนึ่งสำหรับชุดข้อมูลเวอร์ชันที่มีการขจัดข้อมูลซ้ำซ้อน ในการเปรียบเทียบแบบจำลอง เราใช้การประเมินโดยมนุษย์แบบเดียวกับที่ใช้ในการประเมินแบบจำลอง GLIDE ดั้งเดิมของเรา น่าแปลกที่เราพบว่ามนุษย์เป็นผู้ประเมินเล็กน้อย ที่ต้องการ ตัวแบบได้รับการฝึกฝนเกี่ยวกับข้อมูลที่มีการขจัดความซ้ำซ้อน ซึ่งบ่งชี้ว่ารูปภาพที่ซ้ำซ้อนจำนวนมากในชุดข้อมูลกำลังส่งผลเสียต่อประสิทธิภาพอย่างแท้จริง

เมื่อเรามีโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่ซ้ำซ้อนแล้ว เราจะรันการค้นหา regurgitation ที่เราได้ทำไปแล้วกว่า 50 ครั้งจากชุดข้อมูลการฝึกอบรม เราพบว่าโมเดลใหม่ไม่เคยสร้างอิมเมจการฝึกขึ้นมาใหม่เมื่อได้รับพร้อมท์ที่แน่นอนสำหรับอิมเมจจากชุดข้อมูลการฝึก เพื่อทำการทดสอบนี้ไปอีกขั้น เรายังทำการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในชุดข้อมูลการฝึกอบรมทั้งหมดสำหรับรูปภาพที่สร้างขึ้นแต่ละภาพ 50k ด้วยวิธีนี้ เราคิดว่าเราอาจจับโมเดลที่สำรอกอิมเมจที่แตกต่างจากอิมเมจที่เกี่ยวข้องกับพรอมต์ที่กำหนด แม้จะตรวจสอบอย่างละเอียดกว่านี้ เราก็ไม่เคยพบกรณีของการสำรอกภาพ

ขั้นตอนถัดไป

ในขณะที่การบรรเทาผลกระทบทั้งหมดที่กล่าวถึงข้างต้นแสดงถึงความก้าวหน้าที่สำคัญต่อเป้าหมายของเราในการลดความเสี่ยงที่เกี่ยวข้องกับ DALL·E 2 การบรรเทาผลกระทบแต่ละครั้งยังคงมีช่องทางในการปรับปรุง:

ตัวกรองก่อนการฝึกอบรมที่ดีขึ้นสามารถช่วยให้เราฝึก DALL·E 2 กับข้อมูลได้มากขึ้น และอาจลดอคติในโมเดลลงได้อีก ตัวกรองปัจจุบันของเราได้รับการปรับแต่งสำหรับอัตราการผิดพลาดที่ต่ำโดยมีค่าใช้จ่ายสำหรับผลบวกลวงจำนวนมาก ด้วยเหตุนี้ เราจึงกรองชุดข้อมูลทั้งหมดของเราออกประมาณ 5% แม้ว่ารูปภาพที่กรองแล้วส่วนใหญ่ไม่ได้ละเมิดนโยบายเนื้อหาของเราเลย การปรับปรุงตัวกรองอาจทำให้เราเรียกคืนข้อมูลการฝึกอบรมบางส่วนได้
อคติถูกนำมาใช้และอาจขยายผลในหลายขั้นตอนของการพัฒนาและปรับใช้ระบบ การประเมินและบรรเทาอคติในระบบเช่น DALL·E 2 และอันตรายที่เกิดจากอคตินี้เป็นปัญหาสหวิทยาการที่สำคัญที่เรายังคงศึกษาที่ OpenAI ซึ่งเป็นส่วนหนึ่งของภารกิจที่กว้างขึ้นของเรา งานของเราในเรื่องนี้รวมถึงการสร้างการประเมินเพื่อให้เข้าใจปัญหามากขึ้น การดูแลจัดการชุดข้อมูลใหม่ และการใช้เทคนิคต่างๆ เช่น ผลตอบรับจากมนุษย์และการปรับแต่งอย่างละเอียดเพื่อสร้างเทคโนโลยีที่มีประสิทธิภาพและเป็นตัวแทนมากขึ้น
สิ่งสำคัญคือเราต้องศึกษาการท่องจำและภาพรวมในระบบการเรียนรู้เชิงลึกต่อไป แม้ว่าการขจัดข้อมูลซ้ำซ้อนเป็นขั้นตอนแรกที่ดีในการป้องกันการท่องจำ แต่ก็ไม่ได้บอกเราถึงทุกสิ่งที่ต้องเรียนรู้เกี่ยวกับสาเหตุหรือวิธีที่โมเดลอย่าง DALL·E 2 จดจำข้อมูลการฝึก

ประทับเวลา: มิถุนายน 28, 2022

ประทับเวลา: เมษายน 23, 2024

เผยแพร่ซ้ำโดยเพลโต

DALL·E: ขอแนะนำการวาดภาพ

DALL·E พร้อมให้บริการโดยไม่ต้องรอ

เรียนรู้การเล่น Minecraft ด้วย Video PreTraining (VPT)

กฎระเบียบของ Frontier AI: การจัดการความเสี่ยงที่เกิดขึ้นต่อความปลอดภัยสาธารณะ

ข้อมูลทางประชาธิปไตยต่อ AI

เทคนิคการฝึกโครงข่ายประสาทเทียมขนาดใหญ่

การคาดการณ์การใช้รูปแบบภาษาในทางที่ผิดสำหรับแคมเปญบิดเบือนข้อมูล—และวิธีลดความเสี่ยง

ขอแนะนำ ChatGPT และ Whisper API

การกำกับดูแลการข่าวกรอง

ความมุ่งมั่นของ OpenAI ในเรื่องความปลอดภัยของเด็ก: การนำความปลอดภัยมาใช้ตามหลักการออกแบบ

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้