ข้อมูลสังเคราะห์สามารถนำเสนอการปรับปรุงประสิทธิภาพที่แท้จริงในการเรียนรู้ของเครื่อง

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

การจดจำการดำเนินการได้รับการปรับปรุงอย่างมากด้วยชุดข้อมูลวิดีโอขนาดใหญ่ อย่างไรก็ตาม ชุดข้อมูลเหล่านี้ยังมาพร้อมกับปัญหาที่เกี่ยวข้องกับค่าใช้จ่ายในการดูแลจัดการ ความเป็นส่วนตัว จริยธรรม อคติ และลิขสิทธิ์ ดังนั้น, เอ็มไอที นักวิทยาศาสตร์กำลังหันมาใช้ชุดข้อมูลสังเคราะห์

สิ่งเหล่านี้สร้างขึ้นโดยคอมพิวเตอร์ที่ใช้โมเดล 3 มิติของฉาก วัตถุ และมนุษย์ เพื่อสร้างคลิปการกระทำเฉพาะที่แตกต่างกันจำนวนมากอย่างรวดเร็ว โดยไม่มีปัญหาด้านลิขสิทธิ์ที่อาจเกิดขึ้นหรือข้อกังวลด้านจริยธรรมที่มาพร้อมกับข้อมูลจริง

ข้อมูลสังเคราะห์ดีเท่ากับข้อมูลจริงหรือไม่?

ทีมนักวิทยาศาสตร์จาก MIT, MIT-IBM Watson AI Lab และมหาวิทยาลัยบอสตันพยายามตอบคำถามนี้ พวกเขาสร้างชุดข้อมูลสังเคราะห์จากคลิปวิดีโอ 150,000 คลิปที่แสดงถึงการกระทำของมนุษย์ที่หลากหลายและได้รับการฝึกอบรม การเรียนรู้ด้วยเครื่อง โมเดลที่ใช้ชุดข้อมูลนี้ จากนั้นพวกเขาได้แสดงชุดข้อมูลภาพยนตร์หกชุดที่นำมาจากโลกแห่งความเป็นจริงไปยังแบบจำลองเหล่านี้เพื่อทดสอบว่าพวกเขาสามารถรับการกระทำในการบันทึกเหล่านั้นได้ดีเพียงใด

นักวิทยาศาสตร์พบว่าโมเดลที่ได้รับการฝึกฝนแบบสังเคราะห์ทำงานได้ดีกว่าโมเดลที่ได้รับการฝึกฝนโดยใช้ข้อมูลจริงสำหรับวิดีโอที่มีวัตถุพื้นหลังน้อยกว่า

การค้นพบนี้อาจช่วยในการใช้ชุดข้อมูลสังเคราะห์โดยนักวิทยาศาสตร์เพื่อช่วยแบบจำลองในการปฏิบัติงานจริงได้แม่นยำยิ่งขึ้น เพื่อลดข้อกังวลด้านจริยธรรม ความเป็นส่วนตัว และลิขสิทธิ์ที่เกี่ยวข้องกับการใช้ชุดข้อมูลจริง นอกจากนี้ยังสามารถช่วยนักวิจัยในการพิจารณาว่าแอปพลิเคชันแมชชีนเลิร์นนิงตัวใดเหมาะสมที่สุดสำหรับการฝึกอบรมกับข้อมูลสังเคราะห์

Rogerio Feris นักวิทยาศาสตร์หลักและผู้จัดการของ MIT-IBM Watson AI Lab กล่าวว่า “เป้าหมายสูงสุดของการวิจัยของเราคือการแทนที่การฝึกอบรมล่วงหน้าข้อมูลจริงด้วยการฝึกอบรมล่วงหน้าข้อมูลสังเคราะห์ มีค่าใช้จ่ายในการสร้างการดำเนินการในข้อมูลสังเคราะห์ แต่เมื่อเสร็จแล้ว คุณสามารถสร้างภาพหรือวิดีโอได้ไม่จำกัดโดยการเปลี่ยนท่าทาง แสง ฯลฯ นั่นคือความงดงามของข้อมูลสังเคราะห์”

นักวิทยาศาสตร์เริ่มต้นด้วยการรวบรวม Synthetic Action Pre-training and Transfer (SynAPT) ใหม่ โดยใช้ชุดข้อมูลคลิปวิดีโอสังเคราะห์ที่เปิดเผยต่อสาธารณะสามชุดที่บันทึกการกระทำของมนุษย์ ประกอบด้วยหมวดหมู่แอ็คชั่นเกือบ 150 หมวดหมู่ พร้อมคลิปวิดีโอ 1,000 คลิปต่อหมวดหมู่

โมเดลแมชชีนเลิร์นนิงสามโมเดลได้รับการฝึกอบรมล่วงหน้าเพื่อจดจำการดำเนินการโดยใช้ชุดข้อมูลหลังจากที่ถูกสร้างขึ้นแล้ว การฝึกอบรมล่วงหน้าเป็นกระบวนการสอนแบบจำลองงานหนึ่งก่อนที่จะสอนงานอื่น โมเดลที่ได้รับการฝึกล่วงหน้าสามารถใช้พารามิเตอร์ที่ได้เรียนรู้ไปแล้ว เพื่อช่วยให้เรียนรู้งานใหม่ด้วยชุดข้อมูลใหม่ได้เร็วและมีประสิทธิภาพยิ่งขึ้น สิ่งนี้จำลองมาจากวิธีที่ผู้คนเรียนรู้ ซึ่งก็คือการนำข้อมูลในอดีตกลับมาใช้ใหม่เมื่อเรารู้สิ่งใหม่ๆ แบบจำลองที่ได้รับการฝึกล่วงหน้าได้รับการทดสอบโดยใช้ชุดข้อมูลของคลิปวิดีโอจริงจำนวน XNUMX ชุด โดยแต่ละชุดจะจับคลาสของการกระทำที่แตกต่างจากข้อมูลในการฝึก

เป็นเรื่องที่น่าแปลกใจสำหรับนักวิทยาศาสตร์ที่เห็นว่าแบบจำลองสังเคราะห์ทั้งสามแบบจำลองมีประสิทธิภาพเหนือกว่าแบบจำลองที่ได้รับการฝึกฝนด้วยคลิปวิดีโอจริงในชุดข้อมูลสี่ชุดจากทั้งหมดหกชุด ความแม่นยำสูงสุดสำหรับชุดข้อมูลที่มีคลิปวิดีโอที่มี "อคติเกี่ยวกับฉาก-วัตถุต่ำ" หมายความว่าโมเดลไม่สามารถรับรู้การเคลื่อนไหวโดยการดูที่พื้นหลังหรือวัตถุอื่นๆ ในฉากได้ — โมเดลจะต้องมุ่งเน้นไปที่การกระทำนั้นเอง

เฟริสกล่าวว่า “ในวิดีโอที่มีอคติต่อวัตถุในฉากต่ำ การเคลื่อนไหวชั่วคราวของการกระทำมีความสำคัญมากกว่ารูปลักษณ์ของวัตถุหรือพื้นหลัง และดูเหมือนว่าจะได้รับการบันทึกอย่างดีด้วยข้อมูลสังเคราะห์”

“ความลำเอียงกับวัตถุในฉากสูงสามารถทำหน้าที่เป็นอุปสรรคได้ โมเดลอาจจัดประเภทการกระทำผิดโดยการดูที่วัตถุมากกว่าการกระทำเอง มันสามารถสร้างความสับสนให้กับโมเดลได้”

ผู้ร่วมเขียน Rameswar Panda ซึ่งเป็นเจ้าหน้าที่วิจัยของ MIT-IBM Watson AI Lab กล่าวว่า “จากผลลัพธ์เหล่านี้ นักวิจัยต้องการรวมคลาสปฏิบัติการและแพลตฟอร์มวิดีโอสังเคราะห์เพิ่มเติมในงานในอนาคต และท้ายที่สุดก็สร้างแคตตาล็อกของแบบจำลองที่ได้รับการฝึกล่วงหน้าโดยใช้ข้อมูลสังเคราะห์”

“เราต้องการสร้างโมเดลที่มีประสิทธิภาพใกล้เคียงกันหรือดีกว่าโมเดลที่มีอยู่ในวรรณกรรม แต่ไม่ถูกผูกมัดด้วยอคติหรือข้อกังวลด้านความปลอดภัยใดๆ”

Sooyoung Jin ผู้ร่วมเขียนและ postdoc ของ CSAIL กล่าวว่า “พวกเขายังต้องการรวมงานของพวกเขาเข้ากับการวิจัยที่ต้องการสร้างวิดีโอสังเคราะห์ที่แม่นยำและสมจริงมากขึ้น ซึ่งสามารถเพิ่มประสิทธิภาพของแบบจำลองได้”

“เราใช้ชุดข้อมูลสังเคราะห์เพื่อป้องกันปัญหาความเป็นส่วนตัวหรืออคติทางบริบทหรือสังคม แต่โมเดลนี้เรียนรู้อะไรบ้าง มันเรียนรู้บางสิ่งที่เป็นกลางหรือไม่”

ผู้เขียนร่วม Samarth Mishra นักศึกษาระดับบัณฑิตศึกษาจากมหาวิทยาลัยบอสตัน (BU) กล่าวว่า, “แม้ว่าจะมีต้นทุนที่ต่ำกว่าในการรับข้อมูลสังเคราะห์ที่มีคำอธิบายประกอบที่ดี แต่ในปัจจุบัน เราไม่มีชุดข้อมูลที่มีขนาดที่จะเทียบเคียงกับชุดข้อมูลที่มีคำอธิบายประกอบที่ใหญ่ที่สุดด้วยวิดีโอจริงได้ ด้วยการหารือเกี่ยวกับค่าใช้จ่ายและข้อกังวลต่างๆ ด้วยวิดีโอจริง และการแสดงประสิทธิภาพของข้อมูลสังเคราะห์ เราหวังว่าจะกระตุ้นให้เกิดความพยายามในทิศทางนี้”

การอ้างอิงวารสาร: