ข้อมูลสังเคราะห์คืออะไร? ประเภท กรณีการใช้งาน และแอปพลิเคชันสำหรับการเรียนรู้ของเครื่องและความเป็นส่วนตัว

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

สาขาวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องมีการเติบโตทุกวัน เนื่องจากมีการนำเสนอโมเดลและอัลกอริธึมใหม่ตามเวลา อัลกอริธึมและโมเดลใหม่เหล่านี้จึงต้องการข้อมูลจำนวนมหาศาลสำหรับการฝึกอบรมและการทดสอบ โมเดล Deep Learning กำลังได้รับความนิยมอย่างมากในปัจจุบัน และโมเดลเหล่านั้นก็ต้องการข้อมูลมากเช่นกัน การได้รับข้อมูลจำนวนมหาศาลในบริบทของคำชี้แจงปัญหาต่างๆ ถือเป็นกระบวนการที่ค่อนข้างน่ากลัว ใช้เวลานาน และมีราคาแพง ข้อมูลนี้รวบรวมจากสถานการณ์ในชีวิตจริง ซึ่งก่อให้เกิดภาระด้านความปลอดภัยและความกังวลด้านความเป็นส่วนตัว ข้อมูลส่วนใหญ่เป็นส่วนตัวและได้รับการคุ้มครองโดยกฎหมายและข้อบังคับด้านความเป็นส่วนตัว ซึ่งเป็นอุปสรรคต่อการแบ่งปันและการเคลื่อนย้ายข้อมูลระหว่างองค์กรหรือบางครั้งระหว่างแผนกต่างๆ ขององค์กรเดียว ส่งผลให้การทดลองและการทดสอบผลิตภัณฑ์ล่าช้า จึงเกิดคำถามขึ้นว่าปัญหานี้จะแก้ไขได้อย่างไร? ข้อมูลจะสามารถเข้าถึงได้และเปิดมากขึ้นโดยไม่ก่อให้เกิดความกังวลเกี่ยวกับความเป็นส่วนตัวของใครบางคนได้อย่างไร

วิธีแก้ไขปัญหานี้คือสิ่งที่เรียกว่า ข้อมูลสังเคราะห์

ดังนั้นข้อมูลสังเคราะห์คืออะไร?

ตามคำจำกัดความ ข้อมูลสังเคราะห์จะถูกสร้างขึ้นด้วยวิธีเทียมหรืออัลกอริทึม และมีความคล้ายคลึงกับโครงสร้างและคุณสมบัติของข้อมูลจริงอย่างใกล้ชิด หากข้อมูลที่สังเคราะห์ออกมาดีก็จะแยกไม่ออกจากข้อมูลจริง

ข้อมูลสังเคราะห์มีกี่ประเภท?

คำตอบสำหรับคำถามนี้เป็นคำตอบแบบปลายเปิด เนื่องจากข้อมูลสามารถมีได้หลายรูปแบบ แต่โดยหลักแล้วเรามี

ข้อมูลข้อความ
ข้อมูลเสียงหรือภาพ (เช่น รูปภาพ วิดีโอ และเสียง)
ข้อมูลแบบตาราง

ใช้กรณีของข้อมูลสังเคราะห์สำหรับการเรียนรู้ของเครื่อง

เราจะหารือเฉพาะกรณีการใช้งานของข้อมูลสังเคราะห์เพียงสามประเภทตามที่กล่าวไว้ข้างต้น

การใช้ข้อมูลข้อความสังเคราะห์สำหรับการฝึกโมเดล NLP

ข้อมูลสังเคราะห์มีการใช้งานในด้านการประมวลผลภาษาธรรมชาติ ตัวอย่างเช่น ทีม Alexa AI ที่ Amazon ใช้ข้อมูลสังเคราะห์เพื่อเสร็จสิ้นชุดการฝึกอบรมสำหรับระบบ NLU (ความเข้าใจภาษาธรรมชาติ) โดยเป็นพื้นฐานที่มั่นคงสำหรับการฝึกอบรมภาษาใหม่ๆ โดยไม่มีข้อมูลการโต้ตอบของผู้บริโภคที่มีอยู่หรือเพียงพอ

การใช้ข้อมูลสังเคราะห์สำหรับการฝึกอบรมอัลกอริธึมการมองเห็น

มาหารือเกี่ยวกับกรณีการใช้งานที่แพร่หลายที่นี่ สมมติว่าเราต้องการพัฒนาอัลกอริธึมเพื่อตรวจจับหรือนับจำนวนใบหน้าในภาพ เราสามารถใช้ GAN หรือเครือข่ายกำเนิดอื่นๆ เพื่อสร้างใบหน้ามนุษย์ที่เหมือนจริง เช่น ใบหน้าที่ไม่มีอยู่ในโลกแห่งความเป็นจริง เพื่อฝึกโมเดล ข้อดีอีกประการหนึ่งคือเราสามารถสร้างข้อมูลได้มากเท่าที่เราต้องการจากอัลกอริธึมเหล่านี้โดยไม่ละเมิดความเป็นส่วนตัวของใครก็ตาม แต่เราไม่สามารถใช้ข้อมูลจริงได้เนื่องจากมีใบหน้าของบุคคลบางคน ดังนั้นนโยบายความเป็นส่วนตัวบางประการจึงจำกัดการใช้ข้อมูลนั้น

กรณีการใช้งานอีกกรณีหนึ่งคือการเรียนรู้แบบเสริมกำลังในสภาพแวดล้อมจำลอง สมมติว่าเราต้องการทดสอบแขนหุ่นยนต์ที่ออกแบบมาเพื่อจับวัตถุและวางไว้ในกล่อง อัลกอริธึมการเรียนรู้แบบเสริมกำลังได้รับการออกแบบมาเพื่อจุดประสงค์นี้ เราจำเป็นต้องทำการทดลองเพื่อทดสอบเพราะนี่คือวิธีที่อัลกอริธึมการเรียนรู้แบบเสริมกำลังเรียนรู้ การตั้งค่าการทดสอบในสถานการณ์จริงมีราคาแพงและใช้เวลานาน ซึ่งเป็นการจำกัดจำนวนการทดลองต่างๆ ที่เราสามารถทำได้ แต่หากเราทำการทดลองในสภาพแวดล้อมจำลอง การตั้งค่าการทดลองจะมีราคาไม่แพงนัก เนื่องจากไม่จำเป็นต้องใช้แขนหุ่นยนต์ต้นแบบ

การใช้ข้อมูลแบบตาราง

ข้อมูลสังเคราะห์แบบตารางคือข้อมูลที่สร้างขึ้นโดยไม่ได้ตั้งใจซึ่งเลียนแบบข้อมูลจริงที่จัดเก็บไว้ในตาราง ข้อมูลนี้มีโครงสร้างเป็นแถวและคอลัมน์ ตารางเหล่านี้อาจมีข้อมูลใดก็ได้ เช่น เพลย์ลิสต์เพลง สำหรับแต่ละเพลง เครื่องเล่นเพลงของคุณจะเก็บข้อมูลมากมาย เช่น ชื่อ นักร้อง ความยาว แนวเพลง และอื่น ๆ นอกจากนี้ยังอาจเป็นบันทึกทางการเงิน เช่น ธุรกรรมทางธนาคาร ราคาหุ้น เป็นต้น

ข้อมูลตารางสังเคราะห์ที่เกี่ยวข้องกับธุรกรรมธนาคารจะใช้ในการฝึกแบบจำลองและออกแบบอัลกอริธึมเพื่อตรวจจับธุรกรรมที่ฉ้อโกง ข้อมูลราคาหุ้นในอดีตสามารถนำมาใช้ในการฝึกอบรมและทดสอบแบบจำลองเพื่อคาดการณ์ราคาหุ้นในอนาคตได้

ข้อดีที่สำคัญประการหนึ่งของการใช้ข้อมูลสังเคราะห์ในการเรียนรู้ของเครื่องก็คือ นักพัฒนาสามารถควบคุมข้อมูลได้ เขาสามารถเปลี่ยนแปลงข้อมูลได้ตามความต้องการในการทดสอบแนวคิดและทดลองกับสิ่งนั้น ในขณะเดียวกัน นักพัฒนาสามารถทดสอบแบบจำลองกับข้อมูลที่สังเคราะห์ได้ และจะให้แนวคิดที่ชัดเจนว่าแบบจำลองจะทำงานอย่างไรกับข้อมูลในชีวิตจริง หากนักพัฒนาต้องการลองใช้โมเดลและรอข้อมูลจริง การรับข้อมูลอาจใช้เวลาหลายสัปดาห์หรือหลายเดือน จึงทำให้การพัฒนาและนวัตกรรมทางเทคโนโลยีล่าช้าออกไป

ตอนนี้เราพร้อมที่จะหารือแล้วว่าข้อมูลสังเคราะห์ช่วยแก้ไขปัญหาที่เกี่ยวข้องกับความเป็นส่วนตัวของข้อมูลได้อย่างไร

อุตสาหกรรมจำนวนมากอาศัยข้อมูลที่สร้างขึ้นโดยลูกค้าเพื่อการสร้างสรรค์นวัตกรรมและการพัฒนา แต่ข้อมูลดังกล่าวมีข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) และกฎหมายความเป็นส่วนตัวจะควบคุมการประมวลผลข้อมูลดังกล่าวอย่างเคร่งครัด ตัวอย่างเช่น กฎระเบียบคุ้มครองข้อมูลทั่วไป (GDPR) ห้ามการใช้งานที่ไม่ได้รับความยินยอมอย่างชัดเจนเมื่อองค์กรรวบรวมข้อมูล‍ เนื่องจากข้อมูลสังเคราะห์มีความคล้ายคลึงกับโครงสร้างพื้นฐานของข้อมูลจริงอย่างใกล้ชิดมาก และในขณะเดียวกันก็ทำให้มั่นใจได้ว่าไม่มี บุคคลที่มีอยู่ในข้อมูลจริงสามารถระบุได้อีกครั้งจากข้อมูลสังเคราะห์ เป็นผลให้การประมวลผลและแบ่งปันข้อมูลสังเคราะห์มีกฎระเบียบน้อยลงมาก ส่งผลให้มีการพัฒนาและนวัตกรรมที่รวดเร็วขึ้น และเข้าถึงข้อมูลได้ง่าย

สรุป

ข้อมูลสังเคราะห์มีข้อดีที่สำคัญหลายประการ ช่วยให้นักพัฒนา ML ควบคุมการทดลองและเพิ่มความเร็วในการพัฒนาเนื่องจากขณะนี้ข้อมูลสามารถเข้าถึงได้มากขึ้น ส่งเสริมการทำงานร่วมกันในระดับที่ใหญ่ขึ้นเนื่องจากข้อมูลสามารถแบ่งปันได้อย่างอิสระ นอกจากนี้ ข้อมูลสังเคราะห์รับประกันว่าจะปกป้องความเป็นส่วนตัวของบุคคลจากข้อมูลจริง

เถาวัลย์

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar เป็นนักศึกษาฝึกงานด้านที่ปรึกษาที่ MarktechPost ปัจจุบันเขากำลังศึกษาวิทยาศาสตรบัณฑิตจาก Indian Institute of Technology (IIT), Kanpur เขาเป็นผู้ชื่นชอบการเรียนรู้ของเครื่อง เขามีความหลงใหลในการวิจัยและความก้าวหน้าล่าสุดในการเรียนรู้เชิงลึก คอมพิวเตอร์วิทัศน์ และสาขาที่เกี่ยวข้อง

<!–

ประทับเวลา: November 12, 2022November 14, 2022