How To Evaluate The Quality Of The Synthetic Data – Measuring From The Perspective Of Fidelity, Utility, And Privacy

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในโลกที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้นเรื่อยๆ องค์กรต่างๆ ต้องมุ่งเน้นไปที่การรวบรวมทั้งข้อมูลทางกายภาพอันมีค่าและสร้างข้อมูลที่ต้องการแต่ไม่สามารถบันทึกได้อย่างง่ายดาย การเข้าถึงข้อมูล กฎระเบียบ และการปฏิบัติตามข้อกำหนดเป็นสาเหตุที่ทำให้เกิดความขัดแย้งมากขึ้นสำหรับนวัตกรรมด้านการวิเคราะห์และปัญญาประดิษฐ์ (AI)

สำหรับภาคส่วนที่มีการควบคุมอย่างเข้มงวด เช่น บริการทางการเงิน การดูแลสุขภาพ วิทยาศาสตร์ชีวภาพ ยานยนต์ หุ่นยนต์ และการผลิต ปัญหาจะยิ่งเพิ่มมากขึ้น ทำให้เกิดอุปสรรคในการออกแบบระบบ การแบ่งปันข้อมูล (ภายในและภายนอก) การสร้างรายได้ การวิเคราะห์ และการเรียนรู้ของเครื่อง (ML)

ข้อมูลสังเคราะห์เป็นเครื่องมือที่จัดการกับความท้าทายด้านข้อมูลมากมาย โดยเฉพาะปัญหา AI และการวิเคราะห์ เช่น การปกป้องความเป็นส่วนตัว การปฏิบัติตามกฎระเบียบ การเข้าถึง การขาดแคลนข้อมูล และความลำเอียง นอกจากนี้ยังรวมถึงการแบ่งปันข้อมูลและเวลาสู่ข้อมูล (และด้วยเหตุนี้จึงถึงเวลาออกสู่ตลาด)

ข้อมูลสังเคราะห์ถูกสร้างขึ้นตามอัลกอริทึม โดยจะสะท้อนคุณสมบัติและรูปแบบทางสถิติจากแหล่งข้อมูล แต่ที่สำคัญคือไม่มีจุดข้อมูลที่ละเอียดอ่อน ส่วนตัว หรือส่วนบุคคล

คุณถามคำถามเกี่ยวกับข้อมูลสังเคราะห์และได้รับคำตอบเดียวกันกับที่คุณถามจากข้อมูลจริง

ในของเรา โพสต์ก่อนหน้านี้, เราได้สาธิตวิธีใช้เครือข่ายฝ่ายตรงข้าม เช่น Generative Adversarial Networks (GANS) เพื่อสร้างชุดข้อมูลแบบตารางเพื่อปรับปรุงการฝึกอบรมโมเดลการฉ้อโกงเครดิต

สำหรับผู้มีส่วนได้ส่วนเสียทางธุรกิจที่จะนำข้อมูลสังเคราะห์มาใช้กับโครงการ ML และการวิเคราะห์ของตน ไม่เพียงแต่ต้องแน่ใจว่าข้อมูลสังเคราะห์ที่สร้างขึ้นจะเหมาะสมกับวัตถุประสงค์และแอปพลิเคชันดาวน์สตรีมที่คาดหวังเท่านั้น แต่ยังเพื่อให้พวกเขาสามารถวัดและแสดงให้เห็นถึงคุณภาพของ ข้อมูลที่สร้างขึ้น

ด้วยภาระหน้าที่ทางกฎหมายและจริยธรรมที่เพิ่มขึ้นในการรักษาความเป็นส่วนตัว จุดแข็งประการหนึ่งของข้อมูลสังเคราะห์คือความสามารถในการลบข้อมูลที่ละเอียดอ่อนและเป็นต้นฉบับในระหว่างการสังเคราะห์ ดังนั้น นอกเหนือจากคุณภาพแล้ว เรายังต้องมีตัวชี้วัดเพื่อประเมินความเสี่ยงของการรั่วไหลของข้อมูลส่วนตัว (หากมี) และประเมินว่ากระบวนการสร้างไม่ได้ "จดจำ" หรือคัดลอกข้อมูลต้นฉบับใดๆ

เพื่อให้บรรลุเป้าหมายทั้งหมดนี้ เราสามารถแมปคุณภาพของข้อมูลสังเคราะห์ให้เป็นมิติต่างๆ ได้ ซึ่งช่วยให้ผู้ใช้ ผู้มีส่วนได้ส่วนเสีย และเราเข้าใจข้อมูลที่สร้างขึ้นได้ดีขึ้น

การประเมินคุณภาพข้อมูลสังเคราะห์สามมิติ

ข้อมูลสังเคราะห์ที่สร้างขึ้นวัดจากมิติหลักสามประการ:

ความจงรักภักดี
ประโยชน์
ความเป็นส่วนตัว

ต่อไปนี้คือคำถามบางส่วนเกี่ยวกับข้อมูลสังเคราะห์ที่สร้างขึ้นซึ่งควรตอบโดยรายงานคุณภาพข้อมูลสังเคราะห์:

ข้อมูลสังเคราะห์นี้มีความคล้ายคลึงกันเพียงใดเมื่อเปรียบเทียบกับชุดการฝึกดั้งเดิม
ข้อมูลสังเคราะห์นี้มีประโยชน์เพียงใดสำหรับแอปพลิเคชันดาวน์สตรีมของเรา
มีข้อมูลใดรั่วไหลจากข้อมูลการฝึกอบรมเดิมไปสู่ข้อมูลสังเคราะห์หรือไม่?
มีข้อมูลใดบ้างที่ถือว่าละเอียดอ่อนในโลกแห่งความเป็นจริง (จากชุดข้อมูลอื่นที่ไม่ได้ใช้สำหรับการฝึกแบบจำลอง) ถูกสังเคราะห์โดยแบบจำลองของเราโดยไม่ได้ตั้งใจหรือไม่

เมตริกที่แปลมิติข้อมูลแต่ละรายการเหล่านี้สำหรับผู้ใช้ปลายทางค่อนข้างยืดหยุ่น ท้ายที่สุดแล้ว ข้อมูลที่จะสร้างอาจแตกต่างกันไปในแง่ของการแจกแจง ขนาด และลักษณะการทำงาน ควรเข้าใจและตีความได้ง่าย

ท้ายที่สุดแล้ว ตัวชี้วัดจะต้องขับเคลื่อนด้วยข้อมูลโดยสมบูรณ์ และไม่จำเป็นต้องมีความรู้หรือข้อมูลเฉพาะโดเมนใดๆ มาก่อน อย่างไรก็ตาม หากผู้ใช้ต้องการใช้กฎและข้อจำกัดเฉพาะที่เกี่ยวข้องกับโดเมนธุรกิจเฉพาะ ผู้ใช้ควรจะสามารถกำหนดกฎและข้อจำกัดเหล่านั้นได้ในระหว่างกระบวนการสังเคราะห์เพื่อให้แน่ใจว่าเป็นไปตามความเที่ยงตรงเฉพาะโดเมน

เราจะดูรายละเอียดแต่ละเมตริกเหล่านี้โดยละเอียดในส่วนต่อไปนี้

ตัวชี้วัดเพื่อทำความเข้าใจความเที่ยงตรง

ในโครงการวิทยาศาสตร์ข้อมูลใดๆ เราต้องเข้าใจว่าประชากรตัวอย่างจำนวนหนึ่งเกี่ยวข้องกับปัญหาที่เรากำลังแก้ไขหรือไม่ ในทำนองเดียวกัน สำหรับกระบวนการประเมินความเกี่ยวข้องของข้อมูลสังเคราะห์ที่สร้างขึ้น เราต้องประเมินในแง่ของ ความจงรักภักดี เมื่อเทียบกับต้นฉบับ

การแสดงตัวชี้วัดเหล่านี้ด้วยภาพช่วยให้เข้าใจได้ง่ายขึ้น เราสามารถแสดงให้เห็นได้ว่าการนับจำนวนสมาชิกและอัตราส่วนของหมวดหมู่ได้รับการเคารพหรือไม่ ความสัมพันธ์ระหว่างตัวแปรต่างๆ จะถูกเก็บไว้ และอื่นๆ

การแสดงข้อมูลเป็นภาพไม่เพียงแต่ช่วยในการประเมินคุณภาพของข้อมูลสังเคราะห์เท่านั้น แต่ยังถือเป็นขั้นตอนเริ่มต้นในวงจรวิทยาศาสตร์ข้อมูลเพื่อให้เข้าใจข้อมูลได้ดีขึ้นอีกด้วย

มาดูรายละเอียดเมตริกความเที่ยงตรงบางส่วนกันดีกว่า

การเปรียบเทียบทางสถิติเชิงสำรวจ

ภายในการเปรียบเทียบทางสถิติเชิงสำรวจ คุณลักษณะของชุดข้อมูลดั้งเดิมและชุดข้อมูลสังเคราะห์จะถูกสำรวจโดยใช้การวัดทางสถิติที่สำคัญ เช่น ค่าเฉลี่ย ค่ามัธยฐาน ส่วนเบี่ยงเบนมาตรฐาน ค่าที่แตกต่าง ค่าที่หายไป ค่าต่ำสุด ค่าสูงสุด ช่วงควอไทล์สำหรับคุณลักษณะต่อเนื่อง และจำนวน ของบันทึกต่อหมวดหมู่ ค่าที่หายไปต่อหมวดหมู่ และอักขระที่เกิดขึ้นส่วนใหญ่สำหรับแอตทริบิวต์หมวดหมู่

การเปรียบเทียบนี้ควรดำเนินการระหว่างชุดข้อมูลการระงับเดิมและข้อมูลสังเคราะห์ การประเมินนี้จะเปิดเผยว่าชุดข้อมูลที่เปรียบเทียบมีความคล้ายคลึงกันทางสถิติหรือไม่ หากไม่เป็นเช่นนั้น เราจะมีความเข้าใจว่าฟีเจอร์และมาตรการใดที่แตกต่างกัน คุณควรพิจารณาฝึกอบรมใหม่และสร้างข้อมูลสังเคราะห์ใหม่ด้วยพารามิเตอร์ที่แตกต่างกัน หากสังเกตเห็นความแตกต่างที่มีนัยสำคัญ

การทดสอบนี้ทำหน้าที่เป็นการคัดกรองเบื้องต้นเพื่อให้แน่ใจว่าข้อมูลสังเคราะห์มีความเที่ยงตรงสมเหตุสมผลกับชุดข้อมูลดั้งเดิม จึงสามารถผ่านการทดสอบที่เข้มงวดยิ่งขึ้นได้

คะแนนความคล้ายคลึงกันของฮิสโตแกรม

คะแนนความคล้ายคลึงกันของฮิสโตแกรมจะวัดการกระจายส่วนเสริมของชุดข้อมูลสังเคราะห์และชุดข้อมูลดั้งเดิมของแต่ละฟีเจอร์

คะแนนความคล้ายคลึงกันนั้นอยู่ระหว่างศูนย์ถึงหนึ่ง โดยคะแนนหนึ่งบ่งชี้ว่าการกระจายข้อมูลสังเคราะห์ซ้อนทับกับการแจกแจงของข้อมูลต้นฉบับอย่างสมบูรณ์

คะแนนที่ใกล้เคียงหนึ่งจะทำให้ผู้ใช้มั่นใจว่าชุดข้อมูลการระงับและชุดข้อมูลสังเคราะห์มีความคล้ายคลึงกันทางสถิติ

คะแนนข้อมูลร่วมกัน

คะแนนข้อมูลร่วมกันจะวัดการพึ่งพาอาศัยกันของคุณลักษณะสองประการ เชิงตัวเลขหรือเชิงหมวดหมู่ ซึ่งบ่งชี้ว่าสามารถรับข้อมูลจากคุณลักษณะหนึ่งได้มากเพียงใดโดยการสังเกตอีกคุณลักษณะหนึ่ง

ข้อมูลร่วมกันสามารถวัดความสัมพันธ์แบบไม่เชิงเส้นได้ ทำให้มีความเข้าใจที่ครอบคลุมมากขึ้นเกี่ยวกับคุณภาพของข้อมูลสังเคราะห์ เนื่องจากช่วยให้เราเข้าใจขอบเขตของการรักษาความสัมพันธ์ของตัวแปรได้

คะแนนหนึ่งบ่งชี้ว่าการพึ่งพาซึ่งกันและกันระหว่างคุณลักษณะได้รับการบันทึกอย่างสมบูรณ์แบบในข้อมูลสังเคราะห์

คะแนนความสัมพันธ์

คะแนนสหสัมพันธ์จะวัดว่าความสัมพันธ์ในชุดข้อมูลดั้งเดิมได้รับการบันทึกในข้อมูลสังเคราะห์ได้ดีเพียงใด

ความสัมพันธ์ระหว่างสองคอลัมน์ขึ้นไปมีความสำคัญอย่างยิ่งสำหรับแอปพลิเคชัน ML ซึ่งช่วยเปิดเผยความสัมพันธ์ระหว่างคุณลักษณะและตัวแปรเป้าหมาย และช่วยสร้างโมเดลที่ได้รับการฝึกอบรมมาอย่างดี

คะแนนความสัมพันธ์มีขอบเขตระหว่างศูนย์ถึงหนึ่ง โดยคะแนนหนึ่งแสดงว่าความสัมพันธ์นั้นตรงกันอย่างสมบูรณ์

ซึ่งแตกต่างจากข้อมูลตารางที่มีโครงสร้างซึ่งเรามักพบในปัญหาข้อมูล ข้อมูลที่มีโครงสร้างบางประเภทมีพฤติกรรมเฉพาะที่การสังเกตในอดีตมีความเป็นไปได้ที่จะมีอิทธิพลต่อการสังเกตต่อไปนี้ ข้อมูลเหล่านี้เรียกว่าอนุกรมเวลาหรือข้อมูลตามลำดับ เช่น ชุดข้อมูลที่มีการวัดอุณหภูมิห้องรายชั่วโมง

ลักษณะการทำงานนี้หมายความว่ามีข้อกำหนดในการกำหนดตัวชี้วัดบางอย่างที่สามารถวัดคุณภาพของชุดข้อมูลอนุกรมเวลาเหล่านี้โดยเฉพาะ

ความสัมพันธ์อัตโนมัติและคะแนนความสัมพันธ์อัตโนมัติบางส่วน

แม้ว่าจะคล้ายกับความสัมพันธ์ แต่ความสัมพันธ์อัตโนมัติจะแสดงความสัมพันธ์ของอนุกรมเวลา ณ มูลค่าปัจจุบันโดยสัมพันธ์กับค่าก่อนหน้า การลบผลกระทบของการหน่วงเวลาก่อนหน้านี้จะทำให้เกิดความสัมพันธ์อัตโนมัติบางส่วน ดังนั้น คะแนนความสัมพันธ์อัตโนมัติจะวัดว่าข้อมูลสังเคราะห์จับความสัมพันธ์อัตโนมัติที่มีนัยสำคัญหรือความสัมพันธ์บางส่วนจากชุดข้อมูลดั้งเดิมได้ดีเพียงใด

ตัวชี้วัดเพื่อทำความเข้าใจประโยชน์ใช้สอย

ตอนนี้เราอาจได้ตระหนักทางสถิติแล้วว่าข้อมูลสังเคราะห์นั้นคล้ายคลึงกับชุดข้อมูลดั้งเดิม นอกจากนี้ เรายังต้องประเมินด้วยว่าชุดข้อมูลที่สังเคราะห์แล้วนั้นทำงานได้ดีเพียงใดกับปัญหาด้านวิทยาศาสตร์ข้อมูลทั่วไป เมื่อได้รับการฝึกอบรมเกี่ยวกับอัลกอริทึม ML หลายตัว

โดยใช้สิ่งต่อไปนี้ ประโยชน์ เรามุ่งหวังที่จะสร้างความมั่นใจว่าเราสามารถบรรลุประสิทธิภาพจริงในแอปพลิเคชันดาวน์สตรีมเกี่ยวกับวิธีการทำงานของข้อมูลต้นฉบับ

คะแนนการทำนาย

การวัดประสิทธิภาพของข้อมูลสังเคราะห์เมื่อเปรียบเทียบกับข้อมูลจริงดั้งเดิมสามารถทำได้ผ่านโมเดล ML คะแนนแบบจำลองขั้นปลายจะบันทึกคุณภาพของข้อมูลสังเคราะห์โดยการเปรียบเทียบประสิทธิภาพของแบบจำลอง ML ที่ได้รับการฝึกอบรมทั้งชุดข้อมูลสังเคราะห์และชุดข้อมูลดั้งเดิม และตรวจสอบความถูกต้องกับข้อมูลการทดสอบที่ถูกระงับจากชุดข้อมูลดั้งเดิม สิ่งนี้ให้ คะแนนการทดสอบสังเคราะห์จริง (TSTR) ของรถไฟ และ ฝึกจริง ทดสอบจริง (TRTR) คะแนนตามลำดับ

TSTR, คะแนน TRTR และคะแนนความสำคัญของคุณลักษณะ (ภาพโดยผู้เขียน)

คะแนนจะรวมอัลกอริธึม ML ที่เชื่อถือได้มากที่สุดที่หลากหลายสำหรับงานการถดถอยหรือการจัดหมวดหมู่ การใช้ตัวแยกประเภทและตัวถดถอยหลายตัวช่วยให้แน่ใจว่าคะแนนสามารถสรุปได้ทั่วไปมากขึ้นในอัลกอริธึมส่วนใหญ่ เพื่อให้ข้อมูลสังเคราะห์ได้รับการพิจารณาว่ามีประโยชน์ในอนาคต

ท้ายที่สุดแล้ว หากคะแนน TSTR และคะแนน TRTR สามารถเทียบเคียงได้ แสดงว่าข้อมูลสังเคราะห์มีคุณภาพที่จะใช้ในการฝึกโมเดล ML ที่มีประสิทธิภาพสำหรับการใช้งานในโลกแห่งความเป็นจริง

คะแนนความสำคัญของฟีเจอร์

คะแนนความสำคัญของคุณลักษณะ (FI) มีความเกี่ยวข้องอย่างมากกับคะแนนการคาดการณ์ โดยจะขยายออกไปโดยการเพิ่มความสามารถในการตีความให้กับคะแนน TSTR และ TRTR

คะแนน F1 จะเปรียบเทียบการเปลี่ยนแปลงและความเสถียรของลำดับความสำคัญของฟีเจอร์ที่ได้รับกับคะแนนการทำนาย ชุดข้อมูลสังเคราะห์จะถือว่ามีประโยชน์สูงหากให้ลำดับความสำคัญของคุณลักษณะเดียวกันกับข้อมูลจริงดั้งเดิม

คิวสกอร์

เพื่อให้แน่ใจว่าโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สร้างขึ้นใหม่ของเราจะให้คำตอบเดียวกันกับคำถามเดียวกันกับโมเดลที่ได้รับการฝึกอบรมโดยใช้ข้อมูลต้นฉบับ เราใช้ Qscore วิธีนี้จะวัดประสิทธิภาพดาวน์สตรีมของข้อมูลสังเคราะห์โดยการเรียกใช้แบบสอบถามตามการรวมแบบสุ่มจำนวนมากบนชุดข้อมูลสังเคราะห์และต้นฉบับ (และที่ระงับ)

แนวคิดก็คือว่าข้อความค้นหาทั้งสองนี้ควรให้ผลลัพธ์ที่คล้ายคลึงกัน

QScore ที่สูงช่วยให้แน่ใจว่าแอปพลิเคชันดาวน์สตรีมที่ใช้การดำเนินการสืบค้นและการรวมกลุ่มสามารถให้ค่าที่ใกล้เคียงกับชุดข้อมูลดั้งเดิม

ตัวชี้วัดเพื่อทำความเข้าใจความเป็นส่วนตัว

กับ ความเป็นส่วนตัว กฎระเบียบที่มีอยู่แล้ว เป็นภาระผูกพันทางจริยธรรมและข้อกำหนดทางกฎหมายเพื่อให้แน่ใจว่าข้อมูลที่ละเอียดอ่อนได้รับการคุ้มครอง

ก่อนที่ข้อมูลสังเคราะห์นี้จะสามารถแบ่งปันได้อย่างอิสระและใช้สำหรับแอปพลิเคชันดาวน์สตรีม เราต้องพิจารณาตัวชี้วัดความเป็นส่วนตัวที่สามารถช่วยให้ผู้มีส่วนได้ส่วนเสียเข้าใจว่าข้อมูลสังเคราะห์ที่สร้างขึ้นนั้นอยู่ในจุดใดเมื่อเปรียบเทียบกับข้อมูลต้นฉบับในแง่ของขอบเขตของข้อมูลที่รั่วไหล นอกจากนี้ เราต้องตัดสินใจที่สำคัญเกี่ยวกับวิธีการแบ่งปันและใช้ข้อมูลสังเคราะห์

คะแนนการแข่งขันที่แน่นอน

การประเมินความเป็นส่วนตัวโดยตรงและใช้งานง่ายคือการค้นหาสำเนาของข้อมูลจริงในบันทึกสังเคราะห์ คะแนนการจับคู่แบบตรงทั้งหมดจะนับจำนวนบันทึกจริงที่พบในชุดสังเคราะห์

คะแนนควรเป็นศูนย์ โดยระบุว่าไม่มีข้อมูลจริงตามที่เป็นอยู่ในข้อมูลสังเคราะห์ ตัวชี้วัดนี้ทำหน้าที่เป็นกลไกคัดกรองก่อนที่เราจะประเมินตัวชี้วัดความเป็นส่วนตัวเพิ่มเติม

คะแนนความเป็นส่วนตัวของเพื่อนบ้าน

นอกจากนี้ คะแนนความเป็นส่วนตัวของเพื่อนบ้านยังวัดอัตราส่วนของบันทึกสังเคราะห์ที่อาจใกล้เคียงกับบันทึกจริงมากเกินไป ซึ่งหมายความว่าแม้ว่าจะไม่ใช่การคัดลอกโดยตรง แต่ก็เป็นจุดที่รั่วไหลของความเป็นส่วนตัวและเป็นแหล่งข้อมูลที่เป็นประโยชน์สำหรับการโจมตีโดยอนุมาน

คะแนนคำนวณโดยการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในมิติสูงจากข้อมูลสังเคราะห์ที่ทับซ้อนกับข้อมูลต้นฉบับ

คะแนนการอนุมานสมาชิกภาพ

ในวงจรชีวิตวิทยาศาสตร์ข้อมูล เมื่อแบบจำลองได้รับการฝึกอบรมแล้ว ก็ไม่จำเป็นต้องเข้าถึงตัวอย่างการฝึกอบรมอีกต่อไป และสามารถคาดการณ์ข้อมูลที่มองไม่เห็นได้ ในทำนองเดียวกัน ในกรณีของเรา เมื่อฝึกโมเดลซินธิไซเซอร์แล้ว สามารถสร้างตัวอย่างของข้อมูลสังเคราะห์ได้โดยไม่ต้องใช้ข้อมูลต้นฉบับ

ผ่านการโจมตีประเภทหนึ่งที่เรียกว่า “การโจมตีโดยอนุมานสมาชิกภาพ”ผู้โจมตีสามารถพยายามเปิดเผยข้อมูลที่ใช้สร้างข้อมูลสังเคราะห์ โดยไม่ต้องเข้าถึงข้อมูลต้นฉบับ ส่งผลให้เกิดการประนีประนอมความเป็นส่วนตัว

คะแนนการอนุมานสมาชิกจะวัดความเป็นไปได้ที่การโจมตีโดยอนุมานสมาชิกจะประสบความสำเร็จ

คะแนนต่ำแสดงถึงความเป็นไปได้ของการอนุมานว่าบันทึกใดเป็นสมาชิกของชุดข้อมูลการฝึกอบรมที่นำไปสู่การสร้างข้อมูลสังเคราะห์ กล่าวอีกนัยหนึ่ง การโจมตีสามารถสรุปรายละเอียดของบันทึกแต่ละรายการได้ ดังนั้นจึงกระทบต่อความเป็นส่วนตัว

คะแนนการอนุมานสมาชิกที่สูงบ่งชี้ว่าผู้โจมตีไม่น่าจะตัดสินได้ว่าบันทึกใดเป็นส่วนหนึ่งของชุดข้อมูลดั้งเดิมที่ใช้ในการสร้างข้อมูลสังเคราะห์หรือไม่ นอกจากนี้ยังหมายความว่าไม่มีข้อมูลของบุคคลใดถูกบุกรุกผ่านข้อมูลสังเคราะห์

แนวคิดการระงับ

แนวทางปฏิบัติที่ดีที่สุดที่สำคัญที่เราต้องปฏิบัติตามคือเพื่อให้แน่ใจว่าข้อมูลสังเคราะห์นั้นมีความทั่วไปเพียงพอและไม่พอดีกับข้อมูลดั้งเดิมที่ได้รับการฝึกอบรม ในโฟลว์วิทยาศาสตร์ข้อมูลทั่วไป ในขณะที่สร้างโมเดล ML เช่น ตัวแยกประเภทฟอเรสต์ เราจะกันข้อมูลการทดสอบ ฝึกโมเดลโดยใช้ข้อมูลการฝึก และประเมินตัววัดจากข้อมูลการทดสอบที่มองไม่เห็น

ในทำนองเดียวกัน สำหรับข้อมูลสังเคราะห์ เราจะเก็บตัวอย่างของข้อมูลต้นฉบับไว้ โดยทั่วไปเรียกว่าชุดข้อมูลที่ถูกระงับหรือข้อมูลการทดสอบที่ถูกระงับที่มองไม่เห็น และประเมินข้อมูลสังเคราะห์ที่สร้างขึ้นโดยเทียบกับชุดข้อมูลที่ถูกระงับ

ชุดข้อมูลที่ระงับคาดว่าจะเป็นตัวแทนของข้อมูลต้นฉบับ แต่จะไม่เห็นเมื่อมีการสร้างข้อมูลสังเคราะห์ ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องมีคะแนนที่ใกล้เคียงกันสำหรับหน่วยวัดทั้งหมดเมื่อเปรียบเทียบต้นฉบับกับชุดข้อมูลที่ระงับและชุดข้อมูลสังเคราะห์

เมื่อได้รับคะแนนที่ใกล้เคียงกัน เราสามารถระบุได้ว่าจุดข้อมูลสังเคราะห์ไม่ได้เป็นผลมาจากการจดจำจุดข้อมูลดั้งเดิม ในขณะที่ยังคงความเที่ยงตรงและอรรถประโยชน์เหมือนเดิม

ความคิดสุดท้าย

โลกเริ่มเข้าใจถึงความสำคัญเชิงกลยุทธ์ของข้อมูลสังเคราะห์ ในฐานะนักวิทยาศาสตร์ข้อมูลและผู้สร้างข้อมูล มีหน้าที่ของเราในการสร้างความไว้วางใจในข้อมูลสังเคราะห์ที่เราสร้างขึ้น และตรวจสอบให้แน่ใจว่าข้อมูลนั้นมีจุดประสงค์

ข้อมูลสังเคราะห์กำลังพัฒนาไปสู่สิ่งที่ต้องมีในชุดเครื่องมือพัฒนาวิทยาศาสตร์ข้อมูล MIT Technology Review มี เด่น ข้อมูลสังเคราะห์เป็นหนึ่งในเทคโนโลยีที่ก้าวล้ำแห่งปี 2022 เราไม่สามารถจินตนาการถึงการสร้างแบบจำลอง AI ที่มีคุณค่าที่ยอดเยี่ยมหากไม่มีข้อมูลสังเคราะห์ การกล่าวอ้าง Gartner.

ตามที่ McKinseyข้อมูลสังเคราะห์จะช่วยลดค่าใช้จ่ายและอุปสรรคที่คุณอาจมีเมื่อพัฒนาอัลกอริทึมหรือการเข้าถึงข้อมูล

การสร้างข้อมูลสังเคราะห์เป็นเรื่องเกี่ยวกับการรับรู้แอปพลิเคชันดาวน์สตรีม และการทำความเข้าใจข้อดีข้อเสียระหว่างมิติต่างๆ สำหรับคุณภาพของข้อมูลสังเคราะห์

สรุป

ในฐานะผู้ใช้ข้อมูลสังเคราะห์ จำเป็นอย่างยิ่งที่จะต้องกำหนดบริบทของกรณีการใช้งานซึ่งตัวอย่างการสังเคราะห์ทุกตัวอย่างจะถูกนำมาใช้ในอนาคต เช่นเดียวกับข้อมูลจริง คุณภาพของข้อมูลสังเคราะห์จะขึ้นอยู่กับกรณีการใช้งานที่ต้องการ เช่นเดียวกับพารามิเตอร์ที่เลือกสำหรับการสังเคราะห์

ตัวอย่างเช่น การรักษาค่าผิดปกติในข้อมูลสังเคราะห์เช่นเดียวกับข้อมูลต้นฉบับจะมีประโยชน์สำหรับกรณีการใช้งานการตรวจจับการฉ้อโกง อย่างไรก็ตาม กรณีการใช้งานด้านการดูแลสุขภาพที่ไม่คำนึงถึงความเป็นส่วนตัวจะไม่มีประโยชน์ เนื่องจากค่าผิดปกติโดยทั่วไปอาจเป็นข้อมูลรั่วไหลได้

ยิ่งไปกว่านั้น ยังมีการแลกเปลี่ยนระหว่างความซื่อสัตย์ ประโยชน์ใช้สอย และความเป็นส่วนตัว ไม่สามารถเพิ่มประสิทธิภาพข้อมูลสำหรับทั้งสามอย่างพร้อมกันได้ ตัวชี้วัดเหล่านี้ช่วยให้ผู้มีส่วนได้ส่วนเสียสามารถจัดลำดับความสำคัญสิ่งที่จำเป็นสำหรับกรณีการใช้งานแต่ละกรณี และจัดการความคาดหวังจากข้อมูลสังเคราะห์ที่สร้างขึ้น

ท้ายที่สุดแล้ว เมื่อเราเห็นค่าของแต่ละตัวชี้วัดและเมื่อเป็นไปตามความคาดหวัง ผู้มีส่วนได้ส่วนเสียสามารถมั่นใจในโซลูชันที่พวกเขาสร้างขึ้นโดยใช้ข้อมูลสังเคราะห์

กรณีการใช้งานสำหรับข้อมูลสังเคราะห์ที่มีโครงสร้างครอบคลุมขอบเขตการใช้งานที่หลากหลาย ตั้งแต่ข้อมูลการทดสอบสำหรับการพัฒนาซอฟต์แวร์ไปจนถึงการสร้างแขนควบคุมสังเคราะห์ในการทดลองทางคลินิก

ติดต่อเพื่อสำรวจโอกาสเหล่านี้หรือสร้าง PoC เพื่อแสดงให้เห็นถึงคุณค่า

ฟาริส ฮัดแดด เป็นหัวหน้าฝ่ายข้อมูลและข้อมูลเชิงลึกในทีม AABG Strategic Pursuits เขาช่วยให้องค์กรประสบความสำเร็จในการขับเคลื่อนด้วยข้อมูล

ประทับเวลา: December 16, 2022December 18, 2022

ประทับเวลา: สิงหาคม 25, 2022

เผยแพร่ซ้ำโดยเพลโต

การประเมินคุณภาพข้อมูลสังเคราะห์สามมิติ

ตัวชี้วัดเพื่อทำความเข้าใจความเที่ยงตรง

การเปรียบเทียบทางสถิติเชิงสำรวจ

คะแนนความคล้ายคลึงกันของฮิสโตแกรม

คะแนนข้อมูลร่วมกัน

คะแนนความสัมพันธ์

ความสัมพันธ์อัตโนมัติและคะแนนความสัมพันธ์อัตโนมัติบางส่วน

ตัวชี้วัดเพื่อทำความเข้าใจประโยชน์ใช้สอย

คะแนนการทำนาย

คะแนนความสำคัญของฟีเจอร์

คิวสกอร์

ตัวชี้วัดเพื่อทำความเข้าใจความเป็นส่วนตัว

คะแนนการแข่งขันที่แน่นอน

คะแนนความเป็นส่วนตัวของเพื่อนบ้าน

คะแนนการอนุมานสมาชิกภาพ

แนวคิดการระงับ

ความคิดสุดท้าย

สรุป

เพิ่มเติมจาก AWS Machine Learning AWS

โฮสต์โค้ดเซิร์ฟเวอร์บน Amazon SageMaker

สร้าง ฝึกฝน และปรับใช้ Amazon Lookout สำหรับรุ่นอุปกรณ์โดยใช้ Python Toolbox

การตรวจจับความผิดปกติด้วย Amazon SageMaker Edge Manager โดยใช้ AWS IoT Greengrass V2

บรรลุการโฮสต์ที่มีเวลาแฝงต่ำสำหรับโมเดล ML แบบอิงแผนผังการตัดสินใจบนเซิร์ฟเวอร์ NVIDIA Triton Inference บน Amazon SageMaker

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้