วิธีประเมินคุณภาพของข้อมูลสังเคราะห์ – วัดจากมุมมองของความเที่ยงตรง ประโยชน์ใช้สอย และความเป็นส่วนตัว PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

วิธีการประเมินคุณภาพของข้อมูลสังเคราะห์ – การวัดจากมุมมองของความถูกต้อง ประโยชน์ใช้สอย และความเป็นส่วนตัว

ในโลกที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้นเรื่อยๆ องค์กรต่างๆ ต้องมุ่งเน้นไปที่การรวบรวมทั้งข้อมูลทางกายภาพอันมีค่าและสร้างข้อมูลที่ต้องการแต่ไม่สามารถบันทึกได้อย่างง่ายดาย การเข้าถึงข้อมูล กฎระเบียบ และการปฏิบัติตามข้อกำหนดเป็นสาเหตุที่ทำให้เกิดความขัดแย้งมากขึ้นสำหรับนวัตกรรมด้านการวิเคราะห์และปัญญาประดิษฐ์ (AI)

สำหรับภาคส่วนที่มีการควบคุมอย่างเข้มงวด เช่น บริการทางการเงิน การดูแลสุขภาพ วิทยาศาสตร์ชีวภาพ ยานยนต์ หุ่นยนต์ และการผลิต ปัญหาจะยิ่งเพิ่มมากขึ้น ทำให้เกิดอุปสรรคในการออกแบบระบบ การแบ่งปันข้อมูล (ภายในและภายนอก) การสร้างรายได้ การวิเคราะห์ และการเรียนรู้ของเครื่อง (ML)

ข้อมูลสังเคราะห์เป็นเครื่องมือที่จัดการกับความท้าทายด้านข้อมูลมากมาย โดยเฉพาะปัญหา AI และการวิเคราะห์ เช่น การปกป้องความเป็นส่วนตัว การปฏิบัติตามกฎระเบียบ การเข้าถึง การขาดแคลนข้อมูล และความลำเอียง นอกจากนี้ยังรวมถึงการแบ่งปันข้อมูลและเวลาสู่ข้อมูล (และด้วยเหตุนี้จึงถึงเวลาออกสู่ตลาด)

ข้อมูลสังเคราะห์ถูกสร้างขึ้นตามอัลกอริทึม โดยจะสะท้อนคุณสมบัติและรูปแบบทางสถิติจากแหล่งข้อมูล แต่ที่สำคัญคือไม่มีจุดข้อมูลที่ละเอียดอ่อน ส่วนตัว หรือส่วนบุคคล

คุณถามคำถามเกี่ยวกับข้อมูลสังเคราะห์และได้รับคำตอบเดียวกันกับที่คุณถามจากข้อมูลจริง

ในของเรา โพสต์ก่อนหน้านี้, เราได้สาธิตวิธีใช้เครือข่ายฝ่ายตรงข้าม เช่น Generative Adversarial Networks (GANS) เพื่อสร้างชุดข้อมูลแบบตารางเพื่อปรับปรุงการฝึกอบรมโมเดลการฉ้อโกงเครดิต

สำหรับผู้มีส่วนได้ส่วนเสียทางธุรกิจที่จะนำข้อมูลสังเคราะห์มาใช้กับโครงการ ML และการวิเคราะห์ของตน ไม่เพียงแต่ต้องแน่ใจว่าข้อมูลสังเคราะห์ที่สร้างขึ้นจะเหมาะสมกับวัตถุประสงค์และแอปพลิเคชันดาวน์สตรีมที่คาดหวังเท่านั้น แต่ยังเพื่อให้พวกเขาสามารถวัดและแสดงให้เห็นถึงคุณภาพของ ข้อมูลที่สร้างขึ้น

ด้วยภาระหน้าที่ทางกฎหมายและจริยธรรมที่เพิ่มขึ้นในการรักษาความเป็นส่วนตัว จุดแข็งประการหนึ่งของข้อมูลสังเคราะห์คือความสามารถในการลบข้อมูลที่ละเอียดอ่อนและเป็นต้นฉบับในระหว่างการสังเคราะห์ ดังนั้น นอกเหนือจากคุณภาพแล้ว เรายังต้องมีตัวชี้วัดเพื่อประเมินความเสี่ยงของการรั่วไหลของข้อมูลส่วนตัว (หากมี) และประเมินว่ากระบวนการสร้างไม่ได้ "จดจำ" หรือคัดลอกข้อมูลต้นฉบับใดๆ

เพื่อให้บรรลุเป้าหมายทั้งหมดนี้ เราสามารถแมปคุณภาพของข้อมูลสังเคราะห์ให้เป็นมิติต่างๆ ได้ ซึ่งช่วยให้ผู้ใช้ ผู้มีส่วนได้ส่วนเสีย และเราเข้าใจข้อมูลที่สร้างขึ้นได้ดีขึ้น

การประเมินคุณภาพข้อมูลสังเคราะห์สามมิติ

ข้อมูลสังเคราะห์ที่สร้างขึ้นวัดจากมิติหลักสามประการ:

  1. ความจงรักภักดี
  2. ประโยชน์
  3. ความเป็นส่วนตัว

ต่อไปนี้คือคำถามบางส่วนเกี่ยวกับข้อมูลสังเคราะห์ที่สร้างขึ้นซึ่งควรตอบโดยรายงานคุณภาพข้อมูลสังเคราะห์:

  • ข้อมูลสังเคราะห์นี้มีความคล้ายคลึงกันเพียงใดเมื่อเปรียบเทียบกับชุดการฝึกดั้งเดิม
  • ข้อมูลสังเคราะห์นี้มีประโยชน์เพียงใดสำหรับแอปพลิเคชันดาวน์สตรีมของเรา
  • มีข้อมูลใดรั่วไหลจากข้อมูลการฝึกอบรมเดิมไปสู่ข้อมูลสังเคราะห์หรือไม่?
  • มีข้อมูลใดบ้างที่ถือว่าละเอียดอ่อนในโลกแห่งความเป็นจริง (จากชุดข้อมูลอื่นที่ไม่ได้ใช้สำหรับการฝึกแบบจำลอง) ถูกสังเคราะห์โดยแบบจำลองของเราโดยไม่ได้ตั้งใจหรือไม่

เมตริกที่แปลมิติข้อมูลแต่ละรายการเหล่านี้สำหรับผู้ใช้ปลายทางค่อนข้างยืดหยุ่น ท้ายที่สุดแล้ว ข้อมูลที่จะสร้างอาจแตกต่างกันไปในแง่ของการแจกแจง ขนาด และลักษณะการทำงาน ควรเข้าใจและตีความได้ง่าย

ท้ายที่สุดแล้ว ตัวชี้วัดจะต้องขับเคลื่อนด้วยข้อมูลโดยสมบูรณ์ และไม่จำเป็นต้องมีความรู้หรือข้อมูลเฉพาะโดเมนใดๆ มาก่อน อย่างไรก็ตาม หากผู้ใช้ต้องการใช้กฎและข้อจำกัดเฉพาะที่เกี่ยวข้องกับโดเมนธุรกิจเฉพาะ ผู้ใช้ควรจะสามารถกำหนดกฎและข้อจำกัดเหล่านั้นได้ในระหว่างกระบวนการสังเคราะห์เพื่อให้แน่ใจว่าเป็นไปตามความเที่ยงตรงเฉพาะโดเมน

เราจะดูรายละเอียดแต่ละเมตริกเหล่านี้โดยละเอียดในส่วนต่อไปนี้

ตัวชี้วัดเพื่อทำความเข้าใจความเที่ยงตรง

ในโครงการวิทยาศาสตร์ข้อมูลใดๆ เราต้องเข้าใจว่าประชากรตัวอย่างจำนวนหนึ่งเกี่ยวข้องกับปัญหาที่เรากำลังแก้ไขหรือไม่ ในทำนองเดียวกัน สำหรับกระบวนการประเมินความเกี่ยวข้องของข้อมูลสังเคราะห์ที่สร้างขึ้น เราต้องประเมินในแง่ของ ความจงรักภักดี เมื่อเทียบกับต้นฉบับ

การแสดงตัวชี้วัดเหล่านี้ด้วยภาพช่วยให้เข้าใจได้ง่ายขึ้น เราสามารถแสดงให้เห็นได้ว่าการนับจำนวนสมาชิกและอัตราส่วนของหมวดหมู่ได้รับการเคารพหรือไม่ ความสัมพันธ์ระหว่างตัวแปรต่างๆ จะถูกเก็บไว้ และอื่นๆ

การแสดงข้อมูลเป็นภาพไม่เพียงแต่ช่วยในการประเมินคุณภาพของข้อมูลสังเคราะห์เท่านั้น แต่ยังถือเป็นขั้นตอนเริ่มต้นในวงจรวิทยาศาสตร์ข้อมูลเพื่อให้เข้าใจข้อมูลได้ดีขึ้นอีกด้วย

มาดูรายละเอียดเมตริกความเที่ยงตรงบางส่วนกันดีกว่า

การเปรียบเทียบทางสถิติเชิงสำรวจ

ภายในการเปรียบเทียบทางสถิติเชิงสำรวจ คุณลักษณะของชุดข้อมูลดั้งเดิมและชุดข้อมูลสังเคราะห์จะถูกสำรวจโดยใช้การวัดทางสถิติที่สำคัญ เช่น ค่าเฉลี่ย ค่ามัธยฐาน ส่วนเบี่ยงเบนมาตรฐาน ค่าที่แตกต่าง ค่าที่หายไป ค่าต่ำสุด ค่าสูงสุด ช่วงควอไทล์สำหรับคุณลักษณะต่อเนื่อง และจำนวน ของบันทึกต่อหมวดหมู่ ค่าที่หายไปต่อหมวดหมู่ และอักขระที่เกิดขึ้นส่วนใหญ่สำหรับแอตทริบิวต์หมวดหมู่

การเปรียบเทียบนี้ควรดำเนินการระหว่างชุดข้อมูลการระงับเดิมและข้อมูลสังเคราะห์ การประเมินนี้จะเปิดเผยว่าชุดข้อมูลที่เปรียบเทียบมีความคล้ายคลึงกันทางสถิติหรือไม่ หากไม่เป็นเช่นนั้น เราจะมีความเข้าใจว่าฟีเจอร์และมาตรการใดที่แตกต่างกัน คุณควรพิจารณาฝึกอบรมใหม่และสร้างข้อมูลสังเคราะห์ใหม่ด้วยพารามิเตอร์ที่แตกต่างกัน หากสังเกตเห็นความแตกต่างที่มีนัยสำคัญ

การทดสอบนี้ทำหน้าที่เป็นการคัดกรองเบื้องต้นเพื่อให้แน่ใจว่าข้อมูลสังเคราะห์มีความเที่ยงตรงสมเหตุสมผลกับชุดข้อมูลดั้งเดิม จึงสามารถผ่านการทดสอบที่เข้มงวดยิ่งขึ้นได้

คะแนนความคล้ายคลึงกันของฮิสโตแกรม

คะแนนความคล้ายคลึงกันของฮิสโตแกรมจะวัดการกระจายส่วนเสริมของชุดข้อมูลสังเคราะห์และชุดข้อมูลดั้งเดิมของแต่ละฟีเจอร์

คะแนนความคล้ายคลึงกันนั้นอยู่ระหว่างศูนย์ถึงหนึ่ง โดยคะแนนหนึ่งบ่งชี้ว่าการกระจายข้อมูลสังเคราะห์ซ้อนทับกับการแจกแจงของข้อมูลต้นฉบับอย่างสมบูรณ์

คะแนนที่ใกล้เคียงหนึ่งจะทำให้ผู้ใช้มั่นใจว่าชุดข้อมูลการระงับและชุดข้อมูลสังเคราะห์มีความคล้ายคลึงกันทางสถิติ

คะแนนข้อมูลร่วมกัน

คะแนนข้อมูลร่วมกันจะวัดการพึ่งพาอาศัยกันของคุณลักษณะสองประการ เชิงตัวเลขหรือเชิงหมวดหมู่ ซึ่งบ่งชี้ว่าสามารถรับข้อมูลจากคุณลักษณะหนึ่งได้มากเพียงใดโดยการสังเกตอีกคุณลักษณะหนึ่ง

ข้อมูลร่วมกันสามารถวัดความสัมพันธ์แบบไม่เชิงเส้นได้ ทำให้มีความเข้าใจที่ครอบคลุมมากขึ้นเกี่ยวกับคุณภาพของข้อมูลสังเคราะห์ เนื่องจากช่วยให้เราเข้าใจขอบเขตของการรักษาความสัมพันธ์ของตัวแปรได้

คะแนนหนึ่งบ่งชี้ว่าการพึ่งพาซึ่งกันและกันระหว่างคุณลักษณะได้รับการบันทึกอย่างสมบูรณ์แบบในข้อมูลสังเคราะห์

คะแนนความสัมพันธ์

คะแนนสหสัมพันธ์จะวัดว่าความสัมพันธ์ในชุดข้อมูลดั้งเดิมได้รับการบันทึกในข้อมูลสังเคราะห์ได้ดีเพียงใด

ความสัมพันธ์ระหว่างสองคอลัมน์ขึ้นไปมีความสำคัญอย่างยิ่งสำหรับแอปพลิเคชัน ML ซึ่งช่วยเปิดเผยความสัมพันธ์ระหว่างคุณลักษณะและตัวแปรเป้าหมาย และช่วยสร้างโมเดลที่ได้รับการฝึกอบรมมาอย่างดี

คะแนนความสัมพันธ์มีขอบเขตระหว่างศูนย์ถึงหนึ่ง โดยคะแนนหนึ่งแสดงว่าความสัมพันธ์นั้นตรงกันอย่างสมบูรณ์

ซึ่งแตกต่างจากข้อมูลตารางที่มีโครงสร้างซึ่งเรามักพบในปัญหาข้อมูล ข้อมูลที่มีโครงสร้างบางประเภทมีพฤติกรรมเฉพาะที่การสังเกตในอดีตมีความเป็นไปได้ที่จะมีอิทธิพลต่อการสังเกตต่อไปนี้ ข้อมูลเหล่านี้เรียกว่าอนุกรมเวลาหรือข้อมูลตามลำดับ เช่น ชุดข้อมูลที่มีการวัดอุณหภูมิห้องรายชั่วโมง

ลักษณะการทำงานนี้หมายความว่ามีข้อกำหนดในการกำหนดตัวชี้วัดบางอย่างที่สามารถวัดคุณภาพของชุดข้อมูลอนุกรมเวลาเหล่านี้โดยเฉพาะ

ความสัมพันธ์อัตโนมัติและคะแนนความสัมพันธ์อัตโนมัติบางส่วน

แม้ว่าจะคล้ายกับความสัมพันธ์ แต่ความสัมพันธ์อัตโนมัติจะแสดงความสัมพันธ์ของอนุกรมเวลา ณ มูลค่าปัจจุบันโดยสัมพันธ์กับค่าก่อนหน้า การลบผลกระทบของการหน่วงเวลาก่อนหน้านี้จะทำให้เกิดความสัมพันธ์อัตโนมัติบางส่วน ดังนั้น คะแนนความสัมพันธ์อัตโนมัติจะวัดว่าข้อมูลสังเคราะห์จับความสัมพันธ์อัตโนมัติที่มีนัยสำคัญหรือความสัมพันธ์บางส่วนจากชุดข้อมูลดั้งเดิมได้ดีเพียงใด

ตัวชี้วัดเพื่อทำความเข้าใจประโยชน์ใช้สอย

ตอนนี้เราอาจได้ตระหนักทางสถิติแล้วว่าข้อมูลสังเคราะห์นั้นคล้ายคลึงกับชุดข้อมูลดั้งเดิม นอกจากนี้ เรายังต้องประเมินด้วยว่าชุดข้อมูลที่สังเคราะห์แล้วนั้นทำงานได้ดีเพียงใดกับปัญหาด้านวิทยาศาสตร์ข้อมูลทั่วไป เมื่อได้รับการฝึกอบรมเกี่ยวกับอัลกอริทึม ML หลายตัว

โดยใช้สิ่งต่อไปนี้ ประโยชน์ เรามุ่งหวังที่จะสร้างความมั่นใจว่าเราสามารถบรรลุประสิทธิภาพจริงในแอปพลิเคชันดาวน์สตรีมเกี่ยวกับวิธีการทำงานของข้อมูลต้นฉบับ

คะแนนการทำนาย

การวัดประสิทธิภาพของข้อมูลสังเคราะห์เมื่อเปรียบเทียบกับข้อมูลจริงดั้งเดิมสามารถทำได้ผ่านโมเดล ML คะแนนแบบจำลองขั้นปลายจะบันทึกคุณภาพของข้อมูลสังเคราะห์โดยการเปรียบเทียบประสิทธิภาพของแบบจำลอง ML ที่ได้รับการฝึกอบรมทั้งชุดข้อมูลสังเคราะห์และชุดข้อมูลดั้งเดิม และตรวจสอบความถูกต้องกับข้อมูลการทดสอบที่ถูกระงับจากชุดข้อมูลดั้งเดิม สิ่งนี้ให้ คะแนนการทดสอบสังเคราะห์จริง (TSTR) ของรถไฟ และ ฝึกจริง ทดสอบจริง (TRTR) คะแนนตามลำดับ

TSTR, คะแนน TRTR และคะแนนความสำคัญของคุณลักษณะ (ภาพโดยผู้เขียน)

คะแนนจะรวมอัลกอริธึม ML ที่เชื่อถือได้มากที่สุดที่หลากหลายสำหรับงานการถดถอยหรือการจัดหมวดหมู่ การใช้ตัวแยกประเภทและตัวถดถอยหลายตัวช่วยให้แน่ใจว่าคะแนนสามารถสรุปได้ทั่วไปมากขึ้นในอัลกอริธึมส่วนใหญ่ เพื่อให้ข้อมูลสังเคราะห์ได้รับการพิจารณาว่ามีประโยชน์ในอนาคต

ท้ายที่สุดแล้ว หากคะแนน TSTR และคะแนน TRTR สามารถเทียบเคียงได้ แสดงว่าข้อมูลสังเคราะห์มีคุณภาพที่จะใช้ในการฝึกโมเดล ML ที่มีประสิทธิภาพสำหรับการใช้งานในโลกแห่งความเป็นจริง

คะแนนความสำคัญของฟีเจอร์

คะแนนความสำคัญของคุณลักษณะ (FI) มีความเกี่ยวข้องอย่างมากกับคะแนนการคาดการณ์ โดยจะขยายออกไปโดยการเพิ่มความสามารถในการตีความให้กับคะแนน TSTR และ TRTR

คะแนน F1 จะเปรียบเทียบการเปลี่ยนแปลงและความเสถียรของลำดับความสำคัญของฟีเจอร์ที่ได้รับกับคะแนนการทำนาย ชุดข้อมูลสังเคราะห์จะถือว่ามีประโยชน์สูงหากให้ลำดับความสำคัญของคุณลักษณะเดียวกันกับข้อมูลจริงดั้งเดิม

คิวสกอร์

เพื่อให้แน่ใจว่าโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สร้างขึ้นใหม่ของเราจะให้คำตอบเดียวกันกับคำถามเดียวกันกับโมเดลที่ได้รับการฝึกอบรมโดยใช้ข้อมูลต้นฉบับ เราใช้ Qscore วิธีนี้จะวัดประสิทธิภาพดาวน์สตรีมของข้อมูลสังเคราะห์โดยการเรียกใช้แบบสอบถามตามการรวมแบบสุ่มจำนวนมากบนชุดข้อมูลสังเคราะห์และต้นฉบับ (และที่ระงับ)

แนวคิดก็คือว่าข้อความค้นหาทั้งสองนี้ควรให้ผลลัพธ์ที่คล้ายคลึงกัน

QScore ที่สูงช่วยให้แน่ใจว่าแอปพลิเคชันดาวน์สตรีมที่ใช้การดำเนินการสืบค้นและการรวมกลุ่มสามารถให้ค่าที่ใกล้เคียงกับชุดข้อมูลดั้งเดิม

ตัวชี้วัดเพื่อทำความเข้าใจความเป็นส่วนตัว

กับ ความเป็นส่วนตัว กฎระเบียบที่มีอยู่แล้ว เป็นภาระผูกพันทางจริยธรรมและข้อกำหนดทางกฎหมายเพื่อให้แน่ใจว่าข้อมูลที่ละเอียดอ่อนได้รับการคุ้มครอง

ก่อนที่ข้อมูลสังเคราะห์นี้จะสามารถแบ่งปันได้อย่างอิสระและใช้สำหรับแอปพลิเคชันดาวน์สตรีม เราต้องพิจารณาตัวชี้วัดความเป็นส่วนตัวที่สามารถช่วยให้ผู้มีส่วนได้ส่วนเสียเข้าใจว่าข้อมูลสังเคราะห์ที่สร้างขึ้นนั้นอยู่ในจุดใดเมื่อเปรียบเทียบกับข้อมูลต้นฉบับในแง่ของขอบเขตของข้อมูลที่รั่วไหล นอกจากนี้ เราต้องตัดสินใจที่สำคัญเกี่ยวกับวิธีการแบ่งปันและใช้ข้อมูลสังเคราะห์

คะแนนการแข่งขันที่แน่นอน

การประเมินความเป็นส่วนตัวโดยตรงและใช้งานง่ายคือการค้นหาสำเนาของข้อมูลจริงในบันทึกสังเคราะห์ คะแนนการจับคู่แบบตรงทั้งหมดจะนับจำนวนบันทึกจริงที่พบในชุดสังเคราะห์

คะแนนควรเป็นศูนย์ โดยระบุว่าไม่มีข้อมูลจริงตามที่เป็นอยู่ในข้อมูลสังเคราะห์ ตัวชี้วัดนี้ทำหน้าที่เป็นกลไกคัดกรองก่อนที่เราจะประเมินตัวชี้วัดความเป็นส่วนตัวเพิ่มเติม

คะแนนความเป็นส่วนตัวของเพื่อนบ้าน

นอกจากนี้ คะแนนความเป็นส่วนตัวของเพื่อนบ้านยังวัดอัตราส่วนของบันทึกสังเคราะห์ที่อาจใกล้เคียงกับบันทึกจริงมากเกินไป ซึ่งหมายความว่าแม้ว่าจะไม่ใช่การคัดลอกโดยตรง แต่ก็เป็นจุดที่รั่วไหลของความเป็นส่วนตัวและเป็นแหล่งข้อมูลที่เป็นประโยชน์สำหรับการโจมตีโดยอนุมาน

คะแนนคำนวณโดยการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในมิติสูงจากข้อมูลสังเคราะห์ที่ทับซ้อนกับข้อมูลต้นฉบับ

คะแนนการอนุมานสมาชิกภาพ

ในวงจรชีวิตวิทยาศาสตร์ข้อมูล เมื่อแบบจำลองได้รับการฝึกอบรมแล้ว ก็ไม่จำเป็นต้องเข้าถึงตัวอย่างการฝึกอบรมอีกต่อไป และสามารถคาดการณ์ข้อมูลที่มองไม่เห็นได้ ในทำนองเดียวกัน ในกรณีของเรา เมื่อฝึกโมเดลซินธิไซเซอร์แล้ว สามารถสร้างตัวอย่างของข้อมูลสังเคราะห์ได้โดยไม่ต้องใช้ข้อมูลต้นฉบับ

ผ่านการโจมตีประเภทหนึ่งที่เรียกว่า “การโจมตีโดยอนุมานสมาชิกภาพ”ผู้โจมตีสามารถพยายามเปิดเผยข้อมูลที่ใช้สร้างข้อมูลสังเคราะห์ โดยไม่ต้องเข้าถึงข้อมูลต้นฉบับ ส่งผลให้เกิดการประนีประนอมความเป็นส่วนตัว

คะแนนการอนุมานสมาชิกจะวัดความเป็นไปได้ที่การโจมตีโดยอนุมานสมาชิกจะประสบความสำเร็จ

คะแนนการอนุมานสมาชิก

คะแนนต่ำแสดงถึงความเป็นไปได้ของการอนุมานว่าบันทึกใดเป็นสมาชิกของชุดข้อมูลการฝึกอบรมที่นำไปสู่การสร้างข้อมูลสังเคราะห์ กล่าวอีกนัยหนึ่ง การโจมตีสามารถสรุปรายละเอียดของบันทึกแต่ละรายการได้ ดังนั้นจึงกระทบต่อความเป็นส่วนตัว

คะแนนการอนุมานสมาชิกที่สูงบ่งชี้ว่าผู้โจมตีไม่น่าจะตัดสินได้ว่าบันทึกใดเป็นส่วนหนึ่งของชุดข้อมูลดั้งเดิมที่ใช้ในการสร้างข้อมูลสังเคราะห์หรือไม่ นอกจากนี้ยังหมายความว่าไม่มีข้อมูลของบุคคลใดถูกบุกรุกผ่านข้อมูลสังเคราะห์

แนวคิดการระงับ

แนวทางปฏิบัติที่ดีที่สุดที่สำคัญที่เราต้องปฏิบัติตามคือเพื่อให้แน่ใจว่าข้อมูลสังเคราะห์นั้นมีความทั่วไปเพียงพอและไม่พอดีกับข้อมูลดั้งเดิมที่ได้รับการฝึกอบรม ในโฟลว์วิทยาศาสตร์ข้อมูลทั่วไป ในขณะที่สร้างโมเดล ML เช่น ตัวแยกประเภทฟอเรสต์ เราจะกันข้อมูลการทดสอบ ฝึกโมเดลโดยใช้ข้อมูลการฝึก และประเมินตัววัดจากข้อมูลการทดสอบที่มองไม่เห็น

ในทำนองเดียวกัน สำหรับข้อมูลสังเคราะห์ เราจะเก็บตัวอย่างของข้อมูลต้นฉบับไว้ โดยทั่วไปเรียกว่าชุดข้อมูลที่ถูกระงับหรือข้อมูลการทดสอบที่ถูกระงับที่มองไม่เห็น และประเมินข้อมูลสังเคราะห์ที่สร้างขึ้นโดยเทียบกับชุดข้อมูลที่ถูกระงับ

ชุดข้อมูลที่ระงับคาดว่าจะเป็นตัวแทนของข้อมูลต้นฉบับ แต่จะไม่เห็นเมื่อมีการสร้างข้อมูลสังเคราะห์ ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องมีคะแนนที่ใกล้เคียงกันสำหรับหน่วยวัดทั้งหมดเมื่อเปรียบเทียบต้นฉบับกับชุดข้อมูลที่ระงับและชุดข้อมูลสังเคราะห์

เมื่อได้รับคะแนนที่ใกล้เคียงกัน เราสามารถระบุได้ว่าจุดข้อมูลสังเคราะห์ไม่ได้เป็นผลมาจากการจดจำจุดข้อมูลดั้งเดิม ในขณะที่ยังคงความเที่ยงตรงและอรรถประโยชน์เหมือนเดิม

ความคิดสุดท้าย

โลกเริ่มเข้าใจถึงความสำคัญเชิงกลยุทธ์ของข้อมูลสังเคราะห์ ในฐานะนักวิทยาศาสตร์ข้อมูลและผู้สร้างข้อมูล มีหน้าที่ของเราในการสร้างความไว้วางใจในข้อมูลสังเคราะห์ที่เราสร้างขึ้น และตรวจสอบให้แน่ใจว่าข้อมูลนั้นมีจุดประสงค์

ข้อมูลสังเคราะห์กำลังพัฒนาไปสู่สิ่งที่ต้องมีในชุดเครื่องมือพัฒนาวิทยาศาสตร์ข้อมูล MIT Technology Review มี เด่น ข้อมูลสังเคราะห์เป็นหนึ่งในเทคโนโลยีที่ก้าวล้ำแห่งปี 2022 เราไม่สามารถจินตนาการถึงการสร้างแบบจำลอง AI ที่มีคุณค่าที่ยอดเยี่ยมหากไม่มีข้อมูลสังเคราะห์ การกล่าวอ้าง Gartner.

ตามที่ McKinseyข้อมูลสังเคราะห์จะช่วยลดค่าใช้จ่ายและอุปสรรคที่คุณอาจมีเมื่อพัฒนาอัลกอริทึมหรือการเข้าถึงข้อมูล

การสร้างข้อมูลสังเคราะห์เป็นเรื่องเกี่ยวกับการรับรู้แอปพลิเคชันดาวน์สตรีม และการทำความเข้าใจข้อดีข้อเสียระหว่างมิติต่างๆ สำหรับคุณภาพของข้อมูลสังเคราะห์

สรุป

ในฐานะผู้ใช้ข้อมูลสังเคราะห์ จำเป็นอย่างยิ่งที่จะต้องกำหนดบริบทของกรณีการใช้งานซึ่งตัวอย่างการสังเคราะห์ทุกตัวอย่างจะถูกนำมาใช้ในอนาคต เช่นเดียวกับข้อมูลจริง คุณภาพของข้อมูลสังเคราะห์จะขึ้นอยู่กับกรณีการใช้งานที่ต้องการ เช่นเดียวกับพารามิเตอร์ที่เลือกสำหรับการสังเคราะห์

ตัวอย่างเช่น การรักษาค่าผิดปกติในข้อมูลสังเคราะห์เช่นเดียวกับข้อมูลต้นฉบับจะมีประโยชน์สำหรับกรณีการใช้งานการตรวจจับการฉ้อโกง อย่างไรก็ตาม กรณีการใช้งานด้านการดูแลสุขภาพที่ไม่คำนึงถึงความเป็นส่วนตัวจะไม่มีประโยชน์ เนื่องจากค่าผิดปกติโดยทั่วไปอาจเป็นข้อมูลรั่วไหลได้

ยิ่งไปกว่านั้น ยังมีการแลกเปลี่ยนระหว่างความซื่อสัตย์ ประโยชน์ใช้สอย และความเป็นส่วนตัว ไม่สามารถเพิ่มประสิทธิภาพข้อมูลสำหรับทั้งสามอย่างพร้อมกันได้ ตัวชี้วัดเหล่านี้ช่วยให้ผู้มีส่วนได้ส่วนเสียสามารถจัดลำดับความสำคัญสิ่งที่จำเป็นสำหรับกรณีการใช้งานแต่ละกรณี และจัดการความคาดหวังจากข้อมูลสังเคราะห์ที่สร้างขึ้น

ท้ายที่สุดแล้ว เมื่อเราเห็นค่าของแต่ละตัวชี้วัดและเมื่อเป็นไปตามความคาดหวัง ผู้มีส่วนได้ส่วนเสียสามารถมั่นใจในโซลูชันที่พวกเขาสร้างขึ้นโดยใช้ข้อมูลสังเคราะห์

กรณีการใช้งานสำหรับข้อมูลสังเคราะห์ที่มีโครงสร้างครอบคลุมขอบเขตการใช้งานที่หลากหลาย ตั้งแต่ข้อมูลการทดสอบสำหรับการพัฒนาซอฟต์แวร์ไปจนถึงการสร้างแขนควบคุมสังเคราะห์ในการทดลองทางคลินิก

ติดต่อเพื่อสำรวจโอกาสเหล่านี้หรือสร้าง PoC เพื่อแสดงให้เห็นถึงคุณค่า


วิธีประเมินคุณภาพของข้อมูลสังเคราะห์ – วัดจากมุมมองของความเที่ยงตรง ประโยชน์ใช้สอย และความเป็นส่วนตัว PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ฟาริส ฮัดแดด เป็นหัวหน้าฝ่ายข้อมูลและข้อมูลเชิงลึกในทีม AABG Strategic Pursuits เขาช่วยให้องค์กรประสบความสำเร็จในการขับเคลื่อนด้วยข้อมูล

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

ความน่าจะเป็นในการเผชิญหน้า ซึ่งเป็นส่วนหนึ่งของ NHL Edge IQ: การทำนายผู้ชนะแบบเผชิญหน้าแบบเรียลไทม์ระหว่างเกมถ่ายทอดสดทางโทรทัศน์

โหนดต้นทาง: 1719504
ประทับเวลา: ตุลาคม 5, 2022