ในโลกที่เน้นข้อมูลเป็นศูนย์กลางมากขึ้นเรื่อยๆ องค์กรต่างๆ ต้องมุ่งเน้นไปที่การรวบรวมทั้งข้อมูลทางกายภาพอันมีค่าและสร้างข้อมูลที่ต้องการแต่ไม่สามารถบันทึกได้อย่างง่ายดาย การเข้าถึงข้อมูล กฎระเบียบ และการปฏิบัติตามข้อกำหนดเป็นสาเหตุที่ทำให้เกิดความขัดแย้งมากขึ้นสำหรับนวัตกรรมด้านการวิเคราะห์และปัญญาประดิษฐ์ (AI)
สำหรับภาคส่วนที่มีการควบคุมอย่างเข้มงวด เช่น บริการทางการเงิน การดูแลสุขภาพ วิทยาศาสตร์ชีวภาพ ยานยนต์ หุ่นยนต์ และการผลิต ปัญหาจะยิ่งเพิ่มมากขึ้น ทำให้เกิดอุปสรรคในการออกแบบระบบ การแบ่งปันข้อมูล (ภายในและภายนอก) การสร้างรายได้ การวิเคราะห์ และการเรียนรู้ของเครื่อง (ML)
ข้อมูลสังเคราะห์เป็นเครื่องมือที่จัดการกับความท้าทายด้านข้อมูลมากมาย โดยเฉพาะปัญหา AI และการวิเคราะห์ เช่น การปกป้องความเป็นส่วนตัว การปฏิบัติตามกฎระเบียบ การเข้าถึง การขาดแคลนข้อมูล และความลำเอียง นอกจากนี้ยังรวมถึงการแบ่งปันข้อมูลและเวลาสู่ข้อมูล (และด้วยเหตุนี้จึงถึงเวลาออกสู่ตลาด)
ข้อมูลสังเคราะห์ถูกสร้างขึ้นตามอัลกอริทึม โดยจะสะท้อนคุณสมบัติและรูปแบบทางสถิติจากแหล่งข้อมูล แต่ที่สำคัญคือไม่มีจุดข้อมูลที่ละเอียดอ่อน ส่วนตัว หรือส่วนบุคคล
คุณถามคำถามเกี่ยวกับข้อมูลสังเคราะห์และได้รับคำตอบเดียวกันกับที่คุณถามจากข้อมูลจริง
ในของเรา โพสต์ก่อนหน้านี้, เราได้สาธิตวิธีใช้เครือข่ายฝ่ายตรงข้าม เช่น Generative Adversarial Networks (GANS) เพื่อสร้างชุดข้อมูลแบบตารางเพื่อปรับปรุงการฝึกอบรมโมเดลการฉ้อโกงเครดิต
สำหรับผู้มีส่วนได้ส่วนเสียทางธุรกิจที่จะนำข้อมูลสังเคราะห์มาใช้กับโครงการ ML และการวิเคราะห์ของตน ไม่เพียงแต่ต้องแน่ใจว่าข้อมูลสังเคราะห์ที่สร้างขึ้นจะเหมาะสมกับวัตถุประสงค์และแอปพลิเคชันดาวน์สตรีมที่คาดหวังเท่านั้น แต่ยังเพื่อให้พวกเขาสามารถวัดและแสดงให้เห็นถึงคุณภาพของ ข้อมูลที่สร้างขึ้น
ด้วยภาระหน้าที่ทางกฎหมายและจริยธรรมที่เพิ่มขึ้นในการรักษาความเป็นส่วนตัว จุดแข็งประการหนึ่งของข้อมูลสังเคราะห์คือความสามารถในการลบข้อมูลที่ละเอียดอ่อนและเป็นต้นฉบับในระหว่างการสังเคราะห์ ดังนั้น นอกเหนือจากคุณภาพแล้ว เรายังต้องมีตัวชี้วัดเพื่อประเมินความเสี่ยงของการรั่วไหลของข้อมูลส่วนตัว (หากมี) และประเมินว่ากระบวนการสร้างไม่ได้ "จดจำ" หรือคัดลอกข้อมูลต้นฉบับใดๆ
เพื่อให้บรรลุเป้าหมายทั้งหมดนี้ เราสามารถแมปคุณภาพของข้อมูลสังเคราะห์ให้เป็นมิติต่างๆ ได้ ซึ่งช่วยให้ผู้ใช้ ผู้มีส่วนได้ส่วนเสีย และเราเข้าใจข้อมูลที่สร้างขึ้นได้ดีขึ้น
การประเมินคุณภาพข้อมูลสังเคราะห์สามมิติ
ข้อมูลสังเคราะห์ที่สร้างขึ้นวัดจากมิติหลักสามประการ:
- ความจงรักภักดี
- ประโยชน์
- ความเป็นส่วนตัว
ต่อไปนี้คือคำถามบางส่วนเกี่ยวกับข้อมูลสังเคราะห์ที่สร้างขึ้นซึ่งควรตอบโดยรายงานคุณภาพข้อมูลสังเคราะห์:
- ข้อมูลสังเคราะห์นี้มีความคล้ายคลึงกันเพียงใดเมื่อเปรียบเทียบกับชุดการฝึกดั้งเดิม
- ข้อมูลสังเคราะห์นี้มีประโยชน์เพียงใดสำหรับแอปพลิเคชันดาวน์สตรีมของเรา
- มีข้อมูลใดรั่วไหลจากข้อมูลการฝึกอบรมเดิมไปสู่ข้อมูลสังเคราะห์หรือไม่?
- มีข้อมูลใดบ้างที่ถือว่าละเอียดอ่อนในโลกแห่งความเป็นจริง (จากชุดข้อมูลอื่นที่ไม่ได้ใช้สำหรับการฝึกแบบจำลอง) ถูกสังเคราะห์โดยแบบจำลองของเราโดยไม่ได้ตั้งใจหรือไม่
เมตริกที่แปลมิติข้อมูลแต่ละรายการเหล่านี้สำหรับผู้ใช้ปลายทางค่อนข้างยืดหยุ่น ท้ายที่สุดแล้ว ข้อมูลที่จะสร้างอาจแตกต่างกันไปในแง่ของการแจกแจง ขนาด และลักษณะการทำงาน ควรเข้าใจและตีความได้ง่าย
ท้ายที่สุดแล้ว ตัวชี้วัดจะต้องขับเคลื่อนด้วยข้อมูลโดยสมบูรณ์ และไม่จำเป็นต้องมีความรู้หรือข้อมูลเฉพาะโดเมนใดๆ มาก่อน อย่างไรก็ตาม หากผู้ใช้ต้องการใช้กฎและข้อจำกัดเฉพาะที่เกี่ยวข้องกับโดเมนธุรกิจเฉพาะ ผู้ใช้ควรจะสามารถกำหนดกฎและข้อจำกัดเหล่านั้นได้ในระหว่างกระบวนการสังเคราะห์เพื่อให้แน่ใจว่าเป็นไปตามความเที่ยงตรงเฉพาะโดเมน
เราจะดูรายละเอียดแต่ละเมตริกเหล่านี้โดยละเอียดในส่วนต่อไปนี้
ตัวชี้วัดเพื่อทำความเข้าใจความเที่ยงตรง
ในโครงการวิทยาศาสตร์ข้อมูลใดๆ เราต้องเข้าใจว่าประชากรตัวอย่างจำนวนหนึ่งเกี่ยวข้องกับปัญหาที่เรากำลังแก้ไขหรือไม่ ในทำนองเดียวกัน สำหรับกระบวนการประเมินความเกี่ยวข้องของข้อมูลสังเคราะห์ที่สร้างขึ้น เราต้องประเมินในแง่ของ ความจงรักภักดี เมื่อเทียบกับต้นฉบับ
การแสดงตัวชี้วัดเหล่านี้ด้วยภาพช่วยให้เข้าใจได้ง่ายขึ้น เราสามารถแสดงให้เห็นได้ว่าการนับจำนวนสมาชิกและอัตราส่วนของหมวดหมู่ได้รับการเคารพหรือไม่ ความสัมพันธ์ระหว่างตัวแปรต่างๆ จะถูกเก็บไว้ และอื่นๆ
การแสดงข้อมูลเป็นภาพไม่เพียงแต่ช่วยในการประเมินคุณภาพของข้อมูลสังเคราะห์เท่านั้น แต่ยังถือเป็นขั้นตอนเริ่มต้นในวงจรวิทยาศาสตร์ข้อมูลเพื่อให้เข้าใจข้อมูลได้ดีขึ้นอีกด้วย
มาดูรายละเอียดเมตริกความเที่ยงตรงบางส่วนกันดีกว่า
การเปรียบเทียบทางสถิติเชิงสำรวจ
ภายในการเปรียบเทียบทางสถิติเชิงสำรวจ คุณลักษณะของชุดข้อมูลดั้งเดิมและชุดข้อมูลสังเคราะห์จะถูกสำรวจโดยใช้การวัดทางสถิติที่สำคัญ เช่น ค่าเฉลี่ย ค่ามัธยฐาน ส่วนเบี่ยงเบนมาตรฐาน ค่าที่แตกต่าง ค่าที่หายไป ค่าต่ำสุด ค่าสูงสุด ช่วงควอไทล์สำหรับคุณลักษณะต่อเนื่อง และจำนวน ของบันทึกต่อหมวดหมู่ ค่าที่หายไปต่อหมวดหมู่ และอักขระที่เกิดขึ้นส่วนใหญ่สำหรับแอตทริบิวต์หมวดหมู่
การเปรียบเทียบนี้ควรดำเนินการระหว่างชุดข้อมูลการระงับเดิมและข้อมูลสังเคราะห์ การประเมินนี้จะเปิดเผยว่าชุดข้อมูลที่เปรียบเทียบมีความคล้ายคลึงกันทางสถิติหรือไม่ หากไม่เป็นเช่นนั้น เราจะมีความเข้าใจว่าฟีเจอร์และมาตรการใดที่แตกต่างกัน คุณควรพิจารณาฝึกอบรมใหม่และสร้างข้อมูลสังเคราะห์ใหม่ด้วยพารามิเตอร์ที่แตกต่างกัน หากสังเกตเห็นความแตกต่างที่มีนัยสำคัญ
การทดสอบนี้ทำหน้าที่เป็นการคัดกรองเบื้องต้นเพื่อให้แน่ใจว่าข้อมูลสังเคราะห์มีความเที่ยงตรงสมเหตุสมผลกับชุดข้อมูลดั้งเดิม จึงสามารถผ่านการทดสอบที่เข้มงวดยิ่งขึ้นได้
คะแนนความคล้ายคลึงกันของฮิสโตแกรม
คะแนนความคล้ายคลึงกันของฮิสโตแกรมจะวัดการกระจายส่วนเสริมของชุดข้อมูลสังเคราะห์และชุดข้อมูลดั้งเดิมของแต่ละฟีเจอร์
คะแนนความคล้ายคลึงกันนั้นอยู่ระหว่างศูนย์ถึงหนึ่ง โดยคะแนนหนึ่งบ่งชี้ว่าการกระจายข้อมูลสังเคราะห์ซ้อนทับกับการแจกแจงของข้อมูลต้นฉบับอย่างสมบูรณ์
คะแนนที่ใกล้เคียงหนึ่งจะทำให้ผู้ใช้มั่นใจว่าชุดข้อมูลการระงับและชุดข้อมูลสังเคราะห์มีความคล้ายคลึงกันทางสถิติ
คะแนนข้อมูลร่วมกัน
คะแนนข้อมูลร่วมกันจะวัดการพึ่งพาอาศัยกันของคุณลักษณะสองประการ เชิงตัวเลขหรือเชิงหมวดหมู่ ซึ่งบ่งชี้ว่าสามารถรับข้อมูลจากคุณลักษณะหนึ่งได้มากเพียงใดโดยการสังเกตอีกคุณลักษณะหนึ่ง
ข้อมูลร่วมกันสามารถวัดความสัมพันธ์แบบไม่เชิงเส้นได้ ทำให้มีความเข้าใจที่ครอบคลุมมากขึ้นเกี่ยวกับคุณภาพของข้อมูลสังเคราะห์ เนื่องจากช่วยให้เราเข้าใจขอบเขตของการรักษาความสัมพันธ์ของตัวแปรได้
คะแนนหนึ่งบ่งชี้ว่าการพึ่งพาซึ่งกันและกันระหว่างคุณลักษณะได้รับการบันทึกอย่างสมบูรณ์แบบในข้อมูลสังเคราะห์
คะแนนความสัมพันธ์
คะแนนสหสัมพันธ์จะวัดว่าความสัมพันธ์ในชุดข้อมูลดั้งเดิมได้รับการบันทึกในข้อมูลสังเคราะห์ได้ดีเพียงใด
ความสัมพันธ์ระหว่างสองคอลัมน์ขึ้นไปมีความสำคัญอย่างยิ่งสำหรับแอปพลิเคชัน ML ซึ่งช่วยเปิดเผยความสัมพันธ์ระหว่างคุณลักษณะและตัวแปรเป้าหมาย และช่วยสร้างโมเดลที่ได้รับการฝึกอบรมมาอย่างดี
คะแนนความสัมพันธ์มีขอบเขตระหว่างศูนย์ถึงหนึ่ง โดยคะแนนหนึ่งแสดงว่าความสัมพันธ์นั้นตรงกันอย่างสมบูรณ์
ซึ่งแตกต่างจากข้อมูลตารางที่มีโครงสร้างซึ่งเรามักพบในปัญหาข้อมูล ข้อมูลที่มีโครงสร้างบางประเภทมีพฤติกรรมเฉพาะที่การสังเกตในอดีตมีความเป็นไปได้ที่จะมีอิทธิพลต่อการสังเกตต่อไปนี้ ข้อมูลเหล่านี้เรียกว่าอนุกรมเวลาหรือข้อมูลตามลำดับ เช่น ชุดข้อมูลที่มีการวัดอุณหภูมิห้องรายชั่วโมง
ลักษณะการทำงานนี้หมายความว่ามีข้อกำหนดในการกำหนดตัวชี้วัดบางอย่างที่สามารถวัดคุณภาพของชุดข้อมูลอนุกรมเวลาเหล่านี้โดยเฉพาะ
ความสัมพันธ์อัตโนมัติและคะแนนความสัมพันธ์อัตโนมัติบางส่วน
แม้ว่าจะคล้ายกับความสัมพันธ์ แต่ความสัมพันธ์อัตโนมัติจะแสดงความสัมพันธ์ของอนุกรมเวลา ณ มูลค่าปัจจุบันโดยสัมพันธ์กับค่าก่อนหน้า การลบผลกระทบของการหน่วงเวลาก่อนหน้านี้จะทำให้เกิดความสัมพันธ์อัตโนมัติบางส่วน ดังนั้น คะแนนความสัมพันธ์อัตโนมัติจะวัดว่าข้อมูลสังเคราะห์จับความสัมพันธ์อัตโนมัติที่มีนัยสำคัญหรือความสัมพันธ์บางส่วนจากชุดข้อมูลดั้งเดิมได้ดีเพียงใด
ตัวชี้วัดเพื่อทำความเข้าใจประโยชน์ใช้สอย
ตอนนี้เราอาจได้ตระหนักทางสถิติแล้วว่าข้อมูลสังเคราะห์นั้นคล้ายคลึงกับชุดข้อมูลดั้งเดิม นอกจากนี้ เรายังต้องประเมินด้วยว่าชุดข้อมูลที่สังเคราะห์แล้วนั้นทำงานได้ดีเพียงใดกับปัญหาด้านวิทยาศาสตร์ข้อมูลทั่วไป เมื่อได้รับการฝึกอบรมเกี่ยวกับอัลกอริทึม ML หลายตัว
โดยใช้สิ่งต่อไปนี้ ประโยชน์ เรามุ่งหวังที่จะสร้างความมั่นใจว่าเราสามารถบรรลุประสิทธิภาพจริงในแอปพลิเคชันดาวน์สตรีมเกี่ยวกับวิธีการทำงานของข้อมูลต้นฉบับ
คะแนนการทำนาย
การวัดประสิทธิภาพของข้อมูลสังเคราะห์เมื่อเปรียบเทียบกับข้อมูลจริงดั้งเดิมสามารถทำได้ผ่านโมเดล ML คะแนนแบบจำลองขั้นปลายจะบันทึกคุณภาพของข้อมูลสังเคราะห์โดยการเปรียบเทียบประสิทธิภาพของแบบจำลอง ML ที่ได้รับการฝึกอบรมทั้งชุดข้อมูลสังเคราะห์และชุดข้อมูลดั้งเดิม และตรวจสอบความถูกต้องกับข้อมูลการทดสอบที่ถูกระงับจากชุดข้อมูลดั้งเดิม สิ่งนี้ให้ คะแนนการทดสอบสังเคราะห์จริง (TSTR) ของรถไฟ และ ฝึกจริง ทดสอบจริง (TRTR) คะแนนตามลำดับ
TSTR, คะแนน TRTR และคะแนนความสำคัญของคุณลักษณะ (ภาพโดยผู้เขียน)
คะแนนจะรวมอัลกอริธึม ML ที่เชื่อถือได้มากที่สุดที่หลากหลายสำหรับงานการถดถอยหรือการจัดหมวดหมู่ การใช้ตัวแยกประเภทและตัวถดถอยหลายตัวช่วยให้แน่ใจว่าคะแนนสามารถสรุปได้ทั่วไปมากขึ้นในอัลกอริธึมส่วนใหญ่ เพื่อให้ข้อมูลสังเคราะห์ได้รับการพิจารณาว่ามีประโยชน์ในอนาคต
ท้ายที่สุดแล้ว หากคะแนน TSTR และคะแนน TRTR สามารถเทียบเคียงได้ แสดงว่าข้อมูลสังเคราะห์มีคุณภาพที่จะใช้ในการฝึกโมเดล ML ที่มีประสิทธิภาพสำหรับการใช้งานในโลกแห่งความเป็นจริง
คะแนนความสำคัญของฟีเจอร์
คะแนนความสำคัญของคุณลักษณะ (FI) มีความเกี่ยวข้องอย่างมากกับคะแนนการคาดการณ์ โดยจะขยายออกไปโดยการเพิ่มความสามารถในการตีความให้กับคะแนน TSTR และ TRTR
คะแนน F1 จะเปรียบเทียบการเปลี่ยนแปลงและความเสถียรของลำดับความสำคัญของฟีเจอร์ที่ได้รับกับคะแนนการทำนาย ชุดข้อมูลสังเคราะห์จะถือว่ามีประโยชน์สูงหากให้ลำดับความสำคัญของคุณลักษณะเดียวกันกับข้อมูลจริงดั้งเดิม
คิวสกอร์
เพื่อให้แน่ใจว่าโมเดลที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สร้างขึ้นใหม่ของเราจะให้คำตอบเดียวกันกับคำถามเดียวกันกับโมเดลที่ได้รับการฝึกอบรมโดยใช้ข้อมูลต้นฉบับ เราใช้ Qscore วิธีนี้จะวัดประสิทธิภาพดาวน์สตรีมของข้อมูลสังเคราะห์โดยการเรียกใช้แบบสอบถามตามการรวมแบบสุ่มจำนวนมากบนชุดข้อมูลสังเคราะห์และต้นฉบับ (และที่ระงับ)
แนวคิดก็คือว่าข้อความค้นหาทั้งสองนี้ควรให้ผลลัพธ์ที่คล้ายคลึงกัน
QScore ที่สูงช่วยให้แน่ใจว่าแอปพลิเคชันดาวน์สตรีมที่ใช้การดำเนินการสืบค้นและการรวมกลุ่มสามารถให้ค่าที่ใกล้เคียงกับชุดข้อมูลดั้งเดิม
ตัวชี้วัดเพื่อทำความเข้าใจความเป็นส่วนตัว
กับ ความเป็นส่วนตัว กฎระเบียบที่มีอยู่แล้ว เป็นภาระผูกพันทางจริยธรรมและข้อกำหนดทางกฎหมายเพื่อให้แน่ใจว่าข้อมูลที่ละเอียดอ่อนได้รับการคุ้มครอง
ก่อนที่ข้อมูลสังเคราะห์นี้จะสามารถแบ่งปันได้อย่างอิสระและใช้สำหรับแอปพลิเคชันดาวน์สตรีม เราต้องพิจารณาตัวชี้วัดความเป็นส่วนตัวที่สามารถช่วยให้ผู้มีส่วนได้ส่วนเสียเข้าใจว่าข้อมูลสังเคราะห์ที่สร้างขึ้นนั้นอยู่ในจุดใดเมื่อเปรียบเทียบกับข้อมูลต้นฉบับในแง่ของขอบเขตของข้อมูลที่รั่วไหล นอกจากนี้ เราต้องตัดสินใจที่สำคัญเกี่ยวกับวิธีการแบ่งปันและใช้ข้อมูลสังเคราะห์
คะแนนการแข่งขันที่แน่นอน
การประเมินความเป็นส่วนตัวโดยตรงและใช้งานง่ายคือการค้นหาสำเนาของข้อมูลจริงในบันทึกสังเคราะห์ คะแนนการจับคู่แบบตรงทั้งหมดจะนับจำนวนบันทึกจริงที่พบในชุดสังเคราะห์
คะแนนควรเป็นศูนย์ โดยระบุว่าไม่มีข้อมูลจริงตามที่เป็นอยู่ในข้อมูลสังเคราะห์ ตัวชี้วัดนี้ทำหน้าที่เป็นกลไกคัดกรองก่อนที่เราจะประเมินตัวชี้วัดความเป็นส่วนตัวเพิ่มเติม
คะแนนความเป็นส่วนตัวของเพื่อนบ้าน
นอกจากนี้ คะแนนความเป็นส่วนตัวของเพื่อนบ้านยังวัดอัตราส่วนของบันทึกสังเคราะห์ที่อาจใกล้เคียงกับบันทึกจริงมากเกินไป ซึ่งหมายความว่าแม้ว่าจะไม่ใช่การคัดลอกโดยตรง แต่ก็เป็นจุดที่รั่วไหลของความเป็นส่วนตัวและเป็นแหล่งข้อมูลที่เป็นประโยชน์สำหรับการโจมตีโดยอนุมาน
คะแนนคำนวณโดยการค้นหาเพื่อนบ้านที่ใกล้ที่สุดในมิติสูงจากข้อมูลสังเคราะห์ที่ทับซ้อนกับข้อมูลต้นฉบับ
คะแนนการอนุมานสมาชิกภาพ
ในวงจรชีวิตวิทยาศาสตร์ข้อมูล เมื่อแบบจำลองได้รับการฝึกอบรมแล้ว ก็ไม่จำเป็นต้องเข้าถึงตัวอย่างการฝึกอบรมอีกต่อไป และสามารถคาดการณ์ข้อมูลที่มองไม่เห็นได้ ในทำนองเดียวกัน ในกรณีของเรา เมื่อฝึกโมเดลซินธิไซเซอร์แล้ว สามารถสร้างตัวอย่างของข้อมูลสังเคราะห์ได้โดยไม่ต้องใช้ข้อมูลต้นฉบับ
ผ่านการโจมตีประเภทหนึ่งที่เรียกว่า “การโจมตีโดยอนุมานสมาชิกภาพ”ผู้โจมตีสามารถพยายามเปิดเผยข้อมูลที่ใช้สร้างข้อมูลสังเคราะห์ โดยไม่ต้องเข้าถึงข้อมูลต้นฉบับ ส่งผลให้เกิดการประนีประนอมความเป็นส่วนตัว
คะแนนการอนุมานสมาชิกจะวัดความเป็นไปได้ที่การโจมตีโดยอนุมานสมาชิกจะประสบความสำเร็จ
คะแนนต่ำแสดงถึงความเป็นไปได้ของการอนุมานว่าบันทึกใดเป็นสมาชิกของชุดข้อมูลการฝึกอบรมที่นำไปสู่การสร้างข้อมูลสังเคราะห์ กล่าวอีกนัยหนึ่ง การโจมตีสามารถสรุปรายละเอียดของบันทึกแต่ละรายการได้ ดังนั้นจึงกระทบต่อความเป็นส่วนตัว
คะแนนการอนุมานสมาชิกที่สูงบ่งชี้ว่าผู้โจมตีไม่น่าจะตัดสินได้ว่าบันทึกใดเป็นส่วนหนึ่งของชุดข้อมูลดั้งเดิมที่ใช้ในการสร้างข้อมูลสังเคราะห์หรือไม่ นอกจากนี้ยังหมายความว่าไม่มีข้อมูลของบุคคลใดถูกบุกรุกผ่านข้อมูลสังเคราะห์
แนวคิดการระงับ
แนวทางปฏิบัติที่ดีที่สุดที่สำคัญที่เราต้องปฏิบัติตามคือเพื่อให้แน่ใจว่าข้อมูลสังเคราะห์นั้นมีความทั่วไปเพียงพอและไม่พอดีกับข้อมูลดั้งเดิมที่ได้รับการฝึกอบรม ในโฟลว์วิทยาศาสตร์ข้อมูลทั่วไป ในขณะที่สร้างโมเดล ML เช่น ตัวแยกประเภทฟอเรสต์ เราจะกันข้อมูลการทดสอบ ฝึกโมเดลโดยใช้ข้อมูลการฝึก และประเมินตัววัดจากข้อมูลการทดสอบที่มองไม่เห็น
ในทำนองเดียวกัน สำหรับข้อมูลสังเคราะห์ เราจะเก็บตัวอย่างของข้อมูลต้นฉบับไว้ โดยทั่วไปเรียกว่าชุดข้อมูลที่ถูกระงับหรือข้อมูลการทดสอบที่ถูกระงับที่มองไม่เห็น และประเมินข้อมูลสังเคราะห์ที่สร้างขึ้นโดยเทียบกับชุดข้อมูลที่ถูกระงับ
ชุดข้อมูลที่ระงับคาดว่าจะเป็นตัวแทนของข้อมูลต้นฉบับ แต่จะไม่เห็นเมื่อมีการสร้างข้อมูลสังเคราะห์ ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องมีคะแนนที่ใกล้เคียงกันสำหรับหน่วยวัดทั้งหมดเมื่อเปรียบเทียบต้นฉบับกับชุดข้อมูลที่ระงับและชุดข้อมูลสังเคราะห์
เมื่อได้รับคะแนนที่ใกล้เคียงกัน เราสามารถระบุได้ว่าจุดข้อมูลสังเคราะห์ไม่ได้เป็นผลมาจากการจดจำจุดข้อมูลดั้งเดิม ในขณะที่ยังคงความเที่ยงตรงและอรรถประโยชน์เหมือนเดิม
ความคิดสุดท้าย
โลกเริ่มเข้าใจถึงความสำคัญเชิงกลยุทธ์ของข้อมูลสังเคราะห์ ในฐานะนักวิทยาศาสตร์ข้อมูลและผู้สร้างข้อมูล มีหน้าที่ของเราในการสร้างความไว้วางใจในข้อมูลสังเคราะห์ที่เราสร้างขึ้น และตรวจสอบให้แน่ใจว่าข้อมูลนั้นมีจุดประสงค์
ข้อมูลสังเคราะห์กำลังพัฒนาไปสู่สิ่งที่ต้องมีในชุดเครื่องมือพัฒนาวิทยาศาสตร์ข้อมูล MIT Technology Review มี เด่น ข้อมูลสังเคราะห์เป็นหนึ่งในเทคโนโลยีที่ก้าวล้ำแห่งปี 2022 เราไม่สามารถจินตนาการถึงการสร้างแบบจำลอง AI ที่มีคุณค่าที่ยอดเยี่ยมหากไม่มีข้อมูลสังเคราะห์ การกล่าวอ้าง Gartner.
ตามที่ McKinseyข้อมูลสังเคราะห์จะช่วยลดค่าใช้จ่ายและอุปสรรคที่คุณอาจมีเมื่อพัฒนาอัลกอริทึมหรือการเข้าถึงข้อมูล
การสร้างข้อมูลสังเคราะห์เป็นเรื่องเกี่ยวกับการรับรู้แอปพลิเคชันดาวน์สตรีม และการทำความเข้าใจข้อดีข้อเสียระหว่างมิติต่างๆ สำหรับคุณภาพของข้อมูลสังเคราะห์
สรุป
ในฐานะผู้ใช้ข้อมูลสังเคราะห์ จำเป็นอย่างยิ่งที่จะต้องกำหนดบริบทของกรณีการใช้งานซึ่งตัวอย่างการสังเคราะห์ทุกตัวอย่างจะถูกนำมาใช้ในอนาคต เช่นเดียวกับข้อมูลจริง คุณภาพของข้อมูลสังเคราะห์จะขึ้นอยู่กับกรณีการใช้งานที่ต้องการ เช่นเดียวกับพารามิเตอร์ที่เลือกสำหรับการสังเคราะห์
ตัวอย่างเช่น การรักษาค่าผิดปกติในข้อมูลสังเคราะห์เช่นเดียวกับข้อมูลต้นฉบับจะมีประโยชน์สำหรับกรณีการใช้งานการตรวจจับการฉ้อโกง อย่างไรก็ตาม กรณีการใช้งานด้านการดูแลสุขภาพที่ไม่คำนึงถึงความเป็นส่วนตัวจะไม่มีประโยชน์ เนื่องจากค่าผิดปกติโดยทั่วไปอาจเป็นข้อมูลรั่วไหลได้
ยิ่งไปกว่านั้น ยังมีการแลกเปลี่ยนระหว่างความซื่อสัตย์ ประโยชน์ใช้สอย และความเป็นส่วนตัว ไม่สามารถเพิ่มประสิทธิภาพข้อมูลสำหรับทั้งสามอย่างพร้อมกันได้ ตัวชี้วัดเหล่านี้ช่วยให้ผู้มีส่วนได้ส่วนเสียสามารถจัดลำดับความสำคัญสิ่งที่จำเป็นสำหรับกรณีการใช้งานแต่ละกรณี และจัดการความคาดหวังจากข้อมูลสังเคราะห์ที่สร้างขึ้น
ท้ายที่สุดแล้ว เมื่อเราเห็นค่าของแต่ละตัวชี้วัดและเมื่อเป็นไปตามความคาดหวัง ผู้มีส่วนได้ส่วนเสียสามารถมั่นใจในโซลูชันที่พวกเขาสร้างขึ้นโดยใช้ข้อมูลสังเคราะห์
กรณีการใช้งานสำหรับข้อมูลสังเคราะห์ที่มีโครงสร้างครอบคลุมขอบเขตการใช้งานที่หลากหลาย ตั้งแต่ข้อมูลการทดสอบสำหรับการพัฒนาซอฟต์แวร์ไปจนถึงการสร้างแขนควบคุมสังเคราะห์ในการทดลองทางคลินิก
ติดต่อเพื่อสำรวจโอกาสเหล่านี้หรือสร้าง PoC เพื่อแสดงให้เห็นถึงคุณค่า
ฟาริส ฮัดแดด เป็นหัวหน้าฝ่ายข้อมูลและข้อมูลเชิงลึกในทีม AABG Strategic Pursuits เขาช่วยให้องค์กรประสบความสำเร็จในการขับเคลื่อนด้วยข้อมูล
- ขั้นสูง (300)
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- อเมซอน แมชชีนเลิร์นนิง
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- วิธีการทางเทคนิค
- ลมทะเล