كيفية تقييم جودة البيانات الاصطناعية - القياس من منظور الإخلاص والمنفعة والخصوصية

أعاد نشره أفلاطون

المتابعون: 0

في عالم يتمحور حول البيانات بشكل متزايد ، يجب على المؤسسات التركيز على جمع المعلومات المادية القيمة وتوليد المعلومات التي يحتاجون إليها ولكن لا يمكنهم الحصول عليها بسهولة. يعد الوصول إلى البيانات والتنظيم والامتثال مصدرًا متزايدًا للخلاف للابتكار في التحليلات والذكاء الاصطناعي (AI).

بالنسبة للقطاعات شديدة التنظيم مثل الخدمات المالية والرعاية الصحية وعلوم الحياة والسيارات والروبوتات والتصنيع ، فإن المشكلة أكبر. يتسبب في عوائق أمام تصميم النظام ومشاركة البيانات (داخليًا وخارجيًا) وتحقيق الدخل والتحليلات والتعلم الآلي (ML).

البيانات التركيبية هي أداة تعالج العديد من تحديات البيانات ، لا سيما قضايا الذكاء الاصطناعي والتحليلات مثل حماية الخصوصية والامتثال التنظيمي وإمكانية الوصول وندرة البيانات والتحيز. يتضمن هذا أيضًا مشاركة البيانات والوقت المستغرق للبيانات (وبالتالي وقت التسويق).

يتم إنشاء البيانات التركيبية بطريقة حسابية. يعكس الخصائص والأنماط الإحصائية من البيانات المصدر. لكن الأهم من ذلك أنه لا يحتوي على نقاط بيانات حساسة أو خاصة أو شخصية.

أنت تطرح أسئلة حول البيانات التركيبية وتحصل على نفس الإجابات التي تحصل عليها من البيانات الحقيقية.

لدينا في آخر وقت سابق, أوضحنا كيفية استخدام شبكات الخصومة مثل شبكات الخصومة التوليدية (GANS) لإنشاء مجموعات بيانات مجدولة لتعزيز التدريب على نموذج الاحتيال الائتماني.

لكي يتبنى أصحاب المصلحة التجاريون البيانات التركيبية لمشاريع ML والتحليلات الخاصة بهم ، من الضروري ليس فقط التأكد من أن البيانات التركيبية التي تم إنشاؤها ستلائم الغرض والتطبيقات النهائية المتوقعة ، ولكن أيضًا لكي يتمكنوا من قياس وإثبات جودة البيانات التي تم إنشاؤها.

مع زيادة الالتزامات القانونية والأخلاقية في الحفاظ على الخصوصية ، تتمثل إحدى نقاط قوة البيانات التركيبية في القدرة على إزالة المعلومات الحساسة والأصلية أثناء تركيبها. لذلك ، بالإضافة إلى الجودة ، نحتاج إلى مقاييس لتقييم مخاطر تسرب المعلومات الخاصة ، إن وجدت ، وتقييم أن عملية التوليد لا "تحفظ" أو تنسخ أيًا من البيانات الأصلية.

لتحقيق كل هذا ، يمكننا تعيين جودة البيانات التركيبية إلى أبعاد ، مما يساعد المستخدمين وأصحاب المصلحة ونحن على فهم البيانات التي تم إنشاؤها بشكل أفضل.

الأبعاد الثلاثة لتقييم جودة البيانات التركيبية

يتم قياس البيانات التركيبية الناتجة مقابل ثلاثة أبعاد رئيسية:

إخلاص
مرافق
سياسة

هذه بعض الأسئلة حول أي بيانات تركيبية تم إنشاؤها والتي يجب الإجابة عليها من خلال تقرير جودة البيانات التركيبية:

ما مدى تشابه هذه البيانات التركيبية مقارنة بمجموعة التدريب الأصلية؟
ما مدى فائدة هذه البيانات التركيبية لتطبيقاتنا النهائية؟
هل تم تسريب أي معلومات من بيانات التدريب الأصلية إلى البيانات التركيبية؟
هل تم تجميع أي بيانات تعتبر حساسة في العالم الحقيقي (من مجموعات بيانات أخرى غير مستخدمة لتدريب النموذج) عن غير قصد بواسطة نموذجنا؟

المقاييس التي تترجم كل واحد من هذه الأبعاد للمستخدمين النهائيين مرنة إلى حد ما. بعد كل شيء ، يمكن أن تختلف البيانات التي سيتم إنشاؤها من حيث التوزيعات والحجم والسلوك. كما يجب أن تكون سهلة الفهم والتفسير.

في النهاية ، يجب أن تكون المقاييس مدفوعة بالكامل بالبيانات ، ولا تتطلب أي معرفة مسبقة أو معلومات خاصة بالمجال. ومع ذلك ، إذا أراد المستخدم تطبيق قواعد وقيود محددة تنطبق على مجال عمل معين ، فيجب أن يكون قادرًا على تحديدها أثناء عملية التجميع للتأكد من تلبية الدقة الخاصة بالمجال.

ننظر إلى كل من هذه المقاييس بمزيد من التفصيل في الأقسام التالية.

مقاييس لفهم الإخلاص

في أي مشروع لعلوم البيانات ، يجب أن نفهم ما إذا كانت عينة معينة من السكان ذات صلة بالمشكلة التي نحلها. وبالمثل ، بالنسبة لعملية تقييم مدى ملاءمة البيانات التركيبية التي تم إنشاؤها ، يجب علينا تقييمها من حيث إخلاص مقارنة بالأصل.

التمثيلات المرئية لهذه المقاييس تجعلها أسهل في الفهم. يمكننا توضيح ما إذا كانت العلاقة الأساسية ونسبة الفئات قد تم احترامها ، وتم الاحتفاظ بالارتباطات بين المتغيرات المختلفة ، وما إلى ذلك.

لا يساعد تصور البيانات في تقييم جودة البيانات التركيبية فحسب ، بل يتناسب أيضًا مع إحدى الخطوات الأولية في دورة حياة علم البيانات لفهم البيانات بشكل أفضل.

دعنا نتعمق في بعض مقاييس الدقة بمزيد من التفصيل.

مقارنات إحصائية استكشافية

ضمن المقارنات الإحصائية الاستكشافية ، يتم استكشاف ميزات مجموعات البيانات الأصلية والتركيبية باستخدام المقاييس الإحصائية الرئيسية ، مثل المتوسط والوسيط والانحراف المعياري والقيم المميزة والقيم المفقودة والحد الأدنى والحد الأقصى والنطاقات الربعية للسمات المستمرة والرقم من السجلات لكل فئة ، والقيم المفقودة لكل فئة ، والأحرف الأكثر تكرارا للسمات الفئوية.

يجب إجراء هذه المقارنة بين مجموعة البيانات الأصلية المعلقة والبيانات التركيبية. سيكشف هذا التقييم ما إذا كانت مجموعات البيانات التي تمت مقارنتها متشابهة إحصائيًا. إذا لم تكن كذلك ، فسنحصل على فهم للميزات والمقاييس المختلفة. يجب أن تفكر في إعادة تدريب وتجديد البيانات التركيبية بمعلمات مختلفة إذا لوحظ اختلاف كبير.

يعمل هذا الاختبار بمثابة فحص أولي للتأكد من أن البيانات التركيبية لديها دقة معقولة لمجموعة البيانات الأصلية وبالتالي يمكن أن تخضع لاختبارات أكثر صرامة بشكل مفيد.

نقاط تشابه الرسم البياني

تقيس درجة تشابه الرسم البياني التوزيعات الهامشية لكل ميزة لمجموعات البيانات التركيبية والأصلية.

درجة التشابه محدودة بين صفر وواحد ، مع درجة واحدة تشير إلى أن توزيعات البيانات التركيبية تتداخل تمامًا مع توزيعات البيانات الأصلية.

ستمنح النتيجة القريبة من واحدة للمستخدمين الثقة في أن مجموعة البيانات المؤجلة ومجموعة البيانات التركيبية متشابهة إحصائيًا.

نقاط المعلومات المتبادلة

تقيس درجة المعلومات المتبادلة الاعتماد المتبادل لميزتين ، رقمي أو فئوي ، مما يشير إلى مقدار المعلومات التي يمكن الحصول عليها من ميزة ما من خلال مراقبة أخرى.

يمكن للمعلومات المتبادلة قياس العلاقات غير الخطية ، مما يوفر فهمًا أكثر شمولاً لجودة البيانات التركيبية لأنها تتيح لنا فهم مدى الحفاظ على علاقات المتغير.

تشير الدرجة الأولى إلى أن الاعتماد المتبادل بين الميزات قد تم التقاطه تمامًا في البيانات التركيبية.

درجة الارتباط

تقيس درجة الارتباط مدى جودة تسجيل الارتباطات في مجموعة البيانات الأصلية في البيانات التركيبية.

تعتبر الارتباطات بين عمودين أو أكثر مهمة للغاية لتطبيقات ML ، والتي تساعد في الكشف عن العلاقات بين الميزات والمتغير المستهدف وتساعد في إنشاء نموذج جيد التدريب.

درجة الارتباط محدودة بين صفر وواحد ، مع درجة واحدة تشير إلى أن الارتباطات قد تطابقت تمامًا.

على عكس البيانات المجدولة المنظمة ، التي نواجهها عادة في مشاكل البيانات ، فإن بعض أنواع البيانات المنظمة لها سلوك معين حيث يكون للملاحظات السابقة احتمال التأثير على الملاحظة التالية. تُعرف هذه باسم السلاسل الزمنية أو البيانات المتسلسلة - على سبيل المثال ، مجموعة البيانات بقياسات كل ساعة لدرجة حرارة الغرفة.

يعني هذا السلوك أن هناك مطلبًا لتحديد مقاييس معينة يمكنها على وجه التحديد قياس جودة مجموعات بيانات السلاسل الزمنية هذه

درجة الارتباط التلقائي والارتباط الذاتي الجزئي

على الرغم من أنه يشبه الارتباط ، إلا أن الارتباط التلقائي يظهر علاقة سلسلة زمنية بقيمتها الحالية من حيث صلتها بقيمها السابقة. تؤدي إزالة تأثيرات الفترات الزمنية السابقة إلى ارتباط تلقائي جزئي. لذلك ، تقيس درجة الارتباط التلقائي مدى نجاح البيانات التركيبية في التقاط الارتباطات التلقائية المهمة ، أو الارتباطات الجزئية ، من مجموعة البيانات الأصلية.

المقاييس لفهم المنفعة

الآن ربما أدركنا إحصائيًا أن البيانات التركيبية مشابهة لمجموعة البيانات الأصلية. بالإضافة إلى ذلك ، يجب علينا أيضًا تقييم مدى جودة أسعار مجموعات البيانات المركبة حول مشكلات علوم البيانات الشائعة عند التدريب على العديد من خوارزميات تعلم الآلة.

باستخدام ما يلي سهل حياتك المقاييس ، نهدف إلى بناء الثقة في أنه يمكننا بالفعل تحقيق الأداء في التطبيقات النهائية فيما يتعلق بكيفية أداء البيانات الأصلية.

نقاط التنبؤ

يمكن قياس أداء البيانات التركيبية مقارنة بالبيانات الحقيقية الأصلية من خلال نماذج ML. تلتقط درجة نموذج المصب جودة البيانات التركيبية من خلال مقارنة أداء نماذج ML المدربة على كل من مجموعات البيانات الاصطناعية والأصلية والتحقق من صحتها على بيانات الاختبار المحجوبة من مجموعة البيانات الأصلية. هذا يوفر النتيجة الحقيقية لاختبار القطار التركيبي (TSTR) و تدريب الاختبار الحقيقي الحقيقي (TRTR) يسجل على التوالي.

درجات TSTR و TRTR ودرجات أهمية الميزة (صورة للمؤلف)

تتضمن النتيجة مجموعة واسعة من خوارزميات تعلم الآلة الأكثر موثوقية لمهام الانحدار أو التصنيف. يضمن استخدام العديد من المصنفات والعوامل الارتدادية أن النتيجة أكثر قابلية للتعميم عبر معظم الخوارزميات ، بحيث يمكن اعتبار البيانات التركيبية مفيدة في المستقبل.

في النهاية ، إذا كانت نتيجة TSTR ودرجة TRTR قابلة للمقارنة ، فهذا يشير إلى أن البيانات التركيبية تتمتع بالجودة التي يمكن استخدامها لتدريب نماذج ML الفعالة لتطبيقات العالم الحقيقي.

درجة أهمية الميزة

ترتبط درجة أهمية الميزة (FI) ارتباطًا وثيقًا بدرجة التنبؤ ، حيث تعمل على توسيعها من خلال إضافة إمكانية التفسير إلى درجات TSTR و TRTR.

تقارن درجة F1 التغييرات واستقرار ترتيب أهمية الميزة التي تم الحصول عليها مع درجة التنبؤ. تعتبر مجموعة البيانات التركيبية ذات فائدة عالية إذا كانت تعطي نفس ترتيب أهمية الميزة مثل البيانات الحقيقية الأصلية.

كيو سكور

للتأكد من أن النموذج الذي تم تدريبه على بياناتنا التي تم إنشاؤها حديثًا سينتج نفس الإجابات على نفس الأسئلة كنموذج تم تدريبه باستخدام البيانات الأصلية ، فإننا نستخدم Qscore. يقيس هذا الأداء المتلقي للبيانات التركيبية عن طريق تشغيل العديد من الاستعلامات العشوائية القائمة على التجميع على كل من مجموعات البيانات التركيبية والأصلية (والانتظار).

الفكرة هنا هي أن كلا الاستعلامات هذه يجب أن ترجع نتائج مماثلة.

يتأكد QScore المرتفع من أن التطبيقات المتلقية للمعلومات التي تستخدم عمليات الاستعلام والتجميع يمكن أن توفر ما يقرب من القيمة المتساوية مثل تلك الخاصة بمجموعة البيانات الأصلية.

مقاييس لفهم الخصوصية

بدافع خصوصية اللوائح المعمول بها بالفعل ، إنه التزام أخلاقي ومتطلب قانوني للتأكد من حماية المعلومات الحساسة.

قبل أن يمكن مشاركة هذه البيانات التركيبية بحرية واستخدامها للتطبيقات النهائية ، يجب أن نأخذ في الاعتبار مقاييس الخصوصية التي يمكن أن تساعد أصحاب المصلحة في فهم مكان وضع البيانات التركيبية المُنشأة مقارنة بالبيانات الأصلية من حيث حجم المعلومات المسربة. علاوة على ذلك ، يجب علينا اتخاذ قرارات حاسمة بشأن كيفية مشاركة البيانات التركيبية واستخدامها.

نتيجة المباراة بالضبط

التقييم المباشر والبديهي للخصوصية هو البحث عن نسخ من البيانات الحقيقية بين السجلات التركيبية. تحسب نتيجة المطابقة التامة عدد السجلات الحقيقية التي يمكن العثور عليها بين المجموعة التركيبية.

يجب أن تكون النتيجة صفرًا ، مع الإشارة إلى عدم وجود معلومات حقيقية كما هي في البيانات التركيبية. يعمل هذا المقياس كآلية فحص قبل تقييم المزيد من مقاييس الخصوصية.

درجة خصوصية الجيران

علاوة على ذلك ، تقيس درجة خصوصية الجيران نسبة السجلات التركيبية التي قد تكون قريبة جدًا من التشابه مع السجلات الحقيقية. هذا يعني أنه على الرغم من أنها ليست نسخًا مباشرة ، إلا أنها نقاط محتملة لتسرب الخصوصية ومصدر للمعلومات المفيدة لهجمات الاستدلال.

يتم حساب النتيجة من خلال إجراء بحث عالي الأبعاد عن أقرب الجيران على البيانات التركيبية المتداخلة مع البيانات الأصلية.

درجة استنتاج العضوية

في دورة حياة علم البيانات ، بمجرد تدريب النموذج ، لم يعد بحاجة إلى الوصول إلى عينات التدريب ويمكنه عمل تنبؤات بشأن البيانات غير المرئية. وبالمثل ، في حالتنا ، بمجرد تدريب نموذج المركب ، يمكن إنشاء عينات من البيانات التركيبية دون الحاجة إلى البيانات الأصلية.

من خلال نوع هجوم يسمى "هجوم استنتاج العضوية"، يمكن للمهاجمين محاولة الكشف عن البيانات التي تم استخدامها لإنشاء البيانات التركيبية ، دون الوصول إلى البيانات الأصلية. ينتج عن هذا تنازل عن الخصوصية.

تقيس درجة استنتاج العضوية احتمالية نجاح هجوم استنتاج العضوية.

تشير الدرجة المنخفضة إلى جدوى الاستدلال على أن سجلاً معينًا كان عضوًا في مجموعة بيانات التدريب التي أدت إلى إنشاء البيانات التركيبية. بعبارة أخرى ، يمكن للهجمات أن تستنتج تفاصيل سجل فردي ، وبالتالي تعرض الخصوصية للخطر.

تشير درجة استدلال العضوية المرتفعة إلى أنه من غير المرجح أن يحدد المهاجم ما إذا كان سجل معين جزءًا من مجموعة البيانات الأصلية المستخدمة لإنشاء البيانات التركيبية. هذا يعني أيضًا أنه لم يتم اختراق معلومات الفرد من خلال البيانات التركيبية.

مفهوم الرافض

من أفضل الممارسات المهمة التي يجب أن نتبعها هي التأكد من أن البيانات التركيبية عامة بما يكفي ولا تتناسب مع البيانات الأصلية التي تم التدريب عليها. في تدفق علم البيانات النموذجي ، أثناء بناء نماذج ML مثل مصنف Random Forest ، نضع بيانات الاختبار جانبًا ، وندرب النماذج باستخدام بيانات التدريب ، ونقيم المقاييس على بيانات الاختبار غير المرئية.

وبالمثل ، بالنسبة للبيانات التركيبية ، فإننا نحتفظ بعينة من البيانات الأصلية - يشار إليها عمومًا باسم مجموعة بيانات معلقة أو بيانات الاختبار المحجوبة غير المرئية - ونقيم البيانات التركيبية التي تم إنشاؤها مقابل مجموعة البيانات المعلقة.

من المتوقع أن تكون مجموعة البيانات المعلقة عبارة عن تمثيل للبيانات الأصلية ، ولكن لم يتم رؤيتها عند إنشاء البيانات التركيبية. لذلك ، من الأهمية بمكان الحصول على درجات متشابهة لجميع المقاييس عند مقارنة الأصل بالاحتفاظ ومجموعات البيانات التركيبية.

عندما يتم الحصول على درجات مماثلة ، يمكننا إثبات أن نقاط البيانات التركيبية ليست نتيجة لحفظ نقاط البيانات الأصلية ، مع الحفاظ على نفس الدقة والفائدة.

الأفكار النهائية

بدأ العالم في فهم الأهمية الاستراتيجية للبيانات التركيبية. بصفتنا علماء بيانات ومولدي بيانات ، من واجبنا بناء الثقة في البيانات التركيبية التي ننتجها والتأكد من أنها لغرض ما.

تتطور البيانات التركيبية لتصبح ضرورية في مجموعة أدوات تطوير علوم البيانات. وقد MIT Technology Review وأشار البيانات التركيبية كواحدة من التقنيات المتقدمة لعام 2022. لا يمكننا تخيل بناء نماذج ذكاء اصطناعي ذات قيمة ممتازة بدون بيانات تركيبية ، ادعاءات غارتنر.

وفقًا ماكينزي، تقلل البيانات التركيبية من التكاليف والعوائق التي قد تواجهها عند تطوير الخوارزميات أو الوصول إلى البيانات.

يتعلق إنشاء البيانات التركيبية بمعرفة التطبيقات النهائية وفهم المفاضلات بين الأبعاد المختلفة لجودة البيانات التركيبية.

نبذة عامة

بصفتك مستخدمًا للبيانات التركيبية ، من الضروري تحديد سياق حالة الاستخدام التي سيتم استخدام كل عينة اصطناعية لها في المستقبل. تمامًا كما هو الحال مع البيانات الحقيقية ، تعتمد جودة البيانات التركيبية على حالة الاستخدام المقصودة ، بالإضافة إلى المعلمات المختارة للتركيب.

على سبيل المثال ، يعد الاحتفاظ بالقيم المتطرفة في البيانات التركيبية كما في البيانات الأصلية مفيدًا في حالة استخدام الكشف عن الاحتيال. ومع ذلك ، فإنه ليس مفيدًا في حالة استخدام الرعاية الصحية مع مخاوف تتعلق بالخصوصية ، حيث يمكن أن تكون القيم المتطرفة عمومًا عبارة عن تسرب للمعلومات.

علاوة على ذلك ، توجد مقايضة بين الإخلاص والمنفعة والخصوصية. لا يمكن تحسين البيانات لجميع الثلاثة في وقت واحد. تمكن هذه المقاييس أصحاب المصلحة من تحديد أولويات ما هو ضروري لكل حالة استخدام وإدارة التوقعات من البيانات التركيبية التي تم إنشاؤها.

في النهاية ، عندما نرى قيم كل مقياس وعندما تفي بالتوقعات ، يمكن لأصحاب المصلحة أن يكونوا واثقين من الحلول التي يبنونها باستخدام البيانات التركيبية.

تغطي حالات استخدام البيانات التركيبية المنظمة مجموعة واسعة من التطبيقات من بيانات الاختبار لتطوير البرمجيات إلى إنشاء أذرع تحكم اصطناعية في التجارب السريرية.

تواصل لاستكشاف هذه الفرص أو قم ببناء PoC لإثبات القيمة.

فارس حداد هو قائد البيانات والرؤى في فريق AABG الإستراتيجية. إنه يساعد الشركات على أن تصبح مدفوعة بالبيانات بنجاح.

الطابع الزمني: 16 كانون الأول، 202218 كانون الأول، 2022

الطابع الزمني: أكتوبر 6، 2022

كيفية تقييم جودة البيانات التركيبية - القياس من منظور الإخلاص والمنفعة والخصوصية

أعاد نشره أفلاطون

الأبعاد الثلاثة لتقييم جودة البيانات التركيبية

مقاييس لفهم الإخلاص

مقارنات إحصائية استكشافية

نقاط تشابه الرسم البياني

نقاط المعلومات المتبادلة

درجة الارتباط

درجة الارتباط التلقائي والارتباط الذاتي الجزئي

المقاييس لفهم المنفعة

نقاط التنبؤ

درجة أهمية الميزة

كيو سكور

مقاييس لفهم الخصوصية

نتيجة المباراة بالضبط

درجة خصوصية الجيران

درجة استنتاج العضوية

مفهوم الرافض

الأفكار النهائية

نبذة عامة

اكثر من التعلم الآلي من AWS

قم بتشغيل الضبط التلقائي للنموذج باستخدام Amazon SageMaker JumpStart

التخفيف من حدة الهلوسة من خلال الجيل المعزز للاسترجاع باستخدام قاعدة بيانات ناقل Pinecone وLlama-2 من Amazon SageMaker JumpStart | خدمات الويب الأمازون

إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2

قم بتشغيل الاستدلال على نطاق واسع لـ OpenFold ، وهو نموذج ML قابل للطي قائم على بروتين PyTorch ، باستخدام Amazon EKS

يدعم Exafunction AWS Inferentia لإطلاق العنان لأداء أفضل سعر لاستدلال التعلم الآلي

كيف تستخدم Syignedia فيديو Amazon Rekognition لبناء إمكانات بحث فيديو متقدمة للفيديو الطويل

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي