ما هي البيانات التركيبية؟ أنواعها وحالات استخدامها وتطبيقات التعلم الآلي والخصوصية

صورة

ينمو مجال علوم البيانات والتعلم الآلي كل يوم. نظرًا لاقتراح نماذج وخوارزميات جديدة بمرور الوقت ، تحتاج هذه الخوارزميات والنماذج الجديدة إلى بيانات هائلة للتدريب والاختبار. تكتسب نماذج التعلم العميق شعبية كبيرة في الوقت الحاضر ، وهذه النماذج أيضًا متعطشة للبيانات. يعد الحصول على مثل هذه الكمية الهائلة من البيانات في سياق بيانات المشكلة المختلفة عملية بشعة وتستغرق وقتًا طويلاً ومكلفة. يتم جمع البيانات من سيناريوهات واقعية ، مما يثير مسؤوليات أمنية ومخاوف تتعلق بالخصوصية. معظم البيانات خاصة ومحمية بموجب قوانين ولوائح الخصوصية ، مما يعيق مشاركة البيانات ونقلها بين المؤسسات أو أحيانًا بين الإدارات المختلفة لمؤسسة واحدة - مما يؤدي إلى تأخير التجارب واختبار المنتجات. إذن السؤال الذي يطرح نفسه كيف يمكن حل هذه القضية؟ كيف يمكن جعل البيانات أكثر سهولة وفتحًا دون إثارة مخاوف بشأن خصوصية شخص ما؟  

حل هذه المشكلة معروف باسم البيانات التركيبية. 

إذن ، ما هي البيانات التركيبية؟

بحكم التعريف ، يتم إنشاء البيانات التركيبية بشكل مصطنع أو خوارزمي وتشبه إلى حد كبير البنية الأساسية والممتلكات الأساسية للبيانات الفعلية. إذا كانت البيانات المركبة جيدة ، فلا يمكن تمييزها عن البيانات الحقيقية.

كم عدد أنواع البيانات التركيبية المختلفة التي يمكن أن توجد؟

الإجابة على هذا السؤال مفتوحة للغاية ، حيث يمكن أن تتخذ البيانات أشكالًا عديدة ، ولكن لدينا بشكل أساسي 

  1. بيانات نصية
  2. البيانات الصوتية أو المرئية (على سبيل المثال ، الصور ومقاطع الفيديو والصوت)
  3. بنك

استخدام حالات البيانات التركيبية للتعلم الآلي

سنناقش فقط حالات استخدام ثلاثة أنواع فقط من البيانات التركيبية ، كما هو مذكور أعلاه.

  • استخدام بيانات النص التركيبي لتدريب نماذج البرمجة اللغوية العصبية

البيانات التركيبية لها تطبيقات في مجال معالجة اللغة الطبيعية. على سبيل المثال ، يستخدم فريق Alexa AI في Amazon البيانات التركيبية لإنهاء مجموعة التدريب لنظام NLU (فهم اللغة الطبيعية). يوفر لهم أساسًا متينًا لتدريب لغات جديدة دون وجود بيانات تفاعل المستهلك الحالية أو الكافية.

  • استخدام البيانات التركيبية لتدريب خوارزميات الرؤية

   دعونا نناقش حالة استخدام واسعة الانتشار هنا. لنفترض أننا نريد تطوير خوارزمية لاكتشاف أو عد عدد الوجوه في الصورة. يمكننا استخدام GAN أو بعض الشبكات التوليدية الأخرى لتوليد وجوه بشرية واقعية ، أي وجوه غير موجودة في العالم الحقيقي ، لتدريب النموذج. ميزة أخرى هي أنه يمكننا إنشاء أكبر قدر ممكن من البيانات من هذه الخوارزميات دون انتهاك خصوصية أي شخص. لكن لا يمكننا استخدام البيانات الحقيقية لأنها تحتوي على وجوه بعض الأفراد ، لذلك تحظر بعض سياسات الخصوصية استخدام تلك البيانات.

حالة استخدام أخرى هي القيام بالتعلم المعزز في بيئة محاكاة. لنفترض أننا نريد اختبار ذراع آلية مصممة للاستيلاء على شيء ووضعه في صندوق. تم تصميم خوارزمية التعلم المعزز لهذا الغرض. نحتاج إلى إجراء تجارب لاختبارها لأن هذه هي الطريقة التي تتعلم بها خوارزمية التعلم المعزز. يعد إعداد تجربة في سيناريو واقعي مكلفًا للغاية ويستغرق وقتًا طويلاً ، مما يحد من عدد التجارب المختلفة التي يمكننا إجراؤها. ولكن إذا أجرينا التجارب في بيئة المحاكاة ، فإن إعداد التجربة سيكون غير مكلف نسبيًا لأنه لن يتطلب نموذجًا أوليًا للذراع الآلية.

  • استخدامات البيانات الجدولية

البيانات التركيبية الجدولية هي بيانات تم إنشاؤها بشكل مصطنع تحاكي بيانات العالم الحقيقي المخزنة في الجداول. يتم تنظيم هذه البيانات في صفوف وأعمدة. يمكن أن تحتوي هذه الجداول على أي بيانات ، مثل قائمة تشغيل الموسيقى. لكل أغنية ، يحتفظ مشغل الموسيقى الخاص بك بمجموعة من المعلومات: الاسم والمغني وطولها ونوعها وما إلى ذلك. يمكن أن يكون أيضًا سجلًا ماليًا مثل المعاملات المصرفية وأسعار الأسهم وما إلى ذلك.

تُستخدم البيانات الجدولية التركيبية المتعلقة بالمعاملات المصرفية لتدريب النماذج وتصميم الخوارزميات لاكتشاف المعاملات الاحتيالية. يمكن استخدام بيانات أسعار الأسهم من الماضي لتدريب واختبار النماذج للتنبؤ بالأسعار المستقبلية للأسهم.

تتمثل إحدى المزايا المهمة لاستخدام البيانات التركيبية في التعلم الآلي في أن المطور يتحكم في البيانات ؛ يمكنه إجراء تغييرات على البيانات حسب الحاجة لاختبار أي فكرة وتجربتها. وفي الوقت نفسه ، يمكن للمطور اختبار النموذج على البيانات المركبة ، وسيعطي فكرة واضحة جدًا عن كيفية أداء النموذج على بيانات الحياة الواقعية. إذا أراد أحد المطورين تجربة نموذج وانتظر بيانات حقيقية ، فقد يستغرق الحصول على البيانات أسابيع أو حتى أشهر. ومن ثم تأخير تطوير وابتكار التكنولوجيا.

نحن الآن جاهزون لمناقشة كيف تساعد البيانات التركيبية في حل المشكلات المتعلقة بخصوصية البيانات.

تعتمد العديد من الصناعات على البيانات التي ينتجها عملاؤها من أجل الابتكار والتطوير ، ولكن هذه البيانات تحتوي على معلومات التعريف الشخصية (PII) ، وتنظم قوانين الخصوصية بصرامة معالجة هذه البيانات. على سبيل المثال ، يحظر اللائحة العامة لحماية البيانات (GDPR) الاستخدامات التي لم تتم الموافقة عليها صراحةً عندما جمعت المنظمة البيانات. يمكن إعادة تعريف الفرد الموجود في البيانات الحقيقية من البيانات التركيبية. ونتيجة لذلك ، فإن معالجة البيانات التركيبية ومشاركتها لها لوائح أقل بكثير ، مما يؤدي إلى تطورات وابتكارات أسرع وسهولة الوصول إلى البيانات.

وفي الختام

البيانات التركيبية لها العديد من المزايا الهامة. يمنح مطوري ML التحكم في التجارب ويزيد من سرعة التطوير حيث أصبح الوصول إلى البيانات الآن أكثر سهولة. يعزز التعاون على نطاق أوسع لأن البيانات قابلة للمشاركة بحرية. بالإضافة إلى ذلك ، تضمن البيانات التركيبية حماية خصوصية الأفراد من البيانات الحقيقية.


<img width=”150″ height=”150″ src=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg” class=”avatar avatar-150 photo” alt decoding=”async” loading=”lazy” srcset=”https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-150×150-1.jpg 150w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-80×80-1.jpg 80w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-70×70.jpg 70w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-24×24.jpg 24w, https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-48×48.jpg 48w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-96×96-1.jpg 96w, https://bizbuildermike.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-300×300-1.jpg 300w” sizes=”(max-width: 150px) 100vw, 150px” data-attachment-id=”28275″ data-permalink=”https://www.marktechpost.com/img20221002180119-vineet-kumar/” data-orig-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-scaled.jpg” data-orig-size=”1920,2560″ data-comments-opened=”1″ data-image-meta=”{“aperture”:”2.8″,”credit”:””,”camera”:”OnePlus 9 5G”,”caption”:””,”created_timestamp”:”1664733679″,”copyright”:””,”focal_length”:”6.064″,”iso”:”100″,”shutter_speed”:”0.0078740157480315″,”title”:””,”orientation”:”1″}” data-image-title=”IMG20221002180119 – Vineet kumar” data-image-description data-image-caption=”

فينيت

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

فينيت كومار متدربة استشارية في MarktechPost. وهو يتابع حاليًا درجة البكالوريوس من المعهد الهندي للتكنولوجيا (IIT) ، كانبور. إنه متحمس لتعلم الآلة. إنه شغوف بالبحوث وأحدث التطورات في التعلم العميق ورؤية الكمبيوتر والمجالات ذات الصلة.

<!–

->

الطابع الزمني:

اكثر من مستشارو Blockchain