اقترح الباحثون في المعهد الدولي للفنون التطبيقية (IIIT) ، T2CI GAN: نموذج التعلم العميق الذي يولد صورًا مضغوطة من النص

أعاد نشره أفلاطون

المتابعون: 0

في السنوات القليلة الماضية، أصبح إنشاء الأوصاف النصية للبيانات المرئية مسألة بحثية ملحة. ومع ذلك، فإن بيان مشكلة إنتاج البيانات المرئية من الأوصاف المكتوبة لا يزال أكثر صعوبة لأنه يدعو إلى دمج تقنيات معالجة اللغة الطبيعية وتقنيات الرؤية الحاسوبية. تقوم التقنيات المتاحة بإنشاء صور غير مضغوطة من الأوصاف النصية باستخدام شبكات الخصومة التوليدية (GANs). شبكات الخصومة التوليدية هي نوع من إطار التعلم الآلي الذي يمكنه إنتاج النصوص والصور ومقاطع الفيديو والتسجيلات الصوتية. في السابق، تم استخدام شبكات GAN بنجاح لإنتاج مجموعات بيانات الصور لخوارزميات التعلم العميق الأخرى لتدريبها وإنتاج أفلام أو رسوم متحركة لأغراض معينة، وإنتاج التسميات التوضيحية المناسبة للصور.

في الواقع، تتم معالجة معظم المدخلات المرئية ونقلها في شكل مضغوط. من أجل تحقيق الكفاءة التخزينية والحسابية، يبذل العمل المقترح جهدًا لإنتاج البيانات المرئية مباشرة في شكل تمثيل مضغوط باستخدام شبكات GAN التلافيفية العميقة (DCGANs). تم إنشاء نموذج جديد قائم على GAN، T2CI-GAN، مؤخرًا من قبل باحثين من مختبر الرؤية الحاسوبية والقياسات الحيوية التابع لـ IIIT الله أباد وجامعة فيجنان في الهند، والذي يمكنه إنتاج صور مضغوطة من الأوصاف النصية. قد يكون هذا النهج بمثابة نقطة انطلاق لدراسة العديد من الخيارات لتخزين الصور ومشاركة المحتوى بين الأجهزة الذكية المختلفة.

في عمل سابق، استخدم الباحثون شبكات GAN ونماذج التعلم العميق الأخرى للتعامل مع المهام المختلفة، مثل استخراج الميزات من البيانات، وتجزئة بيانات النص والصورة، واكتشاف الكلمات في مقتطفات نصية طويلة، وإنشاء صور JPEG مضغوطة. يتوسع هذا النموذج الجديد في هذه المبادرات السابقة لمعالجة مشكلة حسابية لم تحظ حتى الآن باهتمام كبير في الأدبيات. فقط عدد قليل من التقنيات القائمة على التعلم العميق التي تستخدمها فرق البحث الأخرى لإنشاء صور من أوصاف النص تنتج صورًا مضغوطة. بالإضافة إلى ذلك، فإن معظم الأنظمة الحالية لإنتاج وضغط الصور تتعامل مع مشكلة القيام بذلك بشكل مستقل، مما يزيد من عبء العمل على الحوسبة ووقت المعالجة.

يعد T2CI-GAN المقترح نموذجًا قائمًا على التعلم العميق يقوم بإخراج الصور المرئية المضغوطة من أوصاف النص كمدخل له. يعد هذا خروجًا كبيرًا عن الأساليب التقليدية التي تولد تمثيلات مرئية من أوصاف النص وتزيد من ضغط تلك الصور. ميزة البيع الأساسية للنموذج هي قدرته على تعيين أوصاف النص وإنشاء صور مضغوطة مباشرةً.

أنشأ فريق البحث نموذجين يعتمدان على GAN لإنتاج صور مضغوطة من أوصاف النص. تم استخدام مجموعة بيانات من صور JPEG DCT (تحويل جيب التمام المنفصل) لتدريب أول هذه النماذج. بعد التدريب، يمكن لهذا النموذج إنتاج صور مضغوطة من أوصاف النص. ومن ناحية أخرى، تم استخدام مجموعة من صور RGB لتدريب النموذج الثاني المعتمد على GAN للباحثين. طور هذا النموذج القدرة على إنتاج تمثيلات DCT مضغوطة بصيغة JPEG للصور، والتي تعبر بوضوح عن سلسلة من نقاط البيانات كمعادلة. تم تقييم النماذج المقترحة باستخدام كلا الإصدارين المضغوطين RGB وJPEG لمجموعة البيانات المعيارية المعروفة مفتوحة المصدر Oxford-102 Flower Pictures. وفي المجال المضغوط بصيغة JPEG، حقق النموذج أداءً متطورًا ومشجعًا للغاية.

عندما يكون الهدف من مشاركة الصور المتوفرة بسهولة مع الهواتف الذكية أو الأجهزة الذكية الأخرى، يمكن استخدام طراز T2CI-GAN لتعزيز أنظمة استرجاع الصور الآلية. بالإضافة إلى ذلك، يمكن أن تكون أداة قيمة لخبراء الإعلام والاتصالات، حيث تمكنهم من العثور على نسخ أخف من صور معينة لنشرها عبر الإنترنت.

بسبب التطورات التكنولوجية الحديثة، يتجه عالمنا نحو الاتصالات من آلة إلى آلة ومن إنسان إلى آلة. سيكون T2CI-GAN حاسمًا في هذه الحالة لأن الآلات تحتاج إلى حقائق في شكل مضغوط حتى تتمكن من قراءتها أو فهمها. يقوم النموذج حاليًا بإنشاء الصور بتنسيق JPEG المضغوط فقط. وبالتالي فإن هدف الباحثين على المدى الطويل هو توسيعه لإنتاج صور بأي شكل مضغوط دون قيود على خوارزمية الضغط. بعد نشر المقال البحثي للفريق، سيتم أيضًا توفير الكود المصدري للنموذج لعامة الناس.

تمت كتابة هذه المقالة كمقالة ملخص بحثي بواسطة موظفي Marktechpost بناءً على ورقة البحث 'T2CI-GAN: تحويل النص إلى صورة مضغوطة باستخدام شبكة الخصومة التوليدية". يذهب كل الفضل في هذا البحث إلى الباحثين في هذا المشروع. تفحص ال ورقة و  مقالة مرجعية.

من فضلك لا تنسى الانضمام لدينا ML Subreddit

خوشبو جوبتا هو متدرب استشاري في MarktechPost. وهي تسعى حاليًا للحصول على درجة البكالوريوس في التكنولوجيا من المعهد الهندي للتكنولوجيا (IIT) ، في جوا. إنها شغوفة بمجالات التعلم الآلي ومعالجة اللغات الطبيعية وتطوير الويب. تستمتع بمعرفة المزيد عن المجال التقني من خلال المشاركة في العديد من التحديات.

<!–

الطابع الزمني: 29 أكتوبر 202231 أكتوبر 2022