محققان در IIIT Allahabad T2CI GAN را پیشنهاد می کنند: یک مدل یادگیری عمیق که تصاویر فشرده شده را از متن تولید می کند.

بازنشر افلاطون

دنبال: 0

در چند سال اخیر، ایجاد توضیحات متنی برای داده های بصری به یک موضوع تحقیقاتی قانع کننده تبدیل شده است. با این حال، بیان مشکل برای تولید داده‌های بصری از توضیحات نوشته شده هنوز بسیار دشوارتر است زیرا نیاز به ادغام تکنیک‌های پردازش زبان طبیعی و بینایی کامپیوتری دارد. تکنیک های موجود تصاویر فشرده نشده را از توضیحات متنی با استفاده از شبکه های متخاصم مولد (GAN) ایجاد می کنند. شبکه‌های متخاصم مولد نوعی چارچوب یادگیری ماشینی هستند که می‌توانند متون، عکس‌ها، فیلم‌ها و صداهای ضبط شده را تولید کنند. پیش از این، GAN ها با موفقیت برای تولید مجموعه داده های تصویری برای سایر الگوریتم های یادگیری عمیق برای آموزش، تولید فیلم یا انیمیشن برای اهداف خاص، و تولید زیرنویس های مناسب برای عکس ها استفاده می شدند.

در واقعیت، بیشتر ورودی های بصری پردازش و به صورت فشرده منتقل می شوند. به منظور دستیابی به کارایی ذخیره‌سازی و محاسباتی، کار پیشنهادی تلاش می‌کند تا مستقیماً داده‌های بصری را در قالب نمایش فشرده با استفاده از گان‌های کانولوشنال عمیق (DCGAN) تولید کند. یک مدل جدید مبتنی بر GAN، T2CI-GAN، اخیرا توسط محققان آزمایشگاه بینایی کامپیوتر و بیومتریک IIIT الله آباد و دانشگاه ویگنان در هند ساخته شده است که می تواند تصاویر فشرده شده را از توضیحات مبتنی بر متن تولید کند. این رویکرد ممکن است به عنوان نقطه شروعی برای بررسی چندین گزینه برای ذخیره سازی تصویر و اشتراک محتوا در میان دستگاه های هوشمند مختلف باشد.

در کار قبلی، محققان از GAN و سایر مدل‌های یادگیری عمیق برای انجام وظایف مختلف مانند استخراج ویژگی از داده‌ها، تقسیم‌بندی داده‌های متن و تصویر، تشخیص کلمه در عصاره متن طولانی و ایجاد تصاویر JPEG فشرده استفاده کردند. این مدل جدید این ابتکارات قبلی را برای مقابله با یک مسئله محاسباتی که تاکنون توجه کمی در ادبیات داشته است، گسترش می‌دهد. تنها چند تکنیک مبتنی بر یادگیری عمیق که توسط تیم‌های تحقیقاتی دیگر برای ایجاد تصاویر از توضیحات متن استفاده می‌شود، تصاویر فشرده‌شده را تولید می‌کنند. علاوه بر این، اکثر سیستم‌های موجود برای تولید و فشرده‌سازی تصاویر به مشکل انجام این کار به طور مستقل نزدیک می‌شوند، که باعث افزایش حجم کار محاسبات و زمان پردازش می‌شود.

T2CI-GAN پیشنهادی یک مدل مبتنی بر یادگیری عمیق است که تصاویر بصری فشرده شده را از توضیحات متن به عنوان ورودی خود خروجی می‌دهد. این یک انحراف قابل توجه از رویکردهای سنتی است که بازنمایی های بصری را از توضیحات متن ایجاد می کند و آن تصاویر را بیشتر فشرده می کند. ویژگی اصلی فروش این مدل، توانایی آن در ترسیم توضیحات متن و تولید مستقیم تصاویر فشرده است.

تیم تحقیقاتی دو مدل مبتنی بر GAN را برای تولید تصاویر فشرده از توضیحات متن ایجاد کردند. مجموعه داده ای از تصاویر فشرده JPEG DCT (تبدیل کسینوس گسسته) برای آموزش اولین مدل استفاده شد. پس از آموزش، این مدل می تواند تصاویر فشرده شده از توضیحات متن تولید کند. از سوی دیگر، مجموعه‌ای از عکس‌های RGB برای آموزش دومین مدل مبتنی بر GAN محققان استفاده شد. این مدل توانایی تولید تصاویر DCT فشرده شده با JPEG را ایجاد کرد که به صراحت مجموعه ای از نقاط داده را به عنوان یک معادله بیان می کند. مدل‌های پیشنهادی با استفاده از هر دو نسخه فشرده‌شده RGB و JPEG از مجموعه داده‌های معیار منبع باز شناخته شده تصاویر گل Oxford-102 ارزیابی شدند. در حوزه فشرده‌شده با JPEG، این مدل به عملکرد پیشرفته بسیار دلگرم‌کننده‌ای دست یافت.

هنگامی که قرار است عکس های ارائه شده به راحتی با تلفن های هوشمند یا سایر دستگاه های هوشمند به اشتراک گذاشته شوند، ممکن است از مدل T2CI-GAN برای بهبود سیستم های بازیابی خودکار تصویر استفاده شود. علاوه بر این، می‌تواند ابزار ارزشمندی برای کارشناسان رسانه و ارتباطات باشد و آنها را قادر می‌سازد تا نسخه‌های سبک‌تر از عکس‌های خاص را برای ارسال آنلاین پیدا کنند.

با توجه به پیشرفت های اخیر تکنولوژی، جهان ما به سمت اتصال ماشین به ماشین و انسان به ماشین پیش می رود. T2CI-GAN در این شرایط بسیار مهم خواهد بود زیرا ماشین ها برای خواندن یا درک آنها به حقایق به شکل فشرده نیاز دارند. این مدل در حال حاضر فقط عکس ها را به صورت فشرده JPEG ایجاد می کند. بنابراین هدف بلندمدت محققان گسترش آن برای تولید تصاویر به هر شکل فشرده شده بدون محدودیت در الگوریتم فشرده سازی است. پس از انتشار مقاله تحقیقاتی تیم، کد منبع مدل نیز در دسترس عموم قرار خواهد گرفت.

این مقاله به عنوان یک مقاله خلاصه پژوهشی توسط کارکنان Marktechpost بر اساس مقاله پژوهشی نوشته شده است.T2CI-GAN: تولید متن به تصویر فشرده با استفاده از شبکه Generative Adversarial'. تمام اعتبار این تحقیق به محققان این پروژه تعلق می گیرد. بررسی کنید مقاله و مقاله مرجع.

لطفا عضویت را فراموش نکنید ML Subreddit ما

خوشبو گوپتا یک کارآموز مشاور در MarktechPost است. او در حال حاضر مدرک B.Tech خود را از موسسه فناوری هند (IIT)، گوا دنبال می کند. او علاقه زیادی به زمینه های یادگیری ماشین، پردازش زبان طبیعی و توسعه وب دارد. او با شرکت در چندین چالش از یادگیری بیشتر در مورد رشته فنی لذت می برد.

<!–

تمبر زمان: اکتبر 29، 2022اکتبر 31، 2022