در چند سال اخیر، ایجاد توضیحات متنی برای داده های بصری به یک موضوع تحقیقاتی قانع کننده تبدیل شده است. با این حال، بیان مشکل برای تولید دادههای بصری از توضیحات نوشته شده هنوز بسیار دشوارتر است زیرا نیاز به ادغام تکنیکهای پردازش زبان طبیعی و بینایی کامپیوتری دارد. تکنیک های موجود تصاویر فشرده نشده را از توضیحات متنی با استفاده از شبکه های متخاصم مولد (GAN) ایجاد می کنند. شبکههای متخاصم مولد نوعی چارچوب یادگیری ماشینی هستند که میتوانند متون، عکسها، فیلمها و صداهای ضبط شده را تولید کنند. پیش از این، GAN ها با موفقیت برای تولید مجموعه داده های تصویری برای سایر الگوریتم های یادگیری عمیق برای آموزش، تولید فیلم یا انیمیشن برای اهداف خاص، و تولید زیرنویس های مناسب برای عکس ها استفاده می شدند.
در واقعیت، بیشتر ورودی های بصری پردازش و به صورت فشرده منتقل می شوند. به منظور دستیابی به کارایی ذخیرهسازی و محاسباتی، کار پیشنهادی تلاش میکند تا مستقیماً دادههای بصری را در قالب نمایش فشرده با استفاده از گانهای کانولوشنال عمیق (DCGAN) تولید کند. یک مدل جدید مبتنی بر GAN، T2CI-GAN، اخیرا توسط محققان آزمایشگاه بینایی کامپیوتر و بیومتریک IIIT الله آباد و دانشگاه ویگنان در هند ساخته شده است که می تواند تصاویر فشرده شده را از توضیحات مبتنی بر متن تولید کند. این رویکرد ممکن است به عنوان نقطه شروعی برای بررسی چندین گزینه برای ذخیره سازی تصویر و اشتراک محتوا در میان دستگاه های هوشمند مختلف باشد.
در کار قبلی، محققان از GAN و سایر مدلهای یادگیری عمیق برای انجام وظایف مختلف مانند استخراج ویژگی از دادهها، تقسیمبندی دادههای متن و تصویر، تشخیص کلمه در عصاره متن طولانی و ایجاد تصاویر JPEG فشرده استفاده کردند. این مدل جدید این ابتکارات قبلی را برای مقابله با یک مسئله محاسباتی که تاکنون توجه کمی در ادبیات داشته است، گسترش میدهد. تنها چند تکنیک مبتنی بر یادگیری عمیق که توسط تیمهای تحقیقاتی دیگر برای ایجاد تصاویر از توضیحات متن استفاده میشود، تصاویر فشردهشده را تولید میکنند. علاوه بر این، اکثر سیستمهای موجود برای تولید و فشردهسازی تصاویر به مشکل انجام این کار به طور مستقل نزدیک میشوند، که باعث افزایش حجم کار محاسبات و زمان پردازش میشود.
T2CI-GAN پیشنهادی یک مدل مبتنی بر یادگیری عمیق است که تصاویر بصری فشرده شده را از توضیحات متن به عنوان ورودی خود خروجی میدهد. این یک انحراف قابل توجه از رویکردهای سنتی است که بازنمایی های بصری را از توضیحات متن ایجاد می کند و آن تصاویر را بیشتر فشرده می کند. ویژگی اصلی فروش این مدل، توانایی آن در ترسیم توضیحات متن و تولید مستقیم تصاویر فشرده است.
تیم تحقیقاتی دو مدل مبتنی بر GAN را برای تولید تصاویر فشرده از توضیحات متن ایجاد کردند. مجموعه داده ای از تصاویر فشرده JPEG DCT (تبدیل کسینوس گسسته) برای آموزش اولین مدل استفاده شد. پس از آموزش، این مدل می تواند تصاویر فشرده شده از توضیحات متن تولید کند. از سوی دیگر، مجموعهای از عکسهای RGB برای آموزش دومین مدل مبتنی بر GAN محققان استفاده شد. این مدل توانایی تولید تصاویر DCT فشرده شده با JPEG را ایجاد کرد که به صراحت مجموعه ای از نقاط داده را به عنوان یک معادله بیان می کند. مدلهای پیشنهادی با استفاده از هر دو نسخه فشردهشده RGB و JPEG از مجموعه دادههای معیار منبع باز شناخته شده تصاویر گل Oxford-102 ارزیابی شدند. در حوزه فشردهشده با JPEG، این مدل به عملکرد پیشرفته بسیار دلگرمکنندهای دست یافت.
هنگامی که قرار است عکس های ارائه شده به راحتی با تلفن های هوشمند یا سایر دستگاه های هوشمند به اشتراک گذاشته شوند، ممکن است از مدل T2CI-GAN برای بهبود سیستم های بازیابی خودکار تصویر استفاده شود. علاوه بر این، میتواند ابزار ارزشمندی برای کارشناسان رسانه و ارتباطات باشد و آنها را قادر میسازد تا نسخههای سبکتر از عکسهای خاص را برای ارسال آنلاین پیدا کنند.
با توجه به پیشرفت های اخیر تکنولوژی، جهان ما به سمت اتصال ماشین به ماشین و انسان به ماشین پیش می رود. T2CI-GAN در این شرایط بسیار مهم خواهد بود زیرا ماشین ها برای خواندن یا درک آنها به حقایق به شکل فشرده نیاز دارند. این مدل در حال حاضر فقط عکس ها را به صورت فشرده JPEG ایجاد می کند. بنابراین هدف بلندمدت محققان گسترش آن برای تولید تصاویر به هر شکل فشرده شده بدون محدودیت در الگوریتم فشرده سازی است. پس از انتشار مقاله تحقیقاتی تیم، کد منبع مدل نیز در دسترس عموم قرار خواهد گرفت.
این مقاله به عنوان یک مقاله خلاصه پژوهشی توسط کارکنان Marktechpost بر اساس مقاله پژوهشی نوشته شده است.T2CI-GAN: تولید متن به تصویر فشرده با استفاده از شبکه Generative Adversarial'. تمام اعتبار این تحقیق به محققان این پروژه تعلق می گیرد. بررسی کنید مقاله و مقاله مرجع.
لطفا عضویت را فراموش نکنید ML Subreddit ما
<!–
->
- بیت کوین
- bizbuildermike
- بلاکچین
- انطباق با بلاک چین
- کنفرانس بلاکچین
- مشاوران بلاک چین
- coinbase
- coingenius
- اجماع
- کنفرانس رمزنگاری
- معدنکاری رمز گشایی
- کریپتو کارنسی (رمز ارزها )
- غیر متمرکز
- DEFI
- دارایی های دیجیتال
- ethereum
- فراگیری ماشین
- رمز غیر قابل شستشو
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- پلاتوبلاک چین
- PlatoData
- بازی پلاتو
- چند ضلعی
- اثبات سهام
- W3
- زفیرنت