Дослідники з IIIT Allahabad пропонують T2CI GAN: модель глибокого навчання, яка генерує стиснуті зображення з тексту

Перевидано Платоном

читають: 0

В останні кілька років створення текстових описів для візуальних даних стало актуальною проблемою дослідження. Однак постановка проблеми отримання візуальних даних із письмових описів все ще є набагато складнішою, оскільки вона вимагає злиття методів обробки природної мови та комп’ютерного зору. Доступні методи створюють нестиснуті зображення з текстових описів за допомогою Generative Adversarial Networks (GAN). Generative Adversarial Networks – це тип системи машинного навчання, яка може створювати тексти, фотографії, відео та записи голосу. Раніше GAN успішно використовувалися для створення наборів даних зображень для навчання інших алгоритмів глибокого навчання, для створення фільмів або анімації для певних цілей, а також для створення відповідних підписів до фотографій.

Насправді більшість візуальних даних обробляється та передається в стислому вигляді. Щоб досягти ефективності зберігання та обчислення, запропонована робота спрямована на пряме створення візуальних даних у стиснутій формі представлення з використанням глибоких згорткових GAN (DCGAN). Нову модель на основі GAN, T2CI-GAN, нещодавно створили дослідники з лабораторії комп’ютерного зору та біометрії IIIT Аллахабада та Університету Віньяна в Індії, яка може створювати стислі зображення з текстових описів. Цей підхід може слугувати відправною точкою для дослідження кількох варіантів зберігання зображень і обміну вмістом між різними розумними пристроями.

У попередній роботі дослідники використовували GAN та інші моделі глибокого навчання для вирішення різних завдань, таких як вилучення функцій із даних, сегментація даних тексту та зображень, виявлення слів у довгих текстових фрагментах і створення стислих зображень JPEG. Ця нова модель розширює ці попередні ініціативи для вирішення обчислювальної проблеми, якій досі приділялося мало уваги в літературі. Лише кілька методів глибокого навчання, які використовуються іншими дослідницькими групами для створення зображень із текстових описів, створюють стислі зображення. Крім того, більшість існуючих систем для створення та стиснення зображень підходять до проблеми незалежності, що збільшує навантаження на обчислення та час обробки.

Пропонований T2CI-GAN — це модель на основі глибокого навчання, яка виводить стислі візуальні зображення з текстових описів як вхідні дані. Це суттєвий відхід від традиційних підходів, які створюють візуальні представлення з текстових описів і додатково стискають ці зображення. Основна функція продажу цієї моделі полягає в її здатності відображати текстові описи та безпосередньо генерувати стислі зображення.

Дослідницька група створила дві моделі на основі GAN для створення стислих зображень із текстових описів. Набір даних стислих зображень JPEG DCT (дискретне косинусне перетворення) використовувався для навчання першої з цих моделей. Після навчання ця модель може створювати стислі зображення з текстових описів. З іншого боку, набір фотографій RGB використовувався для навчання другої моделі дослідників на основі GAN. Ця модель розвинула здатність створювати JPEG-стиснуті представлення DCT зображень, які явно виражають ряд точок даних у вигляді рівняння. Запропоновані моделі були оцінені з використанням стислих версій RGB і JPEG відомого набору даних із відкритим вихідним кодом Oxford-102 Flower pictures. У домені стиснення JPEG модель досягла надзвичайно високої продуктивності.

Якщо надані фотографії призначені для легкого обміну зі смартфонами чи іншими інтелектуальними пристроями, модель T2CI-GAN може бути використана для вдосконалення автоматизованих систем пошуку зображень. Крім того, це може бути цінним інструментом для медіа та комунікаційних експертів, що дозволяє їм знаходити полегшені версії певних фотографій для розміщення в Інтернеті.

Завдяки останнім технологічним досягненням наш світ рухається до зв’язку «машина-машина» та «людина-машина». T2CI-GAN матиме вирішальне значення в цій ситуації, оскільки машинам потрібні факти в стислому вигляді, щоб їх прочитати або зрозуміти. Наразі модель створює лише фотографії у стиснутому форматі JPEG. Таким чином, довгострокова мета дослідників полягає в тому, щоб розширити його для створення зображень у будь-якій стиснутій формі без обмежень на алгоритм стиснення. Після публікації дослідницької статті команди вихідний код моделі також буде доступний для широкої громадськості.

Ця стаття написана як підсумкова стаття дослідження співробітників Marktechpost на основі дослідницької статті "T2CI-GAN: генерація тексту в стиснуте зображення за допомогою Generative Adversarial Network'. Вся заслуга в цьому дослідженні належить дослідникам цього проекту. Перевірте папір та  довідкова стаття.

Будь ласка, не забудьте приєднатися Наш ML Subreddit

Кхушбу Гупта — стажер-консультант у MarktechPost. Зараз вона отримує ступінь бакалавра технологій в Індійському технологічному інституті (IIT), Гоа. Вона захоплена сферами машинного навчання, обробки природної мови та веб-розробки. Їй подобається дізнаватися більше про технічну сферу, беручи участь у кількох викликах.

<!–

Часова мітка: Жовтень 29, 2022Жовтень 31, 2022