Исследователи из IIIT Аллахабада предлагают T2CI GAN: модель глубокого обучения, которая генерирует сжатые изображения из текста

Переиздано Платоном

Читают: 0

В последние несколько лет создание текстовых описаний визуальных данных стало важной исследовательской проблемой. Однако постановка задачи получения визуальных данных из письменных описаний по-прежнему гораздо сложнее, поскольку требует слияния методов обработки естественного языка и компьютерного зрения. Доступные методы создают несжатые изображения из текстовых описаний с использованием генеративно-состязательных сетей (GAN). Генеративно-состязательные сети — это тип среды машинного обучения, которая может создавать тексты, фотографии, видео и голосовые записи. Ранее GAN успешно использовались для создания наборов данных изображений для обучения других алгоритмов глубокого обучения, для создания фильмов или анимации для конкретных целей, а также для создания соответствующих подписей к фотографиям.

На самом деле большая часть визуальной информации обрабатывается и передается в сжатой форме. Для достижения эффективности хранения и вычислений в предлагаемой работе предпринимается попытка напрямую создавать визуальные данные в сжатой форме представления с использованием глубоких сверточных GAN (DCGAN). Новая модель на основе GAN, T2CI-GAN, была недавно создана исследователями из Лаборатории компьютерного зрения и биометрии IIIT Аллахабада и Университета Виньян в Индии, которая может создавать сжатые изображения на основе текстовых описаний. Этот подход может послужить отправной точкой для изучения нескольких вариантов хранения изображений и совместного использования контента между различными интеллектуальными устройствами.

В более ранней работе исследователи использовали GAN и другие модели глубокого обучения для решения различных задач, таких как извлечение признаков из данных, сегментация данных текста и изображений, обнаружение слов в длинных текстовых фрагментах и создание сжатых изображений JPEG. Эта новая модель расширяет предыдущие инициативы по решению вычислительной проблемы, которой до сих пор уделялось мало внимания в литературе. Лишь несколько методов глубокого обучения, используемых другими исследовательскими группами для создания изображений из текстовых описаний, создают сжатые изображения. Кроме того, большинство существующих систем создания и сжатия изображений решают эту проблему независимо, что увеличивает вычислительную нагрузку и время обработки.

Предлагаемый T2CI-GAN представляет собой модель, основанную на глубоком обучении, которая в качестве входных данных выводит сжатые визуальные изображения из текстовых описаний. Это существенный отход от традиционных подходов, которые генерируют визуальные представления из текстовых описаний и дополнительно сжимают эти изображения. Основной особенностью модели является ее способность отображать текстовые описания и напрямую генерировать сжатые изображения.

Исследовательская группа создала две модели на основе GAN для создания сжатых изображений из текстовых описаний. Для обучения первой из этих моделей использовался набор данных сжатых изображений JPEG DCT (дискретное косинусное преобразование). После обучения эта модель могла создавать сжатые изображения из текстовых описаний. С другой стороны, набор фотографий RGB использовался для обучения второй модели исследователей на основе GAN. В этой модели появилась возможность создавать DCT-представления изображений, сжатые в формате JPEG, которые явно выражают ряд точек данных в виде уравнения. Предложенные модели были оценены с использованием сжатых версий RGB и JPEG известного набора эталонных данных с открытым исходным кодом Oxford-102 Flower images. В области сжатия JPEG модель показала весьма обнадеживающие результаты.

Если поставляемые фотографии предназначены для легкого обмена ими со смартфонами или другими интеллектуальными устройствами, модель T2CI-GAN можно использовать для улучшения автоматизированных систем поиска изображений. Кроме того, это может быть ценным инструментом для экспертов в области средств массовой информации и коммуникаций, позволяющим им находить более легкие версии определенных фотографий для публикации в Интернете.

Благодаря последним технологическим достижениям наш мир движется к связям между машинами и людьми. T2CI-GAN будет иметь решающее значение в этой ситуации, поскольку машинам нужны факты в сжатой форме, чтобы прочитать или понять их. В настоящее время модель создает фотографии только в сжатом формате JPEG. Таким образом, долгосрочная цель исследователей — расширить его для создания изображений в любой сжатой форме без ограничений на алгоритм сжатия. После публикации исследовательской статьи команды исходный код модели также будет доступен широкой публике.

Эта статья написана как обзорная статья сотрудников Marktechpost на основе исследовательской работы «T2CI-GAN: генерация текста в сжатое изображение с использованием генеративно-состязательной сети'. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Проверьте бумаги и справочная статья.

Пожалуйста, не забудьте присоединиться Наш сабреддит по машинному обучению

Кхушбу Гупта — стажер-консультант в MarktechPost. В настоящее время она учится на степень бакалавра технических наук в Индийском технологическом институте (ИИТ), Гоа. Она увлечена машинным обучением, обработкой естественного языка и веб-разработкой. Ей нравится узнавать больше о технической области, участвуя в нескольких соревнованиях.

<!–

Отметка времени: 29 октября 202231 октября 2022