IIITアラハバードの研究者がT2CI GANを提案：テキストから圧縮画像を生成する深層学習モデル

プラトン再発行

フォロワー： 0

ここ数年、視覚データのテキストによる説明の作成が、切実な研究課題となっています。ただし、書かれた説明から視覚データを生成するという問題提起は、自然言語処理とコンピュータービジョン技術の融合が必要となるため、さらに困難になります。利用可能な技術では、敵対的生成ネットワーク (GAN) を使用して、テキストの説明から非圧縮画像を作成します。 Generative Adversarial Networks は、テキスト、写真、ビデオ、音声録音を生成できる機械学習フレームワークの一種です。これまで、GAN は、他の深層学習アルゴリズムのトレーニング用の画像データセットの生成、特定の目的のための映画やアニメーションの生成、および写真の適切なキャプションの生成に使用されて成功してきました。

実際には、ほとんどの視覚入力は圧縮形式で処理され、送信されます。ストレージと計算の効率を達成するために、提案された研究では、Deep Convolutional GAN (DCGAN) を利用して圧縮表現形式で視覚データを直接生成する努力が払われています。新しい GAN ベースのモデル T2CI-GAN が最近、IIIT アラハバードのコンピュータービジョンおよびバイオメトリクス研究所とインドのビニャン大学の研究者によって作成されました。このモデルは、テキストベースの説明から圧縮画像を生成できます。このアプローチは、さまざまなスマートデバイス間での画像ストレージとコンテンツ共有のためのいくつかのオプションを調査するための出発点として機能する可能性があります。

以前の研究では、研究者らは GAN やその他の深層学習モデルを使用して、データからの特徴抽出、テキストおよび画像データのセグメンテーション、長いテキスト抽出における単語検出、圧縮 JPEG 画像の作成などのさまざまなタスクを処理していました。この新しいモデルは、これまで文献でほとんど注目されていなかった計算問題に取り組むために、これらの初期の取り組みを拡張したものです。他の研究チームがテキスト記述から画像を作成するために利用している深層学習ベースの技術は、圧縮された画像を生成するものだけです。さらに、画像の生成と圧縮を行う既存のシステムのほとんどは、それを独立して実行するという問題に直面しており、これにより、コンピューティングの負荷と処理時間が増加します。

提案されている T2CI-GAN は、入力としてのテキスト記述から圧縮された視覚画像を出力する深層学習ベースのモデルです。これは、テキストの説明から視覚的表現を生成し、それらの画像をさらに圧縮する従来のアプローチとは大きく異なります。このモデルの主なセールス機能は、テキストの説明をマッピングし、圧縮画像を直接生成する機能です。

研究チームは、テキストの説明から圧縮画像を生成するために 102 つの GAN ベースのモデルを作成しました。圧縮された JPEG DCT (離散コサイン変換) 画像のデータセットは、これらのモデルの最初のトレーニングに使用されました。トレーニング後、このモデルはテキストの説明から圧縮画像を生成できます。一方、一連の RGB 写真は、研究者の XNUMX 番目の GAN ベースのモデルをトレーニングするために使用されました。このモデルは、一連のデータポイントを方程式として明示的に表現する、画像の JPEG 圧縮 DCT 表現を生成する機能を開発しました。提案されたモデルは、よく知られたオープンソースのベンチマークデータセットである Oxford-XNUMX Flower photos の RGB 圧縮バージョンと JPEG 圧縮バージョンの両方を使用して評価されました。 JPEG 圧縮ドメインでは、このモデルは非常に期待できる最先端のパフォーマンスを達成しました。

提供された写真をスマートフォンや他のスマートデバイスと簡単に共有することを目的としている場合、T2CI-GAN モデルを利用して自動画像検索システムを強化できます。さらに、メディアやコミュニケーションの専門家にとって、特定の写真の軽量版を見つけてオンラインに投稿できる貴重なツールとなる可能性があります。

最近の技術の進歩により、私たちの世界はマシンとマシン、そして人間とマシンの接続へと向かっています。マシンがファクトを読み取ったり理解したりするには、圧縮された形式のファクトが必要であるため、この状況では T2CI-GAN が非常に重要になります。このモデルは現在、JPEG 圧縮形式でのみ写真を作成します。したがって、研究者の長期的な目標は、圧縮アルゴリズムを制限することなく、任意の圧縮形式で画像を生成できるように拡張することです。チームの研究論文が公開された後、モデルのソースコードも一般公開されます。

この記事は、研究論文「T2CI-GAN: 敵対的生成ネットワークを使用したテキストから圧縮画像への生成'。 この研究のすべての功績は、このプロジェクトの研究者に帰属します。 チェックアウト 紙 & 参考記事.

忘れずに参加してください私たちの ML Subreddit

Khushboo Gupta は、MarktechPost のコンサルティングインターンです。彼女は現在、ゴアのインド工科大学（IIT）で学士号を取得しています。彼女は、機械学習、自然言語処理、Web 開発の分野に情熱を注いでいます。彼女は、いくつかのチャレンジに参加することで、技術分野についてさらに学ぶことを楽しんでいます。

<!–

–>

タイムスタンプ： 2022 年 10 月 29 日2022 年 10 月 31 日