Text-to-Image モデルは偽のデータを使用してより効率的に学習します

Text-to-Image モデルは偽のデータを使用してより効率的に学習します

Text-to-image モデルは、偽データ PlatoBlockchain Data Intelligence を使用してより効率的に学習します。垂直検索。あい。

MIT と Google のコンピューター科学者によると、合成画像は、AI モデルが実際のスナップに比べて視覚的表現をより正確に学習するのに役立ちます。 その結果、書かれた説明から画像を作成するのに優れたニューラル ネットワークが作成されます。

すべてのテキストから画像へのモデルの中心となるのは、オブジェクトを単語にマッピングする機能です。 たとえば、「晴れた日に赤い風船を持った子供」などの入力テキスト プロンプトが与えられると、説明に近い画像が返されるはずです。 そのためには、子供、赤い風船、晴れた日がどのようなものかを視覚的に表現することを学ぶ必要があります。 

MIT-Google チームは、ニューラル ネットワークは、実際のスナップを使用するのではなく、AI が作成した写真でトレーニングされた後、プロンプトからより正確な画像を生成できると考えています。 これを実証するために、グループは次のことを開発しました。 安定した担当者これは、人気のあるオープンソースのテキストから画像へのモデルである Stable Diffusion によって生成された画像から、説明的な書かれたキャプションを適切な対応する画像に変換する方法を学習します。

言い換えれば、確立され、トレーニングされた AI モデルを使用して、他のモデルを教えるということです。

科学者のプレプリント論文として、 arXivの 先月末、「合成画像のみを使用した場合、StableRep によって学習された表現は、大規模なデータセット上で同じテキスト プロンプトと対応する実際の画像のセットを使用して SimCLR と CLIP によって学習された表現のパフォーマンスを上回りました。」と述べています。 SimCLR と CLIP は、テキスト プロンプトから画像を作成するために使用できる機械学習アルゴリズムです。

「言語監視をさらに追加すると、20万枚の合成画像でトレーニングされたStableRepは、50万枚の実際の画像でトレーニングされたCLIPよりも高い精度を達成しました」と論文は続けています。

機械学習アルゴリズムは、オブジェクトの特徴と単語の意味の間の関係を数値の配列として捉えます。 StableRep を使用することで、研究者はこのプロセスをより慎重に制御でき、同じプロンプトで Stable Diffusion によって生成された複数の画像でモデルをトレーニングできます。 これは、モデルがより多様な視覚表現を学習でき、どの画像が他の画像よりもプロンプトとよりよく一致するかを確認できることを意味します。 

実際のデータでトレーニングされたモデルと合成データでトレーニングされたモデルのエコシステムができると思います

「私たちはモデルに、単にデータを与えるだけでなく、コンテキストと差異を通じて高レベルの概念についてさらに学習するよう教えています。」と、この研究の主任研究員であり、MIT の電気工学の博士課程の学生でもある Lijie Fan 氏は、次のように述べています。 説明 今週。 「すべて同じテキストから生成され、すべて同じ根底にあるものの描写として扱われる複数の画像を使用する場合、モデルはピクセルだけでなく、画像の背後にある概念、たとえばオブジェクトをより深く掘り下げます。」

上で述べたように、このアプローチは、実際の画像よりもニューラル ネットワークのトレーニングに使用する合成画像の数が少なくなり、より良い結果が得られることも意味します。これは AI 開発者にとって双方にメリットがあります。

StableRep のようなメソッドは、いつかテキストから画像へのモデルが合成データでトレーニングされる可能性があることを意味します。 これにより、開発者は実際の画像への依存度が低くなり、AI エンジンが利用可能なオンライン リソースを使い果たす場合には必要になる可能性があります。

「(合成画像で AI モデルをトレーニングすることは)ますます一般的になると思います」と論文の共著者であり、MIT のコンピュータ ビジョン准教授であるフィリップ・イソラ氏は語った。 登録。 「一部のモデルは実際のデータでトレーニングされ、一部のモデルは合成データでトレーニングされ、おそらくほとんどのモデルが両方でトレーニングされるエコシステムになると思います。」

AI によって生成された画像の品質や解像度は実際の写真よりも劣ることが多いため、AI によって生成された画像のみに依存することは困難です。 これらを生成するテキストから画像へのモデルは、他の点でも制限されています。 安定した拡散では、テキスト プロンプトに忠実な画像が常に生成されるわけではありません。

Isola 氏は、合成画像を生成するモデルは保護された素材でトレーニングされている可能性が高いため、合成画像の使用は著作権侵害の潜在的な問題を回避することにはならないと警告しました。

「合成データには、著作権データの正確なコピーが含まれる可能性があります。 しかし、合成データは、生成モデルを編集して機密属性を削除することで、潜在的に介入できる可能性があるため、知的財産とプライバシーの問題を回避する新たな機会も提供します」と彼は説明しました。

同チームはまた、AIが生成した画像を使ったトレーニングシステムは、基礎となるテキストから画像へのモデルによって学習されたバイアスを悪化させる可能性があると警告した。 ®

タイムスタンプ:

より多くの 登録