MIT と Google のコンピューター科学者によると、合成画像は、AI モデルが実際のスナップに比べて視覚的表現をより正確に学習するのに役立ちます。 その結果、書かれた説明から画像を作成するのに優れたニューラル ネットワークが作成されます。
すべてのテキストから画像へのモデルの中心となるのは、オブジェクトを単語にマッピングする機能です。 たとえば、「晴れた日に赤い風船を持った子供」などの入力テキスト プロンプトが与えられると、説明に近い画像が返されるはずです。 そのためには、子供、赤い風船、晴れた日がどのようなものかを視覚的に表現することを学ぶ必要があります。
MIT-Google チームは、ニューラル ネットワークは、実際のスナップを使用するのではなく、AI が作成した写真でトレーニングされた後、プロンプトからより正確な画像を生成できると考えています。 これを実証するために、グループは次のことを開発しました。 安定した担当者これは、人気のあるオープンソースのテキストから画像へのモデルである Stable Diffusion によって生成された画像から、説明的な書かれたキャプションを適切な対応する画像に変換する方法を学習します。
言い換えれば、確立され、トレーニングされた AI モデルを使用して、他のモデルを教えるということです。
科学者のプレプリント論文として、 arXivの 先月末、「合成画像のみを使用した場合、StableRep によって学習された表現は、大規模なデータセット上で同じテキスト プロンプトと対応する実際の画像のセットを使用して SimCLR と CLIP によって学習された表現のパフォーマンスを上回りました。」と述べています。 SimCLR と CLIP は、テキスト プロンプトから画像を作成するために使用できる機械学習アルゴリズムです。
「言語監視をさらに追加すると、20万枚の合成画像でトレーニングされたStableRepは、50万枚の実際の画像でトレーニングされたCLIPよりも高い精度を達成しました」と論文は続けています。
機械学習アルゴリズムは、オブジェクトの特徴と単語の意味の間の関係を数値の配列として捉えます。 StableRep を使用することで、研究者はこのプロセスをより慎重に制御でき、同じプロンプトで Stable Diffusion によって生成された複数の画像でモデルをトレーニングできます。 これは、モデルがより多様な視覚表現を学習でき、どの画像が他の画像よりもプロンプトとよりよく一致するかを確認できることを意味します。
実際のデータでトレーニングされたモデルと合成データでトレーニングされたモデルのエコシステムができると思います
「私たちはモデルに、単にデータを与えるだけでなく、コンテキストと差異を通じて高レベルの概念についてさらに学習するよう教えています。」と、この研究の主任研究員であり、MIT の電気工学の博士課程の学生でもある Lijie Fan 氏は、次のように述べています。 説明 今週。 「すべて同じテキストから生成され、すべて同じ根底にあるものの描写として扱われる複数の画像を使用する場合、モデルはピクセルだけでなく、画像の背後にある概念、たとえばオブジェクトをより深く掘り下げます。」
上で述べたように、このアプローチは、実際の画像よりもニューラル ネットワークのトレーニングに使用する合成画像の数が少なくなり、より良い結果が得られることも意味します。これは AI 開発者にとって双方にメリットがあります。
StableRep のようなメソッドは、いつかテキストから画像へのモデルが合成データでトレーニングされる可能性があることを意味します。 これにより、開発者は実際の画像への依存度が低くなり、AI エンジンが利用可能なオンライン リソースを使い果たす場合には必要になる可能性があります。
「(合成画像で AI モデルをトレーニングすることは)ますます一般的になると思います」と論文の共著者であり、MIT のコンピュータ ビジョン准教授であるフィリップ・イソラ氏は語った。 登録。 「一部のモデルは実際のデータでトレーニングされ、一部のモデルは合成データでトレーニングされ、おそらくほとんどのモデルが両方でトレーニングされるエコシステムになると思います。」
AI によって生成された画像の品質や解像度は実際の写真よりも劣ることが多いため、AI によって生成された画像のみに依存することは困難です。 これらを生成するテキストから画像へのモデルは、他の点でも制限されています。 安定した拡散では、テキスト プロンプトに忠実な画像が常に生成されるわけではありません。
Isola 氏は、合成画像を生成するモデルは保護された素材でトレーニングされている可能性が高いため、合成画像の使用は著作権侵害の潜在的な問題を回避することにはならないと警告しました。
「合成データには、著作権データの正確なコピーが含まれる可能性があります。 しかし、合成データは、生成モデルを編集して機密属性を削除することで、潜在的に介入できる可能性があるため、知的財産とプライバシーの問題を回避する新たな機会も提供します」と彼は説明しました。
同チームはまた、AIが生成した画像を使ったトレーニングシステムは、基礎となるテキストから画像へのモデルによって学習されたバイアスを悪化させる可能性があると警告した。 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2023/11/22/texttoimage_models_mit/
- :は
- :not
- 20
- 50
- 7
- a
- 能力
- 私たちについて
- 上記の.
- 従った
- 精度
- 正確な
- 正確にデジタル化
- 達成する
- 加えます
- 後
- AI
- AIモデル
- アルゴリズム
- すべて
- 許す
- また
- 常に
- an
- および
- アプローチ
- です
- 周りに
- 配列
- AS
- 仲間
- At
- 属性
- 利用できます
- BE
- なぜなら
- 背後に
- さ
- と考えています
- より良いです
- の間に
- バイアス
- 両言語で
- by
- 缶
- キャプションが
- キャプチャー
- 慎重に
- 子
- 密接に
- CO
- 共著者
- コマンドと
- 比べ
- コンピュータ
- Computer Vision
- コンセプト
- コンテキスト
- 続ける
- コントロール
- 著作権
- 著作権侵害
- 正しい
- 対応する
- 可能性
- データ
- データセット
- 中
- より深い
- 実証します
- 説明
- 発展した
- 開発者
- 難しい
- 異なる
- do
- doesnの
- エコシステム
- 効率良く
- どちら
- end
- エンジニアリング
- エンジン
- 設立
- 悪化する
- 例
- 説明
- 忠実な
- 偽
- ファン
- 特徴
- 摂食
- より少ない
- から
- さらに
- 生成する
- 生成された
- 生成
- 生々しい
- 取得する
- 受け
- 与えられた
- でログイン
- グループ
- 持ってる
- he
- ハート
- 助けます
- ハイレベル
- 開催
- 認定条件
- How To
- しかしながら
- HTTPS
- i
- if
- 画像
- 画像
- in
- その他の
- include
- ますます
- 侵害
- 介入する
- に
- IP
- 問題
- 問題
- IT
- JPG
- ただ
- 言語
- 大
- 姓
- つながる
- LEARN
- 学んだ
- 学ぶ
- less
- ような
- 可能性が高い
- 限定的
- 見て
- のように見える
- make
- 作成
- 地図
- 一致
- 材料
- 五月..
- 多分
- 意味する
- 意味
- 手段
- かもしれない
- 百万
- マサチューセッツ工科大学(MIT)
- モデル
- 月
- 他には?
- 最も
- の試合に
- 必要
- 必要
- ネットワーク
- ネットワーク
- ニューラル
- ニューラルネットワーク
- ニューラルネットワーク
- 新作
- 注意
- 番号
- オブジェクト
- オブジェクト
- of
- 頻繁に
- on
- ONE
- もの
- オンライン
- 開いた
- オープンソース
- 機会
- 反対した
- 注文
- その他
- その他
- 紙素材
- パフォーマンス
- 博士号
- 写真
- ピクチャー
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 人気
- 潜在的な
- :
- プライバシー
- プロセス
- 作り出す
- 東京大学大学院海洋学研究室教授
- プロンプト
- 保護された
- は、大阪で
- 置く
- 品質
- RE
- リアル
- レッド
- の関係
- リリース
- 頼る
- 削除します
- 研究者
- 研究者
- 解像度
- リソース
- 結果
- 結果
- return
- s
- 同じ
- 言う
- 規模
- 科学者たち
- 敏感な
- セッションに
- すべき
- から
- もっぱら
- 一部
- ソース
- 安定した
- 学生
- 勉強
- そのような
- 監督
- しのぐ
- 合成
- 合成データ
- システム
- ティーチング
- チーム
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- アプリ環境に合わせて
- それら
- 彼ら
- もの
- 考える
- この
- 今週
- 介して
- 〜へ
- 言われ
- あまりに
- トレーニング
- 訓練された
- トレーニング
- 順番
- 根本的な
- つかいます
- 中古
- 、
- ビジョン
- ビジュアル
- 方法
- we
- 週間
- した
- この試験は
- いつ
- which
- 意志
- Win-Winな関係
- 言葉
- もっと悪い
- でしょう
- 書かれた
- You
- あなたの
- ゼファーネット