視覚的なシーンで個別のオブジェクトを選択することは、私たちには直感的に思えますが、機械はこのタスクに苦労しています。 現在、Meta の新しい AI モデルは、オブジェクトが何であるかについて幅広い考えを開発し、これまでに見たことがないオブジェクトであってもオブジェクトを分離できるようにしました。
かなり平凡なコンピューター ビジョン タスクのように思えるかもしれませんが、画像を解析して、あるオブジェクトがどこで終わり、別のオブジェクトが始まるかを判断できることは、かなり基本的なスキルです。これがなければ、より複雑なタスクのホストは解決できません。
「オブジェクトのセグメンテーション」は新しいものではありません。 AI研究者は何年もそれに取り組んできました。 しかし、通常、これらのモデルの構築は時間のかかるプロセスであり、多くの人による画像の注釈とかなりのコンピューティング リソースが必要です。 そして通常、結果として得られるモデルは、特定のユース ケースに特化したものでした。
しかし現在、Meta の研究者はセグメント エニシング モデル (SAM) を発表しました。これは、以前に似たものが見られたかどうかに関係なく、あらゆるシーンのあらゆるオブジェクトを切り取ることができます。 モデルは、テキストの説明からマウスのクリック、さらには視線追跡データまで、さまざまなプロンプトに応じてこれを行うこともできます。
「SAM は物体とは何かという一般的な概念を学習しており、あらゆる画像やあらゆるビデオのあらゆる物体のマスクを生成できます」と研究者は書いています。 ブログ 役職. 「私たちは可能性が広いと信じており、まだ想像もしていなかった多くの潜在的なユースケースに興奮しています。」
モデル開発の鍵となったのは、1.1 億個のセグメンテーション マスクからなる大規模な新しいデータセットでした。これは、特定のオブジェクトが含まれていることを示すために分離され、注釈が付けられた画像の領域を指します。 これは、人間が手作業で画像に注釈を付け、自動化されたプロセスを組み合わせて作成されたもので、これまでに収集されたこのタイプのコレクションの中で群を抜いて最大のものです。
このような大規模なデータセットでトレーニングすることにより、Meta の研究者は、オブジェクトとは何かについての一般的な概念を開発したと述べています。 この一般化する能力により、研究者は SAM を「基礎モデル」と呼ぶようになりました。 物議を醸す用語 次のような他の大規模な事前トレーニング済みモデルを説明するために使用されます OpenAI の GPT シリーズの機能は非常に一般的であり、多くのアプリケーションの基盤として使用できます。
画像のセグメンテーションは、さまざまなコンピューター ビジョン タスクの重要な要素であることは間違いありません。 シーンのさまざまなコンポーネントを分離できない場合、より複雑なことを行うのは困難です。 研究者たちはブログで、ビデオや画像の編集に非常に役立つ可能性がある、または科学的画像の分析に役立つ可能性があると述べています。
おそらく、同社のメタバースへの野望により適切に、仮想現実ヘッドセットと組み合わせて使用し、ユーザーの視線に基づいて特定のオブジェクトを選択する方法のデモを提供します. また、大規模な言語モデルと組み合わせて、Web ページのビジュアル コンテンツとテキスト コンテンツの両方を理解できるマルチモーダル システムを作成できる可能性があるとも述べています。
幅広いプロンプトを処理できるため、システムは特に柔軟になります。 で ウェブページ 同社は新しいモデルのデモを行い、画像を分析した後、特定のオブジェクトをマウス カーソルでクリックするか、セグメント化したいものを入力するか、画像全体を分割するだけで、特定のオブジェクトを分離するように求められることを示しています。オブジェクトを分離します。
そして最も重要なことは、同社はモデルとデータセットの両方を研究目的でオープンソース化しているため、他の人が自分の仕事に基づいて構築できるようになっています。 これは、同社がLLaMA大言語モデルで採用したのと同じアプローチであり、急速に普及するに至りました。 オンラインリーク そして拍車をかける 実験の波 愛好家やハッカーによって。
SAM で同じことが起こるかどうかはまだわかりませんが、いずれにせよ、重要なコンピューター ビジョンの問題のホストの進歩を加速できる AI 研究コミュニティへの贈り物です。
画像のクレジット: メタAI
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/
- :は
- $UP
- 1
- a
- 能力
- できる
- 加速する
- 後
- AI
- 愛の研究
- 許可
- ことができます
- 野望
- 分析
- 分析する
- および
- 別の
- アプローチ
- です
- AS
- 組み立て
- At
- 自動化
- ベース
- BE
- さ
- 信じる
- 10億
- ブログ
- 破壊
- 広い
- ビルド
- 建物
- by
- 缶
- 機能
- 例
- コレクション
- 組み合わせ
- コミュニティ
- 会社
- 会社の
- 複雑な
- コンポーネント
- コンピュータ
- Computer Vision
- コンピューティング
- コンセプト
- かなりの
- 含む
- コンテンツ
- 可能性
- 作ります
- 作成した
- クレジット
- カット
- データ
- 日付
- 取引
- 絶対に
- 説明する
- 説明
- 発展した
- 開発
- 異なります
- どちら
- 終了
- 全体
- さらに
- 興奮した
- かなり
- フレキシブル
- 財団
- から
- 基本的な
- 生成する
- ギフト
- ハッカー
- 起こる
- ハード
- 持ってる
- ヘッドセット
- 助けます
- 非常に
- host
- 認定条件
- HTTPS
- 人間
- アイデア
- 画像
- 画像
- 重要
- in
- 直観的な
- 貴重な
- 分離された
- IT
- ITS
- キー
- 言語
- 大
- 最大の
- 学んだ
- ツェッペリン
- ような
- ラマ
- マシン
- 作る
- マニュアル
- 多くの
- マスク
- 大規模な
- Meta
- メタバース
- かもしれない
- モデル
- 他には?
- 最も
- 新作
- 概念
- オブジェクト
- オブジェクト
- of
- on
- ONE
- その他
- その他
- ページ
- 対になった
- 特定の
- 特に
- 選ぶ
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- の可能性
- 潜在的な
- :
- かなり
- 問題
- プロセス
- ラボレーション
- 進捗
- 受験する
- 提供します
- 目的
- 範囲
- 急速に
- 現実
- 指し
- 関係なく
- 地域
- 残っている
- 研究
- 研究者
- リソース
- 応答
- 結果として
- サム
- 同じ
- シーン
- 科学的な
- と思われる
- セグメント
- セグメンテーション
- 別
- シリーズ
- 作品
- 単に
- 技能
- So
- 専門の
- 特定の
- 奮闘
- そのような
- 仕事
- タスク
- それ
- アプリ環境に合わせて
- それら
- ボーマン
- 物事
- 介して
- 時間がかかる
- 〜へ
- トレーニング
- 一般的に
- わかる
- 発表
- us
- つかいます
- 多様
- ビデオ
- バーチャル
- バーチャルリアリティ
- ビジョン
- 仕方..
- ウェブ
- この試験は
- かどうか
- which
- ワイド
- 広い範囲
- 意志
- 無し
- 仕事
- いい結果になる
- 働いていました
- でしょう
- 年
- You
- ゼファーネット