Meta の新しい AI は、画像内のあらゆるオブジェクトを選択して切り取ることができます。

Meta の新しい AI は、画像内のあらゆるオブジェクトを選択して切り取ることができます。

Meta の新しい AI は、PlatoBlockchain データ インテリジェンス以前には見られなかったものであっても、画像内のあらゆるオブジェクトを選択して切り取ることができます。垂直検索。あい。

視覚的なシーンで個別のオブジェクトを選択することは、私たちには直感的に思えますが、機械はこのタスクに苦労しています。 現在、Meta の新しい AI モデルは、オブジェクトが何であるかについて幅広い考えを開発し、これまでに見たことがないオブジェクトであってもオブジェクトを分離できるようにしました。

かなり平凡なコンピューター ビジョン タスクのように思えるかもしれませんが、画像を解析して、あるオブジェクトがどこで終わり、別のオブジェクトが始まるかを判断できることは、かなり基本的なスキルです。これがなければ、より複雑なタスクのホストは解決できません。

「オブジェクトのセグメンテーション」は新しいものではありません。 AI研究者は何年もそれに取り組んできました。 しかし、通常、これらのモデルの構築は時間のかかるプロセスであり、多くの人による画像の注釈とかなりのコンピューティング リソースが必要です。 そして通常、結果として得られるモデルは、特定のユース ケースに特化したものでした。

しかし現在、Meta の研究者はセグメント エニシング モデル (SAM) を発表しました。これは、以前に似たものが見られたかどうかに関係なく、あらゆるシーンのあらゆるオブジェクトを切り取ることができます。 モデルは、テキストの説明からマウスのクリック、さらには視線追跡データまで、さまざまなプロンプトに応じてこれを行うこともできます。

「SAM は物体とは何かという一般的な概念を学習しており、あらゆる画像やあらゆるビデオのあらゆる物体のマスクを生成できます」と研究者は書いています。 ブログ 役職. 「私たちは可能性が広いと信じており、まだ想像もしていなかった多くの潜在的なユースケースに興奮しています。」

モデル開発の鍵となったのは、1.1 億個のセグメンテーション マスクからなる大規模な新しいデータセットでした。これは、特定のオブジェクトが含まれていることを示すために分離され、注釈が付けられた画像の領域を指します。 これは、人間が手作業で画像に注釈を付け、自動化されたプロセスを組み合わせて作成されたもので、これまでに収集されたこのタイプのコレクションの中で群を抜いて最大のものです。

このような大規模なデータセットでトレーニングすることにより、Meta の研究者は、オブジェクトとは何かについての一般的な概念を開発したと述べています。 この一般化する能力により、研究者は SAM を「基礎モデル」と呼ぶようになりました。 物議を醸す用語 次のような他の大規模な事前トレーニング済みモデルを説明するために使用されます OpenAI の GPT シリーズの機能は非常に一般的であり、多くのアプリケーションの基盤として使用できます。

画像のセグメンテーションは、さまざまなコンピューター ビジョン タスクの重要な要素であることは間違いありません。 シーンのさまざまなコンポーネントを分離できない場合、より複雑なことを行うのは困難です。 研究者たちはブログで、ビデオや画像の編集に非常に役立つ可能性がある、または科学的画像の分析に役立つ可能性があると述べています。

おそらく、同社のメタバースへの野望により適切に、仮想現実ヘッドセットと組み合わせて使用​​し、ユーザーの視線に基づいて特定のオブジェクトを選択する方法のデモを提供します. また、大規模な言語モデルと組み合わせて、Web ページのビジュアル コンテンツとテキスト コンテンツの両方を理解できるマルチモーダル システムを作成できる可能性があるとも述べています。

幅広いプロンプトを処理できるため、システムは特に柔軟になります。 で ウェブページ 同社は新しいモデルのデモを行い、画像を分析した後、特定のオブジェクトをマウス カーソルでクリックするか、セグメント化したいものを入力するか、画像全体を分割するだけで、特定のオブジェクトを分離するように求められることを示しています。オブジェクトを分離します。

そして最も重要なことは、同社はモデルとデータセットの両方を研究目的でオープンソース化しているため、他の人が自分の仕事に基づいて構築できるようになっています。 これは、同社がLLaMA大言語モデルで採用したのと同じアプローチであり、急速に普及するに至りました。 オンラインリーク そして拍車をかける 実験の波 愛好家やハッカーによって。

SAM で同じことが起こるかどうかはまだわかりませんが、いずれにせよ、重要なコンピューター ビジョンの問題のホストの進歩を加速できる AI 研究コミュニティへの贈り物です。

画像のクレジット: メタAI

タイムスタンプ:

より多くの 特異点ハブ