自動運転アプリケーション向けの基礎的なビジョンモデルとビジュアルプロンプトエンジニアリング |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

大規模言語モデル (LLM) を使用して高品質で関連性の高いテキストを生成する人にとって、迅速なエンジニアリングは不可欠なスキルとなっています。テキストプロンプトエンジニアリングは広く議論されてきましたが、ビジュアルプロンプトエンジニアリングは注目を必要とする新興分野です。視覚的なプロンプトには、視覚モデルが関連性のある正確な出力を生成するようガイドする境界ボックスまたはマスクを含めることができます。この投稿では、ビジュアルプロンプトエンジニアリングの基本とその利点、そして自動運転のための画像セグメンテーションという特定のユースケースを解決するためにビジュアルプロンプトエンジニアリングをどのように使用できるかを探ります。

近年、コンピュータビジョンの分野では、画像セグメンテーションの分野で大きな進歩が見られます。そのような画期的な進歩の XNUMX つが、セグメントエニシングモデル (SAM) Meta AI は、ゼロショットまたは少数ショットのトレーニングでオブジェクトレベルのセグメンテーションに革命を起こす可能性を秘めています。この投稿では、SAM モデルを基盤ビジョンモデルの例として使用し、そのアプリケーションへの応用を検討します。 BDD100K データセット、異種マルチタスク学習のための多様な自動運転データセット。 SAM の強みと BDD100K が提供する豊富なデータを組み合わせることで、さまざまなバージョンの SAM を使用したビジュアルプロンプトエンジニアリングの可能性を示します。にインスピレーションを受けて、ラングチェーン言語モデルのフレームワークでは、物体検出モデルと SAM を組み合わせて視覚的なプロンプトを実行するビジュアルチェーンを提案します。

この投稿では自動運転に焦点を当てていますが、ここで説明する概念は、ヘルスケアやライフサイエンス、メディアやエンターテイメントなど、豊富なビジョンベースのアプリケーションを持つ分野に広く適用できます。まずは、SAM のような基本的なビジョンモデルの内部にあるものについてもう少し詳しく学んでみましょう。私たちが使用した Amazon SageMakerスタジオこの投稿の ml.g5.16xlarge インスタンス上で。

セグメントエニシングモデル (SAM)

基盤モデルは、膨大な量のデータでトレーニングされた大規模な機械学習 (ML) モデルであり、タスク固有のユースケースに合わせてプロンプトを表示したり、微調整したりできます。ここでは、視覚、特に画像セグメンテーションの基礎モデルであるセグメントエニシングモデル (SAM) について調べます。 11 万枚の画像と 1.1 億枚のマスクからなる大規模なデータセットで事前トレーニングされており、執筆時点では最大のセグメンテーションデータセットとなっています。この広範なデータセットは幅広いオブジェクトとカテゴリをカバーしており、SAM に多様で大規模なトレーニングデータソースを提供します。

SAM モデルはオブジェクトを理解するようにトレーニングされており、画像またはビデオフレーム内の任意のオブジェクトのセグメンテーションマスクを出力できます。このモデルでは、視覚的なプロンプトエンジニアリングが可能で、テキスト、ポイント、境界ボックス、マスクなどの入力を提供して、元の画像を変更せずにラベルを生成できます。 SAM には、ベース (ViT-B、91 万パラメータ)、ラージ (ViT-L、308 億 636 万パラメータ)、およびヒュージ (ViT-H、XNUMX 億 XNUMX 万パラメータ) の XNUMX つのサイズがあり、さまざまな計算要件とユースケースに対応します。

SAM の背後にある主な動機は、対象オブジェクトのトレーニングサンプルとエポックを最小限にしてオブジェクトレベルのセグメンテーションを改善することです。 SAM の威力は、事前知識がなくても新しい画像の配布やタスクに適応できる能力にあります。この機能は、 ゼロショット転送。この適応性は、広大な SA-1B データセットでのトレーニングを通じて達成され、これまでの完全に監視された多くの結果を上回る、印象的なゼロショットパフォーマンスを実証しました。

次の SAM のアーキテクチャに示されているように、セグメンテーションマスクを生成するプロセスには XNUMX つのステップが含まれます。

画像エンコーダは、画像の XNUMX 回限りの埋め込みを生成します。
プロンプトエンコーダは、任意のプロンプトをプロンプトの埋め込みベクトルに変換します。
軽量デコーダーは、イメージエンコーダーとプロンプトエンコーダーからの情報を組み合わせて、セグメンテーションマスクを予測します。

例として、画像とその画像内の対象オブジェクト (シルバーカーや走行車線など) の周囲の境界ボックスを入力に提供すると、SAM モデルがそのオブジェクトのセグメンテーションマスクを生成します。

自動運転アプリケーション向けの基礎的なビジョンモデルとビジュアルプロンプトエンジニアリング |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。

ビジュアルプロンプトエンジニアリング

プロンプトエンジニアリングとは、モデルに意図を理解させ、望ましい結果を生み出すモデルへの入力を構造化することを指します。テキストプロンプトエンジニアリングを使用すると、単語の選択、書式設定、順序などの変更を通じて入力テキストを構造化し、目的の出力を得ることができます。ビジュアルプロンプトエンジニアリングでは、ユーザーがビジュアルモダリティ (画像またはビデオ) で作業していることを想定し、入力を提供します。以下は、ビジュアルドメインの生成 AI モデルに入力を提供する可能性のある方法の非網羅的なリストです。

ポイント – 画像平面内の特異な (x, y) 座標点
点 – 複数の (x, y) 座標点。必ずしも互いに関連しているわけではありません。
境界ボックス – 画像平面内の長方形の領域を定義する XNUMX つの値 (x、y、w、h) のセット
輪郭 – 閉じた形状を形成する画像平面内の (x, y) 座標点のセット
マスク – 対象オブジェクトの部分マスクを含む画像と同じサイズの配列

ビジュアルプロンプトエンジニアリング手法を念頭に置いて、これを SAM 事前トレーニングモデルにどのように適用できるかを検討してみましょう。事前トレーニングされたモデルの基本バージョンを使用しました。

事前トレーニングされた SAM モデルによるゼロショットプロンプト

まず、ゼロショットアプローチを見てみましょう。以下は、車両のフロントカメラから撮影されたトレーニングデータセットのサンプル画像です。

明示的な視覚的なプロンプトを必要とせずに、画像からすべてのオブジェクトのセグメンテーションマスクを取得できます。マスクを自動生成する入力画像だけで。次の画像では、車、道路、交通標識、ナンバープレート、高架橋、柱、標識などがセグメント化されていることがわかります。

ただし、次の理由により、この出力はすぐには役に立ちません。

車は全体としてではなく、部分的に分割されています。たとえば、ほとんどの知覚モデルでは、各タイヤが個別の出力マスクを持つことはあまり気にしません。これは、道路、植生、標識など、他の既知の対象オブジェクトを探す場合にも当てはまります。
走行可能領域などの下流タスクに役立つ画像の部分は、説明なしで分割されています。一方、類似したインスタンスは個別に識別されるため、類似したオブジェクトをグループ化することに興味があるかもしれません (パノプティックとインスタンスのセグメンテーション)。

事前トレーニングされた SAM モデルを使用したビジュアルプロンプトエンジニアリング

幸いなことに、SAM は入力プロンプトの提供をサポートしており、点、点配列、および境界ボックスを入力として使用できます。これらの具体的な指示により、SAM は特定の点または領域に焦点を当てたセグメンテーションでより適切に機能することが期待されます。これは言語プロンプトテンプレートと比較できます。
"What is a good name for a company that makes {product}?"
ここで、ユーザーからのこのプロンプトテンプレートを伴う入力は、 {product}. {product} 入力スロットです。視覚的なプロンプトでは、境界ボックス、ポイント、またはマスクが入力スロットです。

次の画像は、車両周囲の元のグラウンドトゥルースバウンディングボックスと、BDD100K グラウンドトゥルースデータからの走行可能エリアパッチを示しています。このイメージには、緑色の境界ボックスの中心にある入力ポイント (黄色の X) も示されています。これについては、次のいくつかのセクションで参照します。

SAM への入力として緑色の境界ボックスを使用して、左側の車のマスクを生成してみます。次の例に示すように、SAM の基本モデルでは実際には何も見つかりません。これは、低いセグメンテーションスコアにも見られます。セグメンテーションマスクをさらに詳しく見ると、下流のアプリケーションでは実際には使用できない小さな領域がマスクとして返されていることがわかります (赤い矢印で示されています)。

視覚的な入力プロンプトとして、境界ボックスと点の組み合わせを試してみましょう。上の画像の黄色の十字は、境界ボックスの中心です。この点の (x,y) 座標を境界ボックス制約とともにプロンプトとして指定すると、次のマスクとわずかに高いスコアが得られます。これではまだどうやっても使えません。

最後に、ベースの事前トレーニング済みモデルを使用すると、(境界ボックスなしで) プロンプトとして入力ポイントのみを提供できます。次の画像は、興味深いと思われた上位 XNUMX つのマスクのうちの XNUMX つを示しています。

マスク 1 は車全体をセグメント化するのに対し、マスク 3 は車のナンバープレートが黄色の十字に近い領域をセグメント化します (入力プロンプト)。マスク 1 はまだ車の周りにぴったりと清潔なマスクではありません。これはモデルの品質を示しており、モデルのサイズに応じて品質が向上すると考えられます。

同じ入力プロンプトを使用して、より大きな事前トレーニング済みモデルを試すことができます。次の画像は結果を示しています。巨大な SAM 事前トレーニング済みモデルを使用する場合、マスク 3 は車全体ですが、マスク 1 と 2 はナンバープレートを抽出するために使用できます。

SAM モデルの大規模バージョンも同様の出力を提供します。

ここで行ったプロセスは、すでによく知られているテキストプロンプトの手動プロンプトエンジニアリングに似ています。 SAM モデルの最近の改良により、あらゆるものを高品質でセグメント化することで、オブジェクト固有およびコンテキスト固有の出力がはるかに向上していることに注意してください。私たちの場合、テキストと視覚的なプロンプト (ポイント、ボックス、およびポイントとボックスの入力) によるゼロショットプロンプトでは、上で見たように結果が大幅に改善されないことがわかりました。

プロンプトテンプレートとビジュアルチェーン

前述のゼロショットの例からわかるように、SAM はシーン内のすべてのオブジェクトを識別するのに苦労しています。これは、プロンプトテンプレートとビジュアルチェーンを活用できる良い例です。ビジュアルチェーンは、言語アプリケーション用の人気のある LangChain フレームワークのチェーン概念からインスピレーションを得ています。これは、データソースと LLM をチェーンして出力を生成するのに役立ちます。たとえば、API チェーンを使用して API を呼び出し、LLM を呼び出して API 応答に基づいて質問に答えることができます。

LangChain からインスピレーションを得て、次の図のようなシーケンシャルなビジュアルチェーンを提案します。ツール (事前トレーニングされた物体検出モデルなど) を使用して初期境界ボックスを取得し、境界ボックスの中心の点を計算し、これを使用して SAM モデルに入力画像を要求します。

たとえば、次の画像は、このチェーンを実行した結果のセグメンテーションマスクを示しています。

チェーンの別の例には、ユーザーが識別したいオブジェクトのテキスト入力が含まれる場合があります。これを実装するために、次を使用してパイプラインを構築しました。グランディングDINO、SAM にセグメンテーションを促すオブジェクト検出モデル。

Grounding DINO は、カテゴリ名 (「信号機」や「トラック」など) と表現 (「黄色いトラック」など) を提供するテキストを使用してオブジェクト検出を実行できるゼロショットオブジェクト検出モデルです。オブジェクト検出を実行するためにテキストと画像のペアを受け入れます。これはトランスフォーマーアーキテクチャに基づいており、テキストデータと画像データのクロスモダリティを可能にします。 Grounding DINO について詳しくは、「Grounding DINO」を参照してください。グラウンディング DINO: オープンセットオブジェクト検出のためのグラウンディング事前トレーニングと DINO を組み合わせる。これにより、境界ボックスとラベルが生成され、さらに処理して中心点を生成したり、ラベルやしきい値に基づいてフィルターしたりすることができます。これは、マスクを出力するセグメンテーションのための SAM へのプロンプトとして (ボックスまたはポイント) 使用されます。

以下は、入力テキスト、DINO 出力 (境界ボックス)、および最終的な SAM 出力 (セグメンテーションマスク) を示すいくつかの例です。

次の画像は、「黄色いトラック」の出力を示しています。

次の画像は、「シルバーカー」の出力を示しています。

次の画像は、「走行車線」の出力を示しています。

このパイプラインを使用してビジュアルチェーンを構築できます。次のコードスニペットは、この概念を説明しています。

pipeline = [object_predictor, segment_predictor]
image_chain = ImageChain.from_visual_pipeline(pipeline, image_store, verbose=True)
image_chain.run('All silver cars', image_id='5X3349')

これは単純な例ですが、この概念を拡張して、車両のカメラからのフィードを処理して、物体追跡、個人識別情報 (PII) データの編集などを実行できます。より小さなモデルから境界ボックスを取得したり、場合によっては標準のコンピュータービジョンツールを使用したりすることもできます。事前トレーニングされたモデルまたは Amazon Rekognition などのサービスを使用して、プロンプトの最初の (視覚的な) ラベルを取得するのは非常に簡単です。これを書いている時点では、Amazon SageMaker Jumpstart でオブジェクト検出用に 70 を超えるモデルが利用可能です。 Amazonの再認識は、車、歩行者、その他の乗り物など、画像内のオブジェクトのいくつかの有用なカテゴリをすでに識別しています。

次に、BDD100K データのサブセットを使用した SAM モデルのパフォーマンスに関連する定量的な結果をいくつか見ていきます。

定量的結果

私たちの目的は、同じ視覚的なプロンプトを与えた場合の 0.11 つの事前トレーニング済みモデルのパフォーマンスを比較することです。この場合、オブジェクトの位置の中心点を視覚入力として使用します。オブジェクトサイズ (画像サイズに比例)、小 (面積 <0.11%)、中 (1% < 面積 < 1%)、および大 (面積 > XNUMX%) に関するパフォーマンスを比較します。境界ボックス領域のしきい値は、Common Objects in Context (COCO) によって定義されます。評価指標 [リン他、2014]。

評価はピクセルレベルで行われ、次の評価指標が使用されます。

精度 = (関連するインスタンスと取得されたインスタンスの数) / (取得されたインスタンスの総数)
Recall = (関連インスタンスと取得インスタンスの数) / (関連インスタンスの合計数)
ここでのインスタンスは、対象オブジェクトの境界ボックス内の各ピクセルです。

次の表は、SAM モデルの XNUMX つの異なるバージョン (ベース、ラージ、および巨大) のパフォーマンスを報告します。これらのバージョンには、ViT-B (ベース)、ViT-L (ラージ)、ViT-H (巨大) の XNUMX つの異なるエンコーダーがあります。エンコーダには異なるパラメータ数があり、基本モデルのパラメータは大よりも少なく、大は大よりも少ないです。パラメータの数を増やすと、オブジェクトが大きい場合はパフォーマンスが向上しますが、オブジェクトが小さい場合はそうではありません。

ユースケースに合わせて SAM を微調整する

多くの場合、事前トレーニングされた SAM モデルを直接使用することはあまり役に立たない可能性があります。たとえば、交通の典型的なシーンを見てみましょう。次の図は、左側が入力としてランダムにサンプリングされたプロンプトポイントを使用した SAM モデルからの出力、右側が BDD100K のセマンティックセグメンテーションタスクからの実際のラベルです。これらは明らかに大きく異なります。

AV の認識スタックは 500 番目のイメージを簡単に使用できますが、最初のイメージは使用できません。一方で、最初の画像からは使用できる有用な出力がいくつかあり、モデルは、たとえば、車線区分線、歩道のセグメンテーション、ナンバープレートマスクなどに関して明示的にトレーニングされていません。 SAM モデルを微調整して、セグメンテーションの結果を改善できます。この微調整を実行するために、BDD10K データセットのインスタンスセグメンテーションサブセット (XNUMX 枚の画像) を使用してトレーニングデータセットを作成しました。これは非常に小さな画像のサブセットですが、私たちの目的は、基本的なビジョンモデル (LLM とよく似た) が、驚くほど少数の画像でもユースケースで適切に機能できることを証明することです。次の画像は、入力イメージ、出力マスク (青、左側の車の赤い境界線)、および考えられるプロンプト (境界ボックスは緑、中心点 X は黄色) を示しています。

Hugging Face ライブラリを使用して微調整を行いました。 Amazon SageMakerスタジオ。 SAM 基本モデルのテストには ml.g4dn.xlarge インスタンスを使用し、SAM 巨大モデルのテストには ml.g4dn.2xlarge インスタンスを使用しました。最初の実験では、境界ボックスだけを使用して基本モデルを微調整しても成功しないことがわかりました。微調整され事前トレーニングされたモデルは、元のデータセットから自動車固有のグラウンドトゥルースマスクを学習できませんでした。微調整にクエリポイントを追加してもトレーニングは改善されませんでした。

次に、非常に小さなデータセット (30 枚の画像) を使用して、SAM の巨大なモデルを 500 エポックにわたって微調整してみることができます。元のグラウンドトゥルースマスクは、ラベルタイプの車の次の画像のようになります。

次の図に示すように、特定の境界ボックスプロンプト (緑色) を持つ巨大なモデルの元の事前トレーニング済みバージョンでは出力が得られませんが、微調整バージョンでは出力が得られます (まだ正確ではありませんが、微調整はカットされています) 40 エポック後にオフ、500 画像の非常に小さなトレーニングデータセットを使用）。元の事前トレーニングされた巨大なモデルは、テストしたどの画像のマスクも予測できませんでした。ダウンストリームアプリケーションの例として、微調整モデルは、次のような事前ラベル付けワークフローで使用できます。 AWS 上の深層学習ベースの高度運転支援システム用の自動ラベル付けモジュール.

まとめ

この投稿では、セグメントエニシングモデル (SAM) として知られる基本的なビジョンモデルとそのアーキテクチャについて説明しました。私たちは SAM モデルを使用して、ビジュアルプロンプトとビジュアルプロンプトエンジニアリングへのさまざまな入力について説明しました。さまざまなビジュアルプロンプトがどのように実行されるか、およびその制限について調査しました。また、LangChain API と同様に、ビジュアルチェーンが XNUMX つのプロンプトのみを使用する場合に比べてパフォーマンスを向上させる方法についても説明しました。次に、XNUMX つの事前トレーニングされたモデルの定量的評価を提供しました。最後に、微調整された SAM モデルとその結果を元の基本モデルと比較して説明しました。基礎モデルを微調整すると、セグメンテーションなどの特定のタスクのモデルのパフォーマンスを向上させることができます。 SAM モデルはリソース要件により、現在の状態ではリアルタイムのユースケースとエッジでの推論の使用が制限されることに注意してください。今後の反復と技術の改善により、コンピューティング要件が軽減され、レイテンシーが改善されることを期待しています。

この投稿が、ユースケースに合わせた視覚的なプロンプトを検討するきっかけとなることを願っています。これはプロンプトエンジニアリングのまだ発展途上の形式であるため、視覚的なプロンプト、視覚的なチェーン、およびこれらのツールのパフォーマンスに関して発見すべきことがたくさんあります。アマゾンセージメーカーは、ビルダーが大規模な言語およびビジュアルモデルを探索し、生成 AI アプリケーションを構築できるようにするフルマネージド ML プラットフォームです。今すぐ AWS で未来の構築を始めましょう。

著者について

ゴピ・クリシュナムルシー ニューヨーク市を拠点とするアマゾンウェブサービスのシニア AI/ML ソリューションアーキテクトです。彼は、機械学習ワークロードを変換し、クラウドに移行するための信頼できるアドバイザーとして、大規模な自動車の顧客と協力しています。彼の主な関心事は、深層学習とサーバーレステクノロジです。仕事以外では、家族と過ごしたり、幅広い音楽を探求したりするのが好きです。

シュレヤスサブラマニアン プリンシパル AI/ML スペシャリストのソリューションアーキテクトであり、AWS プラットフォームを使用して機械学習を使用してビジネス上の課題を解決することで、お客様を支援します。 Shreyas は、大規模な最適化と機械学習、および最適化タスクを加速するための機械学習と強化学習の使用に関するバックグラウンドを持っています。

スジタ・マーティン ジェネレーティブ AI イノベーションセンター (GAIIC) の応用科学者です。彼女の専門知識は、さまざまな業界向けのコンピュータービジョンと自然言語処理を含む機械学習ソリューションの構築です。特に、人間中心の状況認識と高度自律システム向けの知識注入学習に取り組んだ豊富な経験があります。

フランシスコ・カルデロン ジェネレーティブ AI イノベーションセンター (GAIIC) のデータサイエンティストです。 GAIIC のメンバーとして、彼は生成 AI テクノロジーを使用して AWS の顧客との可能性の発見を支援しています。余暇には、フランシスコは音楽やギターを演奏したり、娘たちとサッカーをしたり、家族との時間を楽しんだりするのが好きです。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/foundational-vision-models-and-visual-prompt-engineering-for-autonomous-driving-applications/

タイムスタンプ： 2023 年 11 月 15 日

タイムスタンプ： 2023 年 9 月 25 日

プラトン再発行

Amazon SageMaker マルチモデルエンドポイントを使用して GPU で複数の深層学習モデルを実行する

Amazon SageMaker、HashiCorp Terraform、GitLab CI/CD を使用したモデルのモニタリングと再トレーニングによるバッチ推論のための MLOps | アマゾンウェブサービス

Amazon Translate を使用して、Salesforce Service Cloud で多言語カスタマーサポート翻訳を簡単に

Amazon QuickSight のワードクラウドを使用して Amazon Comprehend 分析を視覚化する | アマゾンウェブサービス

AWS Trainium を使用した高速かつコスト効率の高い LLaMA 2 微調整 | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

セグメント エニシング モデル (SAM)