PyTorch と Torchvision による RetinaNet オブジェクト検出

プラトン再発行

フォロワー： 0

概要

物体検出はコンピュータービジョンの大きな分野であり、コンピュータービジョンの「実際の」アプリケーションの中でも重要なアプリケーションの XNUMX つです。一方では、タスクを実行するロボットや自動運転車など、環境内でエージェントをナビゲートする自律システムを構築するために使用できますが、これには他の分野との交差が必要です。ただし、異常検出 (ライン上の不良品など)、画像内のオブジェクトの位置特定、顔検出、およびオブジェクト検出の他のさまざまなアプリケーションは、他のフィールドと交差することなく実行できます。

オブジェクト検出は、画像分類ほど標準化されていません。これは主に、新しい開発のほとんどが、大規模なライブラリやフレームワークではなく、通常、個々の研究者、保守担当者、および開発者によって行われるためです。必要なユーティリティスクリプトを TensorFlow や PyTorch などのフレームワークにパッケージ化し、これまでの開発を導いた API ガイドラインを維持することは困難です。

これにより、オブジェクト検出がやや複雑になり、通常はより冗長になり (常にではありません)、画像分類よりも親しみにくくなります。エコシステムに参加することの主な利点の XNUMX つは、優れたプラクティス、ツール、および使用方法に関する有用な情報を検索しない方法を提供することです。オブジェクト検出を使用すると、ほとんどの場合、適切な把握を得るために、フィールドの風景についてさらに多くの調査を行う必要があります.

PyTorch/TorchVision の RetinaNet によるオブジェクト検出

torchvision は PyTorch のコンピュータービジョンプロジェクトであり、変換および拡張スクリプト、事前トレーニング済みの重みを備えたモデルズー、データセット、および実践者に役立つユーティリティを提供することにより、PyTorch ベースの CV モデルの開発を容易にすることを目的としています。

まだベータ版であり、非常に実験的ですが – torchvision は、いくつかのモデルから選択できる比較的単純なオブジェクト検出 API を提供します。

より高速なR-CNN
レティナネット
FCOS (完全畳み込み RetinaNet)
SSD (VGG16 バックボーン…うわあ)
SSDLite (MobileNetV3 バックボーン)

この API は他のサードパーティ API ほど洗練されていないか単純ではありませんが、慣れ親しんだエコシステム内にいることの安全性を好む人にとっては、非常に適切な出発点です. 先に進む前に、必ず PyTorch と Torchvision をインストールしてください。

$ pip install torch torchvision

次のようないくつかのユーティリティ関数をロードしましょう。 read_image(), draw_bounding_boxes() & to_pil_image() 画像の読み取り、描画、および出力を容易にするために、RetinaNet とその事前トレーニング済みの重み (MS COCO) をインポートします。

from torchvision.io.image import read_image
from torchvision.utils import draw_bounding_boxes
from torchvision.transforms.functional import to_pil_image
from torchvision.models.detection import retinanet_resnet50_fpn_v2, RetinaNet_ResNet50_FPN_V2_Weights

import matplotlib.pyplot as plt

RetinaNet は、ResNet50 バックボーンとその上に機能ピラミッドネットワーク (FPN) を使用します。クラスの名前は冗長ですが、アーキテクチャを示しています。を使用して画像を取得しましょう requests ライブラリを作成し、ローカルドライブにファイルとして保存します。

import requests
response = requests.get('https://i.ytimg.com/vi/q71MCWAEfL8/maxresdefault.jpg')
open("obj_det.jpeg", "wb").write(response.content)

img = read_image("obj_det.jpeg")

画像が配置されたら、モデルと重みをインスタンス化できます。

weights = RetinaNet_ResNet50_FPN_V2_Weights.DEFAULT
model = retinanet_resnet50_fpn_v2(weights=weights, score_thresh=0.35)

model.eval()

preprocess = weights.transforms()

　 score_thresh 引数は、オブジェクトがクラスのオブジェクトとして検出されるしきい値を定義します。直観的には、これは信頼度のしきい値であり、オブジェクトがクラスに属しているというモデルの信頼度が 35% 未満の場合、そのオブジェクトをクラスに分類することはありません。

重みからの変換を使用して画像を前処理し、バッチを作成して推論を実行しましょう。

batch = [preprocess(img)]
prediction = model(batch)[0]

それだけです、私たちの prediction ディクショナリには、推測されたオブジェクトクラスと場所が保持されます。さて、結果はこの形式ではあまり役に立ちません。重みからメタデータに関するラベルを抽出し、バウンディングボックスを描画する必要があります。これは次の方法で実行できます。 draw_bounding_boxes():

labels = [weights.meta["categories"][i] for i in prediction["labels"]]

box = draw_bounding_boxes(img, boxes=prediction["boxes"],
                          labels=labels,
                          colors="cyan",
                          width=2, 
                          font_size=30,
                          font='Arial')

im = to_pil_image(box.detach())

fig, ax = plt.subplots(figsize=(16, 12))
ax.imshow(im)
plt.show()

この結果：

RetinaNet は実際に、車の後ろから覗いている人物を分類しました! かなり難しい分類です。

ベストプラクティス、業界で認められた標準、および含まれているチートシートを含む、Gitを学習するための実践的で実用的なガイドを確認してください。グーグルGitコマンドを停止し、実際に学ぶそれ！

置き換えることで、RetinaNet を FCOS (完全畳み込み RetinaNet) に切り替えることができます。 retinanet_resnet50_fpn_v2 　 fcos_resnet50_fpn、および FCOS_ResNet50_FPN_Weights 重み：

from torchvision.io.image import read_image
from torchvision.utils import draw_bounding_boxes
from torchvision.transforms.functional import to_pil_image
from torchvision.models.detection import fcos_resnet50_fpn, FCOS_ResNet50_FPN_Weights

import matplotlib.pyplot as plt
import requests
response = requests.get('https://i.ytimg.com/vi/q71MCWAEfL8/maxresdefault.jpg')
open("obj_det.jpeg", "wb").write(response.content)

img = read_image("obj_det.jpeg")
weights = FCOS_ResNet50_FPN_Weights.DEFAULT
model = fcos_resnet50_fpn(weights=weights, score_thresh=0.35)
model.eval()

preprocess = weights.transforms()
batch = [preprocess(img)]
prediction = model(batch)[0]

labels = [weights.meta["categories"][i] for i in prediction["labels"]]

box = draw_bounding_boxes(img, boxes=prediction["boxes"],
                          labels=labels,
                          colors="cyan",
                          width=2, 
                          font_size=30,
                          font='Arial')

im = to_pil_image(box.detach())

fig, ax = plt.subplots(figsize=(16, 12))
ax.imshow(im)
plt.show()

さらに先へ - コンピュータビジョンのための実用的な深層学習

あなたの好奇心旺盛な性質は、さらに先へ進みたいと思わせますか? 私たちは私たちをチェックアウトすることをお勧めします コース: 「Pythonによるコンピュータビジョンのための実践的な深層学習」.

別のコンピュータービジョンコースですか?

MNIST 数字や MNIST ファッションの分類は行いません。彼らはずっと前に彼らの役割を果たしました。高度なブラックボックスアーキテクチャにパフォーマンスの負担を負わせる前に、あまりにも多くの学習リソースが基本的なデータセットと基本的なアーキテクチャに焦点を合わせています。

私たちが注目したいのは 謎解き, 実用性, 理解する, 直感 & 実際のプロジェクト. 学びたいのあなたは違いを生むことができますか？私たちの脳が画像を処理する方法から、乳がんの研究レベルのディープラーニング分類器の作成、「幻覚」を起こすディープラーニングネットワークまで、実際の作業を通じて原理と理論を教え、コンピュータビジョンを解決するためにディープラーニングを適用する専門家になるためのノウハウとツール。