AmazonRekognitionカスタムラベルとDassaultSystèmes3DEXCITEで合成データセットを使用したコンピュータービジョン

プラトン再発行

フォロワー： 0

これは、StormReplyのCTOであるBernardPaquesと、DassaultSystèmes3DExciteのシニアストラテジストであるKarlHerktとの共同執筆による投稿です。

コンピュータービジョンは、産業用メンテナンス、製造、ロジスティクス、および消費者向けアプリケーションにとって非常に重要ですが、トレーニングデータセットを手動で作成することにより、その採用は制限されます。産業コンテキストでのラベル付き画像の作成は主に手動で行われるため、認識機能が制限され、拡張性がなく、人件費が発生し、ビジネス価値の実現が遅れます。これは、製品設計、製品エンジニアリング、および製品構成の迅速な反復によって提供されるビジネスの俊敏性に反します。このプロセスは、自動車、飛行機、近代的な建物などの複雑な製品には対応していません。これらのシナリオでは、すべてのラベリングプロジェクトが一意であるためです（一意の製品に関連しています）。その結果、コンピュータービジョン技術は、データの準備に多大な労力を費やさずに大規模な独自のプロジェクトに簡単に適用することはできず、ユースケースの提供が制限されることがあります。

この投稿では、高度に専門化されたコンピュータビジョンシステムが設計ファイルとCADファイルから作成される新しいアプローチを紹介します。まず、視覚的に正しいデジタルツインの作成と、合成ラベル付き画像の生成から始めます。次に、これらの画像をにプッシュします Amazon Rekognitionカスタムラベルカスタムオブジェクト検出モデルをトレーニングします。ソフトウェアで既存の知的財産を使用することにより、コンピュータービジョンを手頃な価格で提供し、さまざまな産業コンテキストに関連させています。

認識システムのカスタマイズは、ビジネスの成果を促進するのに役立ちます

デジタルツインから製造された特殊なコンピュータビジョンシステムには、次のユースケースで説明できる特定のメリットがあります。

ユニークな製品のトレーサビリティ –エアバス、ボーイング、およびその他の航空機メーカーが独自のメーカーのシリアル番号（MSN）は、製造するすべての航空機に適用されます。これは、生成するために、生産プロセス全体を通して管理されます耐空性のドキュメント飛行許可を取得します。 A デジタルツイン（物理的な製品を表す仮想3Dモデル）は、各MSNの構成から導き出すことができ、産業施設全体でこのMSNの進行状況を追跡する分散型コンピュータービジョンシステムを生成します。カスタム認識は、航空会社に与えられる透明性を自動化し、航空会社によって手動で実行されるほとんどのチェックポイントを置き換えます。独自の製品の自動品質保証は、航空機、自動車、建物、さらには工芸品の生産にも適用できます。
コンテキスト化された拡張現実 –プロフェッショナルグレードのコンピュータビジョンシステムは、限られた風景を対象とすることができますが、より高い識別機能を備えています。たとえば、産業用メンテナンスでは、写真からドライバーを見つけることは無意味です。ドライバーのモデルまたはそのシリアル番号を特定する必要があります。このような限られた状況では、カスタム認識システムは、調査結果との関連性が高いため、一般的な認識システムよりも優れています。カスタム認識システムは、を介して正確なフィードバックループを可能にします専用の拡張現実 HMIまたはモバイルデバイスで配信されます。
エンドツーエンドの品質管理 –とシステムエンジニアリング、部分構造のデジタルツインを作成し、製造および製造プロセスのさまざまなフェーズに適応するコンピュータービジョンシステムを生成できます。ビジュアルコントロールは製造ワークステーションと絡み合うことができ、エンドツーエンドの検査と欠陥の早期検出を可能にします。カスタム認識エンドツーエンドの検査のために、組立ラインへの欠陥のカスケードを効果的に防ぎます。拒絶率を減らし、生産量を最大化することが究極の目標です。
柔軟な品質検査 –最新の品質検査は、設計のバリエーションと柔軟な製造に適応する必要があります。設計のバリエーションは、製品の使用法と製品のメンテナンスに関するフィードバックループに起因します。フレキシブル生産は受注生産戦略の重要な機能であり、コスト最適化のリーン生産方式と一致しています。設計バリエーションと構成オプションをデジタルツインに統合することにより、カスタム認識により、コンピュータービジョンシステムを生産計画と設計バリエーションに動的に適合させることができます。

AmazonRekognitionを搭載したDassaultSystèmes3DEXCITEでコンピュータービジョンを強化

3DEXCITEチームは、ヨーロッパで3番目に大きいソフトウェアエディタでもあるデジタルツインの深い専門知識を持つDassaultSystèmes内で、別の道を模索しています。 Karl Herktが説明したように、「合成画像からトレーニングされた神経モデルが物理的な製品を認識できるとしたらどうでしょうか？」 XNUMXDEXCITEは、自社のテクノロジーをAWSインフラストラクチャと組み合わせることでこの問題を解決し、この独特なアプローチの実現可能性を証明しました。別名 クロスドメインオブジェクト検出、ここで、検出モデルは、ソースドメインからのラベル付き画像（合成画像）から学習し、ラベルなしターゲットドメイン（物理コンポーネント）への予測を行います。

DassaultSystèmes3DEXCITEとAWSプロトタイピングチームが協力して、産業用ギアボックスの一部を認識するデモンストレーターシステムを構築しました。このプロトタイプは3週間で作成され、トレーニングされたモデルは98％のF1スコアを達成しました。認識モデルは、ソフトウェアパイプラインから完全にトレーニングされており、実際のパーツの写真は含まれていません。 3DEXCITEは、産業用ギアボックスの設計ファイルとCADファイルから、視覚的に正しいデジタルツインを作成しました。彼らはまた、デジタルツインから何千もの合成ラベル付き画像を生成しました。次に、Rekognition Custom Labelsを使用して、これらの画像から高度に専門化されたニューラルモデルをトレーニングし、関連する認識APIを提供しました。彼らは、ギアボックスのXNUMXつの物理的な部分の任意のWebカメラからの認識を可能にするWebサイトを構築しました。

Amazonの再認識は、ディープラーニングテクノロジーを使用して、機械学習（ML）の専門知識を必要とせずに、画像や動画から意味のあるメタデータを抽出できるようにするAIサービスです。これには、オブジェクト、人物、テキスト、シーン、アクティビティ、不適切な可能性のあるコンテンツの識別が含まれます。 Amazon Rekognitionは、非常に正確な顔分析および顔検索機能も提供します。これらの機能を使用して、さまざまなユーザー検証、人数カウント、および安全ユースケースの顔を検出、分析、および比較できます。最後に、Rekognition Custom Labelsを使用すると、独自のデータを使用してオブジェクト検出および画像分類モデルを構築できます。

合成ラベル付き画像を生成するためのDassaultSystèmesテクノロジーとコンピュータービジョン用のRekognitionカスタムラベルの組み合わせは、認識システムにスケーラブルなワークフローを提供します。ソフトウェアパイプライン全体にRekognitionカスタムラベルを追加することは難しくないため、使いやすさはここで重要なプラス要因です。APIをワークフローに統合するのと同じくらい簡単です。 MLの科学者である必要はありません。キャプチャしたフレームをAWSに送信するだけで、データベースに入力したり、ウェブブラウザに表示したりできる結果を受け取ることができます。

これは、トレーニングデータセットを手動で作成するよりも劇的に改善されたことをさらに強調しています。コストのかかる不要な作業時間を必要とせずに、より迅速かつ正確に、より良い結果を得ることができます。非常に多くの潜在的なユースケースがあるため、DassaultSystèmesとRekognition Custom Labelsの組み合わせは、今日のビジネスに重要かつ即時のROIを提供する可能性があります。

ソリューションの概要

このソリューションの最初のステップは、トレーニングデータセットを作成する画像をレンダリングすることです。これは、3DEXCITEプラットフォームによって実行されます。スクリプトを使用して、プログラムでラベリングデータを生成できます。 Amazon SageMakerグラウンドトゥルース分類およびオブジェクト検出タスクのために画像やビデオに簡単にラベルを付けるための注釈ツールを提供します。 Amazon Rekognitionでモデルをトレーニングするには、ラベリングファイルがGroundTruth形式に準拠している必要があります。これらのラベルはJSONであり、画像サイズ、バウンディングボックスの座標、クラスIDなどの情報が含まれます。

次に、合成画像とマニフェストをにアップロードします Amazon シンプルストレージサービス（Amazon S3）、Rekognitionカスタムラベルはトレーニングデータセットのコンポーネントとしてそれらをインポートできます。

Rekognition Custom Labelsがモデルと実際のコンポーネント画像のセットをテストできるようにするために、カメラで撮影した実際のエンジンパーツの写真のセットを提供し、テストデータセットとして使用するためにAmazonS3にアップロードします。

最後に、Rekognition Custom Labelsは、合成トレーニングデータセットと実際のオブジェクトの写真で構成されるテストデータセットを使用して最適なオブジェクト検出モデルをトレーニングし、アプリケーションでオブジェクト認識を実行するために使用できるモデルでエンドポイントを作成します。

次の図は、ソリューションワークフローを示しています。

合成画像を作成する

合成画像は、DassaultSystèmesの製品である3Dexperienceプラットフォームから生成されます。このプラットフォームを使用すると、オブジェクトのCAD（コンピューター支援設計）ファイルに基づいてフォトリアリスティックな画像を作成およびレンダリングできます。プラットフォームの画像変換構成を変更することで、数時間で数千のバリアントを生成できます。

このプロトタイプでは、オブジェクト検出用に次のXNUMXつの視覚的に異なるギアボックスパーツを選択しました。それらには、ギアハウジング、ギア比、ベアリングカバー、フランジ、およびウォームギアが含まれます。

次のデータ拡張方法を使用して、画像の多様性を高め、合成データをより写実的にしました。これは、モデルの汎化誤差を減らすのに役立ちます。

ズームイン/アウト –このメソッドは、画像内のオブジェクトをランダムにズームインまたはズームアウトします。
回転 –この方法では、画像内のオブジェクトが回転し、仮想カメラが360度の角度からオブジェクトのランダムな写真を撮るように見えます。
素材のルックアンドフィールを改善する –一部のギアパーツでは、最初のレンダリングでマテリアルの外観が現実的でないことがわかりました。合成画像を改善するためにメタリック効果を追加しました。
異なる照明設定を使用する –このプロトタイプでは、XNUMXつの照明条件をシミュレートしました。
- 倉庫 –現実的な配光。影や反射が発生する可能性があります。
- Studio –均一な光がオブジェクトの周囲全体に配置されます。これは現実的ではありませんが、影や反射はありません。
オブジェクトがリアルタイムでどのように表示されるかについての現実的な位置を使用します –実際には、フランジやベアリングカバーなどの一部のオブジェクトは通常、サーフェス上に配置され、モデルは上下のファセットに基づいてオブジェクトを検出します。そのため、エッジ位置とも呼ばれるパーツの薄いエッジを示すトレーニング画像を削除し、平らな位置にあるオブジェクトの画像を増やしました。
XNUMXつの画像に複数のオブジェクトを追加する –実際のシナリオでは、複数の歯車部品がすべてXNUMXつのビューに表示される可能性があるため、複数の歯車部品を含む画像を用意しました。

3Dexperienceプラットフォームでは、画像にさまざまな背景を適用できるため、画像の多様性をさらに高めることができます。時間制限のため、このプロトタイプではこれを実装しませんでした。

合成トレーニングデータセットをインポートする

MLでは、ラベル付きデータは、ターゲットを示すためにトレーニングデータに注釈が付けられていることを意味します。これは、MLモデルで予測する答えです。 Rekognition Custom Labelsで使用できるラベル付きデータは、GroundTruthマニフェストファイルの要件に準拠している必要があります。マニフェストファイルは、XNUMXつ以上のJSON行で構成されています。各行には、単一の画像の情報が含まれています。合成トレーニングデータの場合、ラベリング情報は、前述のCADファイルと画像変換構成に基づいてプログラムで生成できるため、ラベリング作業の手作業を大幅に節約できます。ファイル形式のラベル付けの要件の詳細については、を参照してください。マニフェストファイルを作成する & マニフェストファイルでのオブジェクトのローカリゼーション。次に、画像のラベル付けの例を示します。

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

マニフェストファイルが準備されたら、それをS3バケットにアップロードし、オプションを選択してRekognitionカスタムラベルにトレーニングデータセットを作成します Amazon SageMaker GroundTruthでラベル付けされた画像をインポートする.

マニフェストファイルがインポートされた後、AmazonRekognitionコンソールでラベリング情報を視覚的に表示できます。これは、マニフェストファイルが生成およびインポートされたことを確認するのに役立ちます。具体的には、バウンディングボックスが画像内のオブジェクトと整列し、オブジェクトのクラスIDが正しく割り当てられている必要があります。

テストデータセットを作成します

テスト画像は、実際のシナリオに対して、合成データを使用してトレーニングしたモデルの精度を検証するために、さまざまな角度と照明条件から電話またはカメラを使用して実際にキャプチャされます。これらのテストイメージをS3バケットにアップロードしてから、Rekognitionカスタムラベルにデータセットとしてインポートできます。または、ローカルマシンからデータセットに直接アップロードすることもできます。

Rekognition Custom Labelsは、GroundTruthと同様のエクスペリエンスを持つ組み込みの画像注釈機能を提供します。テストデータのインポート時にラベリング作業を開始できます。オブジェクト検出のユースケースでは、対象のオブジェクトの周囲に境界ボックスをしっかりと作成する必要があります。これにより、モデルはターゲットオブジェクトに属する領域とピクセルを正確に学習できます。さらに、すべての画像内のターゲットオブジェクトのすべてのインスタンスにラベルを付ける必要があります。これは、部分的に見えないものや他のオブジェクトによって遮られているものも含まれます。そうしないと、モデルはより多くのフォールスネガティブを予測します。

クロスドメインオブジェクト検出モデルを作成する

Rekognition Custom Labelsは、フルマネージドサービスです。トレインとテストのデータセットを提供する必要があります。モデルのセットをトレーニングし、提供されたデータに基づいて最もパフォーマンスの高いモデルを選択します。このプロトタイプでは、前述の画像拡張方法のさまざまな組み合わせを実験することにより、合成トレーニングデータセットを繰り返し準備します。 Rekognition Custom Labelsのトレーニングデータセットごとに15つのモデルが作成されます。これにより、このユースケースに最適なトレーニングデータセットを具体的に比較して見つけることができます。各モデルには最小数のトレーニング画像があり、優れた画像の多様性が含まれており、最高のモデル精度を提供します。 1回の反復の後、約98枚の合成トレーニング画像を使用して10,000％のモデル精度のF2,000スコアを達成しました。これは、オブジェクトあたり平均XNUMX枚の画像です。

モデル推論の結果

次の画像は、リアルタイム推論アプリケーションで使用されているAmazonRekognitionモデルを示しています。すべてのコンポーネントが高い信頼性で正しく検出されます。

Amazon RekognitionCustomLabelsとDassaultSystèmes3DEXCITEPlatoBlockchainDataIntelligenceを使用した合成データセットを使用したコンピュータービジョン。垂直検索。愛。

まとめ

この投稿では、純粋な合成画像でコンピュータービジョンモデルをトレーニングする方法と、モデルが実際のオブジェクトを確実に認識できる方法を示しました。これにより、トレーニングデータの収集とラベル付けを手作業で大幅に節約できます。この調査により、DassaultSystèmesは、物理的な世界の画像の認識システムでCAD、CAE、およびPLMデータを使用できるようになったため、設計者やエンジニアによって作成された3D製品モデルのビジネス価値を拡大しています。

Rekognition Custom Labelsの主な機能とユースケースの詳細については、を参照してください。 Amazon Rekognitionカスタムラベル。このプロジェクトの場合のように、画像がGround Truthでネイティブにラベル付けされていない場合は、を参照してください。マニフェストファイルの作成ラベリングデータをRekognitionカスタムラベルが使用できる形式に変換します。

著者について

ウッディボラチーノ 現在、AWSのシニア機械学習スペシャリストソリューションアーキテクトです。イタリアのミラノに拠点を置くWoodyは、2015年にAWSに参加する前にソフトウェア開発に取り組み、そこで成長はコンピュータービジョンと空間コンピューティング（AR / VR / XR）テクノロジーへの情熱です。彼の情熱は現在、メタバースの革新に焦点を当てています。彼をフォローしてください LinkedIn.

ホウ・イン、PhDは、AWSの機械学習プロトタイピングアーキテクトです。彼女の主な関心分野は、ディープラーニング、コンピュータービジョン、NLP、時系列データの予測です。余暇には、小説を読んだり、英国の国立公園でハイキングを楽しんだりしています。

バーナード・パックス 現在、AWSにデプロイされたインダストリアルソリューションに焦点を当てたStormReplyのCTOです。フランスのパリを拠点とするBernardは、以前はプリンシパルソリューションアーキテクトおよびAWSのプリンシパルコンサルタントとして働いていました。エンタープライズモダナイゼーションへの彼の貢献は、AWS for Industrial、AWS CDKをカバーしており、これらは現在、グリーンITと音声ベースのシステムにつながっています。彼をフォローしてください Twitter.

カール・ヘルクト 現在、DassaultSystèmes3DExciteのシニアストラテジストです。彼はドイツのミュンヘンに拠点を置き、具体的な結果をもたらすコンピュータービジョンの革新的な実装を作成しています。彼をフォローしてください LinkedIn.

タイムスタンプ： 2022 年 3 月 14 日

より多くの AWS機械学習

ML を活用したサーバーレススタックを使用して、Amazon Kendra からユーザーの検索行動に関する洞察を得る | アマゾンウェブサービス

ソースクラスター：

AWS機械学習

ソースノード： 1840291

タイムスタンプ： 2023 年 5 月 25 日

Amazon Personalize の推奨事項のビジネスへの影響を測定する

AWS機械学習

ソースノード： 1820243

タイムスタンプ： 2023 年 3 月 30 日

AmazonRekognitionカスタムラベルとDassaultSystèmes3DEXCITEを使用した合成データセットを使用したコンピュータービジョン

プラトン再発行

認識システムのカスタマイズは、ビジネスの成果を促進するのに役立ちます

AmazonRekognitionを搭載したDassaultSystèmes3DEXCITEでコンピュータービジョンを強化

ソリューションの概要

合成画像を作成する

合成トレーニングデータセットをインポートする

テストデータセットを作成します

クロスドメインオブジェクト検出モデルを作成する

モデル推論の結果

まとめ

著者について

より多くの AWS機械学習

Amazon Personalize の推奨事項のビジネスへの影響を測定する

AWS アクセラレータ全体のスタートアップは、AI と ML を使用してミッションクリティカルな顧客の課題を解決しています

安全なAmazonSageMakerStudioの事前署名されたURLパート2：JWT認証を使用したプライベートAPI

Amazon SageMaker Data Wrangler を Snowflake に直接接続することで、ビジネス洞察までの時間を短縮します。アマゾンウェブサービス

AWSMediaIntelligenceとHuggingFaceBERTを使用して、分類法に基づくコンテンツターゲットを構築します

IMDb ナレッジグラフを使用した電力の推奨事項と検索 – パート 2

HuggingFaceとAmazonSageMakerの非同期推論エンドポイントで価値の高い研究を改善する

Amazon SageMaker 自動モデルチューニングが SageMaker トレーニングインスタンスのフォールバックをサポートするようになりました

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー