合成データは機械学習の実際のパフォーマンス向上をもたらす可能性がある

プラトン再発行

フォロワー： 0

アクション認識は、大規模なビデオデータセットにより劇的に向上しました。しかし、これらのデータセットには、キュレーションコスト、プライバシー、倫理、偏見、著作権に関連する問題が伴います。それで、マサチューセッツ工科大学（MIT）科学者たちは合成データセットに目を向けています。

これらは、シーン、オブジェクト、人間の 3D モデルを使用するコンピューターによって作成され、実際のデータに伴う潜在的な著作権の問題や倫理的懸念を伴うことなく、特定のアクションのさまざまなクリップを迅速に作成します。

合成データは実際のデータと同様に優れていますか?

MIT、MIT-IBM Watson AI Lab、ボストン大学の科学者チームは、この疑問に答えようとしました。彼らは人間のさまざまな行動を表現する 150,000 のビデオクリップの合成データセットを作成し、機械学習このデータセットを使用してモデルを作成します。次に、実際の世界から撮影した 6 つのフィルムデータセットをこれらのモデルに表示し、それらの記録内のアクションをどの程度うまく認識できるかをテストしました。

科学者らは、合成的にトレーニングされたモデルは、背景オブジェクトが少ないビデオの実データでトレーニングされたモデルよりもさらに優れたパフォーマンスを発揮することを発見しました。

この発見は、科学者が合成データセットを使用してモデルが実際のタスクをより正確に実行できるようにするのに役立つ可能性があります。実際のデータセットの使用に伴う倫理、プライバシー、著作権に関する懸念の一部を軽減するために、研究者がどの機械学習アプリケーションが合成データを使用したトレーニングに最も適しているかを判断するのにも役立ちます。

MIT-IBM Watson AI Lab の主任科学者兼マネージャーである Rogerio Feris 氏は次のように述べています。「私たちの研究の最終目標は、実際のデータの事前トレーニングを合成データの事前トレーニングに置き換えることです。合成データでアクションを作成するにはコストがかかりますが、それが完了すると、ポーズや照明などを変更することで無制限に画像や動画を生成できます。それが合成データの利点です。」

科学者たちは、人間の動作をキャプチャした合成ビデオクリップの公開されている 150 つのデータセットを使用して、新しい合成アクション事前トレーニングおよび転送 (SynAPT) をコンパイルすることから始めました。約 1,000 のアクションカテゴリが含まれており、カテゴリごとに XNUMX のビデオクリップが含まれています。

3 つの機械学習モデルは、作成後のデータセットを使用してアクションを認識するように事前トレーニングされました。事前トレーニングは、別のタスクを教える前に、モデルに 1 つのタスクを教えるプロセスです。事前トレーニングされたモデルは、すでに学習したパラメーターを使用して、新しいデータセットを使用した新しいタスクをより迅速かつ効率的に学習することができます。これは、何か新しいことを知ったときに過去の情報を再利用するという人間の学習方法をモデルにしています。事前トレーニングされたモデルは、実際のビデオクリップの 6 つのデータセットを使用してテストされており、それぞれがトレーニングデータ内のアクションとは異なるクラスのアクションをキャプチャしています。

科学者にとって、3 つの合成モデルすべてが、6 つのデータセットのうち 4 つで実際のビデオクリップでトレーニングされたモデルよりも優れたパフォーマンスを示したことは驚きでした。その精度は、「シーンとオブジェクトのバイアスが低い」ビデオクリップを含むデータセットで最も高かった。これは、モデルがシーン内の背景や他のオブジェクトを見てアクションを認識できないことを意味します。モデルはアクション自体に焦点を当てる必要があります。

フェリスは言いました、「シーンとオブジェクトのバイアスが低いビデオでは、オブジェクトや背景の外観よりもアクションの時間的ダイナミクスが重要であり、それは合成データでうまく捉えられているようです。」

「シーンとオブジェクトの偏りが大きいと、障害として機能する可能性があります。モデルは、アクション自体ではなくオブジェクトを見て、アクションを誤分類する可能性があります。モデルを混乱させる可能性があります。」

共著者であるMIT-IBM Watson AI Labの研究スタッフであるRameswar Panda氏は次のように述べています。「これらの結果を基に、研究者らは将来の研究にさらに多くのアクションクラスと追加の合成ビデオプラットフォームを組み込み、最終的には合成データを使用して事前トレーニングされたモデルのカタログを作成したいと考えています。」

「私たちは、文献にある既存のモデルと非常に似た、あるいはそれよりも優れたパフォーマンスを持つモデルを、そうした偏見やセキュリティ上の懸念に束縛されることなく構築したいと考えています。」

共著者で CSAIL ポスドクの Sooyoung Jin 氏は次のように述べています。「彼らはまた、自分たちの研究を、より正確でリアルな合成ビデオを生成する研究と組み合わせたいと考えています。これにより、モデルのパフォーマンスが向上する可能性があります。」

「私たちはプライバシーの問題や状況や社会的偏見を防ぐために合成データセットを使用していますが、モデルは何を学習するのでしょうか?それは偏りのない何かを学ぶのでしょうか?」

共著者のサマース・ミシュラ氏はボストン大学（BU）の大学院生で、と, 「十分に注釈が付けられた合成データを取得するコストは低くなっていますが、現時点では、実際の動画を含む最大の注釈付きデータセットに匹敵する規模のデータセットはありません。実際の動画を使ってさまざまなコストや懸念事項について話し合い、合成データの有効性を示すことで、この方向への取り組みを促進したいと考えています。」

ジャーナルリファレンス：