MIT、オートデスクは、紛らわしいレゴの指示を理解できるAIを開発しています

フォロワー： 0

レゴセットに困惑していませんか？新しい機械学習フレームワークは、これらの指示を解釈できます。

スタンフォード大学、MITのコンピューター科学人工知能研究所、およびオートデスクAI研究所の研究者が協力して、2D命令を解釈して3Dオブジェクトを構築できる新しい学習ベースのフレームワークを開発しました。

Manual-to-Executable-Plan Network、または MEPネットは、コンピューターで生成されたレゴセット、実際のレゴセットの説明、Minecraftスタイルのボクセル構築計画でテストされ、研究者は、それが全面的に既存の方法を上回っていると述べました。

2D命令の解釈は、人工知能にとって簡単ではありません。研究者たちは、レゴセットのように完全に画像で構成される視覚的な指示から生じるいくつかの重要な問題があると述べました。2Dオブジェクトと3Dオブジェクト間の対応を特定することと、レゴのような多くの基本的な部分を扱うことです。

研究者によると、基本的なレゴブロックは、モデルの本体に追加される前に、複雑な形に組み立てられることがよくあります。これにより、「機械がレゴのマニュアルを解釈するのが難しくなります。見えたプリミティブで構成された見えないオブジェクトの3Dポーズを推測する必要があります」と研究者は述べています。

手動ステップをマシン実行可能プランに解析する既存の方法は、主に3つの形式で構成されている、と研究者は述べています。学習ベースのモデルは高速ですが、目に見えないXNUMXD形状の処理はあまり得意ではありません。

研究者によると、MEPNetは両方を組み合わせたものです。

コンポーネントの3Dモデル、レゴセットの現在の状態、および2D手動画像から始めて、MEPNetは「各コンポーネントの2Dキーポイントとマスクのセットを予測します」と研究者は書いています。

それが完了すると、2Dキーポイントは「基本形状と新しいコンポーネントの間の可能な接続を見つけることによって3Dに逆投影されます」。この組み合わせは、「学習ベースのモデルの効率を維持し、目に見えない3Dコンポーネントによりよく一般化する」とチームは書いています。

論文の中で、研究者たちは、彼らの目的は人々が複雑なオブジェクトを組み立てるのを助ける機械を作ることであり、アプリケーションのリストにレゴブロックやボクセルの世界と一緒に家具を含めると述べました。

MEPNetの背後にいる研究者に、新しいフレームワークのより多くの潜在的な使用法について尋ねましたが、まだ返答がありません。それまでの間、必要なコンポーネントと命令のライブラリがあれば、MEPNetが本棚を（少なくとも事実上）構築できると想定するのは合理的かもしれません。

人間がしなければならないのは、MEPNetの3Dレンダリングを解釈することだけです。これは、フラットパックの家具の説明よりも簡単であることが望まれます。

MEPNetをテストしたい、Pytorchに精通している人は、 Githubのコード。 ®

タイムスタンプ： 2024 年 3 月 8 日

私たちに関しては