被乐高套装难倒? 一个新的机器学习框架可以为您解释这些指令。
斯坦福大学、麻省理工学院计算机科学与人工智能实验室和 Autodesk AI 实验室的研究人员合作开发了一种新颖的基于学习的框架,可以解释 2D 指令以构建 3D 对象。
手动到可执行计划网络,或 机电网络,在计算机生成的乐高套装、真正的乐高套装说明和 Minecraft 风格的体素建筑计划上进行了测试,研究人员表示它全面优于现有方法。
MEPNet的新颖理念
对于人工智能来说,解释 2D 指令并不容易。 研究人员表示,视觉指令有几个关键问题,就像乐高套装一样,完全由图像组成:识别 2D 和 3D 对象之间的对应关系,以及处理许多基本部件,比如乐高。
研究人员说,基本的乐高积木通常在被添加到模型主体之前组装成复杂的形式。 研究人员说,这“增加了机器解释乐高手册的难度:它需要推断由可见图元组成的不可见物体的 3D 姿势”。
研究人员表示,现有的将手动步骤解析为机器可执行计划的方法主要包括两种形式:基于搜索的方法简单准确但计算成本高; 以及基于学习的模型,这些模型速度很快,但不太擅长处理看不见的 3D 形状。
研究人员说,MEPNet 结合了两者。
研究人员写道,从组件的 3D 模型、乐高集的当前状态和 2D 手动图像开始,MEPNet “为每个组件预测一组 2D 关键点和掩码”。
完成后,2D 关键点“通过找到基本形状和新组件之间的可能连接,反向投影到 3D”。 该团队写道,这种组合“保持了基于学习的模型的效率,并更好地推广到看不见的 3D 组件”。
但它可以建造我的宜家梳妆台吗?
在论文中,研究人员表示,他们的目标是创造帮助人们组装复杂物体的机器,他们的应用列表中包括家具、乐高积木和体素世界。
我们已经向 MEPNet 背后的研究人员询问了他们新框架的更多潜在用途,但尚未收到回复。 与此同时,假设 MEPNet 可以构建一个书架——至少是虚拟的——给定必要的组件和指令库,这可能是合理的。
人类所要做的就是解释 MEPNet 的 3D 渲染,这有望比平板家具说明更容易。
想测试MEPNet,熟悉Pytorch的可以找 它在 Github 上的代码。 ®