麻省理工学院和 Autodesk 开发人工智能,可以找出令人困惑的乐高指令 PlatoBlockchain 数据智能。垂直搜索。人工智能。

麻省理工学院,欧特克开发的人工智能可以找出令人困惑的乐高指令

被乐高套装难倒? 一个新的机器学习框架可以为您解释这些指令。 

斯坦福大学、麻省理工学院计算机科学与人工智能实验室和 Autodesk AI 实验室的研究人员合作开发了一种新颖的基于学习的框架,可以解释 2D 指令以构建 3D 对象。 

手动到可执行计划网络,或 机电网络,在计算机生成的乐高套装、真正的乐高套装说明和 Minecraft 风格的体素建筑计划上进行了测试,研究人员表示它全面优于现有方法。 

MEPNet的新颖理念

对于人工智能来说,解释 2D 指令并不容易。 研究人员表示,视觉指令有几个关键问题,就像乐高套装一样,完全由图像组成:识别 2D 和 3D 对象之间的对应关系,以及处理许多基本部件,比如乐高。 

研究人员说,基本的乐高积木通常在被添加到模型主体之前组装成复杂的形式。 研究人员说,这“增加了机器解释乐高手册的难度:它需要推断由可见图元组成的不可见物体的 3D 姿势”。

研究人员表示,现有的将手动步骤解析为机器可执行计划的方法主要包括两种形式:基于搜索的方法简单准确但计算成本高; 以及基于学习的模型,这些模型速度很快,但不太擅长处理看不见的 3D 形状。

研究人员说,MEPNet 结合了两者。

研究人员写道,从组件的 3D 模型、乐高集的当前状态和 2D 手动图像开始,MEPNet “为每个组件预测一组 2D 关键点和掩码”。

完成后,2D 关键点“通过找到基本形状和新组件之间的可能连接,反向投影到 3D”。 该团队写道,这种组合“保持了基于学习的模型的效率,并更好地推广到看不见的 3D 组件”。

但它可以建造我的宜家梳妆台吗?

在论文中,研究人员表示,他们的目标是创造帮助人们组装复杂物体的机器,他们的应用列表中包括家具、乐高积木和体素世界。

我们已经向 MEPNet 背后的研究人员询问了他们新框架的更多潜在用途,但尚未收到回复。 与此同时,假设 MEPNet 可以构建一个书架——至少是虚拟的——给定必要的组件和指令库,这可能是合理的。

人类所要做的就是解释 MEPNet 的 3D 渲染,这有望比平板家具说明更容易。

想测试MEPNet,熟悉Pytorch的可以找 它在 Github 上的代码。 ®

时间戳记:

更多来自 注册