具身智能体三维感知新链条，TeleAI &上海AI Lab提出多视角融合具身模型「SAM-E」--机器视觉网

当我们拿起一个机械手表时，从正面会看到表盘和指针，从侧面会看到表冠和表链，打开手表背面会看到复杂的齿轮和机芯。每个视角都提供了不同的信息，将这些信息综合起来才能理解操作对象的整体三维。

想让机器人在现实生活中学会执行复杂任务，首先需要使机器人理解操作对象和被操作对象的属性，以及相应的三维操作空间，包括物体位置、形状、物体之间的遮挡关系，以及对象与环境的关系等。其次，机器人需要理解自然语言指令，对未来动作进行长期规划和高效执行。使机器人具备从环境感知到动作预测的能力是具有挑战性的。

近期，中国电信人工智能研究院（TeleAI）李学龙教授团队联合上海人工智能实验室、清华大学等单位，模拟人「感知—记忆—思维—想象」的认知过程，提出了多视角融合驱动的通用具身操作算法，为机器人学习复杂操作给出了可行解决方案，论文被国际机器学习大会ICML 2024录用，为构建通用三维具身策略奠定了基础。

近年来，视觉基础模型对图像的理解能力获得了飞速发展。然而，三维空间的理解还存在许多挑战。能否利用视觉大模型帮助具身智能体理解三维操作场景，使其在三维空间中完成各种复杂的操作任务呢？受「感知—记忆—思维—想象」的认知过程启发，论文提出了全新的基于视觉分割模型Segment Anything（SAM）的具身基座模型SAM-E。

首先，SAM- E具有强大可提示（promptable）「感知」能力，将SAM特有的分割结构应用在语言指令的具身任务中，通过解析文本指令使模型关注到场景中的操作物体。

随后，设计一种多视角Transformer，对深度特征、图像特征与指令特征进行融合与对齐，实现对象「记忆」与操作「思考」，以此来理解机械臂的三维操作空间。最后，提出了一种全新的动作序列预测网络，对多个时间步的动作序列进行建模，「想象」动作指令，实现了从三维场景感知到具身动作的端到端输出。

微信图片_20240621140751.png

论文名称：SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

论文链接：https://sam-embodied.github.io/static/SAM-E.pdf

项目地址：https://sam-embodied.github.io/

从二维感知到三维感知

在数字时代的浪潮中，随着人工智能技术的飞速发展，我们正逐渐迈入一个崭新的时代——具身智能时代。赋予智能体以身体，使其具备与真实世界直接互动的能力，成为了当前研究的重点方向之一。

要实现这一目标，智能体必须具备强大的三维感知能力，以便能够准确地理解周围环境。

传统的二维感知手段在面对复杂的立体空间时显得力不从心，如何让具身智能体通过学习掌握对三维空间的精准建模能力，成为了一个亟待解决的关键问题。

现有工作通过正视图、俯视图、侧视图等等多个视角的视图还原和重建三维空间，然而所需的计算资源较为庞大，同时在不同场景中具有的泛化能力有限。

为了解决这个问题，本工作探索一种新的途径——将视觉大模型的强大泛化能力应用于具身智能体的三维感知领域。

SAM-E提出了使用具有强大泛化能力的通用视觉大模型 SAM 进行视觉感知，通过在具身场景的高效微调，将其具有的可泛化，可提示（promptable）的特征提取能力、实例分割能力、复杂场景理解等能力有效迁移到具身场景中。

为了进一步优化SAM基座模型的性能，引入了动作序列网络的概念，不仅能够捕捉单个动作的预测，还能够深入理解连续动作之间的内在联系，充分挖掘动作间的时序信息，从而进一步提高基座模型对具身场景的理解与适应能力。

微信图片_20240621140803.png

从二维感知到三维感知
在数字时代的浪潮中，随着人工智能技术的飞速发展，我们正逐渐迈入一个崭新的时代——具身智能时代。赋予智能体以身体，使其具备与真实世界直接互动的能力，成为了当前研究的重点方向之一。

要实现这一目标，智能体必须具备强大的三维感知能力，以便能够准确地理解周围环境。传统的二维感知手段在面对复杂的立体空间时显得力不从心，如何让具身智能体通过学习掌握对三维空间的精准建模能力，成为了一个亟待解决的关键问题。现有工作通过正视图、俯视图、侧视图等等多个视角的视图还原和重建三维空间，然而所需的计算资源较为庞大，同时在不同场景中具有的泛化能力有限。

为了解决这个问题，本工作探索一种新的途径——将视觉大模型的强大泛化能力应用于具身智能体的三维感知领域。SAM-E提出了使用具有强大泛化能力的通用视觉大模型 SAM 进行视觉感知，通过在具身场景的高效微调，将其具有的可泛化，可提示（promptable）的特征提取能力、实例分割能力、复杂场景理解等能力有效迁移到具身场景中。

微信图片_20240621140807.png

微信图片_20240621140811.png

实验
实验使用具有挑战性的机械臂任务集合——RLBench，对多视角观测下的3D操作任务进行了全面评估，SAM-E模型在多个方面均显著优于其他传统方法。

在多任务场景下，SAM-E模型显著提高了任务成功率。在面对少量样本迁移至新任务的情况下，SAM-E凭借强大的泛化性能和高效的执行效率，有效提升新任务的表现。

微信图片_20240621142629.png

微信图片_20240621140818.png

此外，动作序列建模显著提高了 SAM-E 的执行效率，同时在策略执行阶段，相比于单个动作，动作序列执行显著降低了模型推理次数，测试中甚至能通过一次模型推理完成相应任务。

微信图片_20240621140822.png

SAM-E在真实机械臂控制中同样有效，使用两个第三人称相机捕获多视角视觉输入，在五个真实任务上具有实时的推理能力。

微信图片_20240621140826.png

总结
该工作开创性地提出了一种以多视角融合的基础的通用具身操作算法，利用视觉分割大模型和多视角融合实现具身智能体的三维物理空间感知。通过高效的参数微调，将预训练视觉模型迁移到具身场景中，能够解决自然语言指令的复杂3D机械臂操作任务。此外，模型可以通过学习少量专家示例，快速泛化到新的任务中，展现出优越的训练效率和动作执行效率。

更重要的是，SAM-E以「感知—记忆—思维—想象」的认知链路，实现了从数据到动作的端到端映射。其意义不仅在于其在具身智能体中的应用，更在于对提升智能体认知能力的启发。通过模拟人类的感知和决策方式，智能体能够更好地理解和适应复杂的环境，从而在更广泛的领域发挥更大的作用。

（文章来源于互联网，如有侵权，请联系删文）