- 05/13
- 2024
-
QQ扫一扫
-
Vision小助手
(CMVU)
具身智能理论根源于“具身认知”(Embodied Recognition),包括人类在内的一切智能体的认知能力是由智能体自身结构决定的,并在此基础上构建自己的世界模型。而这种认知又直接影响智能体的高级心理活动,诸如:推理,决策等。
你好,具身智能
· 具身智能 “探索-利用”的学习范式
从认知产生的机制到智能体决策依赖的世界模型,均受制于智能体具体的物质形态。具身智能理论挑战了包括笛卡尔二元论在内的诸多认知理论,建立起了将“身”与“智”统一的理论框架,将智能体和周围环境看作一个系统,通过“躯体”与外界环境进行互动,再从外界对智能体的动作产生的反馈获取信息,建立对环境的认知。整个认知过程遵循“探索-利用”(exploration-exploitation)的范式。
心理学家Eleanor Gibson通过具身认知理论解释婴儿建立空间认知和理解过程
具身智能理论强调了智能体与环境之间的强关联,“智能”本质上是这两个实体的总和。以建立这个总和为共同目的,具身智能体必须具有一些最基本的通用能力。包括:
空间认知能力:空间认知能力是这个世界里智能体的基本能力之一,这个过程其实是智能体对外部物理世界的实体先进行“解构”,然后用抽象的几何模型在心理层面对外部世界进行“建构”的过程。
移动导航能力:如果空间认知能力是智能体对宏观世界的抽象,那么移动导航能力则是智能体对自身所处的微观环境的适应。通过“探索-利用”的学习范式发现知识,积累经验,提高智能,在自然进化中胜出。
· 具身智能 硬件为“智能”而生
长期以来,人工智能的发展主要致力于如何在通用的硬件上实现更好的智能,而没有充分考虑如何以智能需求为导向驱动新型硬件的开发。也许,将“硬件为智能而生”提升到具身智能发展应秉持的原则高度并不为过。从近些年的行业发展来看,这种趋势其实已经初见端倪。可以预见,具身智能的发展会将这一原则扩散到所有硬件的设计生产中,促使应用从“自发”走向“自觉”。
计算芯片的发展,从CPU到ASIC,“硬件为智能而生”原则作用下的自发现象
以具身智能为共同理论基础的硬件,它们在基本功能的要求上存在共性,归纳起来表现:在多模态的环境认知及通过语言、视觉方式的交互能力;智能的任务学习和理解能力,并基于内部世界模型把任务转化成内部结构化表示;在自身软硬件系统上,实现高度自主的智能决策能力,以应对全新、突发的情况;智能高效的单任务执行能力,基本不需要、或仅偶尔需要非常少量的人工干预;以及智能的多任务切换能力。
具身智能理论明确了智能与躯体之间的耦合,论述了智能体和环境之间的关系。因此,在设计具身智能产品时,不能把它从任务环境中剥离出来孤立地考虑。
你好,具身智能工业机器人
早期工业机器人主要用于重复性、单一性的任务。随着新技术的发展,逐渐实现自动化,能执行更复杂、精细的任务。然而发展到今天,工业机器人正遭遇技术发展瓶颈,面临成本、复杂性、灵活性和人机协作等困难和挑战。
与此同时人工智能技术迅猛发展,深度学习技术在语音及图像识别、自然语言处理等任务上取得了突破性的进展。近两年多模态大模型技术的发展,更是奠定了实现人机自然交互的技术基础。“人工智能+”成为积极探索的领域。
一边是早已发展成熟、遭遇瓶颈、苦苦寻找新发展的行业;一边是如日中天、带着变革、颠覆的光环急于寻找用武之地的新兴技术。人类固有的敏感和直觉告诉我们,历史到了一个迫切需要将两者融合的时刻,结出最惊艳的果实:你好,具身智能工业机器人!
具身智能工业机器人(EIIR),人工智能在工业领域的终极形态
以具身智能理论作为指导,将成熟的工业机器人与新兴的人工智能技术融合,诞生了“具身智能工业机器人”(Embodied Intelligent Industrial Robots, EIIR)。
· EIIR的本质 解放“人” 超越“人”
EIIR的生存环境就是工业生产环境。充分考察EIIR的生存环境可以帮助我们识别其应该具有的形态。由此我们可以得出结论:人形机器人不是EIIR的形态。相对于自然环境,生产环境是一个闭合、简单的环境。从逻辑上讲,“人形”作为开放环境下的产物天然不会是闭合环境最佳的躯体形态。其次,生产环境是人为设计制造出来的,如果可以由机器自主完成而不需要人的参与,那么对应的生产环境可以设计成对机器更加友好,而完全不用考虑人类体形的局限,从而让生产过程更加高效可靠。
“人形”适配的是人的生存环境,而非工业的生产环境
EIIR需要替代的是人在生产过程中被异化后的投影,不是人的本质,更不是人的外形。进一步,EIIR还需要把替代的人类能力在生产环境中放大、强化,充分利用EIIR作为机器的同时,发挥出超出人类的性能,使得将人类从生产活动中解放出来成为可能和必要。相比精确的自动化控制,EIIR可以更好的实现真正的无人化生产,正是因为:
生产场景的不确定性:从定性角度来看,工业场景在宏观上是闭合有界的。但在微观层面,工业场景下也存在诸多不确定因素,是一个定量上开放的环境,这就需要有灵巧的智能能力来应对这类不确定性。
生产环境闭合边界不一:不同的生产任务都有与之对应确定的生产环境,它们之间闭合的边界是不一样的。生产任务间切换的可能性是开放、近乎无限的,这就要求足够高的智能水平或在少量人类帮助下,完成这种环境的切换和适应。
标准产品具有标准智能:标准产品具有一定水平的标准智能,使得它在被部署到具体的生产场景时,可以较低的时间、人力成本学会具体的生产任务,尽可能适用不同的生产场景,使大规模应用成为可能。
· EIIR的模样 具象化的具身智能
如果对EIIR的本质没有太多的疑问,不妨想象一下EIIR的模样。具身智能理论认为智能体由感知系统、运动系统和世界模型三部分组成,这个论述对于EIIR仍然适用。
感知系统——多模态泛传感器系统。通过合理选型、配置,辅以高效智能的数据算法,建立起比人类强大得多的感知系统,无论是周边环境还是EIIR自身,都将进行连续、不间断的状态感知,为决策提供精准的信息。如在工业检测中挑战最大的外观缺陷检测领域,微亿智造树立了机器感知的典范:识别和分析对象姿态和特征,自主生成检测序列,以高精度的图像传感器来追踪形态不定、位置不定的缺陷,实现柔性的、超越人类的缺陷检测能力。并在此基础上,基于动力学原理进行建模,通过信息反馈“认知”自身能力,并实时更新。
通过“感知系统”对环境及自身持续采样,并基于联合认知进行决策
运动系统——闭环控制系统。打通、融合上下层系统,实现状态反馈和控制的联合处理、合并计算,共同优化、协作以满足灵活、精准、快速的要求。以“关节电机”为例,其“视觉伺服”系统由多个控制器、按层级嵌套组合而成,每一层都有自身需要优化的控制指标与对象。从整体到局部逐层细化,实现闭环控制。比如微亿智造自研的整套多轴实时控制系统,结合动力学和运动学算法,计算时间和状态最优的运动轨迹,并以毫秒级速度闭环运动控制,以10毫秒级别的速度使用图像模型完成闭环运动的规划。
通过“视觉伺服”,实现感知系统与运动系统的闭环控制
世界模型——对生产环境的总结和抽象。世界模型是智能体根据自身结构特点构建起来、用于解释世界的认知框架。它是动态变化的,智能体与环境的每一次互动都在不同程度上影响着它。而大模型技术结合工业数据又为世界模型提供了一个共享的基础版本,故且称之为“基础世界模型”。当然,这个“基础世界模型”赋予了EIIR强大的理解能力,能够通过人类习惯的模式与人类进行信息交换。而人类训练EIIR的方式也发生了根本性变化,只需通过自然语言、图片、视频、动作示教等,就可与EIIR建立起“示教-学习-反馈”的互动模式,通过多轮对话将知识进行传递。这样的持续学习会一直贯穿在EIIR整个生命周期里。
通过“基础世界模型”,建立“示教-学习-反馈”的互动模式
· EIIR的关键 智能化柔性适配
如何让标准、通用的EIIR产品很快具备执行具体生产任务的能力,或者如何把人类的专业技能轻便地转移到EIIR上,核心在于通过“人机交互”实现“智能化柔性适配”。以ChatGPT为例,它第一次在人和机器之间建立起了一种高效的沟通方式,从根本上打破了人机交流的障碍,变革了人机交互范式。
而大模型加持下的EIIR将彻底逆转人机关系。人类可以用自身习惯的方式与EIIR沟通,如自然语言、肢体语言、动作、行为示范等,从根本上打破人与机器间的语义隔离。软件方面,大模型的加持使得EIIR具备了快速学习的能力,保证了智能上的柔性。随着芯片技术的发展,软硬件的功能边界将变得模糊,“软件硬化”的趋势将会越来越明显。伴随更强大的运算能力及集成密度,EIIR的算力密度也将实现质的提升。机械构型方面,新材料、新技术的广泛应用将为EIIR提供更多不同的外部形态,甚至根据任务的要求实时调整机械结构。这种能力最忠实地还原了具身智能理论的根本要求,实现了智能和机体最深程度的融合。
EIIR,未来已来
EIIR的诞生和历史使命就是接管人类社会物质资料的生产,为人类的发展提供持续的物质支持,这也是它唯一的历史归宿。作为机器,随着技术的进步,EIIR的发展势必将循序渐进。前期阶段,它将长期和人类共处在同一生产环境下。伴随技术的发展,其智能化程度会越来越高,越来越多时候将不需要与人协作就可独立完成任务。而发展的高级阶段,将会实现真正的“无人工厂”。到这个阶段,工厂、产线的组织形式将完全不同于现在,而人类也将实现从使之异化的物质生产中彻底解放出来。这对人类社会的发展所起的作用是无法估量的,将极大加快人类自我解放的步伐。诚然,这会是一个漫长的过程,但值得我们期待,值得我们努力,因为它终将到来!
(文/ 微亿智造科技有限公司 CTO 赵何博士、上海捷勃特机器人有限公司 CTO 贺岩)