商汤绝影智能汽车事业群总裁王晓刚：通用人工智能下的智能汽车--机器视觉网

2023年春，中国电动汽车百人会论坛在北京成功举办。商汤科技联合创始人王晓刚教授受邀出席会议，并发表《通用人工智能下的智能汽车》主旨演讲，为人们描绘了通用人工智能（AGI）赋能人机共智的美好未来。“通用人工智能将打造智能汽车的‘智慧飞轮’，让人、车和模型之间产生更多有效交互，打通三者之间的互动闭环，让AI更精准地理解人的需求，带来更好的驾乘体验。” 商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在中国电动汽车百人会智能汽车论坛上说。

以下为王晓刚教授演讲内容梳理。

通用人工智能引发新一轮范式

革新新年伊始，ChatGPT 、GPT-4 掀起了通用人工智能的热潮，这是一场新的技术革命。非常有幸与大家一起探讨通用人工智能和多模态大模型为智能汽车带来的机遇和挑战。2022年以来，新的通用人工智能开始以更加高效的方式解决海量的开放式任务。它更加接近人的智能，而且能够产生有智慧的内容，也带来了新的研究范式——基于一个非常强大的多模态基模型，通过强化学习和人的反馈，不断解锁模型的新能力。

那么，什么是通用人工智能？它与现有的人工智能系统有哪些区别？其实，现有的人工智能系统也能够接收多模态数据，但输出的任务都是事先定义好的，若为系统增加一个新任务，就要对其进行重新设计，还要采集大量样本。

微信图片_20230506165347.png

而在通用人工智能时代，人们通过输入提示词和多模态内容，便可生成多模态数据。更重要的是，它可以用自然语言方式生成任务描述，以非常灵活的方式应对大量长尾问题和开放性任务，甚至是一些主观的描述。

比如，在做一些特定场景的检索任务时，一个现有的人工智能系统可能有几十个标签。商汤做过实验，如果用自然语言描述可能会有1万多个词，通过它们的组合去描述各种任务，实际上是非常强大且灵活的。

举个例子，给定一张自动驾驶场景中的图片，判断是否需要减速。通过现有的 AI系统，首先要做物体检测，然后在物体框里做文字识别，最后做决策，整个过程每一个模块都是事先定义好的任务。

微信图片_20230506165356.png

而在通用人工智能技术下，给定图像，人们只需用自然语言去问图像问题，比如“这个图标是什么意思？”“接下来应该做什么？”模型本身不会发生变化，输出端通过自然语言的方式给出一系列逻辑推理，最后得出结论。比如，它会告诉你“限速30公里”“前面100米是学校的区域”“有小孩”“应该小心驾驶”“需将车速降到30公里以下”等操作。可以看到，这都是一些开放式的新任务，可以对人工智能系统带来非常大的变革。

从“数据飞轮”到“智慧飞轮”

通用人工智能还有非常强的一点，它能够产生内容，而且是有智慧的内容。自动驾驶/智能汽车领域有“数据飞轮”说法，即模型能够加持终端，采取高质量的数据对模型进行更新，然后再从终端提升数据的量和质。

通用人工智能时代则会产生“智慧飞轮”，人和模型之间可以产生互动。当人们为模型输入Align With Human Intention时，虽然模型很强大，但它并不知道人们需要什么样的能力，不过通过人的反馈，它就能更好地理解人需要它展示什么样的能力而去解锁更多的技能，同时模型为人输出有智慧的内容，从而激发人们更多的创作智慧，随后又会产生新的“智慧飞轮”。

微信图片_20230506165359.png

值得一提的是，AGI对算力的需求非常大。ChatGPT具备1750亿参数, 需要3000~5000张A100训练卡，一次训练的成本上千万美金。直到今天，它的推理成本每天也高达几百万美金。2021年，商汤提前布局，在上海临港建立了人工智能计算中心（AIDC）。作为SenseCore商汤 AI大装置的算力基座，AIDC基于2.7万块GPU的并行计算系统实现了5.0 exaFLOPS的算力输出，可支持最多20个千亿参数量超大模型（以千卡并行）同时训练。

从2019年开始，商汤从10亿参数的视觉模型研发，到今天有320亿参数全球最大规模的通用视觉模型。在NLP领域，商汤当前也有接近2000亿参数的大模型，有能力去训练1800亿参数的多模态大模型。所以，未来通用人工智能基于多模态的基模型可以做视觉感知、语言理解、内容生成和推理决策。

通用人工智能赋能绝影驾、舱、云三位一体产品体系

商汤绝影是商汤旗下的智能汽车业务板块，坚持驾、舱、云三位一体的发展策略，希望通过驾舱融合带来更好的驾乘体验。商汤AI云能够为自动驾驶提供数据闭环服务，能够使智能座舱成为第三生活空间。同时，AI云也为通用人工智能赋能智能驾驶和智能座舱奠定了非常强大的基础。

微信图片_20230506165401.png

在自动驾驶领域，BEV是当前主流的技术路线，未来可以朝着多模态、通用智能的方向发展。通过AIGC可生成困难样本，在模型中输入多模态数据，同时自动驾驶多模态大模型可以做到感知和决策一体化。在输出端，通过环境解码器可对3D环境进行重建，实现环境的可视化理解；行为解码可生成完整的路径规划；同时，动机解码器可以用自然语言描述推理的过程，进而使自动驾驶系统变得可以解释。

微信图片_20230506165404.png

商汤基于多模态大模型，可做到数据的感知闭环和决策闭环。从前端自动采集高质量的数据，到利用大模型进行自动化的数据标注和产品检测，能够几百倍地提升模型迭代的效率并降低成本。

微信图片_20230506165407.png

在智能座舱板块，通用人工智能可以使基模型具备对空间环境理解、用户状态感知、多模态指令解析及多轮逻辑对话、内容生成等一系列能力，进而赋能包括情绪感知、智能助手、基于情感的对话、创意内容生成、个性交互等一系列功能，不断地提升座舱的个性化体验。

微信图片_20230506165410.png

同时，应用场景也可以从上车、行车、停车、离车，进而拓展到娱乐、办公、购物、休息等等。

微信图片_20230506165413.png

实际上，智能汽车是通用人工智能实现闭环的一个理想场景，人类已经可以做到人机共驾。未来，车和模型之间能够产生更有效的互动，从而完成从人到车、到模型的互动闭环，通用人工智能可为人们提供更好的驾乘体验，解锁无限的想象空间。商汤愿与客户及合作伙伴共同迈向通用人工智能时代！