日期
05/14
2024
咨询
  • QQ扫一扫

  • Vision小助手
    (CMVU)

腾讯发布业界首份行业大模型调研报告:向 AI 而行,共筑新质生产力
收藏
2024-05-14 15:37:08来源: 中国机器视觉网

2024年政府工作报告明确提出,要“深化大数据、人工智能等研发应用,开展‘人工智能+’行动,打造具有国际竞争力的数字产业集群”。近年来,大模型成为人工智能领域的最大热点。如何有效将大模型技术融入各行各业的实际应用,助力生产力革新和产业升级,成为业界越来越关注的核心问题,也促进了行业大模型的发展。

今日,腾讯研究院正式发布《向 AI 而行,共筑新质生产力——行业大模型调研报告》,前后历时近1年研究,基于对超过百名各界专家访谈(百人百问),深入剖析了行业大模型的发展背景、应用进展、实现方式、安全与治理,以及未来的发展趋势,旨在为业界提供囊括学术、商业、政策等不同视角的全面参考。

微信图片_20240514153810.png

大模型的核心突破是什么?

与传统AI仅能处理单一任务相比,大模型技术通过其庞大的参数规模、强大的泛化能力以及对多模态数据的支持,展现出类似人类的通用智能“涌现”能力,能够学习多个领域知识、处理多种数据和任务。

OpenAI提出的“规模定律”(Scaling Law)驱动了大模型的快速发展,即:模型的性能与模型的规模、数据集大小和训练用的计算量之间存在幂律关系,性能会随着这三个因素的指数增加而线性提高,通俗而言就是“大力出奇迹”。传统AI模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级的规模。

大模型带来的AI性能突破,激发业界向通用人工智能(AGI)领域进发的新热潮。

为什么需要发展行业大模型?

大模型存在“不可能三角”问题,即专业性、泛化性和经济性三者很难兼得。

专业性指大模型处理特定领域问题或任务的准确性与效率。专业性要求越高,越需要针对特定领域数据进行训练,这可能造成模型过拟合而降低泛化能力,也就是对特定领域之外的问题处理能力变差。此外,增加的数据收集和训练也会增加成本、降低经济性。

泛化性指大模型处理训练数据集之外新样本的能力。泛化性要求越高,越需要多样化的大规模训练数据集、模型参数量也越多,这意味着模型训练和使用成本的增加、经济性降低,同时可能降低模型对特定问题处理的专业能力。

经济性指大模型训练和应用的投入产出比。经济性要求越高,越需要消耗更少的算力资源与成本满足性能需要,然而降低资源消耗基本上需要采用更小的模型或更少的参数,这又会降低模型的性能表现。

GPT为代表的通用大模型以发展通识能力为主要目标、更侧重泛化性,在专业性和经济性方面目前很难充分满足具体行业的特定需求,因此需要行业大模型来针对性解决。

微信图片_20240514153845.png

行业大模型是什么?

行业大模型指利用大模型技术,针对特定数据和任务进行训练或优化,形成具备专用知识与能力的大模型及应用。如果说通用大模型是通才,行业大模型就是专才。与通用大模型相比,行业大模型核心在提高性价比、增强专业性并保障数据(特别是私有数据)安全。

业界对行业大模型还有模糊和争议之处,本报告主要尝试厘清三个问题:一是行业大模型既有模型、也含应用;二是行业大模型大多长在通用大模型之上,基于通用大模型进行再开发;三是行业大模型具备定制特征,本质是解决方案、而非只是一个产品。

可以这样理解,行业大模型中的产品通常是“毛坯房”,客户需要根据自身用途进行“装修”才能满足需要。例如,腾讯云2023年中旬就依托TI平台打造了行业大模型精选商店,推出了MaaS服务,为客户提供一站式的行业大模型解决方案,包括模型预训练、模型精调、智能应用开发等。

微信图片_20240514153847.png

哪些行业的大模型应用发展快?

行业大模型整体处于发展早期,还没有大规模成熟应用的范例。参考埃弗雷特·罗杰斯(Everett M. Rogers)《创新的扩散》一书中对创新阶段的界定,行业大模型应用阶段可划分为探索孵化期、试验加速期、采纳成长期和落地成熟期,基于“百人百问”目前大部分行业处于前两个阶段,还没有行业达到第四。

数字原生行业(如各类互联网应用)是先行者,传统行业中生产性服务业(广告、金融等)进展相对快、重资产行业(建筑、制造、能源等)进展相对慢。背后有两个核心影响因素:需求的适配度和数据的可得性,越高的行业进展越快。

微信图片_20240514153856.png

哪些场景的大模型应用发展快?

应用场景的快慢呈现“微笑曲线”特征,即产业链高附加价值的两端(研发/设计和营销/服务),大模型应用落地较快;而在低附加价值的中部(生产、组装等),大模型应用进程较慢。原因是大模型带来“智力即服务”的范式变化,特别适配微笑曲线两端的知识密集型和服务密集型领域。

微信图片_20240514153858.png

营销/服务环节进展最快,跨行业通用性强是重要原因。基于机构自有知识库的内容生成与智能对话,能使营销和服务活动的效率和体验得到显著提升,成为各行业尝试应用大模型的普遍先行领域,如基于广告大模型的素材生成和精准投放、智能客服机器人搭载知识库提供专业的个性化服务等。

研发/设计环节结合最深,高质量专业数据集决定进程。文案、影像、代码等有大量基于互联网的开放、开源数据集,这些领域进展最快;有高质量、大规模开放数据集的科研领域进展也较快,典型像DeepMind的AlphaFold。

生产/制造环节进展相对慢,对人的辅助增强是目前主要结合点。目前大模型的能力主要体现在自然语言和图像的处理上,并不直接适用于生产制造环节复杂的数值计算、时序分析和实时决策等场景,应用侧重在对人的辅助增强,以对话助手(Copilot)为主要形态,结合工业软件在工业仿真、生产监控、故障排查等环节辅助人提升处理能力,如西门子与微软合作推出了Siemens Industrial Copilot。

不同行业对大模型有无共性需求?

虽然不同行业与大模型结合的进展和侧重点存在差异,但也存在三大共性需求。

一是内容生成与创意设计。主要运用大模型展现出的生成能力,包括文本生成、图像生成及代码、表格等泛文本生成能力,应用在文案制作、图表设计、代码编写等方面。

二是信息提炼与专业辅助。主要运用大模型的摘要、规划等能力,针对特定行业、场景的数据,辅助人进行专业知识的提炼、分析和加工,典型像各类智能助手。

三是任务调度与智能交互。行业对大模型的需求,更多还体现对其代理能力(Agent)的期待,希望大模型能与其他应用,甚至与现实世界的机器和设备等连通,在更广泛的范围协助进行任务调度和问题解决。

如何衡量行业大模型是否成功?

衡量行业大模型应用成功与否,是业界越来越关心的核心问题、也是普遍挑战。许多行业机构几乎不知道从何入手,更不用说有充分的应用经验来衡量成功,然而如果缺乏衡量的标准和办法,又很难充分投入技术创新和应用,容易陷入决策困境。

基于本次研究对多方的实践调研,结合国际前沿的相关探索,我们尝试总结构建出当前衡量行业大模型应用成功的2-3-1原则:避免片面追求技术性能或短期收益的2个误区,应评估降本提效、业务创新和体验增强上的3类价值,并重点构建1个高质量数据飞轮的模式。

微信图片_20240514153900.png

其中误区最容易陷入,导致大模型应用难成功。一是误将技术指标当作证明大模型成功的标准。在大模型技术快速迭代的形势下,大家容易将注意力集中在技术性能上,通过呈现指标数值的增长来反映大模型的成功,包括精度、召回率和提升率等,但这些指标远远不够。最大的问题是,技术指标的高低无法直接反映出大模型价值的大小,例如召回率从50%提升到60%,算不算成功其实很难评判。更重要的应该是关注业务指标,例如用户数、使用量、收入等,这些指标能直观反映价值,作为评判成功的标准更具说服力。可将技术指标和业务指标建立联系,用业务发展来牵引技术开发和优化,也更容易论证技术性能提升所带来的价值。二是过度看重投资收益中的短期产出部分而忽视长期投入。传统行业容易将大模型与成熟业务类似,要求明确的投入产出,甚至短期内实现正向盈利,这并不利于大模型应用的发展。大模型还在快速迭代,有大量的不确定性,比如技术突变、泡沫等,短期财务上很难有较好的表现,长期也很难评估准确。更合理的方式是将大模型作为研发或孵化项目,不强求短期的财务指标绝对值达成,转而关注业务、技术等指标的相对提升,采取广泛的组合投资策略长期持续投入才可能真正见效。

行业大模型有哪些实现方式?

主要有四种技术实现方式,从易到难分别是:提示工程、检索增强生成、精调和预训练。实际应用中这些方式通常是组合使用,以实现最佳效果,例如腾讯金融大模型,就是在混元通用大模型基础上,在预训练阶段重点加入300B token以上的金融领域语料进行二次增训,使模型对金融知识体系有完整的吸收与理解,之后再通过几十万条高质量的金融指令数据进行了精调和人类反馈强化学习,大幅提升金融专业内容生成的效率并保障质量。

微信图片_20240514153902.png

提示工程适用于刚接触大模型的企业新手,采用这种方式能以最小资源投入、快速探索应用。当然局限性也很明显,若大模型本身内含的行业数据较少,效果就会比较差。

检索增强生成适用于处理企业自有数据,通过大模型外挂知识库,更准确检索并生成知识库范围内的内容。这种方式模型本身不会调整,算力等投入就不会太大,已经成为部署行业大模型应用的主流选择,局限在于对知识库外的专业问题反馈效果有限。

精调适用于解决行业特定任务,通常是基于特定数据集局部调整模型参数,提高任务处理的效果和效率。精调是对大模型定制优化和成本投入的折中选择,算力和数据等投入明显增加,但比预训练还是低很多。

预训练适用于行业专业性较高、数据类型和任务与主流通用大模型差异较大的情况,例如生物/医药研发。这种方式投入最大,不仅需要收集大量数据,还需要对模型进行全参数训练调整,甚至从头搭建一个模型。

行业大模型如何实现负责任的部署和应用?

行业大模型的安全及治理,不仅面临通用大模型的共性问题,如可解释性、网络安全、价值对齐等,也会面临特定行业的特殊监管要求,如医疗、金融等强监管行业内存在的强制性标准等。需要以行业协同等为原则,通过AI沙盒等监管和治理创新,疏通行业大模型在数据获取、算力供给、应用拓展等方面的堵点和难点,尽量给予充分的创新、试错空间,避免超前治理、多方叠加治理等影响创新应用及时落地。

已有多个国家和地区积极试点AI监管沙盒,如欧盟在其人工智能法案中引入该机制、新加坡特别推出了面向中小企业的GenAI沙盒等。整体上,AI开发者可以向监管部门申请开展沙盒测试,与主管部门商定沙盒计划,包括可以在沙盒中受监督的现实世界条件下进行测试和应用。而监管部门将对AI企业提供指导、监管预期、监督和指导,以识别、控制潜在风险,支持AI监管沙盒的有效运作。这一机制尤其对AI领域的中小微企业和初创企业较为有利,可以显著降低合规成本。

行业大模型未来的发展方向是什么?

在“人工智能+”等重要政策指引下,行业大模型有望加速在传统行业的落地应用,在云智一体的基础设施支持下,向多模态、人工智能体、端侧及小型化等方向发展,更深入嵌入各行业的工作流程中,从而促进生产力的提升。

人工智能体(AI Agent)的发展,对行业大模型的意义可能最大。一些与工作流程深度耦合的AI Agent开始涌现,有望逐步发展成为各行各业不可或缺的新型生产力。办公领域,Microsoft 365 Copilot及其个人版Copilot Pro的推出,揭示了提高工作效率和办公自动化方面的巨大潜力;社交领域,Meta AI等产品将进一步推动内容创作和社交互动的智能化,为用户带来更加丰富多样的体验;工业领域,Levatas等工业视觉检查机器人的应用,显示了在识别、判断和维修设备方面的高度自主性;营销领域,SalesGPT等平台的出现,展示了AI Agent在感知情绪、个性化推广和客户服务中的潜力……

微信图片_20240514153904.png

随着AI应用的深入,模型的规模、类型和复杂性将不断增加,MaaS将日益成为行业用户云上用智的主流方式。用户或直接调用云的大模型API,或借助全生命周期的大模型训练工具,生成适用于自身场景的大模型,并托管在云上,为最终用户提供高质量智能服务。为此,面向AI的、更高性能的算力底座必然不可或缺,通过计算、存储、通信、训练等各层面的优化,全面提升模型训练、开发和应用效率。