2023大模型可信赖研究报告.docx

资源描述

《2023大模型可信赖研究报告.docx》由会员分享，可在线阅读，更多相关《2023大模型可信赖研究报告.docx（48页珍藏版）》请在优知文库上搜索。

1、国信通院大模型可信赖研究报告（2023年）上海商汤智能科技有限公司中国信息通信研究院云计算与大数据研究所2023年12月版权声明本报告版权属于上海商汤智能科技有限公司与中国信息通信研究院，并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的，应注明“来源：上海商汤智能科技有限公司和中国信息通信研究院”。违反上述声明者，编者将追究其相关法律责任。本研究报告自2023年09月启动编制，分为前期研究、框架设计、文稿起草、征求意见和修改完善五个阶段，针对大模型可信赖问题面向大模型的技术提供方、服务应用方开展了深度访谈和调研等工作。本报告由上海商汤智能科技有限公司和中国信息通信研究院云计算与大

2、数据研究所共同撰写，撰写过程得到了人工智能关键技术和应用评测工业和信息化部重点实验室的大力支持。本报告主要贡献单位（排名不分先后）包括：蚂蚁科技集团股份有限公司、阿里巴巴集团、阿里云计算有限公司、北京百度网讯科技有限公司。前言近年来，深度学习技术取得了突破性进展，大模型作为其中的典型代表，已经在自然语言处理、图像处理、多模态应用等领域取得了令人瞩目的成果，为经济社会发展带来新机遇。但随着大模型应用规模扩大、应用场景拓展，其风险问题也逐渐凸显，如安全漏洞、隐私泄露、易受攻击、偏见歧视、侵权滥用等，如何有效防范治理大模型风险、推动大模型可信落地引起社会各界高度关注。全球各界对大模型的可信赖问题展开

3、了广泛的探索研究。在国际层面，政府间国际组织从人工智能伦理准则等基本共识出发，逐步深入推动大模型政策法规监管和产业治理实践落地。在国家层面，各主要经济体正加快推进大模型治理监管相关政策制定步伐。在产业层面,各行业机构与科技企业积极关注大模型风险，通过行业自律、技术及管理等具体实践措施推进大模型可信赖落地。本报告重点针对产业界大模型可信赖实践开展研究。首先，重点梳理了大模型发展现状，点明大模型的风险来源。其次，从大模型涉及的关键要素和可信维度出发，全面分析大模型面临的各项风险并进行整理归纳，形成大模型风险全景视图。再次，针对大模型在框架、数据、模型和生成内容等层面的风险，系统梳理了产业界保障大模

4、型可信赖的关键举措。最后，本报告指出了当前大模型可信赖发展面临的问题及挑战，从多个维度提出了参考建议。大模型与行业融合正不断加深，风险问题仍在不断暴露，相应的可信赖实践也在持续涌现。本研究报告对大模型可信赖实践的认识和理解还有待加强，报告中如有不足之处，还请各方专家读者不吝指正。一、大模型发展现状1（一）大模型驱动新一轮科技革命1（二）大模型加速赋能产业应用1（三）大模型可信赖备受关注3二、大模型风险分析7（一）大模型风险视图7（二）框架层面，软件漏洞是现有深度学习框架短板8（三）数据层面，隐私风险与有害数据导致模型不可靠9（四）模型层面，提示词攻击诱发模型脆弱性风险11（五）生成内容层面，安

5、全风险和不可追溯是重点难题14三、大模型可信赖实践17（一）框架层面，可信框架与执行环境保障运行安全17（二）数据层面，安全检测及处理助力大模型可靠19（三）模型层面，全流程防控增强大模型可信21（四）生成内容层面，过滤与标识实现内容可控可问责25四、总结与展望27（一）总结27（二）展望28附录31可信赖实践案例1:商汤科技SenseTrust可信AI基础设施31可信赖实践案例2：蚂蚁集团蚁鉴2.0-AI安全检测平台35可信赖实践案例3：阿里巴巴生成式人工智能发展与治理探索37可信赖实践案例4：百度大模型安全解决方案40图目录图12023年企业大模型可信赖实践汇总7图2大模型可信赖实践方案8

6、图3微软“BingChat”提示泄露事件12图4大模型健壮性风险13图5大模型预训练阶段的长尾问题14图6数据安全沙箱技术20图7商汤伦理风险分类分级管理评估22图8思维链技术24图9大模型“机器+人工”内容审核机制27图10数字水印技术流程图27图1LSenseTrust商汤可信Al基础设施31图12蚁鉴2.0-AI安全检测平台35图13阿里巴巴生成式AI治理实践及探索概览37图14百度大模型安全解决方案40图15百度大模型内容安全与评测体系41一、大模型发展现状（一）大模型驱动新一轮科技革命近十余年间，人工智能技术泛化能力、创新能力及应用效能不断提升，成为了推动经济及社会发展的重要引擎。2

7、015年前后，人脸识别算法达到接近人眼的识别能力，被视为人工智能技术工业级应用水平的代表性事件。2022年，以ChatGPT为代表的大模型为用户带来了全新交互体验。通过其在内容生成、文本转化和逻辑推理等任务下的高效、易操作表现，大模型正逐步成为当前主流应用程序的重要组成部分。随着数据、算法和算力的不断突破，大模型将不断优化演进。在数据方面，海量、多模态数据将持续应用于大模型预训练，提升大模型的知识、理解和推理能力。在算法方面，将转向跨知识领域、跨语种、多模态特征的海量知识挖掘及执行等复杂任务的处理。在算力方面，智算中心及算力网络等基础设施加速建设，为大模型的开发和服务提供充足性能支持。到202

8、6年，Gartner预测超过80%的企业将使用生成式人工智能的APl或模型，或在生产环境中部署支持大模型应用。以通用智能体、具身智能和类脑智能等为代表的大模型应用可能会带来新一轮的科技革命和产业变革。（二）大模型加速赋能产业应用“大模型+”模式加速应用赋能，助推人工智能产业升级。当前,人工智能已经成为全球新兴技术领域的核心竞争力，各国政府加快研发、部署人工智能技术，推动产业高速发展。据统计I,我国人工智能核心产业规模已达5(X)0亿美元，企业数量超过4300家。2023年始，我国大模型市场火爆，百度、商汤科技、科大讯飞、阿里巴巴等单位先后发布自研大模型，并于2023年下半年逐步面向用户提供服务

9、。大模型广泛应用于能源、金融、教育、医疗、交通、政务等领域，主要应用场景聚焦数据分析、客服、营销、办公等。其中，以能源、金融为首的两大行业结合行业数据建设基础，积极布局大模型应用落地，加速行业智能化转型。大模型技术生态逐步完善，大幅降低行业应用门槛。一方面，开源大模型加速大模型应用渗透，打通预训练、微调、部署、评测等开发阶段，进一步降低大模型研发应用成本。2023年7月，上海人工智能实验室正式开源了书生浦语大模型70亿参数的轻量级版本IntemLM-7B,并推出首个面向大模型研发与应用的全链条开源体系，同时提供免费商用，受到了学术和产业界的广泛关注。同年7月，OPenAl向用户正式开放了代码解

10、析插件CodeInterpreter,使得ChatGPT和GPT-4可以根据用户问题来编写和执行代码，从而拓展了模型在数据分析、复杂计算与功能调用方面的能力。另一方面，大模型正在逐步向智能体方向进化，从理解生成迈向复杂任务处理能力。通过将大模型与动作执行器结合，智能体可以在接受用户输入后，通过大模型进行规划和决策，并对第三方插件或工具进行调用，从而实现复杂的任务处理能力，进一步降低了应用门槛。（三）大模型可信赖备受关注大模型在快速发展的同时也带来了一系列潜在的风险和挑战。一方面，大模型所需的海量数据、复杂参数以及工程难度放大了人工智能固有的技术风险，如数据窃取、泄露等安全问题，模型黑盒导致决策

11、结果难预测和难解释问题，以及模型面对随机扰动和恶意攻击的鲁棒性问题。另一方面，大模型的多场景通用性也放大了隐私风险、歧视风险和滥用风险等应用风险。这些问题引发了全球范围的关注，对人工智能治理能力与治理水平提出了新的挑战。目前，全球大模型治理正处于探索阶段，从人工智能伦理准则等基本共识出发，逐步深入推动大模型监管政策法规和企业治理落地实践。国际组织积极制定人工智能治理原则及倡议，重点关注大模型的治理和监管问题。在政策方面，2021年11月，联合国教科文组织通过了人工智能伦理问题建议书，旨在促使人工智能系统造福人类、社会、环境和生态系统、防止危害，同时促进和平利用人工智能系统。2023年6月，联合

12、国秘书长安东尼奥古特雷斯明确提出计划在今年年底建立一个国际人工智能监管机构，定期审查人工智能治理工作。2023年11月，在英国人工智能安全峰会期间，包括中国、美国、英国等28个国家和欧盟共同签署了布莱切利宣言，确保人工智能以人为本、值得信赖并负责任，通过国际伦理和其他相关倡议促进合作，应用人工智能带来的广泛风险。同年11月，世界互联网大会发布了发展负责任的生成式人工智能研究报告及共识文件，就发展负责任的生成式人工智能提出十条共识。在标准方面，ISO/IECJTCl/SC42人工智能分委会正在开展人工智能可信赖国际标准研制工作，为指导利益相关方研发、使用可信赖人工智能相关技术和系统提供参考，主要

13、标准包括ISO/IECTR24028:2020人工智能的可信赖概述、ISO/IEC38507:2022组织使用人工智能的治理影响等。全球主要经济体加快推进大模型治理和监管相关政策制定步伐。中国在人工智能监管方面主张“包容审慎的分类分级监管”原则，国家网信办已于2023年7月10日颁布了首部面向大模型监管的生成式人工智能服务管理暂行办法，后续将进一步针对生成式人工智能技术特点及其在有关行业和领域的服务应用，制定相应的分类分级监管规则或指引。2023年10月8日，中国科技部发布科技伦理审查办法（试行），提出从事人工智能科技活动的单位，研究内容涉及科技伦理敏感领域的，应设立科技伦理（审查）委员会，并

14、建立伦理高风险科技活动的清单制度，对可能产生较大伦理风险挑战的新兴科技活动实施清单管理。2023年10月18H,国家网信办发布全球人工智能治理倡议，提出发展人工智能应坚持相互尊重、平等互利的原则，各国无论大小、强弱，无论社会制度如何，都有平等发展和利用人工智能的权利。在标准方面，中国信息通信研究院已经启动大规模预训练模型技术和应用评估方法系列标准研制的工作，全面覆盖大模型的开发、部署和应用环节，其中第四部分可信要求是目前国内首项针对大模型领域的可信赖标准。与此同时，全国信息安全标准化技术委员会已经启动包括信息安全技术生成式人工智能服务安全基本要求在内的三项生成式人工智能安全国家标准编制工作，以

15、支撑大模型的监管落地。欧盟现行人工智能立法仍主要集中在传统人工智能，但已经开始关注通用人工智能以及生成式人工智能的问题，主张尊重人格尊严、个人自由和保护数据及隐私安全。2023年6月14日，欧洲议会投票通过人工智能法案，该法案基于风险等级将人工智能系统分成四类，并制定了不同程度的监管要求。该法案提出生成式人工智能系统通常属于有限风险的人工智能系统，需遵守最低限度的透明度义务，但可能会因其适用的领域和生成的内容而落入高风险人工智能系统的范畴，并明确了通用人工智能、生成式人工智能以及基础模型提供者等不同主体的合规义务。为配合法案落地，欧洲电信标准化协会(ETSl)正在计划将人工智能安全工作组重组为人工智能安全技术委员会，进一步加强法案配套标准的研制工作。美国主张监管需以促进人工智能负责任的创新为目标，应通过监管和非监管措施减少人工智能开发和部署的不必要障碍，同时保护美国的技术、经济和国家安全、公民自由、人权、法治、隐私和尊重知识产权等核心价值观。2023年5月13日，美国白宫总统科技顾问委员会(PCAST)成立生成式人工智能工作组，以帮助评估关键机遇和风险，并就如何更好地确保这些技术的开发和部署尽可能公平、负责任和安全提供意见。2023年10月30日，美国总统拜登签署人工智能行政令，旨在加强对人工智能潜在风险的监管，发展安全、可靠和值得信赖的人工智能，促进人工

展开阅读全文