生成式人工智能服务安全基本要求实务解析.docx

资源描述

《生成式人工智能服务安全基本要求实务解析.docx》由会员分享，可在线阅读，更多相关《生成式人工智能服务安全基本要求实务解析.docx（15页珍藏版）》请在优知文库上搜索。

1、生成式人工智能服务安全基本要求实务解析H2022年初以来，我国陆续发布算法推荐、深度合成与生成式人工智能服务相关的规范文件，初步构建起对特定领域人工智能技术与服务的监管机制。具体至生成式人工智能服务领域，在生成式人工智能服务管理暂行办法（以下简称“暂行办法”）的监管框架下，形成了由算法备案制度和生成式人工智能（大语言模型）备案（下称“大模型备案”）构成的“双备案制”的实践机制。算法备案制度最早在互联网信息服务算法推荐管理规定（以下简称“算法推荐规定”）中确立，企业可通过中央网信办的互联网信息服务算法备案系统提交算法备案申请，流程和备案内容细则均较为固定。而大模型备案自暂行办法施行之日起也仅有半

2、年，还需要与服务提供者开展更多有效地沟通、互动来积攒监管经验以制定明确、具体的规则，从而指引企业履行大模型备案义务，尤其是备案所需的安全评估。在此背景下，2023年10月11日，全国网络安全标准化技术委员会秘”处发布生成式人工智能服务安全基本要求（征求意见稿）（以下简称“征求意见稿”），就包含语料安全、模型安全在内的生成式人工智能服务安全的基本要求广泛征求社会公众意见。2024年3月1日，历时近半年，生成式人工智能服务安全基本要求（以下简称“基本要求”）正式发布。根据规范内容，我们理解，基本要求对暂行办法相关合规要求例如数据来源合法、内容安全等在执行规则方面的细化，并对生成式人工智能服务提供者

3、在实践中开展安全评估提供有效的路径，不仅能推动企业提高其自身的生成式人工智能服务安全能力，还可为监管部门评价特定生成式人工智能服务的安全水平提供参考标准。基于前述，本文尝试明晰基本要求的出台背景与实践定位，梳理基本要求所涉的各类安全要求，以便为相关企业遵循执行基本要求提供抓手。一、规范背景与定位1 .系对暂行办法的细化支撑，对生成式人工智能服务其他适用法律法规的增强衔接从规范效力来看，基本要求属于全国信息安全标准化技术委员会编制的技术文件，是一种旨在引导、指引生成式人工智能服务安全发展的指南类文件，而不具备强制性法律效力。但若逐一比对暂行办法除安全评估相关要求之外的通用规定（即第5-7章），可

4、以看到基本要求并非凡空中楼阁地架设额外合规义务，而是对暂行办法接近于一一对应的细化、解释，以及对于暂行规定上位法、其他监管生成式人工智能服务的法律法规的增强衔接性规定，故可以为服务提供者有的放矢落实暂行办法，在现行网络空间治理法律框架下合法合规提供生成式人工智能服务提供实践指引与监管侧重参照。基本要求与暂行办法规定的具体对应关系，可参见下表:事行办法短定语料安全语料来源安、全语料来源管理：不得使用含违法不良信息超过5%的语料语料搭配：从语言、模态、境内外来源方面提出多样性要求;来源可追溯：针对开源、自采、商业语料及使用者输入信息等不同来源语料提出可追溯要求；国家要求阻断的信息不应作为语料第四条

5、第（二）款第七条第（一）（四）（五）款第九条语料内容安全采取内容过渡措施过港违法不良信息采取知识产权保护措施：设置知识产权负货人并建立管理策略、识别语料知产侵权风险、建立投诉举报渠道等采取个人信息保护措施：取得合法性基础第四条第（三）（四）款第七条第（二）（三）（五）款第九条语料标注安全标注人员规则标注规则标注内容准确性要求隔离存储安全性标注数据第八条模型安全应使用第三方已备案模型提供服务模型生成内容安全要求：将内容安全嵌入训练目的、采取模型输入信息检测和常态化检测机制生成内容准确性生成内容可靠性第四条第（五）款第九条第十七条安全措施模型适用人群、场合、用途要求：针对向关键信息基础设施、未成年

6、人提供服务的特殊耍求服务透明度要求使用者输入信息用于训练要求内容标识义务训练、推理所采用的计算系统要求接受公众或使用者投诉举报向使用者提供服务模型更新、升级服务稔定、持续基本涵盖基行规定第三章“服务规范”要求的安全措施.故此处对具体条款不予列举。值得注意的是，除暂行规定及其上位法外，考虑到基本要求列明的参考文献还特别包括r中华人民共和国密码法商用密码管理条例以及网络信息内容生态治理规定等生成式人工智能服务通常受到规制的法律法规，故从基本要求的规定中同样可以看到对前述规范的增强衔接性规定。例如，安全措施要求之“训练、推理所采用的计算系统要求”明确提出“对系统所采用芯片宜支持基于硬件的安全启动、可

7、信启动流程及安全性验证”，即建议企业采用可信冲算芯片，并应当注意遵循密码法、商用密码相关规定。2 .大模型备案的配套指南另一方面，根据基本要求总则，除说明其旨在支撑暂行办法外，”服务提供者在按照有关要求履行备案手续时，按照本文件第9章要求进行安全评估并提交评估报告。”结合我们的备案相关项目经验，基本要求所指称的备案手续即是大模型备案，从实践中大模型备案的实践情况来看，基本要求实质上属于大模型备案的配套指引，其第9堂“安全评估要求”对备案所需安全评估应涵盖的要点进行逐一细化，第8章“其他要求”及附录A则走对于安全评估材料必备附件的细化要求。总体而言，我们理解基本要求是暂行办法等规定的有益细化补充

8、，尽管暂时不具备强制法律效力，但被法规、规章等正式法源引用或其实际内容被作为监管执法参照时，其效力也会发生转化。考虑到基本要求屈于结合大模型备案支持工作经验形成，文本成熟度较高，不排除网信部门在未来的大模型备案与生成式人工智能行政执法活动中将其作为参照性标准，这也是我国AIT治理等网络空间治理领域的常见实践。二、重点合规观察相比2023年1O月份发布的征求意见稿的内容，基本要求对生成式人工智能服务在各项安全方面的要求，提出了进一步细化的指引，同时对征求意见稿的部分内容进行了删除。如下列明了基本要求提出的重点合规要点：1 .对关键术语作出明确定义作为与暂行办法中“生成式人工智能服务提供者”定义的

9、衔接，并为了明确基本要求的适用对象，基本要求所确定的“服务提供者”为“以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人。”此前在征求意见稿中前述定义还包括了“面向我国境内公众提供服务”的前提限定，基本要求对此范围限定进行了删除，这一修订与暂行办法的整体适用范围保持一致。其次，基本要求针对“训练语料”“抽样合格率”“基础模型”“违法不良信息”等实践中可能存在争议的关键术语均进行界定，例如“训练语料”包括所有直接作为模型训练输入的数据，而无论某一训练阶段，包括在预训练或优化训练过程中的输入数据。抽样合格率需要结合基本要求附录A列明的31种安全风险样本进行占比计算。可以想见，明确上述关

10、键术语定义，也将有助于生成式人工智能服务提供者有效落实合规义务，并使得人工智能服务供应链上的多元主体（例如训练语料提供者、基础模型开发者等）在合作过程中进一步界分各方责任义务。2 .明确五类安全风险鉴于生成式人工智能本身可能无法充分理解输入与输出内容的真实内涵，且受制于模型训练数据集等技术局限性，生成式人工智能的输出内容可能存在虚假、低劣、含有偏见与歧视性质，甚至输出与人类伦理准则不相符的内容。在广泛应用下，前述违法不良信息内容更有可能对于公众的事实认知造成影响并进一步引导舆论传播。因此，对于生成式人工智能输出的内容安全治理一宜是立法与监管的“安全底线”。基本要求在附录A中列明了语料及生成内容

11、的五类主要安全风险,其中A.1类（包含违反社会主义核心价值观的内容）以及A.2类（包含歧视性内容）作为关键词库必须覆盖的安全风险类别，属于五类安全风险中风险等级较高的情况，这也与网络信息内容生态治理规定中关于违法信息种类的列举意图一脉相承。另外三类安全风险包括A.3类商业违法违规风险、A.4类侵犯他人合法权益的风险以及.5类无法满足特定服务类型的安全需求。随着数字经济的K速发展，在新经济、新业态、新模式发展中逐渐出现了利用数据与技术手段从事不正当竞争的行为，在本次基本要求列明的A.3类商业违法违规风险项下，选择纳入了“利用算法、数据、平台等优势，实施垄断和不正当竞争行为”的安全风险，与中华人民

12、共和国反不正当竞争法（修订草案征求意见稿）的立法方向进行了衔接。但是，基本要求附录A列明的五类安全风险中也存在定义模糊、在实践中可能较难理解与界定的内容，例如.3类商业违法违规风险项下的“违反商业道德”风险，A.4类侵犯他人合法权益风险项下的“危害他人身心健康”风险，以及.5类无法满足特定服务类型的安全需求风险项下的“内容不可靠”“无法对使用者形成帮助”等概念。3.合规义务清单基本要求整体从语料安全、模型安全以及生成式人工智能服务的安全措施、词库题库等维度上对服务提供者提出了一系列较为细致的合规义务，其中语料安全保障义务乂分为语料的来源安全、内容安全以及标注安全要求保障义务。同时，基本要求明确

13、列明服务提供者需要根据暂行办法开展的安全评估应当针对基本要求中第5章至第8章的每一条款形成单独的评估结果，也即为服务提供者列明了合规义务清单，该等内容主要包括：(1)语料安全要求首先，就语料来源安全而言，基本要求首先删除了征求意见稿中关于建立语料黑名单机制的要求，也即“单一来源语料内容中含违法不良信息超过5%的，应将该来源加入怨名单”，但这不代表基本要求对于语料来源包含违法不良信息的比例没有进行规定；相反,基本要求对于语料来源的管理要求新增提出了事前评估、事后核验的双重安全保障措施，即对面向特定语料来源采集前需要进行安全评估，同时采集后也需要进行二次核验，以便完全排除掉“含有违法不良信息超过5

14、%的情况，”从源头上全面避免了不良语料进入数据训练的问题。其次，延续算法推荐规定暂行办法等规定对于算法偏见、算法歧视等要求，基本要求提出需要就语料语言及语料类型进行不同语料的多语料来源的搭配，以提高语料来源的多样性，并且可以合理搭配境内外来源的语料。第三，随着人工智能在公众社会中的普及，其生成内容可能会被广泛传播、引用和使用，而当出现违法不良信息输出或输出内容侵犯权益的情况时，直接传播者可能并非单一责任主体，违法不良信息或侵权内容可能存在于语料本身。因此，语料的可溯源性一宜是保障生成式人工智能输出内容合法、安全的必要措施，也是定位输出内容责任主体、乐实信息内容安全治理责任的有效办法。基本要求针

15、对使用开源语料、自采语料、商业语料三种不同情形提出了细化规定，尤其是当服务提供者使用商业语料时，除了确保语料交易的法律效力、交易方或提供方对语料安全的承诺保障外，基本要求明确提出服务提供者同时应当对交易方或合作方所提供的语料、承诺、材料进行合规审查，这对于依赖第三方语料库的服务提供者而言为一项新增合规义务，但在服务提供者自行审核语料安全性时，应当以何种方式或者审核结果达到何种效果时方可确认某一语料的安全性，目前尚不非常明确。服务提供者可以考虑从交易方或合作方提供的基本忤而材料有效性、结合基本要求附录列明的语料及生成内容的主要安全风险清单等方面进行多方面的审核。（2）语料内容安全要求基本要求对于语料内容的安全要求，主要围绕搭建以知识产权保护为基础的策略与结构，包括应当专门设置语料以及生成内容的知识产权负责人，允许并支持第三方就语料使用情况以及相关知识产权情况进行查询的功能设置等规定。结合此前北京互联网法院审结的人工智能生成图片著作权纠纷案、广州互联网法院审结的生成式人工智能训练数据集侵权案，可以看出基本要求对于在语料内容的训练、使用以及在事后为知识产权相关权益方提供畅通的投诉与杳询通道等方面，同样继承了目前的实践监管趋势，表明了重点保护知

展开阅读全文