《人工智能隐私保护白皮书_市场营销策划_重点报告202301202_doc.docx》由会员分享,可在线阅读,更多相关《人工智能隐私保护白皮书_市场营销策划_重点报告202301202_doc.docx(46页珍藏版)》请在优知文库上搜索。
1、中国联通China Unieom中国联通人工智能隐私保护白皮书中国联通研究院中国联通网络安全研究院下一代互联网宽带业务应用国家工程研究中心2023年11月版权声明本白皮书版权属于中国联合网络通信有限公司研究院,并受法律保护。转载、摘编或利用其他方式使用本报告文字或者观点的,应注明“来源:中国联通研究院”。违反上述声明者,本院将追究其相关法律责任。目录前言1-人工智能全生命周期隐私风险分析31.1 人工智能通用隐私风险41.1.1 数据采集存储流通阶段隐私风险41.1.2 模型训练与推理阶段隐私风险61.2 生成式人工智能隐私风险9二人工智能隐私保护法规政策和标准化现状102.1人工智能隐私保护
2、国内外法律法规和政策102.1.1国内情况102.1.2国外情况132.2人工智能隐私保护国内外相关标准化情况191 .2.1国内相关标准研究情况192 .2.2国外相关标准研究情况21三人工智能隐私保护技术和平台223.1 人工智能隐私保护技术233.1.1 人工智能隐私保护管控技术233.1.2 人工智能隐私保护数据加密技术233.1.3 人工智能隐私保护攻击防御技术253.1.4 人工智能隐私保护新兴技术263.2 人工智能隐私保护平台30四人工智能隐私保护建议314.1 建立健全的人工智能隐私保护合规监管机制314.2 加强可操作的人工智能隐私保护标准建设324.3 3构建全周期的人工
3、智能隐私保护体系334.4 发展多维度的人工智能隐私保护技术354.5 培养复合型的人工智能隐私保护人才364.6 6构建负责任的人工智能隐私保护生态37参考文献37刖百人工智能(ArtificialIntelIigence,简称AI)作为战略性新兴产业,作为新的增长引擎,日益成为科技创新、产业升级和生产力提升的重要驱动力量。生成式人工智能工具、人脸识别、智能工厂、智慧城市等人工智能技术现已广泛落地,这些令人难以置信的技术正在快速改变人们的生活,对经济社会发展和人类文明进步产生深远影响。与此同时,人工智能技术也带来难以预知的各种风险和复杂挑战,潜在的滥用对以前被认为是不可侵犯的个人敏感信息构成
4、了前所未有的威胁,技术自身缺陷导致智能决策在多个领域存在不确定性和敏感信息泄露,系统被非法控制导致个人隐私被未授权的第三方获取和推理。因此,人工智能技术引发的隐私与安全问题已经成为时下的关注话题,也是当前人工智能领域所面临的最大挑战之一。为了更好的推动新一代人工智能安全发展,让人工智能用的放心,各国政府和企业越来越重视人工智能隐私保护。人工智能隐私保护指的是在数据采集存储和数据使用共享,模型训练以及模型推理应用的全生命周期过程中有效的保护用户数据隐私不泄漏,不被未授权第三方获取或推理。因此,在人工智能处理大量个人数据和敏感信息的过程中,如何加强数据隐私管控;在人工智能训练过程中,如何保证数据质
5、量,避免原始数据隐私泄露;在人工智能推理应用过程中,如何防御攻击引起的数据隐私推理,如何保护模型保密性与完整性日渐成为国际人工智能的重要议题。本白皮书从人工智能隐私保护的内涵出发,从人工智能全生命周期系统梳理人工智能通用隐私风险和生成式人工智能隐私风险。在此基础上,总结了国内外人工智能隐私保护法规政策标准化现状。然后分析了人工智能隐私保护技术和平台,包括管控技术、数据加密技术、攻击防御技术、隐私保护机器学习平台和人工智能安全检测平台等。最后以技术发展和隐私保护并重为原则,研究提出了多维度、负责任的人工智能隐私保护实施建议,让下一代人工智能用的放心。本白皮书由中国联通研究院主笔,中国联通集团网络
6、与信息安全部、中国软件评测中心(工业和信息化部软件与集成电路促进中心)、数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会、三六零数字安全科技集团有限公司、中兴通讯股份有限公司联合编写。编写组成员(排名不分先后):总策划:苗守野、李浩宇、叶晓煜编委会:徐雷、陶冶、李慧芳、孙艺、陈泱、曹咪、傅瑜、唐刚、张德馨、白利芳、李尤、林青、杨晓琪、黄英男、李泽村、唐会芳、王雨薇、王继刚、陈靖-人工智能全生命周期隐私风险分析在智能化变革的今天,技术的发展和变化都会对人们的生活带来空前的改变,互联网和大数据等相关技术的更迭加速了人工智能应用的步伐,使得人们的生产生活方
7、式悄然的有了新的活力。技术的发展给社会带来机会的同时也同样不能忽略它的弊端和随之带来的一系列负面影响,尤其在今天这样无隐私的透明化的时代,人们在让渡出自己的部分权利来交换智能应用所带来的便利服务时,隐私泄露是人们必须要直面的问题。最近几年,有关隐私受到侵犯的案件一再发生。例如,Facebook未经用户允许将用户个人信息泄露给剑桥分析公司用于非正当目的,同时其利用网民的浏览行为来精准的投放广告,剑桥大学心理测量学中心从用户对哪些帖子和新闻进行阅读和点赞,来分析出每个人的性别、性取向、个性外向还是内向等,美食外卖企业“饿了么”、“大众点评”、“美团”会利用算法推送一些推荐食物和餐馆帮用户做出饮食决
8、定,自动驾驶技术让人们可以轻松的出行,高德地图、百度地图等智能导航系统减少了人们寻找路线的时间和精力,ChatGPT和其他生成式人工智能工具可以提高用户交互体验、提高员工的创作和办公效率,但这些信息都以数据的形式存储了下来,并被企业或其他主体收集和利用,一些智能手机应用甚至过度的收集并违规使用个人信息,使得个人隐私信息面临被泄露或被窃取的风险。可以看到人工智能的普及与滥用使其面临越来越多的隐私与安全威胁,社会各界也逐渐加大了对隐私风险的分析和隐私保护的关注度。从隐私保护角度,数据隐私性、模型保密性、模型完整可用性是用户和服务提供商最为关心的问题。因此,本章将先从数据、模型这两个不同的方面来揭示
9、人工智能面临的通用隐私威胁。同时,由于生成式人工智能(GeneratiVeArtificiaIInteIIigence,简称生成式Al)技术的快速发展和应用给人们带来了巨大的想象空间,但也增加了新的Al隐私风险,本章还将对生成式人工智能隐私风险进行揭示。1.1 人工智能通用隐私风险1.1.1 数据采集存储流通阶段隐私风险数据不正当收集风险。人工智能算法尤其是在深度学习的开发测试过程中,需要大量训练数据作为机器学习资料、进行系统性能测试。在网上公开数据源和商务采购时,由于目前数据共享、交易和流通的市场化机制不健全,存在非法数据、买卖数据、暗网数据等不正当收集行为和一些未经授权的收集行为,这些数据
10、缺乏用户知情同意,实际并没有获得数据的采集权限,很容易泄露用户隐私。数据过度收集风险。在无人驾驶、智能家居、智慧城市等典型应用场景中,数据主要通过在公开环境中部署各类传感器或终端,并以环境信息为对象进行无差别、不定向的现场实时采集。现场采集由于难以提前预知采集的数据对象和数据类型,因此,在公开环境尤其是公共空间进行现场采集时,将不可避免地因采集范围的扩大化而带来过度采集问题。比如,在智能网联汽车的无人驾驶场景中,自动驾驶汽车的传感器需要采集街景数据来支持智能驾驶系统的决策从而控制汽车行驶,但是这种无差别的街景数据采集必然会采集到行人的个人数据,其中包括行人的人脸数据等个人敏感信息,造成行人的隐
11、私泄露风险,甚至还可能会采集到路边的重要基础设施、地理位置信息、军事营区等重要数据,给国家安全带来风险。数据存储隐私泄露风险。一方面,在对数据进行保存时,如果没有对数据采取技术手段进行安全防护,容易被非法需求者通过网络攻击等黑客行为进行隐私数据窃取。另一方面,在数据存储过程中,由于对数据没有明确的隐私界定与标注,如果使用者无意中将涉及隐私的数据用于公开的人工智能训练分析中,个人隐私将在不经意间被泄露。再另一方面,在人工智能数据处理使用的过程中,涉及众多数据处理、保存步骤,对于种类多、数据量大的数据集,处理、保存操作难以规范与监管,潜藏被非法使用者利用、拷贝等安全隐患。数据流通隐私泄露风险。由于
12、大量人工智能企业会委托第三方公司或采用众包的方式实现海量数据的采集、标注、分析和算法优化,数据将会在供应链的各个主体之间形成复杂、实时的交互流通,可能会因为各主体数据安全能力的参差不齐,产生数据泄露或滥用的风险。此外,在全球数字经济发展不均衡的大背景下,大型科技巨头将人工智能的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家,数据跨境流动的场景也会对国家安全和个人信息保护造成不可控的隐私风险。1.1.2 模型训练与推理阶段隐私风险(1)模型训练阶段数据污染风险数据污染有失数据真实性。人工智能模型依赖海量数据,相比数据集大小,研发工程师更关注数据质量。知名学者吴恩达提
13、出u80%的数据+20%的模型二更好的机器学习”,而数据污染和错误将降低模型精度,数据偏差和噪声将降低模型的泛化性和可靠性。数据是连接现实空间和虚拟空间的桥梁,如果数据质量出现问题,如数据内容失真、数据标注错误、数据多样性有限,则无法反映现实世界的真实情况,在此基础上建立的人工智能模型便会出现偏差,导致预测结果偏差或错误,甚至导致种族歧视或者性别歧视偏见,出现“垃圾进、垃圾出”的现象。如今的生成式Al模型也因静态数据的时效性,导致生成内容存在过时或者错误现象。数据投毒攻击风险。数据投毒是指通过在训练数据集中故意添加污染数据(如错误样本或恶意样本),导致训练出来的模型在决策时发生偏差,从而影响模
14、型的完整性或可用性。人工智能模型在训练过程中容易受到数据投毒攻击,攻击者可以通过实施标签翻转或添加后门等恶意行为来破坏训练数据的正确性。从而破坏模型决策的正确性。近年来,对人工智能模型的数据投毒问题已使得多个世界知名公司遭受重大负面影响,并造成了十分严重的后果。例如:美国亚马逊公司因其Alexa智能音箱学习了网络不良信息,发生了引导用户自杀的恶意行为。因此,训练数据的正确性问题已成为阻碍人工智能发展的重大问题。(2)模型推理应用阶段隐私风险隐私被推理风险。人工智能模型推理产生的信息可能会间接暴露用户隐私。一方面,在对数据进行深度挖掘与分析时,所得到的结果数据可能将用户的个人隐私一并挖掘出来,并
15、进一步进行数据应用,从而使数据中隐藏的个人隐私信息进行暴露。另一方面,在对去标识化的个人信息和行为模式进行融合和关联分析时,可能推理出与个人隐私相关的信息,比如政治倾向、财务状况等。成员推理攻击风险。成员推断攻击是一种数据隐私攻击方法,该攻击通过判断输入数据是否是目标模型的训练数据来达到攻击效果。具体来说,攻击者不需要获取模型结构、模型参数、训练方法等,只需要向模型输入数据,从模型输出的置信度即可判断该输入是否为训练集中的数据。尤其对于过拟合模型,训练集数据与非训练集数据的置信度表现会有明显差异,如果目标攻击模型使用了个人敏感信息进行模型训练,成员推理攻击就会造成模型训练集中这部分敏感数据的泄
16、漏。模型逆向攻击风险。模型逆向攻击是一种通过还原训练数据造成数据隐私泄漏的攻击方法。攻击者可以在没有训练数据的情况下,通过模型输出的置信度不断调整输入数据,最终近似获得训练集中的数据。这一攻击如果使用在人脸识别系统、指纹识别系统等,则会造成用户生物识别信息的泄漏,例如随机构建一张图片,人脸识别模型给出用户名与置信度,结合置信度不断调整图片,最终就有可能将训练集中的人脸恢复出来。模型提取攻击风险。模型提取攻击是一种可以造成模型保密性被破坏与知识产权被侵犯的攻击方法。该攻击通过模型预测结果反推模型具体参数和结构,以达到训练出一个与目标模型相似度极高的模型的过程。企业训练一个机器学习模型往往要花费大量金钱,投入大量人力,通过模型提取攻击,攻击者可以在对模型不