2024自然语言处理的隐私政策自动表述研究.docx

上传人:王** 文档编号:1270439 上传时间:2024-06-06 格式:DOCX 页数:22 大小:141.60KB
下载 相关 举报
2024自然语言处理的隐私政策自动表述研究.docx_第1页
第1页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第2页
第2页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第3页
第3页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第4页
第4页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第5页
第5页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第6页
第6页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第7页
第7页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第8页
第8页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第9页
第9页 / 共22页
2024自然语言处理的隐私政策自动表述研究.docx_第10页
第10页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2024自然语言处理的隐私政策自动表述研究.docx》由会员分享,可在线阅读,更多相关《2024自然语言处理的隐私政策自动表述研究.docx(22页珍藏版)》请在优知文库上搜索。

1、自然语言处理的隐私政策自动表述研究目录序言V1简介12工作流程32.1 数据集42.2 数据标注52.3 模型训练73在线检测工具113.1 隐私政策自动表述工具113.2 隐私政策图形化表示124实验结果134.1 虚假隐私政策检测134.2 隐私政策完整性检测134.3 隐私政策的内容分布和完整性评分145总结17参考文献19A附录21隐私政策的自动化表述是隐私政策自动化检测的基础,表述结果可用于虚假隐私政策检测、隐私政策完整性检测等方面。本文针对中文语言的特点,采用众包任务的方式对隐私政策进行标注,创建了目前为止笫一个中文隐私条款训练集。使用自然语言处理技术实现了隐私政策的自动化表述工具

2、,工具的分类模型准确率达到90%。使用该工具,我们对来自华为应用市场的1,500份中文隐私政策进行了检测,检测结果表明38.5%的隐私政策为虚假隐私政策,剩余合法的隐私政策中,92.5%的隐私政策在完整性方面不符合自评估指南的要求。在隐私政策自动表述的基础上,设计了一种隐私政策打分方法,实验结果表明大部分隐私政策的得分位于低分数区间内。Chapter 1简介移动应用快速发展的同时,带来了一些安全问题。移动设备做为隐私集中地,需要确保其承载的隐私信息不被移动应用滥用。为保护用户隐私,欧盟出台了GeneralDataProtectionRegulation14(以下简称GDPR),落实了数据控制者

3、(APP运营者)处理数据主体(用户)信息的规则和数据主体应当享有的权利等规定。GDPR第29条工作组还特别强调,数据控制者的应用程序应该以分层的隐私声明或通知的方式向数据主体提供隐私信息(即隐私政策)相关的链接,而不是在设备上以单一通知的形式展示此类信息。国内也对隐私问题制定了一系列的技术规范和标准。包括:App违法违规收集使用个人信息自评估指南(以下简称自评估指南)、GB/T35273信息安全技术个人信息安全规范(以下简称“安全规范)和信息安全技术移动互联网应用程序(App)收集个人信息基本规范(以下简称“基本规范),从隐私政策文本、收集使用个人信息行为、用户权利保障等角度对隐私政策进行了规

4、范。欧盟的GDPR,国内的技术规范和标准都对隐私政策都提出了相关要求。隐私政策的目的是为了向用户说明个人信息如何被收集、使用和共享等数据实践,同时也对厂商起到约束作用,隐私政策通常可以通过链接访问的方式查看。根据MCDOnaki等人7的估计,如果认真阅读每一份隐私政策,那么身在美国的用户每年需要为此花费201个小时。我们的统计也表明,中文隐私政策平均包含138句话,用户也需要为阅读一份隐私政策花费大量的时间。隐私政策过长的篇幅、专业的内容等现实原因导致许多用户不愿意去阅读或无法直观的理解隐私政策的内容,在对内容不了解的情况下,大多直接选择接受应用的隐私政策,在这种情况下,用户对于个人信息的处理

5、并不知情。如应用ZAo在其隐私政策中声明的:在您上传谶发布用户内容以前,您同意或者确保实际权利人同意授予ZAC)及其关联公司以及ZAo用户全球范围内完全免费、不可撤销、永久、可转授权和可再许可的权利被大多数用户忽略。针对这种现状,现有的法规/标准都对隐私政策提出了清晰易懂的要求,也有相关工作试图标准化隐私政策10,3,5,16。另外还有一些隐私政策自动化表述的研究工作来解决用户阅读隐私政策困难的问题。如针对英文,PO1.ISIS等工具使用众包任务对数据进行标注、使用自然语言处理技术自动从隐私政策中提取数据实践内容15,4;C1.AUDETTE2使用了机器学习方法来自动检测不公平条款。本文研究中

6、文隐私政策的自动表述,用于定位一份隐私政策中的相关内容,在此基础上,检测虚假隐私政策,检测隐私政策的完整性。基于自动化表述的结果,我们设计了一种评分方法为隐私政策打分。Chapter 2工作流程为了实现隐私政策的自动化表述,使用众包任务方式对数据进行标注,使用自然语言处理技术识别隐私政策中的相关条款。在模型建立阶段,采用众包任务方式,根据逐步优化的分类标准标注隐私政策以建立训练数据集,然后使用数据集训练分类模型,在对朴素贝叶斯、支持向量机、卷积神经网络三种分类方法比较的基础上,最终使用支持向量机对数据集进行分类;在线检测阶段中,通过分类模型对隐私政策内容进行分类,根据分类结果对隐私政策内容进行

7、分析。具体的工作流程如图21所示。Figure2.1:隐私政策自动表述流程2.1数据集隐私政策可以通过多种渠道采集,如搜索引擎、应用市场等。应用市场为开发者分发应用时,为开发者提供设置隐私政策链接的接口。用户在通过应用市场浏览应用时,可以通过该链接查看开发者设置的隐私政策,如图2.2所示。相比其他渠道的隐私政策,应用市场的隐私政策与移动应用紧密相关,因此质量较高。因为这些隐私政策属于公开信息,所以我们设计了针对移动应用市场的爬虫来获取这些隐私政策。具体来讲,本研究中的数据集为来源于华为应用市场的隐私政策。无服务第卜。Bt84XHftK6S应用详情Q介的评论51387)推券58RIWHannSW

8、住小安装安装安装安装安装咫开发者的其他应用支付宝Alipay(HangztxMj)TechnologyCo.1.tdmr支付TW打开开发者支忖宝(杭州)18技术有限公SI|隐私政策新版变化上次购新时间:2Q19年10月21日支付宝新版来IK1本次更新:多项性嵯优化,启动更快,体验更流圜读更多内容开发者联系信息网站B电子邮件suchang.sc应用权限检,出此应用我取12个轴感玲和权跟:(八)华为应用市场的隐私政策I黄私权政第与此庆用相关的应用/海戏(b)谷歌应用的市场隐私政策Figure2.2:应用市场中的隐私政策为形成训练数据集,我们对从华为应用市场中提取的覆盖17种应用类型(包括影音娱乐、

9、实用工具、社交通讯等)的100个热门应用的隐私政策进行了标注。接下来在2019年11月23日至2019年11月28日期间,通过持续对华为应用市场进行监控,我们爬取了1500份隐私政策用于检测。基于100篇隐私政策统计发现,平均每篇隐私政策包含138句话。隐私协议中句子数量的分布如图2.3所示,其中5%的隐私政策长度小于50句话,9%的隐私政策长度大于200句话,隐私政策长度呈现一定的差异性。200Figure2.3:隐私政策长度分布2.2 数据标注为形成训练用数据集,使用逐步优化的方法确定了标注标准、采用众包任务的方式对数据进行了标注,最终建立了带标签的数据集。该数据集是迄今为止第一个中文隐私

10、条款训练数据集。标注标准确定:当前法规/规范/标准比较多,包括GDPR、自评估指南等。这些文件从不同的角度对隐私政策提出要求,如“自评估指南从宏观的角度要求APP运营者在隐私政策文本中清晰说明个人信息规则和用户权益保障,与此同时,又从微观上对细节提出了要求,如要求APP运营者提供基本信息、个人信息安全保护措施和能力等。为尽量覆盖这些文件的要求,需要建立一个可扩展的标注标准,我们借鉴Poli-Sis15,4的方法对隐私政策内容进行了划分,结合隐私政策进行标注过程的反馈反复进行修正,最终形成类别-属性-值层次结构的标注标准。该标注标准包含7个类别,50个属性,91个值1,部分分类标准如图2.4所示

11、。分类标准中的类别代表数据控制者的数据实践内容,如:第一方收集/使用、与第三方共享/转让/公开等,分别用First-Party-Collect-UseThird-Party-Share等标不力三方朗内,三方*m事件(events)和属性(attributes),其中的属性绑定了一组值(VahIeS)供标注任务选择。我们利用了BRaT工具中的实体、属性和值字段,分别对应标注标准中的类别、属性和值字段,在此基础上,形成了如图2.5所示的在线标注工具。Figure2.5:在线标注工具标注过程:标注过程以众包任务的方式进行,招募的10名学生全部来自于法律相关专业,在确保标注者充分理解分类标准的基础上,

12、对其开放在线标注工具入口以对隐私政策进行标注。对标注有疑问的内容都经过了充分的讨论,最终通过调整标注标准或者放弃标注等方式解决。对于每一个标签我们支付了0.4元的报酬,整个标注过程历时90天。我们通过检验数据标注的一致性,证明数据标注内容是可信的。该过程最终形成了包含100篇隐私政策的数据集2。参考了OPP-Il515】的命名方法,我们将该数据集命名为Chinese-OPP-100,该数据集中共包含11,440个类别和属性标签。数据处理:通过BRaT标注的结果以ann文件格式进行存储,如图2.6所示。ann文件中包括所标注文本内容在隐私政策文件中的范围,所标注的类别、属性和值,每一个标签的内部

13、编号等信息。在标注过程中,由于标签可能标注在关键词上,而分类器以句子为单位接收数据,因此将ann文件的内容以句子为单位进行标签合并,即如果标注内容在隐私政策中某一句话的范围内,则将其对应的类别、属性和值赋于这一句话。号类别范囹内容TlOFirst-Party-,COlIoctTJse15611579在您注易支付宝Q或使用支付宝务时编号属性编号值AlOFirst-Party-ColIect-Use-Collect-TiBingTlOMecificFigure2.6:ann格式文件内容标注数据集按类别统计结果如表2.1所示。表2.1为7个类别中每个类别的标签数量,以及它们在每篇隐私政策中的均值和中

14、位数,直观上的观察发现类别在每篇隐私政策中分布不均,FirSt-Party-ConeCt-USe在隐私政策中占比较高,说明第一方收集/使用个人信息是隐私政策中相对重要的内容。2.3 模型训练为能自动化表述隐私政策的类别,采用机器学习、深度学习技术对隐私政策进行分类,具体包括特征提取和模型构建工作。特征提取的目的是提取隐私政策内容的特征,将特征转化为模型可识别的格式。采用朴素贝叶斯、支持向量机、卷积神经网络三种技术构建多标签分类模型,并对分类模型进行评估。针对数据存在不均衡问题,使用惩罚学习算法。0httpstaticdataChina-OPP-lOO-Crowdsourcing-Project-dataset.zipTable2.1:标注数据集类别统计类别(用标签表示)出现次

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 论文 > 毕业论文

copyright@ 2008-2023 yzwku网站版权所有

经营许可证编号:宁ICP备2022001189号-2

本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!