《大数据时代下网络爬虫行为的刑法规制.docx》由会员分享,可在线阅读,更多相关《大数据时代下网络爬虫行为的刑法规制.docx(10页珍藏版)》请在优知文库上搜索。
1、趣居时代下醛爬行fl删;规制O引言大数据时代的到来,不同网络平台之间的信息数据交互己成为网络运作的核心,网络爬虫技术在查询、收集信息过程中的重要性日益凸显。网络爬虫在本质上属于一种计算机程序或脚本,能够按照程序编写者预设的触发条件,自动且高效地访问、下载、解析目标计算机信息系统中的数据。它能从广度和深度两个角度来循环遍历链接地址,直到事先设定好的地址全部遍历完为止。这一技术不仅给企业、公民个人精准搜集信息带来极大便利,还在监控、大数据挖掘、检测等各个领域都有广泛的应用。不过,网络爬虫行为作为很多数据类犯罪的上游手段,为犯罪创造了诸多条件,可以说是数据遭受侵害的起源,理应对其进行有效的刑事规制。
2、1大数据中网络爬虫行为的刑事风险分析通过中国裁判文书网,以“爬虫”为关键词进行检索。截至2023年8月1日,共有589篇相关文书,其中刑事案由共有83份,其中主要涉及的罪名分别是破坏、侵入计算机信息系统罪、非法获取计算机信息系统数据罪、侵犯公民个人信息罪、侵犯著作权罪。根据爬虫技术在运行过程中的各个环节,可以将其分为访问行为、抓取行为以及提供行为。根据目前司法实践公开的判例,从法益与行为两个维度进行风险分析,可以窥见爬虫行为的各个环节可能招致的刑事风险。1.l以数据为载体的法益维度分析1.1.1 侵犯著作权以数据为载体的作品,是著作权保护的对象。虽然数据是描述客观事物的数字、字符以及所有能输入
3、到计算机中并能为计算机所接受的符号集,本身不具有独创性。但是以数据为载体的、能够反映信息的网络作品应当受到著作权保护。以搜索引擎为例,它的运行核心在于:利用爬虫技术将其他网站的网络作品抓取并储存于自己的服务器中,使用户在搜索相关内容时,能够直接在自己的网站中获取到其他网站的信息。这种行为也被叫作网页快照。用户能够直接在该搜索引擎中浏览到其他网页界面的实质性内容,并且无法知悉作品的来源。所以在未得到授权的情况下,抓取他人的网络作品并复制于自己的服务器中的行为,会侵害著作权人的复制权。更甚者,将抓取的网络作品进行擅自传播或提供,则会对权利人的网络传播权造成无法挽回的侵害。1.1.2 侵犯个人信息刑
4、法应该直接采用个人信息保护法对个人信息的分类方案1:一是具有可识别性。即通过该信息己识别或者可识别特定自然人。二是属于有效的信息。信息必须有效,这是定罪时不能忽略的硬性要求。对信息没有进行匿名化处理,但不能对应到具体公民的不属于本罪的个人信息。三是对某些信息突显与个人行动自由的关联性,弱化可识别性。例如,公民的行踪轨迹等信息,由于与特定个人的行动自由、生命身体安全有紧密关联,侵犯该等信息的入罪标准非常低。除了明确个人信息本身的特征以外,权利人的信息自决权是更重要的判断维度。换言之,如果爬虫在未取得用户授权时对个人信息进行获取,则会有入罪的风险。1.1.3 侵犯商业秘密商业秘密,是指不为公众所知
5、悉,具有商业价值,并经权利人采取相应保密措施的技术信息、经营信息等商业信息2。但是自2019年的反不正当竞争法修改后,商业秘密的范畴也就不再仅限于技术信息与经营信息了。只要其属于商业活动中具备秘密性、保密性、价值性、合法性的信息,就应当作为商业秘密进行保护,那么刑法的规制范畴也应当同步扩张。即当爬虫行为破坏企业设置的保密措施或者是对保护机制进行绕行时,侵犯了具备以上四个特性的商业信息,则可能构成侵犯商业秘密罪。1.2以犯罪构成要件中的行为维度分析1.2.1 入侵行为破坏信息数据的风险网络爬虫想要获取万维网中的数据信息,前提条件便是进入计算机信息系统。如果爬虫按照被访问者的授权正常访问,没有对计
6、算机信息及系统造成任何损害,那么就不会有犯罪的风险。而存在犯罪风险的是入侵行为,入侵一词在汉语词典中的意思是未经邀请、允许或欢迎而入或者强行进入。当然对程度不同的“入侵”在具体的犯罪中不应当一概而论,但是抓住入侵行为的实质特性,即爬虫在被拒绝访问时运用某些手段,破坏或者绕过了计算机信息系统的保护措施、防护手段,从而达到访问的目的。1.2.2 抓取行为使秘密数据被知悉的风险爬虫对数据的“抓取”与传统的“获取”的区别在于其客体的客观状态不同。传统意义上的“获取”的客体一般是有实质的形状外观,看得见摸得着,比如金钱、产品等。一旦行为人实施了获取行为,也就实现了对物的占有。而爬虫的“抓取”行为并没有改
7、变数据所有权人的占有,重点在于“知悉”。即爬虫的抓取行为改变了数据所有权人对数据设定的“不知悉”状态。通俗言之,就是该数据受到数据所有权人以各种手段进行的保护,想要将数据处于一个不被人知晓的环境中。但是爬虫的非法抓取行为通过破坏计算机系统的保护屏障,将数据有机会被公众所知晓,由此处在了一个能够“被知悉”的状态。1.2.3 提供行为引发下游犯罪的风险提供行为是否会构成犯罪应当根据编程者和使用者的行为进行分别讨论:第一,行为人不具有爬虫技术而需要委托他人定制爬虫程序。当编程者明知他人意图实施侵入、非法控制计算机信息系统或者非法获取数据,但是仍然为其犯罪行为提供网络爬虫技术服务,那么一旦委托人使用爬
8、虫而触犯了侵犯公民个人信息罪等一系列罪名时,该编程者应当作为帮助犯受到刑事处罚。第二种情况是编程者编写的爬虫并不具有入侵与破坏的指令,委托人利用该爬虫合法访问他人计算机系统,获取了授权以外的数据而触犯相关刑法规定时,编程者就不应该就此承担相应的责任。苛责编程者能够明确认识到委托人利用爬虫的行为是否合法是不利于技术的发展进步的。第二,行为人利用爬虫抓取数据后出售或提供给他人。比如,被告人郭某通过“爬虫”软件从互联网上非法获取淘宝、京东、天猫等多个网络购物平台及其他公民个人信息,用于出售牟利,内含姓名、手机号码、地址等,共计非法获取541424条。而后郭某将搜集到的个人信息出售或提供给被告冷某,最
9、终被判侵犯个人信息罪。在实务中,利用网络爬虫收集数据的合法性不足以阻却提供信息的非法性。也就是说,利用网络爬虫技术获取公民个人信息时,并没有侵犯用户的信息自决权,但是后续的销售、提供行为法院不认为用户概括同意,所以会有入罪的风险。2大数据中网络爬虫行为刑法规制的必要性及困境通过法益与行为两个维度进行阐述可以明悉的是爬虫行为可能会有入罪的风险。爬虫行为的相关法律规范散见于各个法律之中,不仅没有形成有效规制的体系,刑法规制更是处于缺位的状态,从而在实务中出现了无法可依的情况。在现有规范达不到良好效果的情况下,刑法规制则不可或缺。2.1 大数据中网络爬虫行为刑法规制的必要性2.1.1 行业规范之Ro
10、botS协议的效力不足Robots协议是指网站所有者在建立一个RObOtS.txt文件来告诉搜索引擎哪些页面可以抓取、哪些页面不能抓取,而搜索引擎则通过读取RobOtS.txt文件来识别这个页面是否允许被抓取3。它是对网络爬虫基于行业规范的一种前置约束,不具有强制力,对数据所有者来说也不是一堵防火墙,而是一种自律的规范。它仅仅起到一种指示、引导如何合法的访问网页和爬取数据,本身不具有禁止或阻碍非法爬虫行为的功能。虽然在“百度诉奇虎360”一案中,法官在判例中将其认作行业规则,但是其并没有达到遏制爬虫侵害数据案件增加的效果。2.1.2 技术规制的手段效果甚微当Robots协议无法达到强行禁止恶意
11、网络爬虫行为的效果时,通过技术设定强行制止爬虫程序访问的反爬虫手段应运而生。顾名思义,反爬虫技术就是阻止别人批量获取自己网站信息的一种方式。常见的反爬虫机制为以下几种:第一,是通过识别爬虫的UA或并发,直接拒绝不符合正常特征的爬虫,封掉爬虫请求;第二,是通过设置IP访问频率,将超过禁爬时间爬虫拉入黑名单;第三,是通过请求的时间窗口过滤统计;第四,是限制单个ip/apitoken的访问量,比如15分钟限制访问页面180次;第五,是蜜罐资源,适当在页面添加一些正常浏览器浏览访问不到的资源,比如隐式链接。但是,即使是被访问的网站有着如此多的反爬虫手段,入侵者依然有策略进行规避、破坏、欺骗或者绕行,比
12、如设置下载延迟、禁止COokie使得服务器无法识别爬虫轨迹、使用USeragent池随机从池中选择不一样的浏览器头信息以隐藏爬虫身份、使用IP池、分布式爬取、模拟登录一浏览器登录的爬取。以上一系列针对反爬虫机制而设置的令其失效的策略表明,用技术规制的手段所起到的效果甚微,技术迭代更新,仅仅利用技术手段去防止带有恶意目的的爬虫是远远不够的。2.1.3 爬虫行为缺乏行业标准的规制公约能够反映行业需求,并且能够避免刑法规制的僵化。在各个法律包括刑法的规制不够完善时,行业公约对判定爬虫行为是否非法获取数据造成损失、对判定犯何种罪、受何种刑罚都能够作为一个前置条件,对行业的内部形成约束力,对法院裁判来说
13、也是一个重要参考。目前只有搜索引擎行业存在针对爬虫行为的公约,可是该公约年代久远但技术迭代更新,已经远远不能有效囊括所有的爬虫行为,规制效果可见一斑。没有相应的行业公约对数据种类及其保护力度进行标准地划分,爬虫行为便难以得到有效规范,那么规范数据划分标准就成了刑法在规制爬虫行为的重要前提。2.2 大数据中网络爬虫行为刑法规制的困境2.2.1 网络爬虫的刑事司法规制日趋严厉我国网络爬虫的法律规制此前一直处在民事领域,2017年出现后,网络爬虫刑事规制的案件数量呈现不断上升的趋势,反映了刑事司法对网络爬虫的规制日趋严厉。网络爬虫的刑事司法规制在一定程度打击了网络爬虫侵害法益的行为,但也存在着将一些
14、网络爬虫的民事违法行为当作刑事犯罪的问题,既有违罪刑法定原则又具有刑事不当扩张的风险。网络爬虫刑事司法规制的严厉性体现在适用对象、量刑情节认定等方面。首先,在适用对象上,扩大数据的范围、不区分数据的类型。其次,网络爬虫刑事司法规制严厉性还体现在重入罪、轻出罪方面。近年来,理论界有关网络爬虫入罪的声音此起彼伏,网络爬虫刑法规制及保护数据安全法益的文章亦不少见;然而,探讨网络爬虫出罪事由的文章却寥寥无几。司法实践受此影响,热衷于网络爬虫的定罪处罚,却忽视了网络爬虫的出罪机制。2.2.2 爬虫行为的刑法规制界限不明一是数据的界定混乱。数据是爬虫行为抓取的对象,也是评价爬虫行为是否入罪的根据。现阶段,
15、我国对数据的立法规定较为薄弱,使得计算机信息系统数据的界定、数据及信息的关系两方面存有较大争议。数据安全法作为保障数据安全的专门法律,规定数据是指任何以电子或者其他方式对信息的记录。即数据是信息的载体,数据的外延大于信息的外延。刑法第285条中的数据是指计算机内存储、处理或者传输的数据。危害计算机信息系统安全的解释将其限缩解释为身份认证信息,该条规定将数据与个人信息高度重叠在一起。立法上的差异导致了司法适用的混乱。二是刑法立法缺乏数据周期性保护。数据周期是指数据在整个生命周期内的流动:从创建和初始存储,到最终过时被删除的全过程。根据信息安全技术一数据安全能力成熟度模型规定,将数据周期划分为采集
16、、传输、存储、处理、交换、销毁六个阶段。数据安全法也将数据处理行为分为多个环节,都体现了对数据周期的重视。在数据周期里,每个阶段都存在侵犯数据安全法益的风险,与非法获取数据的社会危害性并无二致。然而,目前我国刑法对数据的保护仅涉及部分阶段,如非法获取属于采集阶段,删除、增加和修改处于处理阶段。对传输和交换环节缺乏相应的保护,导致网络爬虫危害数据后续阶段的行为得不到有力规制。2.2.3 司法实践中罪名适用口袋化趋势明显司法实践中,未能区分网络爬虫行为获取数据的属性差异,忽视数据所蕴含的权利属性,片面强调数据的物理属性,多以兜底性罪名(非法获取计算机信息系统数据罪)论处4。究其原因:一是实践中多以计算机信息系统安全为重心,以技术限定为中心,多侧重于保护信息网络安全。二是囿于取证难度和证明标准等现实问题,多回避了对所抓取的数据类型、价值、获利和损失等内容的认定,而以证明标准较低的兜底性罪名进