返回上一页 文章阅读 登录

丁晓东:数据到底属于谁?

更新时间:2019-10-28 22:26:03
作者: 丁晓东  

  

   摘  要:网络平台数据已经成为互联网企业的核心资产,但平台数据常常包含大量的个人数据。平台数据既可以被认为个人所有、平台所有、个人与平台共有,也可以被认为是互联网空间的公共数据。无论是法律条文和法律教义的分析,还是基于正当性与后果主义的分析,都无法完全明确界定数据权属。究其原因,平台数据具有多重属性,而且其属性高度依赖场景。对平台数据进行确权,应当遵循场景化的规则制定方式,以理性规则和个案来自下而上地推动数据规则体系演进,而非寻求数据的统一性规则。在实体判断上,应当综合考虑平台性质、数据爬虫行为等多种因素,最大限度推动数据流通与数据保护的平衡。

  

   关键词:数据权属 数据保护 网络爬虫 隐私 不正当竞争

  

   数据对于互联网企业的发展具有举足轻重的作用。一个互联网企业与平台拥有的用户数量越多,它就可能吸引越多的用户,在和其他互联网企业与平台的竞争中,它就越可能处于有利地位。这种滚雪球式的网络效应使得互联网企业往往将数据视为竞争中的核心资产。 哪家互联网企业掌握了更多的数据,对数据进行了更好地利用,哪家互联网企业就可能在竞争中具备领先优势。

  

   或许正是由于数据的重要地位,近年来关于数据的争议问题层出不穷。在华为与腾讯的数据之争、 顺风与菜鸟之争的接口门事件、 新浪诉脉脉案、 大众点评诉百度案、 淘宝诉美景不正当竞争纠纷案、 美国的Craigslist v. 3Taps案、 hiQ v. LinkedIn案中,各方所争议的核心问题都是数据:当一个网络平台通过技术手段获取另一个平台的数据时,这种行为是否合法与合理?或者更为简单地说:平台的数据到底属于谁?

  

   对于这个问题,法学界已经有不少研究,但此类研究主要从部门法的角度切入,对平台数据权属问题进行部门法分析。例如,有的学者从反不正当竞争法的角度分析数据爬虫的合法性, 有的学者从民法财产权的角度分析企业数据的财产权保护, 有的学者从知识产权角度分析企业数据保护。 此类研究虽然从不同角度对思考数据权属问题提供了深刻的洞见,但没有从整体性的角度思考数据权属特别是平台的数据权属问题。 而经济学的文献虽然越来越关注数据权属问题,为分析数据权属问题提供了很多有益的见解, 但数据权属问题仍然不是一个纯粹的经济学问题,其正当性无法奠定在纯粹的效率分析的基础上。例如,从纯粹的效率视角来看,数据权属划归为平台最有效率,因为数据的集中化运用与规模化运用可以有效地化解数据的外部性问题与交易成本问题。但此类分析进路并未考虑到个人隐私问题和更大范围公共领域的数据流通问题,一种极端的想象的例子是,平台可以利用个人隐私类数据来驱使与威胁个人劳动,从而促进效率,但此种制度安排显然并不一定合理。 因此,经济学的文献虽然为平台数据权属问题提供了有益的分析,但这类分析只能是更为整全性分析的一部分。

  

   基于上述考虑,本文对平台数据权属问题进行较为全面的分析。具体而言,本文从数据争议中的典型技术手段——网络爬虫——切入,思考平台数据的权属问题。所谓网络爬虫,指的是一种按照一定的规则,自动抓取万维网信息的程序或者脚本的做法。在过去互联网发展的若干年里,网络爬虫与反网络爬虫非常普遍。一方面,很多互联网企业通过网络爬虫来抓取数据;另一方面,有的互联网企业为了防止其他企业爬虫而设置了各种反爬虫技术。从网络爬虫切入,我们可以深入分析网络平台数据的权属与数据保护问题。

  

   本文的分析将表明,平台的数据权属无法进行明确化的界权。平台的数据常常具有多重属性:平台数据包含了大量的个人数据,个人对于此类数据具有数据隐私保护的权利;平台数据是企业所收集的,企业对于平台数据拥有相应的权益;平台数据又可能属于公共领域,无论个人或企业都不具有独占性权利。此外,平台数据的属性又常常高度依赖于具体场景。基于这些特征,本文认为应当对平台数据进行场景化的保护,无论是个人数据还是企业数据,都应当通过自下而上的个案化判断来制定规则。在个案考虑中,需要考虑平台性质、数据性质、数据爬虫性质,努力实现数据隐私保护、企业数据权益保护与数据共享的平衡。

  

一、网络爬虫与数据争议

  

   网络爬虫技术最先使用和最常使用的场景是通用搜索引擎,如谷歌、百度、搜狗和必应。对于通用搜索引擎而言,其对爬虫技术的使用基本上是一个双赢与多赢的过程。对于搜索引擎而言,搜索引擎通过爬虫技术实现了信息的高效获取与汇集;而对于被爬虫的网页而言,这些网页也通过搜索引擎的链接而得到了推广。

  

   但在网络爬虫的行为中,被爬虫的一方不希望其数据被爬的情形很快出现了。互联网行业的从业者逐渐发展出了两种通行的手段来反爬虫。其一,他们发展出了一套君子协议:robots协议(机器人协议或拒绝机器人协议),即由网站所有者生成一个指定的文件robot.txt,并放在网站服务器的根目录下,这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。具有友好性的爬虫在抓取该网站的网页前,往往会先读取robot.txt文件,对于禁止抓取的网页不进行下载。其二,互联网行业的从业者还发展出了技术性的反爬虫手段,通过设置各种技术手段来防止爬虫机器人的访问。例如,可以进行技术设定,当某一网站访问过快时,就要求该网站输入验证码,以此确定排除非人工的访问。再比如,网站也可以不定期改变HTML标签,使之无法与Web排序匹配来限制爬虫。

  

   在互联网企业进行爬虫与反爬虫斗争的同时,围绕着数据的法律争议也开始展开。2000年,Bidder’s Edge公司的网站对Ebay网站进行了网络爬虫,Ebay公司据此向加利福尼亚北区法院提起诉讼,控告Bidder’s Edge公司对其网站的爬虫行为违反了robot协议,具有非法侵入(trespass)、计算机欺诈和滥用、不公平竞争等违法行为。最终,法院认同了非法侵入这一项控告,认为被告未经授权干扰原告在计算机系统中的占有权益,这种行为直接导致原告受到损害。

  

   在此案中,Bidder’s Edge公司给自身的辩护理由是,Ebay网站的信息都是公开可访问的,因而不存在非法侵入的问题。对此,法院的意见是,Ebay公司的服务器是私人财产,其给予的公众访问权限是授予的,Ebay一般不允许爬虫机器人进行访问,而且此案中Ebay明确告知Bidder’s Edge公司不许对其网站进行爬虫。因此,此案中存在非法入侵。

  

   在访问权限问题上,中国的案件与Ebay案的判决思路较为一致。例如,在新浪诉脉脉案、 大众点评诉百度案等案件中,法院都认定,未经对方授权进行网络爬虫,大量获取对方网站的数据,属于违法行为。在这些案件中,法院常常援引《反不正当竞争法》的规定,认为此类行为具有“扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为”,违反了《反不正当竞争法》第2条所规定的“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德”。

  

   当然,也存在思路不同的判决。在HiQ诉领英案中, HiQ公司对领英网站实施了网络爬虫,但加利福尼亚北区地区法院的法官认为,这种爬虫行为并不违反法律,因为领英网站上的数据是公开数据,对于公开数据,即使违反对方设置的robot协议,也应当是被法律允许的。这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。 因此,法院最后不仅没有认定HiQ公司的爬虫行为违法,甚至反过来认定领英的反爬虫技术违法,要求领英公司移除针对HiQ的接入壁垒。

  

   使得网络爬虫中的数据争议变得更为复杂的是,网站的数据常常来自个人,因此网络爬虫又常常面临数据隐私的问题。例如,在上文提到的新浪诉脉脉案中,新浪对于脉脉公司的指控除了脉脉违反其robot协议,还包括脉脉公司的网络爬虫未得到用户的授权。在HiQ诉领英案中,领英也提出了数据隐私保护的问题,指出HiQ对于领英数据的爬虫会影响个人的数据隐私保护。对于抓取网络平台上的数据是否需要个人授权,法院也给出了不同的判决,例如,在HiQ诉领英案中,法院认为爬虫并不会影响公民的隐私保护,但在新浪诉脉脉案中,法院则明确了平台授权之外用户授权的必要性。

  

   在今日头条与微博的网络爬虫与数据之争中,今日头条突出了用户具有的个人数据权。在该争议中,微博认为其网站数据被今日头条非法爬虫, 但今日头条认为此类数据属于用户,不属于微博,只要用户授权,网站就可以名正言顺地进行爬虫。今日头条认为其爬虫不具有违法性,因为头条页面具有邀请用户授权的选项,只有当用户开通此功能选项,授权今日头条抓取用户发在微博的数据后,头条才会进行网络爬虫,帮助用户将微博所发布的内容定期自动发表在头条旗下的产品微头条上。

  

二、数据权属的四种观点

  

   通过上文对若干数据爬虫案例的简介分析,我们现在可以对数据权利归属的观点进行归纳,对于拥有大量个人数据的平台,可以将平台数据权属的类型或观点归纳为四种。

  

   (一)数据个人所有

  

   数据权属的第一种类型或观点是数据属于用户个人。在上文提到的今日头条与微博之争中,今日头条的意见是此种观点的典型代表。今日头条认为,微博并不具备对用户数据的任何权利,因此只要爬虫是在用户授权的情形下进行的,那么即使头条违反了微博的robot协议,此类行为也不违法。毋庸置疑,微博可以起诉用户特别是某些大V用户违反协议,因为微博的使用协议写明了微博享有对用户内容的独家使用权,而且微博和某些大V还签订了非常明确的合同。这样一来,微博用户特别是大V用户在使用微博平台发布内容又授权今日头条使用时,微博就可以起诉,要求法院认定此类行为属于违约。但即使法院如此认定,今日头条也可以声称今日头条的行为并不违法,用户与大V行为可能违法,但他们违法与今日头条无关。

  

   事实上,如果强化用户数据个人所有权,将用户对个人数据的权利更多视为人格权而非财产权, 或者将此种权利视为法定的消费者权利,那么微博设置的用户协议可能自始无效。一旦将数据个人所有权视为不可让渡的人格权,那么数据的收集者与使用者就不得限制这种数据权利的自由行使。就像私人之间不得通过合同限制公民对个人姓名的自由使用一样, 企业也无法通过合同而要求个人放弃其数据权利。

  

欧盟新近确立的数据携带权可以被视为这种个人数据权利的另一佐证。如果认同欧盟《一般数据保护条例》中所确立的数据携带权,那么平台不仅不能对个人数据进行限制,(点击此处阅读下一页)

本文责编:limei
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/118748.html
文章来源:《华东政法大学学报》2019年第5期
收藏