返回上一页 文章阅读 登录

刘品新:论大数据证据

更新时间:2019-07-03 22:43:46
作者: 刘品新  
(二)专家辅助人意见

   2016年最高人民法院、最高人民检察院、公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》,该法第16条规定:“对扣押的原始存储介质或者提取的电子数据,可以通过恢复、破解、统计、关联、比对等方式进行检查。”这一法律条文规制的范围已超越司法鉴定工作,而更多的是专家辅助办案活动。其中的关键词“统计”、“关联”、“比对”等通常理解可用于大数据分析。2018年最高人民检察院发布司法解释明确,各级人民检察院可以指派、聘请有专门知识的人,运用专门知识参与办案活动,协助解决专门性问题或者提出意见。专家辅助人意见是一种比鉴定意见更加宽泛的概念。任何有专门知识的人参与办案,提出的意见都是专家辅助人意见。那么,大数据证据可否作为“专家辅助人意见”(或“有专门知识的人意见”)提交呢?

   这种观点比较接近于前述“鉴定意见说”,但在很大程度上还属于一种学术观念,因为诉讼法中并不存在“专家辅助人意见”这一证据形式,故若延伸至司法层面仍需要进一步定位。最高人民法院《关于适用<中华人民共和国民事诉讼法>的解释》第122条第2款规定:“具有专门知识的人在法庭上就专业问题提出的意见,视为当事人的陈述。”《关于适用<中华人民共和国刑事诉讼法>的解释》第87条第1款规定:“对案件中的专门性问题需要鉴定,但没有法定司法鉴定机构,或者法律、司法解释规定可以进行检验的,可以指派、聘请有专门知识的人进行检验,检验报告可以作为定罪量刑的参考。”这说明,大数据证据相应地可以作为“准当事人陈述”或“定罪量刑的参考”。当然,关于该问题现阶段还存在着广泛争议,我国有必要通过立法明确“专家辅助人意见”的证据地位。

   (三)证人证言

   美国学者洛斯教授指出,机器在解决法律争议事实中正扮演着越来越重要的角色,机器传递出的一些信息可作为“机器证言”。她列举的“机器证言”包括专家系统的意见等。她还解释,与人类证言一样,机器证言的可信性取决于其来源的可信性;而类似于“传闻的危险”潜藏在人类主张中,“黑箱危险”(人类或机器的错误导致机器被错误的设计)也潜藏在机器传达的信息中。这一“机器证言说”,理论上可适用于大数据证据。但我国还普遍不接受机器证言这类概念,其在法律中也不是法定证据形式,故对大数据证据套用“机器证言说”仍存在较大困难。

   不过,在我国司法实践中,已经出现以大数据证据辅助或质疑证人证言的例子。在程某某贪污罪一案中,湖北省住建厅2016年通过大数据对比有重大案情发现,控方在庭审中将此内容纳入证人朱某的证言予以举证。本案中将大数据证据转化为证人证言使用。在赵某某组织、领导传销活动罪一案中,为质疑证人胡某,控方询问“通过大数据查找你的下线人数为291人,你怎么解释?”胡某回答“我一共发展了10多个,剩下的那些下线都是多个人发展的,具体多少数我不知道。”这则是将大数据证据作为一种质证方式。

   (四)其他证据

   司法实践中,还存在着将大数据证据作如下处理的情形:(1)作为物证、书证。如在孙某某、周某某掩饰、隐瞒犯罪所得、犯罪所得收益、信用卡诈骗、传授犯罪方法罪一案中,控方举出“关于手机号187××××8422的大数据查询”结果,证明该手机机主“自2016年12月份以来连续多天××网咖上网”。且裁定书中明确将大数据查询结果标示为定案的书证、物证。(2)作为“破案经过材料”。在陈某某等盗窃罪一案中,控方举出“本案的侦破经过”,证实“通过大数据分析等技侦手段,确定被告人陈某某手机运行轨迹与案发地在时间上、空间上相吻合”。(3)作为单列出来的报告。例如,在唐某某操纵“航天动力”股票案中,为证明唐某某是19个账户的实际控制者,证监会提交了如下证据:19个账户的Mac地址、IP地址具有高度重合性的数据分析(实质上属于大数据证据);19个账户交易股票品种具有共同性的数据分析;19个账户交易行为具有一致性的数据分析。法院最终也据此认定了这些账户由唐某某操纵。

   前述各种做法均体现了现阶段的实务探索或理论思考。在具体案件的语境中,每一种处理均有一定的合理性;在具体探讨的学理上,每一种观点均能自圆其说。经分析可知,上述探索和思考呈现出一定的共性规律。剖析其中的规律,能够为大数据证据的合理定位提供一份答案。

   问题之一,单独讨论大数据证据的证据地位还是结合其他证据一起考虑。当下的实践中是两种情况并存的。但笔者认为,考虑大数据证据的地位,归根到底,还是要讨论其单独发挥作用时的定位问题,故应当限于前一种情况。在第二种情况下,大数据证据就是简单用作其他证据的支持或反驳材料,这只能算为讨论问题提供了素材,其处理结果并不具有参考价值。

   问题之二,在现有证据形式的法律框架内还是不限于法律框架进行讨论。理想的学术研究是应然层面的讨论,相应地对大数据证据的定位也就不能局限于我国法定的八种证据形式。换言之,既可以在在物证、书证、证人证言等法定证据的框架内将大数据证据对号入座,也可以呼吁未来将大数据证据单列出来作为一种新的证据形式。而后一种选择有赖于司法案例和实践经验的丰富,更有赖于学术理念和司法观念的与时俱进。我国学者张建伟指出,“未来的证据法当中,大数据分析报告有必要单列出来作为独立的证据种类。”这种未来之策是有道理的。而现实的研究从实然层面讨论,多数人认为大数据证据的定位应该放入我国现行的法定证据形式。这也是实务部门容易接受的做法,如有些裁判文书将大数据证据列入物证、书证、鉴定意见的范围,有的将其转化为证人证言。就我国现有法律框架而言,实务中最常见的做法、学理上最流行的观点当属“鉴定意见论”。

   笔者也认同现阶段的这一便宜选择。大数据证据无疑是一种专业性或科学性很强的证据,其结论部分的意见表达是普通人无从凭借常识就能理解的。而在我国现行法律框架中,只有鉴定意见与之相符。前述少数案例中裁判文书将大数据证据列为物证、书证或证人证言等,多少有些生搬硬套的感觉。将大数据证据纳入鉴定意见之列,既具有形式上的亲缘性、可比性,也满足司法追求经济性的原则,司法人员可以相对容易地援引鉴定意见的审查判断规则去处理大数据证据的效力。诚然,严格地讲,大数据证据同一般意义上的鉴定意见也存在前述一些差异,这有待于设立其采用规则时进行必要的调整。

  

   四、大数据证据规则的建设

  

   大数据证据并不是普通司法人员能够解读的,甚至不是具有专门知识的人能够辨析的,其极致形态是机器学习的产物。大数据证据如何适用证据规则?回答这个问题,要厘清传统证据规则用于规范大数据证据的审查判断方面已经和可能遇到的挑战,应当全面审视“大数据证据+证据规则”的问题与出路,特别是聚焦大数据证据在真实性与关联性的审查判断方面出现的特殊难题,并进行特色证据规则的创新。

   (一)创建以“大”真实性为主的大数据来源真实性规则

   人们对大数据真实性的质疑大体上包括数据本身与分析结果两个方面。在此先讨论数据本身的真实性问题,即如何对海量数据进行逐一核实?通常的疑问包括:海量数据中是否存在不实的、误导的数据?是否存在着重复的、过时的数据?是否存在着其他不为人所知的错误呢?例如,在一起侵害商标权纠纷案件中,原告举出了“淘宝指数”和“百度指数”,拟证明被告使用相似的商标标识造成相关公众混淆。如果对诸如此类的指数所依据的数据产生真实性的疑问,从表面上看针对的是“淘宝指数”和“百度指数”的公信力,实质上则针对的是“淘宝指数”和“百度指数”的数据来源及质量。

   从学理上讲,数据源的真实性审查包括整体数据的真实性和具体数据的真实性。前一层含义是指大数据作为一个整体数据集的真实性;也就是说,赖以做出大数据分析报告的数据(通常呈现为一份或多份数据库文件)必须是客观形成及收集的真实文件。至于该份或多份数据库文件中每一条记录或信息是否属实,则是后一层含义。简言之,两者分别指向宏观真实性与微观真实性。

   按照这样的思路,司法实务中对数据来源真实性的审查判断通常要分两步走。以“兴中天案(涉嫌传销犯罪)为例,第一步是宏观真实性的审查。兴中天公司在被查处之前已经将传销网站资金盘停盘,公安机关介入后调取的是该公司为稳定会员情绪开发的网上商城数据。此时需要审查数据在从传销网站迁移到商城网站的过程中是否经过篡改。办案人员调查发现了解这一情况的,只有一名掌握核心技术的公司技术人员。经向该证人取证,其承认“该数据系其从传销网站迁徙到商城网站的原始数据,未进行删改”。这就说清了该数据集的来源。第二步是微观真实性的审查。办案人员一是调取部分传销参与人员的银行交易明细,同数据库中150万条排单打款记录及90万条收款记录进行比对,确认能够相互印证;二是选择该传销组织的一个县分支机构进行查证,部分印证了该数据层级关系和会员数量的准确性;三是对每一个犯罪嫌疑人发展的下线进行抽样取证,连取三级,每一级选择两名会员调取证据,对会员数量和层级进行验证,以完成微观核实的工作。

   大数据证据的宏观真实性方面能够、也必须做到查证无疑。然而,实务中这一点却往往被忽略。在一起组织传销犯罪案件中,控方指控的证据主要是上海××计算机司法鉴定所提取该公司会员系统后台数据的鉴定意见及有关会计师事务所做的会计报告。其中,该鉴定意见书表明,鉴定人的主要工作是远程登录相关网站提取某某公司会员系统的数据。然而,该次鉴定选择的技术标准错误,且关于鉴定实施过程的录像被“掐头去尾”,使得整个鉴定过程在关键环节上无法查清;在涉案网站已经无法访问的情况下,无从对涉案数据集的真实性进行核实。之后,会计师事务所据此得出关于吸收会员层级、人数、资金数的判断,其真实性就必然大打折扣。

   大数据证据在微观真实性方面很难做到查证无疑,一般要求进行必要的验证即可。英国学者维克托指出,“‘大数据’通常用概率说话,而不是板着‘确凿无疑’的面孔……当我们试图扩大规模的时候,要学会拥抱混乱”。“除了纠结于数据的准确性、正确性、纯洁度和严格度之外,我们也应该容许一些不精确的存在。数据不可能是完全对或者完全错的。当数据的规模以数量级增加时,这些混乱也就算不上问题了”。这里说的是,大数据中只要在整体上达到一定规模的具体数据属实,对案件事实的认定就不会产生实质性影响。如在一起组织传销犯罪案件中,控辩双方围绕是否存在一人多号、虚拟账户、上级会员为下级会员垫付投资款的情况产生了争议。二审法院经审理后认为,“由于涉案人数众多,且存在不少会员进行匿名登记的情况,本案无法逐一核实会员身份是正常的。但一审已经基于相关鉴定意见,对空单账户进行了排除,目前也没有其他相反证据,据以对鉴定的会员人数和参与传销资金数额进行扣减,并且,鉴定的会员人数和收取的参与传销资金数额,远远超过司法解释规定的‘情节严重’认定标准,因此,一审依据鉴定意见认定有关犯罪数额,并据此认定各被告人犯罪属于情节严重也无不当”。在这里,法院对如何看待“网站后台数据库信息中每个账户、会员、人员”信息的真实性,是有道理的。可见,大数据中只要确保真实的具体数据在整体上达到一定规模,那就不会对案件事实的认定产生实质性影响。

   形象地说,宏观真实性可称为“大”真实性,微观真实性可称为“小”真实性。大数据证据的真实性规则应当是以“大”真实性为主、兼涉“小”真实性的规则。“大”真实性审查要严格,“小”真实性审查则不能僵化,两个部分合为一个整体。

(二)构建针对机器算法是否可信的大数据分析结果真实性规则 (点击此处阅读下一页)

本文责编:陈冬冬
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/116996.html
收藏