返回上一页 文章阅读 登录

周翔:作为法学研究方法的大数据技术

更新时间:2022-11-20 00:04:33
作者: 周翔  

  

   摘要:大数据技术对法学研究而言在方法论上意味着什么?目前这仍是一个人言人殊的问题。与之最相关的是以统计学为基础的法律实证研究。在中国法学界,法律实证研究的具体方法当下尚停留于有限的几种回归模型,数据收集依赖于研究者的社会资源,样本量止步于百千级。以上诸点不足有望通过大数据技术得到改观。大数据技术运用的基本步骤是语料获取、语料转译为数据、数据清洗和数据分析,这种方法具有更多的数据获取渠道、更大的数据规模、更丰富的分析工具等优势,同时也存在关照不到个案、技术门槛高、模型解释性差等局限。不过,大数据技术在法学研究中的运用,总体上利大于弊。具体来说,大数据技术对于法律实证研究是接力关系,可以拓展数据获取的互联网渠道,提高实证研究的描述分析能力,并在法治中国等研究议题中改进论证的效果;大数据技术对于法律规范研究则是一次助力,其运用能使解释论更加从司法实践的真问题出发,立法论研究中的立法效果也能得到更准确地测量。

  

   中国法学正在迎来“大数据”“人工智能”的研究热潮。“数字法学”“计算法学”等各类新词汇层出不穷,但研究者们却并不都是在同一内涵和外延下使用这些概念。因此,本文有必要在开篇之初先设置一套分类法,对既有的学术研究成果加以归类,从而明确本文在既有研究中的坐标位置。笔者将既有的相关研究分为如下四大类:第一类称作“学科论”,此类研究看待技术的视角最广,其目标是希望厘清法学+数字技术的最大学科边界;第二类称作“对象论”,是把“大数据”“人工智能”等视为法律规制和法学研究的对象,此类文章占了当前本领域研究成果中的大多数;第三类称作“工程论”,这类研究关注到数字技术可以被引入执法、司法等各个场景当中,赋能法治的各环节;第四类才是“方法论”,是从学术研究方法的视角看待大数据技术,探讨其能为学术活动提供哪些新契机。本文的研究侧重于第四类,亦即集中讨论大数据分析技术作为学术活动的工具,能够给法学研究提供何种新方法。

   本文旨在回答大数据技术如何才能成为法学研究的方法,如何与法律实证研究、规范研究这两大传统的方法实现有效的互动。关于此,左卫民在《迈向大数据法律研究》一文(以下简称为“左文”)中较早地提出了“大数据技术如何作为法学研究方法”这一命题,在“方法论”层面为将大数据技术引入法学研究当中起到了重要的推动作用。同时,笔者认为,以下方面仍值得进一步探讨:第一,“左文”中提到“从研究范式看,大数据法律研究可能推动实证研究的跨越式发展,特别是机器学习方式的引入,会使法学研究从法教义学、社科法学和实证法律研究等范式转向数据科学式的法学研究”。“范式”一词在托马斯·库恩(Thomas Kuhn)那里,是指“一个成熟的科学共同体在某段时间内所认可的研究方法、问题领域和解题标准的源头活水”。形成一个范式,是任何一个学科在发展中达到成熟的标志。“数据科学式”的法学研究已经是一种成熟的范式了么?它与“左文”中提到的法教义学、社科法学等既有的法学研究范式之间又是什么样的关系?第二,“左文”中提到“需要将小数据社科研究中已普遍运用和相对成熟的数据分析方法……运用到大数据分析中”。社会科学中开展定量研究,是以统计学原理为根基的,这和大数据技术联系密切的机器学习方法之间有何差异?法学研究又能够吸取大数据技术中的哪些优势?第三,左文中还提到“一些大数据法律研究缺乏必要的问题意识,主要是描述式研究,沦为‘调查报告式’的数据展示”。这涉及的是大数据分析技术应用现状的问题。上述三个方面,围绕大数据技术对法学研究的主要贡献展开,清晰地定位了大数据技术在既有的法学研究方法体系中的地位。

   上述延伸和思考,一方面是对话,另一方面是形成本文研究的路径。本文的基本立足点在于:大数据分析技术如果对法学研究有影响的话,那么主要是使得法学更加社会科学化、更重视实证的方法、更习惯从大数据中探索法律世界的规律。这些贡献决定了大数据技术在法学研究方法体系中的位置,其既是对以统计学为基础的法律实证研究的接力,更是对以法教义学、立法论研究为核心的传统规范研究的助力。在这一基本立场之下,本文首先对前大数据时代的实证研究方法、研究对象作一番回顾;接着结合笔者担任大数据分析师的经历,针对技术细节作梳理;然后在这些基础之上,就如何实现大数据技术、定量的实证研究、规范的法教义学研究三者间的互动提出一套初步的方案;最后,鉴于当前学界在相关概念上存在较多的混用现象,本文就此作一些观点上的澄清。

  

   前大数据时代的法律实证研究

  

   关于什么是实证研究,目前虽然尚无统一定论,但在“基于模型和数据的方法”这一点上则有比较明确的共识。包括法学在内的各个社会科学学科之所以都对定量方法感兴趣,是因为“定量的方法,乃一切科学进程的核心”。只要是跨越个案地探寻案件平均水平、共性特征、要素相关性的研究,都将被本文纳入前大数据时代法律实证研究的范畴。下文对此类法律实证研究的回顾和梳理,主要是从研究的方法、测量的工具、样本量的大小等三个维度展开。

   (一)以统计为主的研究方法

   从研究方法来看,既有的法律实证研究均奉统计学为同宗。通常认为,统计学的方法有描述性统计和相关性分析两大类。结合法学研究的特点,这里稍作更细致的划分。根据笔者的概括,以往的研究成果主要利用了如下三种方法。

   方法一:多案例分析。对案例的运用,如果不是针对法条进行解释、对立法提出建议,那么在笔者看来即为一种实证研究的路径。例如陈杭平关于民事诉讼标的的研究,为案件类型化设定了一套分类标准,即诉讼标的的不同含义,纵轴根据不同学说见解区分为三个版本,横轴以诉讼标的的不同领域或场景为标准。从多个案例中挖掘某些规律性信息,是一种超越个案、试图通过案件类型化获得研究结论的方法尝试。

   方法二:描述性统计。前述的多案例分析,还很难称得上是严格意义上的实证分析。左卫民的一系列文章有力地推动了法律实证研究向前发展,其主要采用的便是描述性统计方法。例如,他关于审判委员会的研究,统计了某地区的三级法院审判委员会委员的审判经验与学历背景,并将讨论的议题细化到宏观指导议题和个案议题,分别进行统计和分析;再比如,他另一份关于中国刑事法律援助的研究,通过调研和考察某省的三家法院,统计了各类型辩护的人数和占比,并由此回答“究竟应当在多大范围内推行并构建当代中国的法律援助制度”这一问题。

   方法三:相关性分析。白建军等人的研究则在描述性统计之基础上,迈向了相关性分析这一相对复杂的层次。相关性研究也被称为推论统计,是将统计学手法与概率理论相融合,对“‘无法整体把握的大的对象’或‘还未发生而未来会发生的事情’进行推测”。白建军等人开始关注引起某一现象的原因,试图建立自变量和因变量之间统计学意义上的相关性,所采用的回归模型主要为多元线性回归、logistics回归等常见模型。例如,白建军迄今为止在中国知网上下载量最高的一篇论文,是通过相关系数、多元线性回归来研究犯罪率的社会成因;又如,李本森关于速裁程序的研究,则以诉讼效率、量刑均衡和诉讼权利作为其关心的因变量,采用的是多元线性回归模型。

   在线性回归、logistics回归这两大常用的回归模型之基础上,法律实证研究方法也根据议题之需推陈出新。首先表现为统计方法趋于高级,例如白建军在其一贯的相关性分析之基础上,对无法观察的变量作了科学处理,将中国民众的刑法偏好这一因变量,拆解为犯罪圈大小、刑罚轻重、罪刑均衡程度等三个可通过问卷调查测量的因子,以打分取值的形式获得该变量的数值;其次是结果呈现方法上的创新,例如单勇关于盗窃罪的回归分析结果,用GIS作图的方法实现可视化,选取建筑物、停车场等10类空间因素为自变量,用于说明因变量和空间变量的地理联系;最后是体现在用于分析的软件工具之更新上,过去的法律实证研究以使用SPSS软件为多,而近来的研究很多提及使用了Stata、R等工具。当然,使用更高级的软件进行分析,其效果未必就一定更好,但上述变化至少标志着学者们在工具利用方面的水平提升,且有些回归模型是初阶工具所无法胜任的。

   (二)多元测量工具并存

   测量工具是指获得数据的方法。数据搜集在统计学中是重要的一环,“所有统计数据追踪其初始来源,都是来自调查或实验”。统计学上根据是否为直接获得第一手数据,区分直接来源和间接来源。法学实证研究多以一手的直接来源为主,主要的测量工具包括如下几种。

   工具一:问卷调查。这种测量工具与传统的社会科学方法保持一致,通过设置问题、受调查者回答的方式收集受访者的信息。此种方法在获取受访者主观态度方面效果明显,为学界所常用。例如,程金华在研究过程中为了解检察人员针对检察人员分类改革的认识而发放问卷;胡铭关于司法公信力的研究,通过向社会公众和司法官分别发放问卷,比较和审视“对于影响司法公信力的要素的认知与评判”。

   工具二:模拟实验。“实验大多是对自然现象而言的”,但在近年来的法学研究中也时常出现。司法裁判一般不具有可再现性,同一个案件在真实场景下只可能出现一次。模拟实验是一种对司法裁判过程的模拟再现,借此可发现一些影响裁判结果的变量。目前中国法学界的模拟实验主要是对一些经典案例裁判过程的复盘,以验证某些观点。例如李学尧等人关于案卷材料阅读流畅度与裁判尺度之关系的研究,通过问卷字体大小、是否斜体、是否加重、行间距以及案件数量的变化来操纵阅读流畅度的变化。

   工具三:文本摘录。法律中的文本,其典型形态为裁判文书。在裁判文书大量公开上网后,有人认为数据法学的春天即将到来。的确,裁判文书是记录诉讼过程最终的、有法律效力的、体系最完整的文本。对裁判文书的利用,比如文姬关于信用卡诈骗罪的研究当中有很多维度的信息挖掘,包括审级、行为人出生年等16个变量。文本的种类近年来也出现不少创新,比如习超等人关于证券监管的研究采用的是对上市公司执法事件的披露信息。

   工具四:实地/田野调查。倘若只是单纯采取个案式的访谈记录,则在方法论上一般将之归入定性研究的范畴。但如果是在田野调查中对多个样本进行观察或访谈,采取结构化的方式收集数据,最终对数据进行跨越个案的量化分析,那么也可以被视为实证研究的测量工具之一。此种方式在国内法学研究中不乏实例,比如一份关于当事人法律意识的研究,所主要利用的素材就是在某法院传达室对一百多位当事人进行访谈所收集的数据;再比如左卫民在研究基层法院的财政制度、法官的工作时间分配等问题时,课题组前往实地调研、观察记录收集数据资料。

   除了采用上述工具之一,实证研究还可以多种测量工具结合、定量和定性方法混用。比如胡铭关于庭审实质化的研究就不仅利用了判决文书,且还通过观摩庭审直播并记录的方式收集数据。

   (三)万级以下的样本量

   实证研究的论文中约定俗成要报告样本量,而之所以特别指出研究所用的样本量大小,是由于样本量直接关系到根据小样本得出的结论能否推及至更大的范围,因此抽样是统计学中很重要的概念。建立一个好样本的关键,是尽量选择最符合总体的样本,如果样本具有代表性,那么表明样本与总体有十分相似的特性,进而可以通过样本预测出总体具有哪种规律。

法律实证研究中的样本量过去以百级、千级为主,比如文姬关于信用卡诈骗罪的研究所利用的裁判文书样本有2103份,习超等人对证券监管“旋转门”的研究则采用了7103个监管事件作为样本。(点击此处阅读下一页)


爱思想关键词小程序
本文责编:admin
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/138171.html
收藏