返回上一页 文章阅读 登录

吕小康:从工具到范式:假设检验争议的知识社会学反思

更新时间:2015-12-03 18:24:10
作者: 吕小康  

   【内容提要】 统计工具的建构与运用不能脱离知识生产的情境脉络,其中渗透着建构者和运用者的个人主张与其所在学科的整体价值追求。原假设显著性检验是社会科学实证研究中最为常用的假设检验方法,其流行并非因为方法论本身的精确无误,而在于它虽存有争议并因此招致严厉批评,但仍简洁有效地满足了研究者追求知识的客观性与确定性、以期将自身所在的学科塑造为一门科学分支的主观期待。如此,这一方法就从一个普通的统计工具上升为一种学科范式,起到了收敛学科的精神指向、提供模式化的解题方法、从而实现学科内部知识较快发展的功能。

   【关 键 词】假设检验/原假设显著性检验/知识社会学/范式/科学知识

  

  

   一、引言:作为知识社会学现象的假设检验争议

   统计推论工具的应用,是当下社会科学实证研究的一个基本特征。虽然不同的研究所使用的统计方法千差万别,但多数涉及统计推论的研究在做出最终结论之前,几乎都有一个假设检验的过程。不论其使用的检验方式是起源于20世纪20年代的显著性检验、还是20世纪末期日渐兴起的贝叶斯检验,都力图以符合自身立场的方式,增强所做推论的可靠性。没有假设检验的统计推论,似乎就不是一个完整的、严肃意义上的统计推论。这已然成为一种默认的学术惯习甚至是明确的方法论要求。假设检验也因此扮演起实证研究“看门人”的角色,从方法论的高度维护着此类研究的科学性和严肃性。

   就此前及当下国内外社会科学研究的多数研究看,假设检验的主要实现方式还主要是原假设显著性检验(Null Hypothesis Significance Testing,简称NHST)这一模式,贝叶斯检验在实际应用中还并未完全普及。在NHST模式下,建立原假设和备择假设,选择检验统计量并计算其值,根据p值是否小于显著性水平、或临界值是否落入拒绝域做出是否拒绝原假设的统计判断,最后再将这种统计判断转化为现实情境下的行为判断(如实验处理、政策干预是否确实有效),成为假设检验的标准流程。由此产生的成果发表偏向就体现为:统计上不显著的研究成果很难得到发表,绝大多数发表的成果都是统计上显著的,而且显著性越高(即p值越低、或检验统计量的值越偏离预设的临界值),就越能证明研究的假设。

   按一般的逻辑,作为判定标准的过程或程序,应当具备内在的一致性和完备性,即判定标准自身应当逻辑一致,没有明显的矛盾和争议,如此才能作为标准去检验研究结果。然而,NHST似乎并不满足这一要求。从现代假设检验的知识起源和演变过程看,不论此类统计工具的最早开发者还是后来的改进者,不论是数理统计学内部还是统计工具的外部应用领域,都从未停止过对假设检验的方法适当性和应用局限性的争议和反思。从数理统计学内部看,费雪(Ronald Fisher)首先提出的显著性检验、与奈曼(Jerzy Neyman)和皮尔逊(Egon Pearson)提出的假设检验模式,早就被称为“统计频率学派之间的最大裂隙”(Savage,1961);而贝叶斯学派由于在“什么是概率”这一最根本的命题上存在不同理解,其假设检验采用了截然不同于频率学派的构建方式与计算程序。从数理统计学的外部,即各统计应用领域看,作为现在诸多教材和研究中采用的NHST模式,虽然在20世纪40年代至50年代就已经在生物学、医学、心理学、社会学等学科领域成型并逐渐制度化,但对它的批判也从未间断过。这种批评在20世纪60年代末就曾达到过一个高峰,20世纪90年代起至今又再度兴起批判的浪潮(各阶段的代表性文献如Bakan,1966;Morrison & Henkel,1970;Cohen,1994;Gigerenzer,2004;Ziliak & McCloskey,2008;Orlitzky,2012;Nuzzo, 2014;袁卫,1990;童光荣、卢铁庄,2010)。但毫无疑问的是,内外夹击下的NHST不仅没有消失,反而依然健在,在社会科学的统计知识传授和实践应用中仍占据着主导地位,成为一种“驳而不倒”的假设检验模式。

   如此,一个基本的学科史事实是:在理论形态上,统计学内部发展史上并不存在一个真正统一的假设检验理论,更不存在唯一的假设检验理论,只有若干种共存而不共融的竞争性假设检验理论,期间虽有一系列调和的努力,但并未形成真正的统一理论。但从实际应用的角度上看,却存在着一个被简化了程序、调和了冲突的“实用版”假设检验程序(即NHST),其产生过程极为模糊,缺少明确的“冠名权”,从出现伊始便备受攻击,但至今依然屹立不倒,成为许多入门性的数理统计、应用统计教科书所统一描述和实际研究者所统一采用的唯一假设检验模式,形成了应用意义上的表面统一性,并成为社会科学实证研究中的统一规范,以及或明确或隐含的发表要求。

   这就形成了一个饶有意思的知识社会学现象:一个本身并不完善、内部充满争议的统计方法和检验工具,如何“克服”了统计学领域内的争议性,占据了社会科学方法论的制高点,从而成为一种具有学科规范性的研究范式?在这种从工具到范式的变迁过程中,究竟有哪些促成因素?社会科学的“科学性”,往往依赖于其所采用的方法(主要是数学方法和统计工具)的科学性;但当方法本身存在疑问时,这种学科地位还能得到保证吗?社会科学研究者应当如何认识NHST以及一般意义上的假设检验和其他统计方法在实证研究和学科规范中的作用?这些问题对于社会科学进一步认清自身的学科性质具有深远的意义。虽然当下社会科学极其依赖于统计方法,但统计方法本身却较少成为社会科学的研究对象,本文拟通过对假设检验这一统计工具的知识社会学分析,为此类研究提供一个具体的分析案例。

   二、从显著性检验到假设检验:统计学内部从实用到审美的方法论转向

   一般的统计应用者,或许未必在乎“假设检验(hypothesis testing)”与“显著性检验(test of significance)”的区别。但在显著性检验、也就是现代意义上的假设检验创立者费雪眼中,这一区别却是涉及其理论纯洁性和统计方法纲领之争的重要问题。为叙述方便,本文以“假设检验”泛指所有的假设检验方法,以“显著性检验”指代费雪提出的假设检验模式,以“N-P检验”指代奈曼-皮尔逊提出的假设检验,以NHST指代当下研究与教学中最经常出现的假设检验模式。

   单就数学形式而言,费雪的显著性检验与N-P检验最明显区别有二:一是是否需要引入备择假设;二是如何拒绝原假设。费雪的显著性检验模式中只有原假设,没有也不需要引入备择假设,并使用p值(在原假设为真的前提下,出现观测值及更极端值的概率)作为否定原假设的依据。在费雪看来,即使拒绝了原假设,也没有足够的证据证明它的对立命题,即N-P检验中的备择假设为真;如果要验证备择假设是否可取,则需设计另外一套检验程序,而不是在一次检验中拒绝某一假设,同时接受另外一个假设。因此,他认为备择假设的引入完全是没有必要的,研究者只需根据实际情境设计一个贴切的原假设,然后进行检验,并用检验的结果,结合自身的经验做出最终判断(Fisher,1971,1973)①。而奈曼-皮尔逊则认为,备择假设的引入以及由此产生的两类错误(第一类错误与第二类错误,即弃真错误与纳伪错误)的划分,才使人们可以进入假设检验的核心问题:在从频率意义上控制第一类错误(α)的前提条件下,谋求第二类错误(β)最小化,即利用似然比方法寻找一致最大功效无偏检验。在原假设的拒绝方式上,他们使用了检验统计量的值是否落入提前确定的拒绝域来作为是否拒绝原假设的二分标准,并把费雪提出的显著性水平α赋予了频率化的解释:在假想的若干次相同条件的重复测量前提下,出现原假设为真而将之拒绝的错误次数与总观测次数之比。同时,研究者可根据检验的结果,做出是否采取某一行动的行为决策(Neyman & Pearson,1966)。当然,两者之间还涉及诸多技术上与前提假设上的差别,这方面已有其他文献从统计学的角度做出详尽的介绍(Lehmann,2011),此处不再赘述。

   从数学的眼光看,费雪“一事一议”式的显著性检验,无法脱离具体情境的限制,难以上升为一个一般性的理论,因此存在逻辑上的缺憾。如何制定一些原则和标准,对检验的优劣性进行比较,从而选择出最优化的检验方案?如何确立一个统一的行动准则,使得假设检验可以普遍性地应用于各种情境?在奈曼-皮尔逊看来,一个完整的假设检验应当同时考虑一类错误与二类错误;如果两个检验的显著性水平相同,则称它们是“等价(equivalent)”的;如果仅考虑检验的水平,这种检验在形式上就是费雪的显著性检验(当然费雪本人并不认可这一点)。如果在若干竞争性的等价检验中,能够找到不论针对哪一个备择假设,其功效(1–β)都是最大的那个检验(假定这样的检验存在),这就是理想中的假设检验模式:一致最大功效检验。这一假设在原假设和备择假设都是简单假设的情况下容易证明是存在且唯一的,其拒绝域就是费雪的显著性检验中采用的尾端区域。这就是著名的奈曼-皮尔逊引理。但在其他更普遍的情况下,如单样本正态总体均值的双侧检验中,一致最大功效检验往往并不存在。为此,奈曼-皮尔逊又提出了一致最大功效无偏检验的思想,此方法的要点在于首先寻找一个无偏拒绝域(无偏的直观意义是指当原假设为真时被拒绝的概率,应当不超过当其为假时被拒绝的概率,即该检验的功效不得低于α)。数学上能够证明这样的检验总是能够存在的,当然这样的无偏拒绝域可能有多个,于是再在其中寻找可能的一致功效最大检验,这就是一致最大功效无偏检验(Neyman & Pearson,1933)。虽然这种检验一样不一定存在,但其适用范围已经比一致最大功效检验扩大了一层。

   在这一系列的论证中,奈曼-皮尔逊的思考重心都在数学原理层面,而不是应用层面;他们追求的是如何建立数学标准,使得“最优化”的结果能够存在,并能通过一定的方式找到。这种论证方式其实是非常值得反思:“最优化”并不完全是客观发现的结果,而是提前引入了标准后才“论证”出来的结果,即建构的结果;“最优化”也不必然是实用意义上的最优化,而是数学理论意义上的最优化。当然,这种建构并不是完全随意的,但确实是有限制条件的。

   关于显著性检验与N-P检验之间在数学形式的争议与技术上的调和努力,已有一些文献进行了相关探讨(Berger,2003;吕小康,2012)。但在知识社会学的视野中,更值得注意的问题是:从费雪与奈曼-皮尔逊的争议过程上看,这种数学形式上的差异并不是两者争议的核心;造成费雪猛烈抨击奈曼-皮尔逊检验的根源,不是后者在数学论证上的不严谨,而是这种形式上的严谨反而掩盖了假设检验的真正功能——辅助科学家理解数据,而不是替代科学家理解数据。为此,有必要了解费雪与奈曼-皮尔逊创立假设检验工具的真正动机。在统计工具的建构过程中,统计学家的动机总是先于工具的形式和推导的过程。不了解其动机,而单纯从数学形式上解释统计工具,将会把丰富的、多面向的统计发展史压缩成一个简单的、单面向的数学符号演进史,从而丧失知识生产过程本身具有的意义感和立体感。或者说,与纯粹的统计学研究不同,知识社会学关注的重点并不是统计方法建构过程中的数学推导过程是否严密,而更关心统计学家建立数学推导的理论基础、前提假设、哲学立场、工作动机、情感倾向、职业地位、工作方式等“纯数学”之外的内容如何影响数学理论本身的建构与传播。

与同时代的许多统计学家一样,费雪本人并非狭义上的数理统计学家,而是有着扎实的农业和生物实验经验的应用统计工作者。他曾有多年农业实验经历,后继任高尔顿优生学教授席位,是有着丰富的实际应用背景的统计学家。强调统计工具的“现场感”和实用性,(点击此处阅读下一页)


爱思想关键词小程序
本文责编:陈冬冬
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/94638.html
文章来源:《社会》(沪)2014年6期
收藏