返回上一页 文章阅读 登录

风笑天:社会调查中的无回答与样本替换

更新时间:2019-01-13 14:51:21
作者: 风笑天  
“由于采用多阶段的复杂抽样,设计效应deff一般会在2和2.5之间,我们把deff定为2,这样需要的样本量就为2000个。综合考虑精确度、费用以及调查实施的可行性等因素,以及以往若干全国社会调查的经验;再加上考虑到在调查实施中通常会存在一部分户内找不到、或没有合格调查对象、以及各种原因造成的无回答等情况,根据对回答率的估计,需要将上述样本量适当扩大为2380个。”(风笑天,2007)

   这种处理方式的特点是不需要在调查过程中使用替换样本,而只是对所抽取的原始样本实施调查。如果在实际调查过程中,无回答比例与事先预计的比例比较接近,那么,样本调查结果推断总体时的精确性程度和可靠性程度就能够达到预期的目标。从本质上看,这种处理方式也可以理解为是将替换样本放到了最初设计抽取的样本中。它实际上相当于用规模较大的样本来获取(事先确定的)规模较小的样本所具有的代表性。当然,实际调查中的回答率依旧是决定这种代表性程度高低的关键因素。

   第二种处理方式是转化无回答。即在调查的实施过程中,积极加强对无回答个体的转化工作,努力减少无回答的数量。这种转化的工作既包括让调查员在不同时间反复上门,或在不同时间多次拨打电话,或者多次寄送催促信函;也包括对拒绝回答者进行耐心的解释和说服工作。研究者通过这些工作,一方面可以更多地创造和增加与那些无接触者的接触机会,提高接触率。另一方面,可以更多地将拒绝回答者转化成为回答者;以此来增加调查中的回答者比例,降低调查中的无回答比例,达到提高调查回答率的目的。

   第三种处理方式是进行样本替换。即在调查的实施过程中,遇到无回答个体时,采用其他个体对其进行替换。具体的操作方法有两种:一是预先抽取出一部分调查单位(对象)作为备用样本,当调查中遇到无回答情况时,用备用样本中的对象对无回答的对象进行替换;二是预先并不抽取备用样本,而只是制定出某种替换的原则或方式。当调查员在实地调查中遇到无回答情况时,就按照此原则和方法抽取新的对象作为无回答者的替换。比如,“遇到家中无人、拒访等情况而无法对样本中的对象进行调查时,则选取样本户左边的第一户作为对象进行调查”,或者“遇到所拨号码为空号、或者为应答机等情况而无法进行调查时,则拨打原号码最后一位加上1所构成的新号码”等,就是这种替换原则和方法的例子。

   第四种处理方式是调查后的统计修正。即在调查结束后,通过统计的方法,来估计和修正无回答所造成的潜在偏差以及对无回答结果进行补救。这方面的具体内容在基什以及莱斯勒、卡尔斯比克的著作中都有专门的讨论,本文不作探讨。但需要指出的是,由于许多情况下这种统计修正需要获得调查总体的相关统计资料,而现实中一方面这种总体的统计资料常常不能获得或者资料过于陈旧;另一方面,这种“可以得到的总体成员的特征,并不一定直接与那些对当前的研究很重要的变量有关”。因此,即使可以通过加权等方式进行修正,这种做法也是“假定回答者和无回答者是没有差异的,充其量无非是对某些比例过低的群体所做的补偿而已”(亨利,2008:52)。

   总之,在调查前通过对无回答比例的预估来扩大样本规模,在调查过程中加强对无接触者和拒答者进行转化或者进行样本替换,在调查结束后对无回答的结果进行统计修正等是研究者用以减少无回答现象及其影响的几种主要方式。

  

四、不同来源的无回答与样本替换的运用

  

   上述对无回答问题处理方式的归纳中,我们可以看到,样本替换的方法只是研究者处理无回答问题的方式之一。虽然有好几种来源的无回答都可以采用样本替换的方法处理,但实际上这些样本替换的方式、意义和必要性却并不是一样的。换句话说,并不是每种来源的无回答都适合采用样本替换的方法。

   首先,对于由抽样框偏差中的“不合适”所导致的无回答,研究者可以有两种方法来处理:一是在这种不合适造成的无回答数量占原始样本规模的比例很小的前提下,直接从样本中去掉这些无回答的个案。这是处理这种情况的无回答的最合适方式。二是依据同样的概率抽样原则和抽样方法从总体中再抽取一部分样本户来对这部分无回答户进行替换。第一种方法的结果实际上相当于更加准确地界定了原始的抽样规模,而不会对调查回答率带来影响。比如:假定研究者最初抽取了规模为1000户居民的样本进行调查,结果有100户因地址不存在、或者是无人居住户、或者是非住户机构等不合适原因形成了无回答。由于这些“住户”并不符合调查对象的性质要求,有的甚至根本就不存在于调查对象的总体中。因此,研究者可以直接从样本中去掉这100户,而不需要进行样本替换处理。这样,实际调查的样本规模就只有900户。此时计算调查的回答率时,分母就不是1000,而是900。而如果按第二种方法,对不合适的100户对象进行替换后,在计算调查的回答率时,分母就还是1000。特别需要注意的是,对于抽样框偏差中无回答所采取的样本替换与下文中的样本替换在含义上有一定差别。由于此时原样本中需要被替换的对象,是本来就不应该属于抽样总体的个体,因而这种替换实际上更应该被看成是在样本规模为900的基础上所进行的一次补充抽样。

   其次,对于因与调查对象“无接触”(比如多次拨打电话无人应答、被抽中的调查对象外出打工不在家等等),以及因调查对象“无能力”(比如年龄过大、语言不通、身患残疾等)所造成的无回答(二者也即亨利定义中所界定的客观性无回答),研究者所能采取的方式或许就只有进行样本替换了(尽管样本替换的结果与原始样本的结果并不会相同)。这主要是因为,无接触和对象无能力所造成的客观无回答结果,与抽样框偏差中的不适合所造成的无回答结果有一点类似,就是在调查结果统计中,他们往往都是作为缺省的个案或无回答的个案来对待的(因为客观上研究者无法从他们身上获得资料)。因此,在处理方式上也与不合适处理中的方法类似。除了直接将他们作为无回答进行统计外,还可以对他们进行样本替换。但应该注意的是,由于此时被替换的对象是原始样本中符合目标总体要求、并且实实在在存在的对象,只是由于各种原因无法从他们身上获得信息资料。因此,此时的样本替换与上述不适合中的样本替换有所不同:此时的样本替换一方面必须是以样本规模增加的方式来进行回答率的统计(比如说,样本规模不是900,而是1000);另一方面它不是作为原始抽样基础上的补充抽样,而是实实在在的样本替换。这种替换始终存在着由于替换者与被替换者所具有的本质不同所带来的偏差。因此,此时的样本替换可以说并不是合适的办法,而是一种没有办法的办法。

   第三,对于由被调查者拒绝参与调查和拒绝回答问卷所造成的无回答现象(即亨利定义中所界定的主观性无回答),主要有转化与替换两种处理方式,即既可以通过反复上门、多次联系和耐心解释,将拒答者转化成为回答者;也可以采用替换样本的方法,直接用新的被调查者来替换拒答者。拒答是社会调查(特别是入户访问调查)中造成无回答的最主要原因,它对调查结果所造成的影响也最大。因此,要特别重视对它的处理。笔者认为,对拒答现象最好的处理方式是通过反复的联系和耐心的说服工作,努力将拒绝回答者转化为回答者,而不是简单地对他们进行样本替换。这一方面是因为样本替换存在着一定的风险(将在下面集中分析);另一方面也是因为对拒答者进行样本替换实际上并不能提高调查的回答率。因为在进行了样本替换后,我们在计算调查的回答率时,不能只在分子中加入新获得的回答数量,同时还应该在分母中加入全部的替换样本数量。比如,原始样本为1000人,调查中因各种情况出现了300个拒答,此时的回答率为70%。如果调查员根据某种规则,对这300个拒答者进行了样本替换,结果成功完成了200个调查,再次失败了100个;那么,此时的回答率并不是(700+200)/1000=90%,而应该是(700+200)/(1000+300)=69.2%。这也就是说,研究者进行样本替换的结果并没有提高调查的回答率,因而也并没有改善调查样本的代表性。

   总之,对于由抽样框偏差中的“不合适”所导致的无回答,我们可以采用样本替换的方法;对于因与调查对象“无接触”以及因调查对象“无能力”所造成的无回答(即客观性无回答),我们就只能采取样本替换的方法;而对于由被调查者拒绝参与调查和拒绝回答问卷所造成的无回答(即主观性无回答),则最好不采用样本替换的方法。

  

五、不同调查方式中的无回答处理


   由于社会调查中几种不同的资料收集方式具有各自不同的特点,它们在无回答来源方面的状况也不一样。因此,在不同的调查方式中,处理无回答问题的策略和方法也有所不同。

   对于邮寄调查来说,由于在通常情况下研究者并不知道哪些被调查者寄回了问卷、哪些被调查者没有寄回,因而其无回答的实际原因(是不合适、无接触,还是无能力、拒答)研究者并不清楚。所以,对于无回答的处理不能盲目进行替换,有时甚至不可能进行替换。此时最合适的、同时也是绝大多数研究者在实际调查中所采取的处理方式,就是向被调查对象多次邮寄催促信函,或者通过电话进行提醒(如果有联系电话的话)。许多研究表明,催促信函和电话提醒对提高邮寄调查的回收率(即回答率)具有十分明显的效果。例如,美国一项邮寄问卷调查的结果表明,研究者发出问卷后第一批寄回的问卷只占样本的46.2%,研究者发出第一封提醒信件后又收回12.2%,发出第二封提醒信件和问卷后再寄回8.8%,最后打电话通话后又寄回10.1%。两次催促信件和一次电话提醒总共帮助收回了31.1%的问卷,使问卷总的回收率达到了77.3%(贝利,1986:227)。笔者也曾进行过一次邮寄问卷调查,按时回收与催促后回收的情况与这一结果也十分相似:在规定时间寄回的比例为62.5%,发出催促信件后又寄回21.1%,最终回收率达到83.7%(风笑天,1999)。正如贝利所指出的,如果不使用催促信和电话提醒,邮寄调查“一般可望得到的回答率不超过50%或60%,而有跟踪,人们便可望得到70%或80%甚至更高的回答率”(贝利,1986:226)。

   对于电话调查来说,或许扩大抽样库以便进行样本替换才是最好的处理方法。“所谓抽样库,就是一组完整的电话号码。调查员就是用这一组电话号码来得到调查最终要求完成的访谈人数(最终样本)”(拉弗拉卡斯,2005:31)。或者说,抽样库是抽样框中的一组实际的电话号码,调查员依靠它来和被调查对象进行联系。而之所以要扩大抽样库,则主要是因为一般电话调查中因为不适合、无接触和拒答所造成的无回答比例远远高于其他调查方式,也远远超过研究者所能接受的范围。例如,“格罗夫斯和卡汉在他们很有创造性的美国本土RDD(一阶)抽样调查中,最终完成的访谈即样本量是1700,但总共处理的电话号码(即呼叫单)有13000个,而这些电话号码一共被拨了44000次(即有44000个处理结果)”(拉弗拉卡斯,2005:92)。这也就意味着,研究者所完成的1700个电话调查,实际只占他们所准备的13000个电话号码的13%,而更是只占调查员实际呼叫次数44000的4%。如此大量的未完成调查的电话号码和呼叫次数,正是电话调查中需要大量备用样本、或者说需要进行大量的样本替换的原因。

而对于入户访问这种面对面的调查方式来说,虽然其中的无回答类型包括了不适合、无接触、无能力回答、拒绝回答等多种情况,(点击此处阅读下一页)

本文责编:陈冬冬
发信站:爱思想(http://m.aisixiang.com)
本文链接:http://m.aisixiang.com/data/114523.html
文章来源:《南京大学学报:哲学.人文科学.社会科学》2010年 第5期
收藏