范子英：如何科学评估经济政策的效应？

1978年以来，经济保持了近40年的高速增长，在由计划经济向市场经济转型的过程中，中国借鉴了其他发达国家的成功经验，同时由于自身的特殊性，也采取了一系列具有中国特色的改革措施。一方面，中国幅员辽阔，地区之间差距巨大，很难实施“一刀切”的政策，中央政策必须充分考虑地方特色；另一方面，中国具有长达数十年的计划经济历史，改革存在严重的路径依赖，增量改革相对来说阻力更小。这意味着，我们的改革经验是在不断摸索过程中积累起来的，每一项公共政策的推出都是经过了充分的事先试验和事后总结，首先这必然要求决策层具有改革的智慧，能够举重若轻挑选出最有效率的改革方向，其次也要求决策层对改革的效果能够达成共识。此时的任务，就是如何科学量化政策的效应，如何确保此项改革试验没有包含其他政策的干扰。

自20世纪90年代开始，中国的经济改革逐渐呈现“顶层设计”的特征，可以说这个阶段的改革任务更加艰巨。顶层设计对每一项政策的目标要求更高，严格来说，这样的改革模式对失败是零容忍的。因此，决策层对改革的效应必须有非常充分的预判。无论是早期的试验性改革，还是近期的顶层设计，都提出了一个共同要求，那就是对政策效应的科学评估和预判。而政策评估，特别是基于试验设计的评估方法，正是经济学近30年来的前沿方向。大力普及、推广科学的政策评估方法，对时下中国的改革显得非常必要。

对这些方法的普及，首先要求相关的政府部门在思想上提高认识，明白错误方法带来的危害，这些危害有时候会导致一些好政策难以落地；其次，各决策机构和地方政府要有较高的包容性，有一些政策的评估，对相应的制度设计要求更高，相关的机构要能够理解这些前提条件，必要的时候还需要配合研究人员对政策进行调整，以满足“科学”这个重要条件；最后，当面临多个政策之间的优劣选择时，要建立以科学评估为基础的政策选择机制，从而更加精确地制定出相应的政策细节。

本文分三部分逐步展开对科学评估方法的介绍。首先，本文从逻辑上阐述科学评估方法，特别是强调一些基本的逻辑错误；其次，参照我国常见的三种改革模式，提出相应的三种常见评估方法，并举实例进行阐述；最后，重点说明这些方法的局限以及应用过程中的谨慎解读。需要特别强调一下，本文所有内容都是初步的介绍，任何一个方法背后都有非常完整的统计学理论作为支撑，读者若对这些初步的介绍感兴趣，可以尝试阅读一些更为专业的知识。如果是决策部门的同志，对基本方法的框架有一个基本了解，应该就足以引起重视，重视才是开展科学评估的前提。

一、科学评估方法的基本逻辑

从科学的意义上来说，评估一项政策的实施效应其背后的基本逻辑应该是：在给定其他条件相同的情况下，实施政策后的表现（例如价格）与假定没有实施政策后的表现的差异。这句话虽然很简单，但其背后的前提条件是非常苛刻的。举一个通俗的例子，假定我们要评估的是大学教育对工资的贡献度，我们可以造一个时空穿梭机器，首先让某人在现实中读大学，然后记录他工作时的收入A，接着我们用时空穿梭机将他再送回去，这次不让他上大学，记录他另一个平行世界中的收入B，则A-B就是此人上大学的教育回报。在政策评估的方法论中，这个例子中的B就是A的完美的反事实对照组（Counterfactual），也就是说，一旦其接受政策干预，则表现是A，如果没有接受政策干预，结果就是B。

但是我们知道，上述例子在任何的学科领域都是无法实现的，因为历史都是单线程往前发展的，理论上我们无法构造出一个完美的平行世界，因此我们就无法获得一个政策实施后的反事实对照组。在现实世界中，一个人要么受到政策的干预，要么就是没有收到干预。以上大学为例，现实世界中的某个人，其只可能占据两种状态的一种，要么真的上大学了，要么就没有，我们无法看到一个人上大学状态下的反事实（没上大学），也无法观察到没有上大学人群的反事实（上大学）。因此，如果从一种极致的科学评估的角度来看，严格来说是无法从这个例子中去评估上大学的效应。

自然而然，我们经常采取的方法是，直接比较那些受到政策干预的人群和未受到政策干预的人群的差别，将这个差别等价于政策实施的效果，这种简单比较的统计方法，其背后包含了一个极其苛刻的要求，那就是用未受到政策干预的人群作为政策干预人群的反事实，这句话的潜台词是说，如果那些受到干预的人群没有收到干预，其结果应该与未受到干预人群的结果是一致的。很遗憾的是，在大多数的现实政策中，这一前提条件往往是无法满足的，从而导致了整个评估结果的巨大偏误。举例说明，医疗卫生支出是政府需要大力进行资助的领域，但是作为决策层来说，任何的决策都是一种权衡和选择，用在医疗卫生领域的多了，用在教育、基建等就必须减少，因此在做具体的决策之前，就需要准确评估医疗卫生对国民健康的改善程度。我们可以采取随机抽样问卷的方式，询问一个人在过去一周是否去过医院，这个问题会呈现两种状态，如果去过医院，则是受到了医疗的干预，如果没有去过，则是未干预组；同时，我们还让接受问卷的人回答其自评健康程度，健康程度分为5档，1至5分别表示健康程度由差到好。最后，我们将调查的结果分组汇总起来，就得到如下的统计表格。

由于是随机发的问卷，去医院的只占全部人群的一小部分，因此在近10万份的问卷中，仅有7774人是去过医院的，剩下的90049人是没有去过医院的。我们将去过医院的人群的健康程度取均值，其健康程度是3.21，而没有去过医院的人群的平均健康程度为3.93。采用简单对比的办法，我们会得出医疗恶化健康的错误结论。正如上一段所说，当我们简单地将处理组（去医院）和控制组（没去医院）进行对比时，其背后隐含的假设是，如果去医院的那些人没有去医院时，他们和那些真正没去医院的人群的健康程度是相同的。我们假定去医院的人是生病了，而没去医院的人则没有生病，前面那句话的意思是，生病的人和没有生病的人，他们的健康程度是相同的。显而易见，这个前提条件是无法满足的，假设那些去医院的人没去医院，他们的健康程度也远低于实际上没去医院的人。因此，没去过医院的人群不能作为去过医院人群的反事实参照组。由于没去过医院的人群的健康程度更好，因此这种简单对比会严重低估医疗的效应。在表1的例子中，健康的效应应该是正向的，但由于低估的程度非常大，超过了理论上的正向效应，简单对比就会得出负向的健康效应。

另一种经常犯的错误是，简单对比政策前后的差异，并将这种时间上的差异等价于政策效应。这种纵向对比，其背后隐含的假设是，一旦没有实施该政策，该时间节点之后的表现应该与之前完全一致，因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经济社会中，至少有两大类因素会使得这个假设不成立。一是时间趋势，即某些因素会随着时间的推移逐步增加或者减少，比如人的年龄、一个国家的CPI等，即使没有相应的政策干预，这些因素也会呈现一定的时间趋势，因此政策干预前的CPI并不能作为干预后的反事实参照组。二是共同冲击，这类因素往往是在国家层面统一实施的宏观调控，共同冲击会使得我们关注的指标也发生变化，而这种变化往往与政策效应是混合在一起的，很难将其单独分离出来。

我们以2011年实施的房产税试点政策为例，来说明纵向对比的偏误。2011年2月份，为了遏制房地产价格过快上升的势头，我国开始在部分城市进行房产税的试点，选择了上海和重庆两个试点城市。与其他税种不同，房产税是在持有环节征收，等价于增加了房屋的持有成本，理论上与提高利率的作用渠道是类似的，可以挤出一部分投资性的需求，进而发挥调节房价的作用。当然，房产税还有其他更加重要的作用，例如为地方政府筹集可持续收入等等，因此该税种自试点开始就被寄予厚望。但实际结果看上去却是不尽人意的，决策层和舆论界都认为房产税试点没有起到遏制房价的作用，这种结论的来源正是简单的纵向对比。如图1所示，重庆的房产税试点从2011年2月开始，但是我们并没有看到重庆房价在试点时出现过下降，相反，试点当年的房价反而上涨了11%，看上去重庆的房产税政策并没有使得重庆的房价下降，因此，就得出房产税无效的结论。

这种简单的对比是错误的，房价没有下降并不代表房产税没有效应，两者不可以简单地等价。按照科学意义上的评估方法，房产税的效应应该是比较重庆实际房价和假设没有房产税时的房价，当我们简单对比房产税前后的实际房价时，就隐含了一个重要的假设，那就是假设没有房产税时，重庆2011年的潜在房价水平应该跟2010年相同。但由于存在时间趋势和共同冲击两个因素，重庆2011年的潜在房价水平应该远远高于2010年。通俗来说，有房产税时的重庆房价上涨了11%，假设没有房产税，重庆的房价可能上涨了15%，此时4%的差距（15%-11%）才是房产税对房价的遏制效应。现实世界中，我们是无法知道假设2011年没有房产税时的重庆房价，不过我们还是可以大体上用其他城市的房价对重庆的趋势进行判断，与重庆相邻的成都市，其2011年的房价上涨了13%，是大于有房产税的重庆市的房价上涨幅度的，趋势上来说，重庆的潜在房价上涨幅度应该是超过11%，房产税政策是有效果的。因此，简单进行纵向对比，严重低估了重庆房产税政策的效应。

政策评估的科学方法，其本质上是要找到反事实参照组。反事实参照组要满足两个基本条件：一是要保证呈现反事实的特征，即一旦实验组没有受到政策影响，实验组的结果应该与反事实组是完全一致的；二是反事实参照组不能受到实验组的影响，即那些受到政策干预的人群不能把这种影响传递给其他人，理论上是允许实验组内部的互相影响，但如果这种影响外溢到参照组，无论这种外溢是主观还是客观原因，都会导致对政策效应估计的偏误，一般情况下都是低估了政策的效应。例如在房产税的例子中，重庆和上海实施了房产税之后，如果这些城市居民可以非常容易地到其他城市购房的话，那么在重庆和上海的房产税政策的效应就外溢到了其他城市，不过幸运的是，由于大多数城市都对非户籍居民采取限购房产的政策，因此房产税的外溢效应是比较小的。

显然，按照“穿越剧”的方式构造反事实参照组是不现实的，不过我们还是可以基于这样科学的视角，采取其他类似方法来构造一种近似的“穿越剧”。常见的构造方法有两类：一是通过数据筛选的方法，二是随机试验的方法。数据筛选的最佳例子是同卵双胞胎的数据，这一数据构造借鉴了医学和药物学的科学方法。在药物进入临床应用阶段，需要对药物的实际效果进行评估，因此需要招聘一些志愿者来服用药物，但是不能简单根据志愿者报名的情况直接进行药物试验，因为我们无法排除志愿者自身的特征对药物作用的影响。因此，在最理想的情况下，药物公司需要招聘一些同卵双胞胎的群体，给予双胞胎的其中一个服用药物，而另一个则不服用，在一段时间之后再评估他们的各项指标。不过，这里面还要进一步排除心理因素的作用，即那些服用了药物的双胞胎个人可能因为自我心理暗示，导致实际作用大于药物作用，这样也会高估药物作用。因此，一个完美的实验，除了需要双胞胎的组别之外，还不能让参加的那组人干扰药物实验，如果这样的话，则还需要进行安慰奖检验（Placebo test）的设计。具体来说，就是要给予双胞胎组别同时服用，其中双胞胎的一半服用真实药物，另一半服用一种外形无差别的糖丸，双胞胎的两方都以为自己服用了药物，心理干扰因素的作用对两方同时存在，他们事后的差异就完全是药物的作用。

第二种构造反事实参照组的方法是随机试验，更准确地说，是随机干预实验（Randomized ControlledTreatment, RCT）。该方法最近几年在发展中国家非常盛行，由于其相对清晰和简单的实验设计，也被世界银行大范围应用于一些扶贫项目的效应评估。这一方法的核心在于“随机”二字，采用的是统计学的原理，即如果可以用随机的方法来选择哪些人群接受政策干预的话，同时保证受政策干预的人群数量足够大，那么从统计学上，就可以将随机分组的结果等同于政策效应。我们同样以表1的就医为例，如果采用随机试验的方法，应该是针对那些有就医需求的所有人群，通过抛硬币的方法来决定是否可以去医院，例如当抛硬币为正面时，就可以上医院，如果为反面，则不能上医院，由于抛硬币的正反面结果是一个随机冲击，因此对那些有就医需求的人群通过抛硬币的方法，就是一种随机分组，我们事后来评估有就医需求并去医院（正面硬币）和有就医需求并没有去医院（反面硬币）的健康差异，就是医疗对健康的实际改善程度。

这两种构造反事实组的方法虽然能够满足科学评估的要求，但在政策评估方面的应用性不强。同卵双胞胎的数据筛选方法局限于就业和收入方面的应用，例如可以评估教育（上大学）或党员身份对收入的影响，但由于绝大部分同卵双胞胎都在同一个辖区，大多数的政策又是对该辖区进行全覆盖，因此很难找到同一组双胞胎受不同政策影响的数据。随机试验方法的应用性比数据筛选方法好一些，但也存在另外两个问题：一是面临伦理难题，例如前面的就医例子，采用抛硬币的方法，就是一个伦理问题；二是很多随机试验，在操作过程中很难完全满足随机性的要求，为了操作便利性，一些随机试验并不是在个体层面随机筛选，而是在村镇甚至更加总层面的随机筛选，这就在一定程度上损害了该方法的科学性。

二、常见的几种评估方法和案例剖析

绝大多数的政策并不是根据评估的要求来实施的，因此政策评估的数据并不是一种实验数据，而是一种观测数据，即政策实施之后收集的数据。在大多数情况下，政策评估方并没有直接参与到政策的设计和实施过程，无法按照科学评估方法的要求来构造和生产数据，因此任何利用观测数据的政策评估就必须非常小心和科学论证，针对不同的数据结构和政策类型采用不同的评估方法，并反复检验该方法的适用性。

根据政策实施的过程，可以将一个国家或部门的政策分为三类，不同的政策类型刚好对应了不同的评估方法。第一种是“先行先试”的政策，这类政策往往是决策层无法准确预判其社会和经济影响，政策的容错空间小，需要挑选一些地区或者行业做政策试点，如果试点的效果比较理想，则可以在全国层面推广，反之则不推广。例如，2016年5月1日在全国实施的“营改增”，就是在2012年开始进行试点的，1994年至2012年增值税和营业税并存的状况，严重阻碍了制造业和服务业的分工和发展，也导致了服务业的重复征税问题，因此将服务业的营业税改为增值税就显得非常必要。不过，这样的政策影响深远，具体政策细则上的细微差别就会对相关行业带来致命影响，并且如此重大的税制改革也会在短期和长期产生完全不同的效应，因此就需要预留一些时间窗口来观察实际影响。于是2012年1月1日在上海挑选了“1+6”个服务业行业首先进行试点，然后再逐步将这“1+6”行业推广到八省市和全国，再逐步扩围至电信、邮政等行业，2016年5月开始覆盖房地产业、建筑业、金融业、生活服务业最后四个行业，这样就完成了从先行先试到全范围推开的过程。

第二种政策是“一刀切”，这类政策的实施往往是因为一些外在条件限制，无法在全部范围内实施，需要集中资源重点发展某些地区或者某些行业。“一刀切”的政策有两个要点：一是其门槛是非常清晰的，超过（或者低于）该门槛才会进入到政策范围；二是符合政策条件的那些群体会得到较多的资源支持。1994年实施的“八七扶贫攻坚计划”是典型的“一刀切”政策，按照前述的两个政策要点，“八七扶贫攻坚计划”对于贫困县的认定有非常严格的条件，规定1992年的人均GDP低于400元的县才能进入贫困县，反之，如果一个县的人均GDP超过400元，即使仅为401元，也会失去了贫困县的资格（具体实施过程有细微变化）。针对那些贫困县，中央财政在对地方进行转移支付时，会给予了额外的倾斜，使得这些贫困县获得了实质上的好处。“一刀切”的政策在产业发展中非常普遍，例如我国的高新技术产业、新能源产业等都制定了类似的准入门槛条件。

第三种是一次性推开的政策，这类政策往往带有自上而下的特征，决策层对该政策的效应有充分的论证和把握，能够合理预期政策带来的冲击，并且做好了相应的备案，因此可以选择某一时点在全国范围内一次性推开。1994年实施的分税制改革就是典型的一次性推开政策，在1993年之前，我国中央财政与地方财政还是财政包干制，自1994年开始，全国所有省级地区与中央财政采取以税种划分的财政制度，分税制针对全国所有地区实施相同的分成规则，时间节点清晰明朗。同时，考虑到该政策给地方财政带来的冲击，分税制改革也做了相应的备案，以1993年为基数对地方财政进行税收返还，以缓和此次改革对地方财政带来的不利影响。

严格来说，前两种政策是可以用科学评估方法对政策效应进行合理估计的，而一次性推开的政策是很难找到合适方法进行评估。接下来，本文将针对前两种政策类型分别介绍几种常见的评估方法，结合一些案例进行剖析，并重点指出各种方法应用的前提条件。

（一）双重差分法

双重差分法（Difference-in-difference,DID）有几种其他的称谓：倍差法、差分再差分等。该方法的原理非常简单，它要求数据期至少有两期，所有的样本被分为两类：实验组和控制组，其中实验组在第一期是没有受到政策影响，此后政策开始实施，第二期就是政策实施后的结果，控制组由于一直没有受政策干预，因此其第一期和第二期都是没有政策干预的结果。双重差分方法的测算也非常简单，两次差分的效应就是政策效应。如图2所示，AC是受政策影响的组别，BD是没有受政策影响的组别，我们在政策实施前后分别观察（收集）了一次数据，此时有两种差分的顺序，其结果都是等于CE的政策效应。第一种是先组内差分，再组间差分，也就是(C-A)-(D-B)=CE；另外一种是先组间差分，再前后差分，即(C-D)-(A-B)=CE。可见无论是哪种差分顺序，其结果是一致的。

双重差分法并不要求实验组和控制组是完全一致的，两组之间可以存在一定的差异，也就是图中的A和B是可以不相等的。但是双重差分方法要求这种差异不随着时间产生变化，也就是图中的ED=AB。如果满足了这个条件，那么实验组在没有政策干预的情况，其潜在的变化趋势应该是AE，AE和AC之间的差异恰好也是CE。也就是说，当我们用双重差分方法来评估政策效应时，是将AE作为AC的反事实参照组，但是AE本身是不可观察的，此时如果实验组和控制组有相同的时间趋势，那么就可以用控制组加上一个固定的差异作为AC的反事实参照组，也就是AE=BD+AB。因此，双重差分法本质上是用控制组作为反事实参照组，与其他方法不同的是，该方法允许控制组和反事实参照组之间存在一定的固有差异，然后再用差分的方法剔除掉这种固定差异。

这种方法可以进一步扩展到多时期和多政策实施点两种情况。常见的政策前期和后期，往往都是多期的，例如实施前存在3期数据，实施后有4期数据，这更加有利于精确评估政策效应。一方面，政策效应往往存在时滞，例如可能需要2-3年才会出现，因此需要更长期的跟踪数据；另一方面，政策效应还存在动态演变的过程，在实施之后的1-2年内呈现逐步强化的现象，3-4年逐步减弱。多期数据可以让我们精确估计政策效应在哪一期出现，同时在时间维度上呈现何种动态变化。此外，实际的政策实施也不是一次性的，往往是逐步增加试点的过程，也就是控制组逐步变为实验组；有些情况下，为了考察政策的力度，还会在同一期的实验组中，将实验组进一步分组，给予不同实验组不同的政策力度。通过一定的变通和扩展，倍差法也可以评估这两种情况下的政策效应。

接下来，我们用一个案例研究来剖析这种方法在实际中的运用，这个例子通俗来说就是“跑部钱进”（范子英和李欣，2014）。我国1994年分税制改革以来，中央财政的集权程度得到强化，中央财政收入占据50%以上，但支出占比仅为30%，因此中央对地方的财政转移支付也随之快速增长；以2012年为例，中央财政收入5.6万亿，其中4.5万亿直接转移给地方财政，占地方财政收入的比重高达74%。我国现存三大类财政转移支付：税收返还、一般性转移支付和专项转移支付，在很长一段时间，专项转移支付占比都是最高的，超过了转移支付总额的40%；不仅如此，专项转移支付由于按照项目划拨的方式，因此缺乏规范的分配方案。

在具体的管辖范围上，税收返还和一般性转移支付都是财政部主导，专项转移支付则分散于各部委。对地方财政来说，中央的转移支付数额庞大，并且几乎是没有成本的，因此各地都有“跑部”的激励。加上专项转移支付分配方案模糊，就产生了“跑部”的空间。“跑部钱进”是一个世界现象，美国的国会委员会在分配联邦财力时，也会受到“跑部”的影响。但是，要想评估我国的“跑部钱进”却没那么简单，因为各地都在“跑部”，不存在一些地区“跑部”，另一些地区不“跑部”，因此，从政策评估方法论角度来说，我们很难找到“跑部”的实验组和控制组。

考虑到各职能部委在专项转移支付分配中的重要作用，同时作为“一把手”的部长在相应领域的专业性和权威性，我们可以利用部长的差异来区分实验组和控制组。具体来说，我们收集整理了1998—2007年间国务院所有部委部长的个人信息数据，将部长的出生地与相应地级市进行匹配，在其他条件不变的情况下，我们重点研究了部长在分配转移支付时如何“照顾”其家乡。为了获得更加清晰的政策效应，我们以2003年的政府换届为政策实施点，在2002年年底至2003年两会期间，有17个部委更换了部长，涵盖主要的实权部门，如发改委、财政部、劳动和社会保障部等。如图3所示，我们将那些在2002年之前没有部长、之后有部长的地级市作为实验组，将一直没有部长的地级市作为控制组，可以清晰看出在部长换届之前，两组城市获得的专项转移支付没有差异，在换届之后，有部长的地级市获得了更多的转移支付。平均来说，部长会使得出生地城市的转移支付增加28%，如果是重要部委，增幅高达130%。从图3也可以看出，这种效应呈现先增后减的“U”型特征。

（二）断点评估法

断点评估法（Regression Discontinuity,RD）是近年来最为流行的方法，该方法具备简单、直观、适用性强等优点，被广泛应用于各国相关政策的效应评估中。断点评估法特别适用于“一刀切”的政策，根据“一刀切”门槛的执行程度，可以进一步分为模糊断点评估法（Fuzzy RD）和清晰断点评估法（Sharp RD）。为了更直观理解该方法的内涵，我们重点介绍清晰断点评估法。

断点评估法的核心内容是两部分。首先是要判断政策的“一刀切”是如何确定的，如图4所示，政策制定者选择某个因素作为门槛的基础，然后在该因素中选择某个具体的值作为政策门槛，规定所有大于等于门槛C的个体都是政策干预的范围，而任何低于门槛C的个体都不会受到政策的影响，因此低于C的个体受政策干预的概率为0，大于等于C的个体受政策干预的概率为100%。断点评估法的“断点”则是特指门槛C的左右一个很小的区域，在该区域内，是否受政策干预的概率会有一个显著的跳跃。举例来说，假设今年的高考录取线为500分，则所有大于等于500分的考生都能够进入大学，而所有低于500分的考生则无法被录取，此时，500分就是高考“一刀切”的门槛，500分左右的一个小范围则是断点区域，例如495-499的录取概率为0，而500-504的录取概率跳跃至100%。

断点评估法的第二部分内容是在断点左右观察政策结果的变化。如图5所示，其中纵轴是政策的目标变量，横轴同样是政策门槛的选择因素，图中的实线是驱动因素和政策因素对结果的共同作用。驱动因素在C之前，其政策结果是从A到B，此时的AB段是一个平滑的演变分布，当驱动因素达到和超过C时，政策结果就变成了DE，同样是一段平滑分布，断点评估法的政策效应就是门槛附近的跳跃，即BD是该政策实施之后的真实效应。如果用前述反事实的原理进行阐述，则BF是DE的反事实结果，也就是说，如果没有“一刀切”的政策，则政策结果应该是ABE，是一段完全连续的平滑分布。不过，BF在现实世界是不存在的，不是观测的结果，就无法将DE和BF相减获得政策效应。幸运的是，B这一点是可以观测的，因此可以将B作为D的反事实结果，这样BD的差异也就是政策效应。

还是以高考为例，此时的政策结果就是四年（或更远）后的收入，驱动因素是高考分数，C是大学录取线。平均来说，高考分数越高，说明能力和智商越高，因此收入和高考分数应该是正相关的。AB是那些没有考上大学的人群的收入分布，DE是上大学的人群的收入和高考成绩的关系，BF是假设没有大学时，那些高考成绩超过录取线的人群的潜在收入。在现实世界中，AB和DE是我们可以观测到的数据，BF是不可观测的（所有被录取的都上了大学）。此时，我们可以计算500分（上大学）和499分（没上大学）两组人群的收入差异，由于两者的高考分数仅相差1分，可以认为两者之间的能力和智商是几乎无差别的，两组之间的收入差异就只可能是因为大学教育带来的，因此BD就是高考这种公共政策的政策效应。

断点评估法的一个经典案例是关于污染的健康损失效应的研究。由陈玉宇、李宏彬和另外两位作者2013年发表在美国科学院院刊PNAS的论文，采用的就是断点评估法。具体来说，污染对健康的实际影响是非常难以估计的，且影响程度的估计，有时候，连方向都是反的。这个问题的研究，最直接的方法就是在选某一年城市层面的数据，例如PM2.5和预期寿命，看看这两个指标是否负相关。如果在实际中这么处理，一般来说，这个系数都是正的，难道我们能据此得出污染有益于健康的结论么？很显然，这个处理方法犯了上文提到的一些基本错误，其中最典型的就是忽视了其他因素的作用，例如大城市往往也是医疗条件更好的地方，医疗条件会改善健康。即使我们考虑到城市层面的一些特殊因素，简单的统计和经济学方法依然不能准确估计出污染对健康的危害。

我国历来有北方冬天集中供暖的制度安排，当然由于燃料资源的有限，这种供暖政策只能覆盖全国的一部分地区，因此供暖政策就必须有一个清晰的标准，做到北方供暖、南方不供暖。接下来的问题就是，什么是北方？在20世纪50年代，国家按照地理上的秦岭-淮河为界，将全国分成了南方和北方，相应的供暖政策就变为淮河以北供暖、淮河以南不供暖。再加上，当时的冬季供暖基本都是靠煤，煤燃烧不彻底释放了大量的污染物。因此这种供暖政策的一个自然结果就是，淮河以北的城市的空气污染更加严重，如下图所示，他们的研究发现淮河北岸城市的空气悬浮颗粒物浓度更高。在经过长达数十年的持续暴露之后，这种持续性的污染对健康造成了严重的危害，平均来说，淮河北岸的人相对于南岸，其预期寿命要少5年。

这个研究之所以适用断点评估法，是因为以淮河为界的政策是“一刀切”的，在未实施集中供暖政策之前，淮河南北的城市之间差异很小，特别是淮河沿岸的城市之间几乎没有差异，因此淮河南岸的城市可以作为北岸城市的反事实参照组，这句话也就意味着，假设没有集中供暖这一政策，淮河北岸城市的污染水平和人均预期寿命，和南岸城市是完全相同的。当我们发现政策实施之后，两者之间的污染和预期寿命均有差异，那预期寿命的差异就只可能是由污染导致的。在理想的情况下，这样的研究设计应该还能够较为准确地估计出，空气污染每恶化一个单位对健康的影响程度。

断点评估法有三个基本的要求。首先是“一刀切”的政策执行力度要彻底，以高考为例，不能存在没达到录取线的学生被录取、达线的学生却没录取的情况，政策执行力度越弱，断点的跳跃就越小；其次，选择门槛的依据要素必须是个体不能改变的，例如在高考后才公布录取线，考生能否过线是既定事实，反过来说，如果事先公布录取线，就会使得那些比录取线低几分的考生，通过一些努力达到录取线；最后，那些影响政策结果的其他因素，不能也在门槛附近出现跳跃，比如考生的家庭财富如果在录取线附近突然增加，那么考生将来的收入就不一定是因为大学教育的效应，而可能是其家庭财富带来的。

（三）合成控制法

还有一类政策的试点过程是非常独特的，那就是仅选择一个或者两个地区作为试点，例如2008年世界金融危机时，就只有中国实施了“四万亿”这样的强刺激计划。前两种方法都不适用于这类政策的效应评估，我们很难从其他没有试点的地区找到合适的反事实参照组，这是因为此试点地区一般都非常特殊，严格来说，没有其他地区与试点地区是完全相似的。考虑到这种特殊试点政策在我国也非常常见，本文接下来将介绍针对该类政策的评估方法：合成控制法（Synthetic Control Method）。

我们以一个具体的研究案例来阐述这种方法的原理和应用，这个案例是我们的一个研究论文的内容（刘甲炎和范子英，2013）。自2000年以来，我国的住房价格持续走高，国家多次出台调控政策以缓和房价的上涨势头，房产税成为政策选择之一。中央政府希望通过对住房持有环节征税，一方面通过增加住房持有成本、打击投机炒作，引导居民合理性住房消费；另一方面还可以取得稳定的地方税收来源，弥补地方主体税种的不足。在2010年5月国务院提出要推进房产税改革，扩大原有的房产税征收范围，将个人所有的居住房产也作为征收对象。2011年1月国务院开始在部分城市试点房产税的征收，重庆和上海成为首批试点城市。这两个城市的入选主要有两个方面的原因：一是两者都是直辖市，在行政上更有利于管理；二是两者的房价具有很好的代表性，上海市作为东部沿海城市，房价水平是最高的几座城市之一，重庆作为西部城市，房价处于全国平均水平。两个城市的政策细则如表2所示，最大的差异在于重庆是存量征税，上海是增量征税。

考虑到重庆和上海的特殊性，我们可以采用合成控制法来评估政策效应。合成控制法与倍差法有两个主要区别：首先是权重的设定，倍差法的控制组的权重是完全相同的，例如选择10个城市作为重庆的对照组，那这10个城市权重都是1，而合成控制法则根据相似度来赋予权重，与重庆越相近的城市的权重越大，反之亦然；其次是控制组的选择，倍差法的控制组是主观选择的，合成控制法的控制组是数据驱动的，即由数据自身来选择哪些城市可以成为重庆的控制组，同时根据相近程度赋予相应权重。

我们通过合成控制法评估重庆房产税的政策效应，结果见图7。首先是利用2010年6月到2011年1月的40个大中城市来选择控制组和相应的权重，该过程的主要参考依据是，控制组的加权房价应该尽可能与真实的重庆房价相等，在图7中就是2011年2月之前的虚线要与实线尽可能接近，这个规则可以保证控制组和权重的选择是最优的。其次，基于选择的控制组和权重，再利用2011年2月之后控制组加权房价来外推重庆的反事实房价，也就是图7中2011年2月之后的虚线部分。该虚线部分说明的是，假设没有房产税，那些影响其他城市房价的因素也会同样影响重庆，这样从其他城市房价外推的重庆房价，就是没有房产税时的价格。因此，重庆房产税的效应就是2011年2月之后，图7中虚线高于实线的部分。

该方法的应用需要配合其他的证伪检验，即需要排除其他可能导致房价变化的共同因素。在合成控制法第一步完成之后，可以看到控制组中哪些城市的权重最大，我们可以将权重最大的城市挑选出来，做一次假想实验。在重庆房价的这个研究中，湛江是权重最大的城市，我们假设湛江在2011年2月前后也发生了重大的政策变化，该政策变化影响到湛江的房价。如果不是我们在图7中看到的重庆房产税政策效应，就可能是其他政策导致的，因为湛江没有实施房产税政策，却在2011年2月后保持了与重庆类似的趋势。具体结果如图8，可以看出湛江的房价并没有出现显著变化，这说明没有其他因素导致控制组房价发生变化，因此由控制组拟合的重庆房价就不存在其他政策干扰。

该方法的应用范围虽然很广泛，但也存在一定的限制。其中，最大的限制是无法应用于极端样本，例如该方法就不能用于上海房产税政策效应的评估，因为上海的房价是全国最高之一，很难从其他城市中找到足够与上海房价相似的样本，因此就无法选择控制组和相应的权重，这会导致第一阶段的拟合效果非常差，而第一阶段的拟合效果直接决定了第二阶段的线性外推。从操作层面来说，这种限制是因为控制组的权重都是界于0和1之间，如果放松这个假设，相应的应用限制也就不存在。

以上这三种方法有各自的适用范围，也有各自的前提条件。从因果推断的效率来看，断点评估法是最优的，其次是倍差法，最后是合成控制法。在一些更为复杂的应用中，还可能将倍差法和断点评估法结合使用，例如政策不仅存在“一刀切”，这种“一刀切”还只适用于很少一部分人群。此外，从因果推断的完整性考虑，在评估了政策效应之后，还要强化证伪检验，从逻辑上排除干扰因素的影响。

三、科学评估方法的应用前提和要点

中国的政策研究和评估，是需要有科学方法为前提的。但是方法本身是工具性的，方法论的发展都是中性的。我们在提倡大力普及科学评估方法的必要性时，也要非常清楚每一种方法的适用性，那些用错了方法的政策评估，其危害甚至要超过没有用这些方法的状况。我们可以将以上这些方法的应用前提总结为最重要的一点：反事实假设。所有的方法应用，如果能够满足这一基本假设，那么其应用满足了基本的条件，方法的应用总体上不会出现逻辑上的错误。除此之外，我也想特别强调一下，有时候方法与制度要能够有机结合，每一种类型的制度和改革，实际上都有对应的方法，与其说是理解方法的应用前提，不如说是了解制度的细节。

任何方法都有应用前提，同时也有其局限性。在我们使用这些方法评估政策效应时，也要在心里明白这些方法不能解决的问题，因此对结果的解读要非常谨慎，只能就结果解释结果，而不适合得出衍生性的结论。总体上，这些方法的应用，有两个方面要特别引起重视：再分配效应和外溢效应。

再分配效应是政策评估的陷阱。很多时候，我们评估的单位是一个加总的层级，例如在县、市、甚至省层面进行评估，此时要特别当心再分配效应的捣鬼。所谓的再分配效应，是指政策或者改革虽然有明确的标准，但是由于人、企业和其他要素是可以自由流动的，他们会通过改变自身行为来达到政策的要求，如果这种流动本身是跟随政策走的，那么很可能政策本身并没有实际效果，而是政策导致了要素在不同地区的重新配置。但是，我们在简单的方法应用时，是可以看到政策起到了积极作用，方法本身并不足以排除这些干扰。我们再回到淮河的那个例子，如果这个研究放到2000年之后，就可能会出现再分配效应，因为人口是流动的，污染也是导致人口流动的一个重要因素，试想一下，如果那些关注健康的人都离开了污染重地，那么污染会对人群进行再配置，这种再配置就可能导致留在淮河北岸的人都是身体较差的人，而那些身体健康的人则搬迁到了淮河南岸。虽然我们这时也能够在政策评估模型中，得到北岸居民健康程度更差，但南北岸的这种差异却不完全是因为污染的直接影响，很大程度上是因为政策前后的人群分布发生了变化。

又例如，我国自2000年左右，开始实施区域性的发展战略，现如今快20年过去了，这些政策是否达到了预期的目标，这个问题本身是没法从宏观加总层面直接得到答案的。试想一下，如果我们也采用第二节的方法来评估西部大开发或者中部崛起，很显然，我们可以得到正向的系数，也就是那些有区域发展战略的地区，其增长相对于东部地区会更快，这一点也反映在近年来人均GDP的收敛。但是这并不完全等价于这些政策促进了内陆地区的发展，现实中，有很多企业因为内陆地区更优惠的投资环境，从东部搬迁到了内陆省份，这些更优惠的投资环境正是地区战略的重要组成部分，这时候就产生了再分配效应。也就是说，区域性的发展战略对原有的企业进行了空间的再配置，这实际上就对那些没有区域政策的省份带来了负面影响，我们在研究上得到的政策影响，是欠发达地区的正面效应，减去发达地区的负面效应，很显然这高估了政策效应。

外溢效应是与再分配效应相反的，再分配效应一般是导致了高估，外溢效应则是低估。从学术研究的角度来说，外溢效应影响不大，但是从政策研究的角度来说，外溢效应导致的低估，还是会对政策的把握出现偏差。外溢效应是指那些被政策干预的组别，通过其他渠道，把政策的影响也传递给了非政策干预组。在逻辑上，我们是将非干预组作为干预组的反事实参照组，这就是说，假设政策没有实施，那些干预组的表现，就应该和非干预组是一样的，但如果出现外溢效应，这一假设也不满足。我们可以举个例子来说明外溢效应的影响，比如，我们想评估一下中国高速公路对地方经济的拉动作用，进而为中国高速公路建设提供一些理论支撑。简单的处理方法，是比较有高速公路经过的县，和没有高速公路经过的县，两组之间的区别，如果再复杂一点，还可以加入两组县在高速公路开通之前的经济表现。一眼看上去，这是一个标准的双重差分法。但这里就出现了外溢效应，比如A县有一个高速公路出入口，B县没有，但是一旦A县的出入口开通之后，B县可以经由A县的出入口使用高速公路，因此A县的高速公路对B县带来了外溢效应，此时，我们比较A县和B县的差异，就包含了这种外溢效应，由于B县的表现比没有高速公路时更好，所以外溢效应会导致对高速公路的低估。

如果以发展的眼光来看待政策评估，一些原有的方法局限也在不断被突破，新的方法不断出现，这对我们在中国大范围推广和普及科学评估方法是非常有利的。我们在第二部分曾经提到，有一类改革是不适用传统的评估方法，那就是一次性推开的政策，但在满足一定条件下，这些政策也可以在一定程度上得到估计。同样，在公共经济学领域，越来越多的人开始关注一些政策带来的交易的聚束（Bunching），这种聚束可以用来评估人们对政策的反应程度，例如，当我们要评估个人所得税多档税率的影响时，我们是不能用传统的政策评估方法，因为个人会出于避税的考虑，将其应税所得降到某一档较低边际税率的范围，此时我们就能够观察到，在税率级次的左边，人群会出现非常明显的聚束，如果我们能够计算出这种聚束的幅度，就能够用来估计个税税率对劳动者产生的负向激励作用。

范子英：如何科学评估经济政策的效应？

小程序 | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏