殷德生吴虹陈琳：实验方法在教育经济领域应用研究新进展

摘要：自20世纪末以来，循证教育变革不断引领教育公共政策制定由依据经验判断向依据客观证据转变。基于自然实验的因果推断方法是评估教育政策效果的有效工具，其应用有助于促进教育研究科学化和增强教育决策的有效性。本文基于证据驱动教育改革基本行动和运行机制，总结随机对照实验及各种自然实验方法的教育因果推断工具箱，揭示其在教育私人回报率估计与不平等研究、同伴效应与社区效应等教育外部溢出效应研究，以及涉及学校、家庭、影子教育、在线教育、政府等多主体的教育投入产出效率研究中的最新进展。本文还分析了教育多源异构大数据搜集处理以及自然实验方法优化的发展方向，展望大数据和人工智能时代机器学习与教育经济实验方法渗透融合的途径和前景。

关键词：自然实验方法　教育回报率　教育外部效应　人工智能

一、引言

教育实证研究致力于基于经验证据得到真实的因果推断，进而提升教育决策的科学性和有效性。罗纳德·菲舍尔（Ronald A. Fisher）在1925年出版的论著《研究工作的统计方法》中确立了随机对照实验思想（RCT），强调科学实验设计应遵循随机化抽样和分组、区组控制、可重复三项基本原则。但在教育经济领域，随机对照实验的实施成本高昂、项目周期较长且通常面临严格的伦理道德约束，其应用范围有限。早期关于教育收益率和工资差异的研究主要基于明瑟收入方程（MIE）来进行，存在内生性问题的隐忧。自然实验方法（natural experiment）致力于基于真实世界的不完美数据，构建接近随机实验的情景，进而挖掘隐藏的因果关系，自20世纪90年代以来逐步成为教育经济学、劳动经济学、发展经济学等领域的主流研究方法。相关议题聚焦于教育回报率、国家经济发展和制度变革对教育的影响、教育发展史和工资结构变化、教育与性别工资等。继弗农·史密斯因将经济学实验作为工具用于经济实证分析而获得2002年度诺贝尔经济学奖之后，阿比吉特·班纳吉、埃斯特·迪弗洛和迈克尔·克雷默因在减缓全球贫困的随机对照实验方面的贡献获得2019年度诺贝尔经济学奖，戴维·卡德、乔舒亚·安格里斯特、吉多·因本斯等因在因果推断的自然实验方面的贡献获得2021年度诺贝尔经济学奖。

确保因果推断的有效性和可靠性是基于经验证据制定教育政策、遴选教育方案、推广教育产品的前提条件。20世纪末，美国和英国相继发起证据驱动的教育改革（evidence-based reform in education），引领全球各国公共政策制定依据由经验标准向客观证据转变。1“循证教育”主要包括三项基本行动：首先，使用严格的实验（准实验）方法评估创新方案；其次，找出最有效的方案，并使教育工作者和政策制定者了解行之有效的方案和实践；最后，提供政策和资金支持等激励措施，确保方案的有效实施。美国国会于2015年通过《让每个学生成功法案》（ESSA），以国家法律的形式确立了“教育改革创新应该基于科学证据”这一基本理念。据此，教育政策和创新方案将依据其因果推断效力划分为强、中、有希望三个等级，其中，只有被最强证据支撑的创新才能得到联邦政府资助并进行大规模推广。

美国教育实证的经验表明，高质量的教育决策应该源于严格的教育实验或准实验研究的结果，特别是大规模随机控制实验的结果。大规模随机实验，例如美国田纳西州改进师生比随机实验（STAR）、纽约奖学金项目（NYSP）、职业生涯学院研究（MDRC）等，对教育政策的制定产生了举足轻重的影响。2003年以来，反贫困行动实验室（JPAL）和贫困行动创新组织（IPA）吸引了来自91所大学的261名教授，在80多个国家开展了1200多项与教育和减贫相关的随机对照实验，经过该方式验证的项目惠及全球4亿多人。当前，包括我国在内的发展中国家正在推进证据驱动的教育改革，循证教育改革方兴未艾。早在20世纪八九十年代，我国教育先驱就提出“教育科学的生命在于教育实验”（刘松涛，1980），并且涌现了一批以卢仲衡主持的自学辅导实验、顾泠沅主持的青浦教育实验、黎世法主持的异步教学实验等为代表的教育科学实验热潮。近年来，我国加速推进证据驱动的教育改革，中外合作团队围绕农村学校和城市打工子弟学校等表现较弱的学校群体，先后以农村寄宿制学校生活老师培训、贫困生事先资助承诺、教师绩效激励计算机辅助技术（CAL）效果评价、农村学生缺铁性贫血和视力健康状况、儿童早期发展等主题开展随机干预实验研究。

日趋完善的国际教育数据库和监测报告为循证教育领域的因果推断和政策评估提供了有力支撑。国际教育组织定期收集各国最新的教育数据，帮助教育工作者和研究人员了解各国的教育体系和学生的学业表现，为开展基于证据的教育政策改革提供了可靠的数据保障。2019年世界银行联合比尔和梅琳达·盖茨基金会（BMGF）和英国国际发展署（DFID）合作开发了能够协助政府高质量建设教育事业的系统性工具，帮助决策者们鉴别教育体系中的问题，实现更大规模的教育公平。国际教育成就评价协会（IEA）和经济合作与发展组织（OECD）的全球大规模测评体系为比较国际教育制度体系和不同国家的学生学业表现提供了丰富的决策依据。约翰·霍普金斯大学长期在最佳证据百科（Best Evidence Encyclopedia）、综合学校改革示范（Comprehensive School Reform Demonstration）等网站提供教育实验证据，有效辅助教育政策制定和教育研究。基于国际组织大规模测评数据库开展教育经济领域的大型实验，有利于提高教育领域因果推断的可信度，提升教育政策评估的科学性，从而推动教育事业发展。当前教育经济研究正经历一场全新的变革，大数据和人工智能（AI）技术的普遍应用拓展了教育经济领域的数据采集边界，使得教育研究数据的颗粒度更为精细，催生了教育经济实验方法新一轮的可信性革命。本文将总结随机对照实验及各种自然实验方法的教育因果推断工具箱，系统梳理其在教育私人回报率估计与不平等研究、同伴效应与社区效应等教育外部溢出效应研究，以及涉及学校、家庭、影子教育、在线教育、政府等多主体的教育投入产出效率研究中的最新进展，展望大数据和人工智能时代机器学习与教育经济实验方法渗透融合的途径和前景。

二、教育因果推断的潜在陷阱与实验研究工具箱

（一）教育因果推断的潜在陷阱

教育研究者致力于通过随机控制实验进行因果推断，其关键在于明确“相关性不等于因果关系”。Shadish et al.（2002）援引19世纪哲学家约翰·斯图亚特·穆勒（John Stuart Mill）的观点，提出了因果推断的三项基本准则：一是，因果应当存在时间维度上的继起关系，“因”（cause）的存在必须先于“果”（effect）的发生；二是，因果之间具有相关性，“因”的系统性变化会引起“果”的显著变化；三是，排除限制（exclusion restriction），全面地排除其他可能导致观测结论的替代解释。

基于人力资本理论，教育是劳动者为提升自身未来在劳动力市场上的表现而进行的投资行为，因此接受教育是一个内生的决策变量，受到个人能力、学校资源、家庭因素、就读距离、义务教育法等多重因素的影响。例如，关于教育年限与工资收入的研究容易遗漏关于不可观测的个人能力因素，造成教育回报率高估；关于家庭收入与学生教育产出的研究很难排除家庭因素引致的其他变化的影响，Dahl & Lochner（2012）发现牺牲陪伴子女的时间反而会降低教育产出，Choi & Park（2016）认为课外补习决策并非随机且存在自选择问题。若要甄别劳动者边际收入的增长到底是来源于因接受教育而获得的生产力增长和技能水平提升，还是能力、动机、管理、制度等其他混淆因素，必须通过精妙的实验实证设计对混淆因素进行有效控制。

（二）教育随机实验的关键准则

正如 Griliches et al.（1983）所指出的，“如果数据是完美的，是从设计良好的随机试验中获得的，那么计量经济学就不存在了。”随机对照实验被认为是科学实验研究的“黄金准则”，其核心在于通过随机分配（randomly assign）实现排除限制目标。常见的随机分配方法是抽签，例如随机抽取学号进行班级分配，或抽取学生发放“奖励券”“教育券”等。例如， Muralidharan et al.（2019）招募619名公立中学学生，并向随机抽取的一半学生发放免费参与个性化辅助教学项目的奖券。然而，随机试验的有效性高度依赖于实验设计，现实中的四类因素通常会对随机实验的有效性产生影响，导致随机控制实验结果外推困难和可信性下降：一是干预外溢，即控制组可能通过与干预组交流获得外溢，主动模仿接受干预，造成结果“污染”。二是身份转换，例如STAR项目中约有10%的控制组（常规规模班级）在之后的升学过程中转换为干预组（小规模班级），对最初的随机分配造成破坏。三是样本磨损，经验表明，跨期较长的追踪实验项目大约有20%~50%的样本无法提供最终的结果指标，而主动退出的样本和继续实验的样本可能在某些不可观测指标上存在显著差异。四是参与者行为的变化，主要包括“霍桑效应”（Hawthorne effect）和“约翰·亨利效应”（John Henry effect），前者指实验者知道自己成为实验对象后发生情绪和行为上的显著改变，后者指控制组样本下意识地将干预组视为竞争对手并改变自身行为。

为控制上述偏误，教育实验研究领域通常采用超额认购、分阶段随机引入、组内随机化和激励设计等修正方法提高随机对照实验的效度；或是使用特殊的双胞胎数据和领养数据，以控制基因、能力等遗漏因素。最近三十多年来，在缺少良好实施随机控制实验的条件下，教育经济研究者更为广泛地采用包括工具变量法（IV）、断点回归（RD）、双重差分（DID）在内的自然实验方法，提升教育实证研究的可信性和科学性。

（三）实验方法在教育经济领域的应用途径

自然实验通常意味着个体遭遇到诸如自然灾害、战争、改革等某种外生冲击，使其被随机“分配”到潜在的“干预组”和“控制组”，进而产生了“模拟”随机分配的实验效果。这种不完全满足随机分配的自然实验被称为准自然实验（quasi-natural experiments）。与随机对照实验相比，（准）自然实验能够节约人力和资源，避免因道德伦理等因素受到批判。

教育经济研究中广泛使用工具变量法来排除混淆因素对因果推断的干扰，以便在更宽松的环境下进行因果推断，无须强迫系统不能包含任何混淆因子，进而修正随机分组难以实现的问题。例如，在关于私立学校教学效果的评估中，即使有家庭随机获得了帮助其支付私立学校学费的“教育券”，也可能拒绝进入干预组，因而可使用最初的随机分配作为工具变量。教育经济领域常见的工具变量包括三类：一是位置、距离、河流数量、降雨量、灾害等自然因素；二是出生季度、性别等个体特征，以及是否有兄弟姐妹、出生顺序等家庭背景因素；三是价格费用、义务教育年限延长等教育制度改革等社会因素。

断点回归法（RD）是一种利用自然发生的随机性进行因果推断的方法，能够较好地处理选择偏误，被认为是最接近黄金法则的自然实验。人们经常利用班级规模、入学录取分数线、入学截止日期、教育政策改革等展开断点回归分析。在该方法中，外生干预决定了分配变量上的“断点”（cut-point）。分配变量既可以反映时间上的推移，如以某项教育政策颁布的时点为断点；也可以反映空间上的相邻，例如相邻学区、招生区域、省份之间的边界。断点回归在教育经济领域的应用面临两个方面的挑战：其一，分配变量与被解释变量之间如果存在潜在的长期趋势（secular trend），可能导致断点两侧被解释变量的差异来源于分配变量的微小变动而非干预，尤其是在分配变量为教育年份、受教者年龄等离散变量时。其二，参与者一旦对分配过程施加了影响，可能会破坏外生性的假设。对于第一类威胁可使用双重差分模型进行修正，而对于第二类挑战则需要在理论上加以解释。通常学生无法准确预测录取分数线，也无法对于录取结果进行事后选择，因此以录取分数线为断点考察大学教育回报率符合人们的直觉。Sekhri（2020）研究发现，处于录取分数线边缘的公立大学学生相比于勉强达到录取分数线而就读私立大学的学生，在大学毕业考试成绩方面并无显著差异，但其在劳动力市场上则具有明显的收入优势。

个体受教育政策冲击的异质性冲击在教育经济领域一直难以识别。现有研究广泛利用教育法案改革、延长法定教育年限、录取标准变化等自然实验来识别。应用双重差分法识别处理组受教育政策冲击影响产生的是平均处理效应（ATE）。标准双重差分法（standard DID）通过构造交互项，对比干预组在教育政策冲击的前后变化和控制组在政策冲击前后的变化之差，以此评估教育政策冲击时点的外生效应，较早被用于考察培训、最低工资等政策的实施效果。目前，双重差分法已发展出多种细分方法：渐进双重差分法（time-varying DID）适用于处理时点不统一的外生冲击，例如在局部地区试点再在全国推广的教育政策；当所有研究对象均受到政策干预的影响但程度存在明显差异时，可根据冲击程度构建处理强度（treatment intensity）指标，使用广义双重差分（generalized DID）进行教育政策评估，一个例子是，科举制度于1911年被废除，这对所有地区都产生了影响，但因科举配额的巨大差异，不同地区受冲击影响程度又存在着明显的差异；由于教育领域的研究通常涉及个体的年龄信息，即使是运用了截面数据，也可以使用队列双重差分法（Cohort DID）进行因果推断。队列双重差分法被广泛用于考察教育制度改革、流行病、社会运动、经济特区地方政策等外生冲击对个体受教育年限的影响。为确保双重差分法因果识别的有效性，要求处理组和控制组在接受处理之前保持相同趋势，人们常使用匹配、合成等方式削弱样本偏差问题的影响，将倾向匹配得分法（PSM）与双重差分法组合使用。

三、实验方法对个体教育回报率估算的贡献

教育经济领域一直关注个体教育回报率的估计、变动趋势及其在性别、地区等方面的不平等问题。一方面，基于明瑟收入方程，以个人受教育年限增长所带来的未来收入水平增长来衡量私人教育回报率，估算的教育回报率水平大致为6%~10%。这类研究广泛使用工具变量法进行修正，以控制个人能力等不可观测混淆因素的影响。另一方面，以教育制度改革等为外生冲击，应用双重差分法、断点回归法等准自然实验法，估计出的教育回报率水平通常较高，约在6%~16%之间。

（一）解决个体教育回报率低估问题

传统的估计方法往往低估了个体教育回报率。考虑到受教育成本，与学校距离越近的个体接受教育概率越大，但距离因素不会直接影响收入水平，自 Card（1993）以来，许多研究应用居住地是否与学校相邻以及两者之间的距离作为教育年限的工具变量。在特定的教育制度下，出生季度等也能够作为工具变量。例如，美国各州规定年底满6岁的孩子可以在当年9月份入学，而允许辍学的最小年龄是16岁，因而出生季度与教育年限之间相关，但又不直接影响被解释变量。Angrist & Krueger（1991）据此使用学生出生季度作为受教育年限的工具变量进行研究发现，以往研究低估了大约2%的教育回报率。在使用特殊双胞胎数据的研究中，Li et al.（2012）基于OLS法估算出中国的教育回报率为8.4%，但控制孪生固定效应，使用双胞胎样本交叉报告的受教育水平作为自我报告的受教育水平的工具变量以控制潜在的测量误差后，教育回报率下降到3.8%。

在对我国教育回报率的估计中，自然实验方法也被广泛采用，一般以教育年限延长、恢复高考制度、实施义务教育法、高等学校扩招等教育制度改革作为外生冲击。Chen et al.（2020）基于地方志数据发现，初中教育学制时间延长1年促使学生实际受教育年限大约增加0.6年，应用自然实验法估算出的中国城市教育的回报率大约为12.7%。基于恢复高考制度这一准自然实验，Zhang（2023）应用列队双重差分法和断点回归法发现了显著的教育回报：接受高等教育的学生在30~40岁时有更大可能从事社会经济地位高的职业、更短的工作时间，并在40岁获得高出未受高等教育者56%的收入。Fang et al.（2012）以中国各省实施《中华人民共和国义务教育法》的时间为工具变量，估算出1997-2006年间中国总体教育回报率大约为20%。高等教育扩招也是估算教育回报率的准自然实验场，扩招政策的实施导致劳动力供给急剧增加，高等教育溢价缩减。Asadullah & Xiao（2020）认为，教育扩招后的教育回报率下降主要来源于高等教育，相比之下，初中教育水平的教育回报率反而有所提高。Guo & Wu（2024）采用双重差分法检验高等教育扩招对大学溢价的政策效应发现，在控制能力误差后，收入溢价显著下降。

自然实验方法在个体教育回报率研究上的应用效果不仅体现在其提高了估算的可靠性，而且还揭示了影响教育回报率更为细致的结构变化。传统观点认为，教育回报率主要来源于人力资本效应，即受教育者通过接受教育提升技能水平和劳动生产率。Caplan（2019）解释了教育的信号作用，即可以降低劳动力市场上雇主的搜寻成本，这种“羊皮效应”（sheepskin effect）有利于提高教育回报率。吴晓刚和李晓光（2021）、Mcguinness et al.（2021）认为，“追求羊皮”效应不能过度，否则会导致全社会的过度教育（overeducation），个体实际受教育程度普遍超过职业岗位所需，造成教育回报率趋势性下降。认知技能和非认知技能回报率的不同变化趋势也是理解教育回报率下降的重要方面。随着新技术对劳动力替代程度的加深，认知技能的回报率呈下降趋势，而社会成熟度、心理能量、情绪稳定性、社交能力等非认知技能的回报率在上升。

（二）揭示教育不平等深层次结构问题

教育投资回报率相较于其他类型投资更有利于促进机会公平，许多国家都致力于通过全民教育（EFA）议程和可持续发展目标（SDGs）减少不平等现象。自然实验方法提升了教育不平等研究的科学性和可靠性。

在教育的性别不平等上，尽管使用的数据和方法各有不同，但多数研究支持女性教育收益率高于男性教育收益率的观点。对于低收入地区的女性而言，教育是最好的投资品，尤其是大学教育。Montenegro（2001）发现，男女的教育回报存在分位数差异，在低分位数段，女性的教育回报率显著高于男性的教育回报率，而在高分位数段没有明显差异。Qian（2008）使用茶叶价格作为男女收入比的工具变量研究发现，女性相对收入增加显著提高女孩的生存率和受教育年限以及提高男孩的受教育年限。Zimmerman（2019）应用断点回归法，基于加州大学录取公示名单数据研究发现，精英商学学位教育显著提高了私立高中男学生的个人最高成就水平，但女生以及家庭出身较低的男生并未获得显著收益。这在发展中国家也有体现，就读于精英大学具有明显的声誉效应和信号作用，即使是培训，女性的回报率也显著高于男性回报率。近年来，随着发展中国家制造业和服务业的快速发展，女性劳动参与率得到明显提高，入学率的性别差异显著缩小。Chen et al.（2023）应用自然实验方法估计了中国大学教育对社会信任的影响，发现大学教育主要通过提高个人的社会经济地位、增加其获得城市户口的机会、增加收入等渠道增强个人的社会信任，这些影响对女性尤为明显。

在教育的区域不平等上，自然实验证据表明，地区、城乡间教育回报率差距仍然明显，但存在收敛趋势。Asadullah & Xiao（2020）以受访者父母亲的受教育程度作为工具变量，估算出2010年中国教育回报率大约为6.7%~7.5%，至2015年略有下降，大约为6.2%~6.9%；2010-2015年间，东部沿海地区的教育回报率从9.9%下降到7.8%，虽然内陆地区和西部地区的教育回报率水平更低，但出现了上涨趋势，其中内陆地区从4.2%上升到4.8%，西部地区从4.4%上升到5.4%。Guo & Wu（2024）应用双重差分法研究发现，在中国高等教育大规模扩招的背景下，城市儿童不仅在接受教育方面最先获益，也在大学溢价下降方面损失更小，而那些农村出身但具有较强学习能力的儿童，其收入溢价相较于城市同龄人而言下降得更多。

四、实验方法对教育溢出效应研究的贡献

世界各国都很重视教育在提升经济社会高质量发展中的基础性作用，因为教育具有显著的正外部性。Hout（2012）认为，教育的社会回报甚至大于私人回报，大概是7%~10%的水平。教育溢出效应也存在明显的异质性，对于女性、落后地区而言，教育带来的正外部性通常更为显著。在微观层面，个体的教育不仅对其自身的生产力和行为产生直接影响，还能够通过积极的同伴效应和社区效应影响其他个体。教育的外部溢出效应还增强了整个社会的经济活力和社会稳定性。自然实验方法在该领域的应用有助于排除混淆因素的干扰，为揭示教育溢出效应的结构及其变化提供科学证据。例如，Liu et al.（2024）发现流动儿童显著受益于本地儿童的同伴效应，这为实施“撤点并校”政策提供了依据，也证实“随迁入学”政策将有助于减少教育机会不平等。

（一）同伴效应的教育实验及其结果

同伴效应意味着在相同教育环境中个体的教育产出受到同辈群体的影响，主要包括移民同伴效应、种族同伴效应、性别同伴效应、家庭同伴效应等。识别同伴效应因果关系的主要挑战是，潜在的不可观测因素可能导致学校、班级及教师的非随机分配，从而扭曲了真实测量。为应对这一挑战，研究者们广泛采用自然实验方法来揭示同伴效应的实际性影响。

在正向同伴效应的自然实验研究上，优秀的同伴有助于提升学生成绩和行为规范水平。Liu et al.（2024）以随机的班级分配作为准自然实验进行研究发现，本地学生对流动儿童人力资本产生显著的正面同伴效应，且女生的学业成绩、男生的认知能力、城市流动儿童的学业成绩和认知能力、独生子女的认知能力更容易受同伴效应影响。学校质量与同伴也存在互补效应，高质量的学校内部的积极同伴效应更为明显。Wang et al.（2021）以学生关系最紧密的同龄人的父母的受教育程度作为同伴效应的工具变量进行研究发现，农村学校的教学质量大多优于民办农民工子弟学校的教学质量，前者的同伴效应也更为积极。Hoxby（2000）关注到种族内部的同伴效应，利用特定小学内不同群体性别组合的特殊变化构建自然实验发现，同龄人的成绩水平对学生的学业表现有显著影响，且这种影响在种族内部更为显著。性别也能产生积极的同伴效应。Lavy & Schlosser（2011）、Gong et al.（2021）的研究认为，提高班级中的女生占比能够显著提升班级的平均成绩和非认知能力水平。

同伴之间也有负面的效应。Hu（2018）基于班级的随机分配来控制内生性问题，发现外来务工人员子女对本地学生的学业成绩产生了巨大的负面同伴效应，班级中外来务工学生比例每增加10个百分点，当地学生的数学考试成绩会降低0.11个标准差，男生的数学考试成绩会降低0.16个标准差，而移民壁垒较高的大城市的本地学生数学考试成绩则降低0.2个标准差。不良同伴还可能诱发饮酒、吸毒、犯罪等不良行为，形成“近墨者黑”的现象。还有一种由同伴效应产生的负面影响是“比较压力”，即因同伴教育产出的可观测性，导致过度的同伴竞争压力，进而对教育产出产生不利影响。Guo & Qu（2022）考察了家庭间关于影子教育投入的同伴效应，用基于随机分配的教室样本来处理潜在的内生性问题，发现中国家庭的影子教育支出增长并未带来学生成绩的提高，反而造成了教育资源的浪费。

（二）社区效应的教育实验及其启示

个人成长和居住的社区环境对教育过程有着重要影响。社区内部通常会集聚相似社会经济地位、教育程度、投资偏好的群体，而与社区外部人群则保持相对隔离的状态，这种内部开放但是对外相对封闭的居住空间形态具有“群分效应”，会对“圈子”内部的个体产生显著的溢出作用（陆铭、张爽，2007）。如果学校的招生入学政策和居住地相关，那么采取“就近入学”的学区政策，学校同伴的来源结构就不可避免地与社区产生紧密关联，引导家长通过购买学区房实现择校目标。居住在不同社区的居民获得的教育经费投入不同。例如，美国最近减少了中小学教育经费对地方财产税的依赖程度，转而增加州政府投入比例，究其原因，过去美国基础教育财政主要来源是地方财产税，那么平均房产价值较高的富裕社区所在地征收到的财产税较多，因而该地区的教育经费投入就高，这就拉大了贫困学区和富裕学区之间的教育经费投入差异。社区效应使得人们向更好社区迁徙，因为这能产生显著的经济收益。Ludwig et al.（2013）基于“向机会迁移”（MTO）随机住房迁移实验的数据研究发现，在基线之后的10年至15年间，从贫困社区搬迁到富裕社区的家庭显著改善了成年人的身体和心理健康，但对青少年的学业或身体健康没有明显的影响。家庭搬迁的时间点也至关重要，Chetty et al.（2016）发现，只有当儿童年龄低于13岁时，搬迁到富裕社区才会显著提升其大学入学率、未来收入以及成年后居住在富裕社区的概率，并显著降低其未来成为单亲父母的概率。中国古代“孟母三迁”就是一个为获得更好的教育环境而主动选择居住区的典故。

五、实验方法对教育投入产出效率研究的贡献

投入与产出效率一直是教育因果推断的重要领域，实验方法在该领域的应用集中体现在估计学校投入、家庭投入与政府投入对教育产出的影响上。

（一）学校投入与教育产出的随机实验

在教育经济领域，一般从教育基础设施、班级规模、教学质量等角度，研究学校资源投入对教育产出的影响。从硬件条件看，增加学校基础设施投入在改善学业成绩方面具有重要意义。然而，一项向肯尼亚农村小学提供书本的随机对照实验的经验证据表明，由于优质资源向精英阶层强势流入，课本发放等教育投入并未惠及弱势学生。现代教育基础设施水平可能受历史因素的影响，Chen et al.（2020）使用地级市行政区与书籍印刷原材料地的距离、河流距离（古代获取书籍的便利程度）作为进士密度的工具变量，证实中国古代科举制度通过改善教育设施及其他渠道对现今人力资本产生了显著影响。美国田纳西州STAR大型随机实验表明，采用小班化的学习取得实质性效果，长期来看显著提升了大学出勤率。受益于小班授课中更紧密和更优质的指导，学生参与度和某些非认知技能水平都获得明显提高。Park et al.（2015）应用断点回归法证实，较高的高中教学质量有利于提升学生的受教育程度。Andrietti & Su（2019）基于德国G8改革这一准自然实验验证了学校教育强度对学生考试成绩的影响，该政策将成绩优等学生的中学学制从九年缩短为八年，但毕业所需总体学术内容和总教学时间保持不变，外生性地提高每个年级的学校教育强度，这种教育强度提高了考试成绩，并对女生、父母为本国人、家中书籍更多的学生产生了更为积极的影响。

（二）家庭背景与教育产出的自然实验

家庭背景影响着个体教育产出，在这一领域，自然实验方法主要用于考察教育的代际传递、父母学历等对子女受教育回报的影响。通常而言，高学历父母能力较为突出，受其遗传影响的下一代的能力也往往更强，这一不可观测因素会对教育产出产生明显影响。为控制相关遗漏变量可能导致的内生性问题，Carneiro et al.（2013）以家庭住址到大学的距离作为工具变量进行研究发现，母亲学历对8岁孩子的数学和阅读成绩存在显著的正向影响，但当孩子长至12~14岁时，母亲教育对孩子阅读成绩没有影响。也有研究基于准自然实验方法，实证检验父母外出务工对孩子教育的影响。例如，来自甘肃家庭调查数据的研究证实，父亲外出增加了男生辍学概率，但对女生入学率无显著影响。对于弱势家庭的留守儿童而言，父母外出务工带来的长期教育收益显著高于因缺席带来的短期负面影响，因为外出打工增加了家庭收入和教育投资。在家庭投入与教育产出的自然实验中也常使用双胞胎样本或者领养等特殊样本。Behrman & Rosenzweig（2002）的研究在控制代际能力偏差的条件下发现，父亲的教育对子女教育产出影响为正，但母亲的教育没有影响。双胞胎因素也是很好的工具变量，Bhalotra（2020）的研究表明，孩子额外的出生会降低其兄弟姐妹的受教育年限。使用领养数据能进行自然实验的理由在于，由于孩子被随机分配给非亲生父母，没有和亲生父母一起长大，养父母能力等非观测因素与孩子能力无关，这就控制住了与个体因素相关的混淆变量的影响。Haegeland et al.（2010）依据2002-2007年在挪威完成初中学业的16岁儿童信息整理领养数据证实，母亲教育具有积极作用。Scheeren et al.（2017）发现，收养儿童的受教育程度与收养父母的家庭收入有关，但与收养父母的教育程度几乎没有关系。

（三）工具变量与影子教育的自然实验

影子教育指的是除学校正规教育之外的课外补习、私人辅导等非正规教育，在发展中国家尤其是东亚国家，私人教育支出在家庭人力资本投资中占有较高的比重。在考察影子教育对教育产出的自然实验中，关键是工具变量的选择。既往研究通常采用以下几类工具变量：其一，资源稀缺效应。出生顺序与父母资源分配紧密关联，早出生的孩子通常能够从父母处获得较多的资源，因而可使用兄弟姐妹的数量和在家庭中的出生顺序作为校外补习的工具变量。其二，成本效应。接受补习的成本受距离因素影响，离家最近的补习机构与家的距离是良好的工具变量。考虑到不同类型影子教育的成本相互竞争，可以非学业型课外补习费用作为学术型课外补习的工具变量。其三，同伴效应。家庭影子教育支出可能受到同伴竞争效应的影响，一般使用同伴的影子教育支出作为工具变量。Zhang（2013）以学生的五位好朋友参与补习的比重作为工具变量，研究发现课外补习有利于提高薄弱学校或落后学生的成绩表现。与影子教育相关的是对影子教育的监管问题。持肯定态度者认为，影子教育可以与正规学校教育形成互补，提供个性化、针对性教学。持反对观点者则认为，影子教育的繁荣可能导致对正规教育体系的挤出，造成人力资本浪费，甚至加剧学生的抑郁倾向和心理问题。韩国在公立学校中推广了多种形式的辅助教育，中国倾向于控制影子教育的野蛮生长，以追求更加公平的教育。

（四）在线教育与教育产出的自然实验

在线教育被视为全球范围内提高教学效果、促进教育公平的前瞻性重要举措，具有灵活性、可达性以及多元性等特征。对于计算机辅助技术（CAL）应用及在线教育的普及对教育产出的影响，自然实验的结论并不一致。积极的证据表明，计算机辅助技术能够显著提高学生的学业成绩。一些学生在传统教育中并未得到有针对性的教育，而CAL的应用能够增加学生的学习兴趣，并通过适宜性教学（TaRL）提高教育产出水平。Goodman et al.（2019）采用断点法研究发现，在线学位课程增加了受教育的机会，且并未对其他非正式培训产生替代，也不会降低学生参与其他教育项目或者非学位培训的程度。Guiller et al.（2008）指出，线上交流更容易激发学生的批判性思维。学生对于线上还是线下上课的选择可能是内生的，亦即由某些不可观察的信息驱动，距离依然是这一领域的良好工具变量。也有研究对在线教育表示担忧。Xu & Jaggars（2013）发现在线学习方式对学生课程成绩和持续性的影响显著为负，相较于传统面对面的教育形式，在线教育的课程完成率下降了7个百分点，学生成绩的均值也低0.3分以上。Bettinger et al.（2017）的研究也支持了这一观点。Deschacht & Goeman（2015）采取双重差分法证实了混合式教学会导致学习者持久性程度下降，虽然混合式教育能够提高考试成绩，但这种观察到的效果可能是由于学生非随机选择参加考试导致的。

（五）双重差分法与教育补贴的自然实验

教育政策属于公共政策，政府在财政支出、资源配置及制度改革上对教育提供支持，进而影响个体的教育决策以及宏观的教育产出。例如，中国、巴西、印度等发展中国家广泛实施了包括午餐补贴、奖助学金等在内的教育补贴政策，旨在通过降低受教育成本，提升国民的受教育程度和教育产出。Tang et al.（2020）认为，补贴政策减少了儿童参加与课业无关的经济活动的可能，显著提高了入学率。加拿大政府于2001年在多伦多最大公共住房社区启动了“教育之路”计划，针对九年级学生提供辅导、课外活动及经济支持。Lavecchia et al.（2020）通过双重差分法对这一项目的长期效应进行评估的结果表明，受该项目影响的学生成年后年收入增加了19%，就业率上升了14%，证实了政府资助的教育支持服务（特别是针对弱势学生的支持和帮助）有助于改善其学业表现和劳动力市场表现。Zhang et al.（2023）基于2005-2017年四川省114个县（其中包括78个扩权县）的教育大数据，揭示“扩权强县”政策对基本公共教育资源供给的影响，即县级公共教育资源供给显著增长。但Wang et al.（2012）提供了相反的证据，基于1999-2008年河南省108个县的数据，应用双重差分法研究发现，县级财政改革赋予地方政府更多财政自主权后，反而导致公共教育支出占比下降。教育制度改革对不同群体的教育可达性存在着结构性影响。增加公共教育支出能够帮助低收入家庭减少课外教育支出，但可能导致低收入家庭与高收入家庭之间更大的人力资本差距，因为高收入家庭影子教育的支出几乎没有被替代。Tang et al.（2020）采用双重差分法评估了中国农村义务教育改革对童工发生率的影响，结果显示，接受免费义务教育显著降低了男孩的童工发生率，平均一个学期的免费义务教育使男孩的童工发生率降低了8.3个百分点，但对女孩的童工率没有显著影响，这表明义务教育改革可能会促使父母在家庭中向男孩重新分配资源。

六、人工智能技术对教育经济实验方法的赋能与迭代

大数据时代下的因果推断方法面临可信性革命。尽管大多数情况下准自然实验是有意义地估计因果关系的唯一方式，但其只能获得平均因果效应，也不能估计间接影响链路，在应对非线性、高维、有限数据、噪声、网络因果效应识别等复杂问题方面的能力有限。此外，复杂数据依然无法避免遗漏变量以及不可观测混杂因素的潜在影响，干预变量还可能出现多值、连续和高维等情况，且几乎所有趋势变量都有相关特征，使真实因果关系的识别变得更加困难。虽然引入决策树、随机森林、深度神经网络等方法可以通过自适应地学习异质性因果效应的分布获得异质性处理效应（HTE），但大部分的因果图是人为选择，存在着主观偏差。目前流行的机器学习（ML）方法仍以数据驱动、关联学习、统计建模为特征，虽然在自然语言处理、特征提取、图像识别、分类预测等领域取得重大突破，但大部分深度学习模型被用于挖掘数据相关性而非因果关系。图灵奖得主Judea Pearl认为，目前以统计学或盲模型的方式运行的机器学习系统并不能完全作为人工智能的基础，而结构因果推断（SCM）可能是提升深度学习可解释性和稳健性的有力武器，关键是如何从复杂数据中提取因果关联，再将因果关联赋能机器学习算法。

（一）人工智能技术对因果推断工具的嵌入

机器学习是人工智能技术的重要分支。从方法论优化视角看，将机器学习应用于因果推断的文献屡见不鲜，应用深度学习方法发现、生成、检验工具变量是重要方向之一。传统工具变量需要满足多重严格假设，不仅在现实中很难找到，有效性也存在争议。工具变量的第一阶段回归事实上是一个预测任务，可利用Lasso回归、深度神经网络算法等将工具变量扩展到高维和非线性数据域，进而增强因果效应推断（Hartford et al，2017）。为从复杂数据中找到或生成工具变量，Wu et al.（2022）提出了群体工具变量生成模型（GIV）和工具表征自动生成（AutoIV）算法。Guber（2018）采用因果树算法（causal trees）检验工具变量（IV）有效性。匹配法中通常使用的最近邻匹配算法、分层匹配算法本身属于机器学习范畴。对于模糊断点回归，可使用支持向量回归和随机森林回归等机器学习方法训练数据自动选择断点。基于断点的不连续性和“意外跳跃”特征，Herlands et al.（2018）提出了适用于高维数据的局部断点回归机器学习方法。对于双重差分模型和合成控制法，也可以应用神经网络等方法选择和生成合成控制组。机器学习方法加速向鲁宾因果模型（RCM）框架下因果推断工具渗透的核心路径是发挥机器学习在预测、分类、特征提取、变量构建方面的优势，提升因果推断的有效性。

在更广泛意义上，机器学习可普适性地用于因果推断的模型筛选、反事实推演、稳健性检验以及异质性处理效应估计。机器学习、人工智能等模型高度依赖于独立同分布假设，但基于混淆变量匹配平衡思想，对样本进行加权，可以实现所有变量的独立化，从而将原本基于相关性的模型转变为基于因果关系的模型。在工业界和互联网领域，基于深度因果模型的智能策略已经展现出了巨大的商业价值。因果森林（causal forest）通过对现有随机树处理效应进行加权处理，挖掘对某种策略干预反应最大的群体特征，进而实现个性化智能决策。滴滴公司将二元因果随机树扩展到了多元变量和连续变量，基于连续因果森林构建的定价策略取得了约15%的投资回报率，现已成为覆盖全国大部分城市的智能主策略。

（二）人工智能技术在教育经济实验领域的应用前景

随着数据日益成为重要的生产要素，教育经济因果推断日益依赖于教育大数据的挖掘和应用。当前，教育人工智能（EAI）正逐步弥合正式学习和非正式学习的边界，引领教育环境向虚实融合转变。智能教育致力于构筑个性、适宜、动态的教育生态系统，很多学校已经在应用语言识别、图片识别、智能批改等人工智能教育辅助技术，并使用数据挖掘技术监测和评价学生学习的效果。在线教育的普及推广、教育云和数字校园建设以及国家信息化工程的推进，极大地加速了教育大数据的产生和搜集，主要有以下几个方面的大数据：一是课堂教学、出勤考核、学生情绪及反馈、学生成绩等教学过程大数据；二是科学研究大数据，主要包括科研实验、会议交流、论文成果、合作网络、专利转化、人才评价等；三是学校、教师、学生的基础信息、资产设备信息、学生就业数据。随着全球信息技术的加速迭代，包括气候类数据、夜间灯光、公共交通等在内的时空大数据，以及数字化转型背景下制造、研发、设计、采购、销售等各环节产生的多源异构数据，加速扩充教育大数据的边界。与此同时，以生成式模型为代表的深度学习技术更多用于反事实因果推理，促使基于大模型的因果推断表现得更为准确和有效。

随着互联网、大数据、区块链和人工智能技术的快速发展，教育经济实验日益朝着智能化方向纵深发展。OpenAI公司推出的人工智能对话聊天机器人ChatGPT，以其出色的自然语言生成能力引起了全世界范围的广泛关注，随即在全球范围内掀起了一场大模型浪潮，Gemini、Copilot、LLaMA、SAM、SORA等各种大模型不断涌现。当前，人工智能技术正逐渐深入赋能千行百业，首先就是教育，这为教育经济实验和教育政策制定提出了新命题。关于人工智能在劳动力市场上的替代问题就是其中的学术热点，尽管已有大量报告和研究文献，但人工智能仍是一个谜，作为一种新兴技术，其采用对于工作内容和职业结构变化的影响仍在逐步被理解中。人工智能通过高效和快速地解决复杂问题来改变劳动需求、工作性质和工作效率。Clifton et al.（2020）讨论了人工智能对劳动力市场和工作场所可能产生的影响，通过实证研究，解释了关于人工智能运用对于工作增强、替代、破坏和替换的争论。Zhou et al. ( 2020）估算了人工智能在中国各种职业中的实际替代概率，分析了不同特征劳动力之间的替代效应，发现人工智能对女性、老年、受教育程度低和收入低的劳动力的替代影响更大，并预测到2049年中国或将有2.78亿劳动力被人工智能所取代。陈琳等（2024）的研究发现，人工智能尽管对常规型劳动力有替代效应，却增加了对非常规认知型劳动力的需求。大数据和人工智能在教育经济实验、教育政策制定及其实施过程中面临着新挑战和新的发展方向。当前大数据驱动的人工智能大模型迅猛发展，实现算法的深度学习、解释和验证，将教育经济实验推向科学预测的方向。例如，对世界主要国家教育经济人口转型发展的状况与趋势进行预测；对我国教育经济人口发展状况、变动趋势与教育资源配置效率进行精准预测；为教育强国建设所涉及的资源配置和教育政策评估提供及时预测。

七、结论

作为公共决策的教育经济问题，在有限的公共资源约束下，提高教育的质量能在多大程度上影响人力资本积累和内生经济增长，是教育研究者和决策者长期关注的核心问题。随机控制实验是科学实验研究的“黄金准则”，但实施大规模随机控制实验面临成本、时间、道德等多重约束，且面临结果外推困难。在更为常见的情况下，教育研究者需要基于非实验数据，应用（准）自然实验研究方法进行因果推断。由于无法真实观测到潜在结果，教育政策评估受到遗漏变量、测量误差、选择偏误等问题造成的内生性困扰。厘清并严格遵循各类因果推断工具的基本假设并控制潜在威胁，重点排除混淆因素的干扰，是得到真实因果推断的关键。在教育领域，包括工具变量法、断点回归法、双重差分法在内的主流因果推断方法的广泛应用，有助于控制不可观测的混淆因素影响，进而更准确地识别和估计因果效应，支撑循证教育变革。

本文对自然实验方法和随机实验方法在教育经济领域的应用做了系统性回顾和展望。在私人教育回报率的估计方面，已有研究广泛采用距离、生理因素、教育制度改革、随机分配等作为工具变量控制潜在的内生性问题，另一支研究以教育年限延长、恢复高考制度、实施义务教育法、高等学校扩招等教育制度改革为外生冲击，估算中国教育回报率及其群体差距。经验研究显示，教育回报率在性别、地区之间存在巨大沟壑，收入水平更高的人有更强意愿、更多机会接受更好的教育，应当采取积极措施以避免教育不平等差距随着代际传递进一步扩大。教育对第三方乃至社会也具有重要影响，同伴效应和社区效应是教育外部效应的主要形式。同伴效应广泛存在于不同种族、性别、班级、家庭、社区、移民等群体内外，既有正面效应，也存在挤出和过度竞争等负面作用，基于自然实验方法的研究发现，向更好的群体和社区迁徙能够获得正向同伴效应。教育的投入与产出效率是教育经济领域研究的重点，大量研究应用自然实验方法考察学校投入、家庭背景、影子教育、在线教育、政府投入对教育产出的影响，也取得了丰硕的研究成果。

随着数据成为重要的生产要素及互联网、大数据、区块链和人工智能技术的快速发展，多源异构数据蕴含了大量高时效性、多维、非线性、噪声等复杂信息，而机器学习在预测、分类、特征提取、变量构建等方面具备显著优势。本文展望了人工智能技术对教育经济实验方法的赋能和迭代：基于大数据的机器学习与因果推断方法的融合渗透将显著增强教育经济研究和决策应对复杂问题的能力，主流社会科学研究方法面临重大变革。一方面，深度学习能够基于复杂数据发现、生成、检验工具变量，自动选择和构造断点、控制组，有利于提升鲁宾因果模型框架下因果推断的有效性；另一方面，基于反事实框架的结构因果推理模型也有助于增强深度学习过程的可解释性和稳定性。当前，大数据驱动的人工智能大模型不断将教育经济实验推向科学预测道路。

作者简介

殷德生，华东师范大学教育经济实验室、华东师范大学经济与管理学院，邮政编码：200062，电子邮箱：dsyin@finance.ecnu. edu.cn；

吴虹仪，上海师范大学商学院、华东师范大学经济与管理学院，邮政编码：200233，电子邮箱：hywu@shnu.edu.cn；

陈琳，华东师范大学经济与管理学院，邮政编码：200062，电子邮箱：lchen@jjx.ecnu. edu.cn。

原载《经济学动态》2024年第10期，注和文献略

殷德生吴虹陈琳：实验方法在教育经济领域应用研究新进展

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

殷德生 吴虹 陈琳：实验方法在教育经济领域应用研究新进展

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

殷德生吴虹陈琳：实验方法在教育经济领域应用研究新进展