考试分数,学生的学习,教师的效率,学生对老师的评价之间有什么关系吗?院系不同,给学生打分的标准一样吗?打分宽松的课程或院系是否会影响学生选课,甚至影响他们选专业?
密执安大学生物统计学教授瓦伦•约翰逊(Valen Johnson)用统计学方法研究了这些问题,并给出了无可挑剔的回答。约翰逊曾经是杜克大学统计学和决策论教授,美国统计学协会理事。
约翰逊的目的是研究现行分数评定制度对学生和老师的影响,并不是要说明“分数膨胀”已经存在的事实。但是当他提出有些名牌学校像达特茅斯,哈佛,杜克中有44-46%的分数都是A或Aˉ,他当然期待读者认为这些分数太高了。虽然约翰逊认为读者应该知道成绩\"C\"表示“一般”,但没有提出证据说明反映了事实,甚至没有说分数在被拔高,因为过去不在他的研究范围之内。让45%的学生得A或Aˉ毕竟和平均值不协调,确实和膨胀有些关系,所以,他的标题并不是在误导读者。不管怎样,它会吸引读者的注意---我们简单地说的高分数的问题。
约翰逊关注的不是高分数,而是现行的分数评定制度对学生和对老师产生的不同的影响。所以不妨称为“分数悬殊。”分数影响学生选课、选专业,影响找工作,或读研究生。分数影响老师在学生评教中的得分和课程选修的人数,导致给分偏低的老师在评职称,晋级,提高工资等方面吃亏。在分析了分数悬殊的文献研究的有效性之后,约翰逊将影响进行了量化,并发现了令人吃惊的结果。他说“分数悬殊现象造成美国高等教育质量的普遍下降。不一致的分数评定标准造成对学生和老师的不公平评价,打击学生选修那些对他们最有益处的课程。” (239) 难怪他的副标题是“大学教育的危机。”
约翰逊紧接着承认“在大学里面关于分数的意义和目的存在着的深刻的哲学分歧。” (3)他引用了别人指责高分数的说法。“很多课程的老师给一般学生甚至差学生很高的分数。” (4) “分数膨胀挤压高分学生、使得最好的学生和一般学生区分不开。” (4)有些教师给不配得到的高分数,就是想让学生给他们评教分数打高些(49)。有些课程的一般水平学生的平均成绩实际上比另外课程的优秀学生的平均成绩还高(199)。这样的批评可以一直罗列下去。
另一方面,每一次批评都能引来相应的反击。“一般学生现在得到B而不是C并没有本能地破坏我们教育制度的价值。分数C只是表明一个等级而已。” (196) “对单一模式评分标准的普遍质疑使得大批的学生可以用多样化的方式合理、适当地表现对日益增加的内容的掌握。” (8)。给高的分数并不能影响学生对老师的评价,相反,高质量的教学才是产生学生和老师分数都高的结果。(10) “专业相关能力不同造成不同院系之间分数评定上的差异。” (205) “学生得高分的专业可能因为他们更勤奋,更有创造性,或拥有更多高考成绩无法测量出的优秀素质。” (201)不可否认的是有些学校招收的学生就是好。(6)
约翰逊一个接一个考察了这些哲学观念分歧和对高分数的批评和辩护。作者尽量详细地引用原话,让为高分数辩护的观点清楚可见。约翰逊注意到所有的辩护都依赖这样或那样的假设,或想当然的事实上面,如果这些事实不存在,这些辩护就没有说服力了。下面来看一下为高分数辩护所依赖的5个基本事实。经过统计数据的检验后发现,这些根本不是事实而是“神话。”这些神话包括:
•学生的成绩并没有影响学生对老师评教的结果。
•学生评教结果可靠地反映了教学的效果
•分数高表明学生取得的成绩大
•学生选课决定不受他们可能遇到的评分标准的影响。
•大学里没有约束的评分在不同班级,不同院系,不同学校有一致的和客观的意义。
从统计学的角度看,这些神话确实不是事实。因为各项调查结果包括他自己的研究在内都证明了这些说法与事实不符。调查结果不仅是统计学上差异的问题,而是实际上非常大。
我认为没有哪个统计学研究能够说服批评家们,因为有太多的潜在的反对意见。也许高分数确实对学生有好处,也许学生确实勤奋理应得到高分数,也许现代评分制度容易产生高分数。但是,约翰逊并不是为我们提供了又一份研究报告而已。和以前的研究者设计实验、检验假设一样,分析为什么高分数合理或不合理的原因。约翰逊研究了这方面的实验,分析实验设计,检验实验是否达到设定的目标,并汇报实验的结果。
在杜克大学,他设计了一个大型的延续三年的研究项目,收集足够的数据、探讨所有这些有争议的问题,特别关注分数和学生评教和学生选课之间的关系。在注册的时候,允许学生在电脑上查看学生评教资料和老师给出的学生分数资料,决定这些数据是否对他们选课有影响。多数的资料收集有侵犯隐私的情况,学生在网上进行对老师的评价,这样方便结合学生的其他资料。电脑创造了庞大的数据库,记录每个学生访问的每个网页以及他们后来的选课结果,以及注册者的情况如学生的性别,种族和课程记录。
当然,也有老师并不想知道学生评教的内容,从前的班级总平均成绩(GPAs)对学生(在蒙大拿州立大学得不到)只进行了一年后,由于学生的抗议,他的项目无法进行下去。数学老师抗议声最大,可能是因为部分老师的评教分数偏低,也可能因为担心分数偏低的消息可能吓跑选课的学生。约翰逊说“他们好像很天真地认为他们并没有承受同样的问题。”然而,这个因故缩短的实验提供了足够的数据来区分真正的原因和简单的统计学上的相关关系。
比如,对比不同院系个别学生的分数来断定哪个系给分严格,哪个系给分宽松,并得出具体数据是完全可能的。如果某大学两个系X and Y所有学生中,X 系的平均分数明显比Y系平均成绩高出很多,就可以证明X 系的分数更宽松。但是有没有别的因素来解释这个差距?有可能。这就是“实验设计”要做的事---就是要保证能在“所有别的因素都相同的情况下”得出结论。
老师普遍感兴趣的是在不同学校进行的三个研究的结果对比表格,包括院系、数据、平均分数以及和常模的差距等。(203)。按照系评分标准,在其他因素都一样的情况下,这个影响大得足够让一个中等学生的GPA从班级排名中间转移到前25名或后25名。一个值得注意的现象是越是吸引好学生的院系给分越是严格,而学生相对较差的院系给分反而比较宽松。
约翰逊的数据往往和一般常识相吻合。比如,对于一门课程,如果知道第一章得分比第2章得分高,学生很可能选择第一章。虽然不能完全肯定,这至少表明:如果院系之间给分政策相似,学生选修自然科学课程的机会就多些。(理科分数一般比较严格)我有个女儿在蒙大拿州立大学学习数学,我听到她的朋友说选哪些课程纯粹是看它们难度如何。一个学生就说因为担心某门课的老师给分过分严格,准备调换专业。我承认自己上大学的时候根本就没有这样的想法,老师或系给高分或低分的影响有这么大。约翰逊估计杜克大学本科生将选修超过40%的自然科学课程,这个影响将等于在全部500名老师中,增加20多专职科学老师。这只是选修课的选择,还没有考虑宽松的给分政策将吸引到的额外的专业学生。
绪论引人入胜。他首先注意到在几所名牌高校分数有多么的高。(我最近在玩棋盘知识问答游戏(Trivial Pursuit),其中一个问题是“哈佛大学2002级每10学生里面有多少在毕业的时候是优等生?答案是9个)接着他大量引用支持高分数的老师的观点,意图就是设计一个实验,看看这些观点是否符合真实情况。读者肯定不会觉得惊讶,如果发现老师给学生打的分数和学生在评教时给老师打的分数呈正相关关系。虽然这个事实没有争议,但是究竟怎样解释是非常有争议的。比如,教学好导致学生好分数和老师好评教成绩(老师教学效果理论)。另一方面,众所周知人们觉得别人给你好处你肯定得还人家人情(Influence: The Psychology of Persuasion, Robert B. Cialdini, 1993)。高老师评教成绩被看作老师给学生好分数的正当的回报(the \"grade-leniency theory\")。
可以通过事实来检验这些理论。心理学家和统计学家已经花了几十年时间考虑类似问题,并设计实验以便能区分因果关系或相关关系。比如评教往往在学生得到他们的分数之前进行。那样的话,评教只能依赖估计的分数,而不是分数本身。这就可能出现操纵期待的空间(没有真正操纵分数)为实验目的来看评教是否受到影响。这就是我们的做法。还有学生评教进行两次的情形,一次在得到自己分数之前,一次在知道自己分数之后。统计学设计是约翰逊的专长,他想让读者意识到支持评分制度的观点同样得到认真对待。在研究结束的时候,批评他的人找不到任何遗漏的地方。
虽然约翰逊对过去这些年的分数上的变化不是很感兴趣,但是他确实担心这个事实:现在已经无法用高分数奖赏出类拔萃的学生了,如果这个学校多数分数都很高的话,低分数甚至可能损害一个好学生的总成绩(GPA)。一个蒙大拿高中老师曾对我说在过去10年中他教过的最好的学生并不是以班上前10名的成绩毕业的,因为他曾经得了B-plus in Band,而超过10%的班上同学毕业的时候成绩是perfect 4.0。
本书在第二章描写他在杜克大学复杂实验设计陷入僵局。里面细节性东西太多,普通读者会觉得不好理解,除非受过统计学的训练或有强烈的动机。读者不妨跳过去相信我的话统计学的工作做的不错,实验设计和目标以及标准的统计学因素和对没有反应的反对都处理的非常得当。
但是到了第三章分数和学生评教关系的有趣内容又出现了。约翰逊讨论了这些调查的有趣的历史,和社会学趋势。他的目的是再次考虑实验的设计和实验能或者不能推断的结果。他探讨了被称为 “偏见”调查的因素,考虑了过去几十年对为什么是正相关关系或负相关关系的解释。过去70年进行的数百项研究和他们的解释涵盖内容广泛,远远超过“教师教学效率”和“分数宽大”理论。约翰逊讨论了什么形式的设计能回答什么问题,挑选了三打“观察性”研究,他发现接近正确设计的,来找出偏见对分数的影响。引人注目的正相关关系系数0.21完全支持分数影响评教的说法。
然而,约翰逊注意到“在某种意义上,所有的观察性研究都是有毛病的” (71)因而认为“实验性”研究能真正设计得“解开学生分数和对老师评教成绩之间的因果关系。” (75)文章还分析了几个发表的分数操纵实验,接下来一章显示他的杜克大学实验是如何设计的来处理剩下未解决的问题。班级平均成绩在学生评教项目反应上的指标性作用远远低于学生个人分数或学生从前的兴趣,这个事实和“教师效率理论指导下作出的预测相矛盾”,甚至还“比较支持分数宽松理论” (117)。他发现“分数归因”理论最有用:“学生把学习上的成功归因于自己的努力,把学习上的失败归因于外来因素。” (96)不管什么原因,分析提供了“确定性的证据说明学生分数影响学生对评教成绩的评定。” (118)
学界对高分数和不公平的分数的担心表现在否认分数的客观有效性,因而认为分数和其他因素的相关关系没有意义。(\"The dangerous Myth of Grade Inflation,\" Alfie Kohn, Chronicle of Higher Education, 8 Nov. 2002) 对高分数的追求是真正学习的障碍,所以分数是问题而不是解决问题的办法。约翰逊不失时机地痛斥这个后现代观点“荒唐绝伦”。
不管分数是否有客观意义,它们肯定有影响,约翰逊竭力探索这个影响是非常有效的。该研究指出了常识性关系并提供了坚实的证据。从现在不公平的分数评定制度中得到好处的人将很难批驳这个研究成果。(他们唯一能做的就是简单地贬低它或忽视它。)统计学不是新兴学科,统计学家实际上能够设计实验区分因果关系和相关关系。这个研究牵涉太多的相互联系的问题,所以自始至终都非常有趣吸引人。只是一旦他戴上统计学家的帽子,就不好读了,他想向同行证明自己是业内人士,就好像写学术论文。
但更多的时候,是非常有趣的。比如“狐狸效应”是个注释详尽的漂亮的实验,将数学应用于研究人类行为的权威Dr. Fox博士为不同领域的专业人士和研究生做关于“物理教育中的数学游戏理论” 的报告。他们给予这个报告高度的评价,尽管Dr. Fox博士实际上是个演员讲了些没有任何实质内容的东西。但是,他的报告热情洋溢,诙谐幽默,明显足够让听众欣赏,用最初的实验者的话说“似是而非,新名词,不和逻辑的推论,和矛盾百出的命题。”
文献里面充满了表明这种“诱惑”的文章导致学生对评教成绩产生影响。总而言之,约翰逊得出结论说“准确评价教师教学效果和学生学习成绩的工具还是令人困惑的,现行的评价工具在决定晋升,评职称,工资分配等时,为学校当局提供的指导非常有限,而且其合法性让人怀疑。(165)
我们都知道好的愿望可能产生意料之外的后果。在我看来,这本书的重要贡献就是讲清楚了现在有些分数评定制度的负面后果。我非常喜欢本书的总论,包括对前文提出的关于分数,评教,成绩,学生选课决定等在统计学上的关系的解释。其中许多内容我自己从来就没有想过,认为荒谬愚蠢。相信读者看完本书会明白不公平的分数以及它的可怕影响。
但是,究竟该怎么办呢?约翰逊考虑了可能的分数调整机制及哲学理论基础,既有支持的也有反对的。大学足球队电脑评级体系(BCS computer-ranking)争议非常大。只要想象一下就知道取得共识多么困难,确保任何一个数学上的分数调整公式绝对公平根本不可能。
所以,有什么激励措施让老师将高分数拉下来?我发现一个有趣的建议是设定一个班级里面优等生比例的目标,如果超过了这个百分比,将高于这个百分比的好学生的评教去掉在计算他们的总结性统计数据。
约翰逊支持对平均分数分布的限制,他说在研究生和专业学校里并不罕见的做法。他认为对各种限制的反对声音,注意到它们在实际上能否行得通。比如,如果中数限制在某个分数或其以下,有些老师可能给51%的分数就在这个分数后其以下,49%的学生都是好分数。从哲学上来说,有人可能辩护说学生需要高分数以便进入好的研究生院,因为别人给的分数都很高。
我觉得评定分数已经走调了,因为他们在损失共同利益的情况下给个别人好成绩(学生或老师)。我对打分数的抽象理论的忠诚让我难以对同样的表现给出过高的分数。我注意到给高分数的好处,但是不给高分数的好处在哪里?甚至大学都被迫考虑自己在大学的海洋里作为个体的存在问题,每个大学都在奖励自己的学生高分数。好像只有全国性的行动才能遏制这个势头的进行。很明显,哈佛最近决定限制优秀毕业生的数量到班级学生总数的60%。值得庆贺。
约翰逊提供了令人信服的证据说明学生所得分数对他们给老师教学效果评价时打分产生的影响。学生评教并不能可靠地评价教学效果,同样的,高分数并不能表明学生成就更大,分数在不同的班级,院系,学校并没有一致的意义。而且,学生选课和选专业受到可能得到的分数的影响非常大。同样注目的是,他表明这些影响对大学整体造成破坏。可悲的是,他不能显示如何重新唤起老师对共同利益的责任。毫无疑问,这必须成为学界关心的重大问题。
然而,我期待很少有哪个校长会承认约翰逊指出的这个危机。承认危机就意味着承认需要采取措施,而这看来在近期政治上是不可能的。如果大部分都是高分数有多大关系呢?某些老师或院系给的分数比其他高些有什么大不了?老师的晋升或评定职称建立在学生评教(非常不可靠)基础上有什么关系呢?约翰逊表明了对每个问题的答案都是肯定的。但是有哪个人愿意做些什么来改变吗?恐怕没有。
译自:Warren Esty’s review on Grade Inflation: a Crisis in College Education by Valen E. Johnson New York: Springer-Verlag, 2003 262 pages, $34.95 hc
[The Montana Professor 14.2, Spring 2004
http://mtprof.msun.edu/Spr2004/estyrev.html