托福口语主观题评分那点事儿之“监工记”

标签：托福发布时间：2018-11-30 10:51:42 文章来源：爱思学

上回我们说到主观题评分重要的阅卷前“质保手段”——评分员培训(戳我回顾)，其重中之重就是对评分量表(rating scale)的使用培训。那么“兵器”练趁手以后(大误)，就真能任由评分员“出师”掌握考生的“生杀大权”，自此“相忘于江湖”了吗?谁能肯定不会有人“仗剑”随心所欲，怠慢职责，视阅卷场为儿戏?谁能保证不会有人自以为深谙评分之道，天长日久“走火入魔”，误入“邪路”?无论是评分态度不端正，还是评分标准把握随阅卷疲劳出现松懈，最终导致的都会是一个结果——判分误差加大，对考生的“滥杀无辜”，这也正是各类主观题考试阅卷竭力避免的。那么，又怎么保证评分员实际操作中的行为规范呢?这就衍生出托福口语主观题阅卷中的重要“质保”环节：评分员阅卷质量监控。

在托福口语主观题评分过程中，多种因素都会导致误差的出现，影响考生分数，在考试测量中称为侧面。通常来说，有五个侧面会影响考生分数：(1)考生能力;(2)评分员评分宽严度;(3)评分行为目标或特征的难度;(4)试题难度;(5)评分量表结构，即评分量表的等级数。在这五个侧面中，除了考生能力是考试的测量目标，其他四个侧面都是评分干扰因素，又称干扰变量(intervening variables)。除了这四个干扰变量外，评分系统的特征、考生本身特征及一些交互作用，也都会影响考生的得分。

而作为评分行为的主体，评分员是最容易与客观因素产生交互作用，并因此受到影响的。如评分员与评分行为特征间的交互作用会造成评分员标准不统一，评分员与试题间的交互作用会造成评分集中，评分员和时间的交互作用会造成评分员打分波动。总之，种种通过与评分员的交互作用所引入的误差，被称为评分误差。考试机构在主观题评分时，采取措施以减少评分误差，提高评分信度和效度，就是主观题评分质量监控的目的。

主观性试题有允许被试自由应答的特点，答案往往不唯一，可有效测量被试对知识分析、综合、应用、评价等方面的能力，同时因答案需被试自行组织，能有效排除像客观题那样通过猜测答对的可能性，因此，主观性试题被广泛用于国内外多种测试中。但对于这种构造作答式(constructed-response)题目而言，考生得分易受评分员水平、好恶等主观因素影响，产生误差，降低评分信度和评分准确性，这一现象被称为评分员效应(rater effects)。ETS归纳出了以下几种常见的评分员效应：(1)不同评分员对评分规则的理解不同;(2)评分宽严度不同;(3)评分员给分趋向某一分段;(4)评分员给分可能会由于疲劳等原因，随时间漂移。

【画外音：你们能体会每天沉浸在各国英语奇葩发音折磨数小时，到头来弄得自己话都快不会说了的痛苦么……(扶额)】

表1 托业(TOEIC)主观题评分员质量监控分析示例

托业(TOEIC)主观题评分员质量监控分析示例

From: Monitoring Individual Rater Performance for the TOEIC Speaking and Writing Tests, 2013.

为了减少评分员效应带来的误差，考试机构往往会在采取一些措施，如评分员培训、模拟评分练习、每日工作开始前常规化的参照标杆卷校准程序等，尤其是评分过程中的质量监控工作。为了保证评分质量，需要对评分过程进行监控，并将评分员监控作为一个持续的过程，贯穿整个评分工作始终，通过定时派发校准卷(ETS的标准为每4小时进行一次评分校准)等方式，发现个体评分员的异常表现，对评分员效应做出及时矫正。在大规模考试及选拔性考试中，双评法是评分员质量监控、控制主观题评分误差的一种常用方法。

双评法(double scoring)，顾名思义，就是两名评分员对同一作答反应进行背对背的独立评分，共同决定考生得分的评分方式。ETS认为，多个评分员的独立评分比单个评分员，能为考生能力提供更可信的解释。在网阅环境下，通过对两名评分员对同样的考生作答的评分数据的收集，能有效反映出评分员对同一评分内容的评分标准是否一致，并将评分误差控制在一定范围内。而分析、判定评分质量优劣的指标，即为评分员间评分一致性(interrater agreement)，主要包括两个方面：(1)多名评分员间评分的一致性;(2)某一评分员评分的稳定性。常用的评价一致性的指标也有两个：(1)不同评分员或不同次评分的相关性;(2)不同评分员或不同次评分结果统计差异。对大型考试而言，一般要求不同评分员或不同次评分的相关系数大于0.8;且经成对样本T检验，不同评分员或不同次评分结果的平均值无显著差异。从常见测试来看，对于6分以下的评分量表，一般双评差异分值不大于2，若超过这一界限，则由阅卷经验丰富的阅卷组长介入为争议卷评分，并对有关评分员的评分表现进行判断，若评分员的问题呈现出了规律性，则需采取行为干预措施，给予相应的指导或惩罚，对评分质量较差的评分员进行再培训，甚至淘汰，以减少误差，降低评分过程带来的考试决策风险。

根据考试目的的不同，一些考试仅将双评作为一种阅卷组长(负责6-10名评分员)抽样检查的手段，按一定比例(10%-20%)抽取一部分已评卷进行二评，对评分员评分规则使用的准确性进行监控，或者对试评过程中表现不好的评分员评分进行一段时间的二评监控;对于有合格分数线的测验，一些使用单评评分法的考试机构，会派出另一组评分员，对未合格但距分数线很近的考生作答，进行二评;一些考试机构，为了监控评分员间一致性，会对部分作答进行双评，如托业(TOEIC)写作考试;而对于那些高利害考试而言，所有考生作答都要经过双评。这么做虽然会增加阅卷总工作量和时长，提高人力成本，但从保证测试质量的角度来说，一切都是值得的。

总的来说，评分员质量监控就是给评分员们的戴上了个“紧箍咒”，全程监控着评分员的工作情况，特别是随着网上阅卷技术的普及，通过计算机网络后台对评分员表现进行即时分析、反馈、预警变得更加便捷，以直观的统计数据敲打着每个历经层层筛选培养出来的评分员：“这只是开始，不许懈怠!We’ll be watching you!”如此说来，评分环节把关如此严格，申请口试复核改变结果确实有一定局限，但反过来想，每个复核成功了的考生，都“点出”了一个水平一般的评分员，也算是为更多的后来考生做贡献了吧~

主要参考文献：[1] Catherine A. McClellan. Constructed-Response Scoring – Doing It Right (R&D Connections No. 13). Princeton: Educational Testing Service, 2010.[2] Doug Baldwin, Mary Fowles & Skip Livingston. Guidelines for Constructed-Response and Other Performance Assessments. Princeton: Educational Testing Service, 2005.[3] Philip Everson & Susan Hines. How ETS Scores the TOEIC Speaking and Writing Test Responses (TOEIC Compendium Study). Princeton: Educational Testing Service, 2010.[4] Yanxuan Qu & Kathryn L. Ricker-Pedley. Monitoring Individual Rater Performance for the TOEIC Speaking and Writing Tests. (TOEIC Compendium Study 2). Princeton: Educational Testing Service, 2013.[5] (英)Alderson, J. C.等. 语言测试的设计与评估[M]. 北京：外语教学与研究出版社，2000.