托福口语主观题评分那点事儿之“监工记”
上回我们说到主观题评分重要的阅卷前“质保手段”——评分员培训(戳我回顾),其重中之重就是对评分量表(rating scale)的使用培训。那么“兵器”练趁手以后(大误),就真能任由评分员“出师”掌握考生的“生杀大权”,自此“相忘于江湖”了吗?谁能肯定不会有人“仗剑”随心所欲,怠慢职责,视阅卷场为儿戏?谁能保证不会有人自以为深谙评分之道,天长日久“走火入魔”,误入“邪路”?无论是评分态度不端正,还是评分标准把握随阅卷疲劳出现松懈,最终导致的都会是一个结果——判分误差加大,对考生的“滥杀无辜”,这也正是各类主观题考试阅卷竭力避免的。那么,又怎么保证评分员实际操作中的行为规范呢?这就衍生出托福口语主观题阅卷中的重要“质保”环节:评分员阅卷质量监控。
在托福口语主观题评分过程中,多种因素都会导致误差的出现,影响考生分数,在考试测量中称为侧面。通常来说,有五个侧面会影响考生分数:(1)考生能力;(2)评分员评分宽严度;(3)评分行为目标或特征的难度;(4)试题难度;(5)评分量表结构,即评分量表的等级数。在这五个侧面中,除了考生能力是考试的测量目标,其他四个侧面都是评分干扰因素,又称干扰变量(intervening variables)。除了这四个干扰变量外,评分系统的特征、考生本身特征及一些交互作用,也都会影响考生的得分。
而作为评分行为的主体,评分员是最容易与客观因素产生交互作用,并因此受到影响的。如评分员与评分行为特征间的交互作用会造成评分员标准不统一,评分员与试题间的交互作用会造成评分集中,评分员和时间的交互作用会造成评分员打分波动。总之,种种通过与评分员的交互作用所引入的误差,被称为评分误差。考试机构在主观题评分时,采取措施以减少评分误差,提高评分信度和效度,就是主观题评分质量监控的目的。
主观性试题有允许被试自由应答的特点,答案往往不唯一,可有效测量被试对知识分析、综合、应用、评价等方面的能力,同时因答案需被试自行组织,能有效排除像客观题那样通过猜测答对的可能性,因此,主观性试题被广泛用于国内外多种测试中。但对于这种构造作答式(constructed-response)题目而言,考生得分易受评分员水平、好恶等主观因素影响,产生误差,降低评分信度和评分准确性,这一现象被称为评分员效应(rater effects)。ETS归纳出了以下几种常见的评分员效应:(1)不同评分员对评分规则的理解不同;(2)评分宽严度不同;(3)评分员给分趋向某一分段;(4)评分员给分可能会由于疲劳等原因,随时间漂移。
【画外音:你们能体会每天沉浸在各国英语奇葩发音折磨数小时,到头来弄得自己话都快不会说了的痛苦么……(扶额)】
表1 托业(TOEIC)主观题评分员质量监控分析示例 From: Monitoring Individual Rater Performance for the TOEIC Speaking and Writing Tests, 2013.为了减少评分员效应带来的误差,考试机构往往会在采取一些措施,如评分员培训、模拟评分练习、每日工作开始前常规化的参照标杆卷校准程序等,尤其是评分过程中的质量监控工作。为了保证评分质量,需要对评分过程进行监控,并将评分员监控作为一个持续的过程,贯穿整个评分工作始终,通过定时派发校准卷(ETS的标准为每4小时进行一次评分校准)等方式,发现个体评分员的异常表现,对评分员效应做出及时矫正。在大规模考试及选拔性考试中,双评法是评分员质量监控、控制主观题评分误差的一种常用方法。
双评法(double scoring),顾名思义,就是两名评分员对同一作答反应进行背对背的独立评分,共同决定考生得分的评分方式。ETS认为,多个评分员的独立评分比单个评分员,能为考生能力提供更可信的解释。在网阅环境下,通过对两名评分员对同样的考生作答的评分数据的收集,能有效反映出评分员对同一评分内容的评分标准是否一致,并将评分误差控制在一定范围内。而分析、判定评分质量优劣的指标,即为评分员间评分一致性(interrater agreement),主要包括两个方面:(1)多名评分员间评分的一致性;(2)某一评分员评分的稳定性。常用的评价一致性的指标也有两个:(1)不同评分员或不同次评分的相关性;(2)不同评分员或不同次评分结果统计差异。对大型考试而言,一般要求不同评分员或不同次评分的相关系数大于0.8;且经成对样本T检验,不同评分员或不同次评分结果的平均值无显著差异。从常见测试来看,对于6分以下的评分量表,一般双评差异分值不大于2,若超过这一界限,则由阅卷经验丰富的阅卷组长介入为争议卷评分,并对有关评分员的评分表现进行判断,若评分员的问题呈现出了规律性,则需采取行为干预措施,给予相应的指导或惩罚,对评分质量较差的评分员进行再培训,甚至淘汰,以减少误差,降低评分过程带来的考试决策风险。
根据考试目的的不同,一些考试仅将双评作为一种阅卷组长(负责6-10名评分员)抽样检查的手段,按一定比例(10%-20%)抽取一部分已评卷进行二评,对评分员评分规则使用的准确性进行监控,或者对试评过程中表现不好的评分员评分进行一段时间的二评监控;对于有合格分数线的测验,一些使用单评评分法的考试机构,会派出另一组评分员,对未合格但距分数线很近的考生作答,进行二评;一些考试机构,为了监控评分员间一致性,会对部分作答进行双评,如托业(TOEIC)写作考试;而对于那些高利害考试而言,所有考生作答都要经过双评。这么做虽然会增加阅卷总工作量和时长,提高人力成本,但从保证测试质量的角度来说,一切都是值得的。
总的来说,评分员质量监控就是给评分员们的戴上了个“紧箍咒”,全程监控着评分员的工作情况,特别是随着网上阅卷技术的普及,通过计算机网络后台对评分员表现进行即时分析、反馈、预警变得更加便捷,以直观的统计数据敲打着每个历经层层筛选培养出来的评分员:“这只是开始,不许懈怠!We’ll be watching you!”如此说来,评分环节把关如此严格,申请口试复核改变结果确实有一定局限,但反过来想,每个复核成功了的考生,都“点出”了一个水平一般的评分员,也算是为更多的后来考生做贡献了吧~
主要参考文献:[1] Catherine A. McClellan. Constructed-Response Scoring – Doing It Right (R&D Connections No. 13). Princeton: Educational Testing Service, 2010.[2] Doug Baldwin, Mary Fowles & Skip Livingston. Guidelines for Constructed-Response and Other Performance Assessments. Princeton: Educational Testing Service, 2005.[3] Philip Everson & Susan Hines. How ETS Scores the TOEIC Speaking and Writing Test Responses (TOEIC Compendium Study). Princeton: Educational Testing Service, 2010.[4] Yanxuan Qu & Kathryn L. Ricker-Pedley. Monitoring Individual Rater Performance for the TOEIC Speaking and Writing Tests. (TOEIC Compendium Study 2). Princeton: Educational Testing Service, 2013.[5] (英)Alderson, J. C.等. 语言测试的设计与评估[M]. 北京:外语教学与研究出版社,2000.
(责任编辑:马荟)