托福口语主观题评分那点事儿之“工具要趁手”

标签：托福发布时间：2018-11-30 10:51:42 文章来源：爱思学

对于所有考试来说，评分员都是保证考试成绩真实、有效非常重要的一环。特别是对于诸如口语、写作这类科目的主观题评分员，他们需要熟练掌握相应的评分规则，并能在整个评分过程中保持一致的标准。同时，他们还要知道面对未出现过的作答情形，应当如何处理。因此，即便是经验丰富的评分员，在参加评分前也需要进行培训，并在阅卷期间不断进行行为校正。对于所有包含主观题科目的考试来说，评分员培训都是值得，也必须花相当大的精力去进行的工作。主观题评分的第一点就是要明确评分方法。是的，评分方法不止是“客观题-主观题”之分，在主观题内部还有细分。

与“对-错”判断的客观题评分不同，主观题评分员需要对考生作答作出更加复杂的评判：对考生完成所给任务的程度进行评价。因此，主观题的评分需要借助一个重要工具——评分量表(rating scale)来完成，这一评分量表一般包含分值、等级或其他标签，同时可能会有对量表分数对应的考生作答特征描述信息(descriptors)。评分量表主要分为两种：整体评分量表(holistic scale)及分析性量表(analytic scale)。整体评分量表要求评分员对考生的作答给出整体评判，而不应对考生某一特定方面的表现给予过多关注，因此这种评分量表又被称为“印象量表”(impression scale)，常被使用在要求评分员做出快速判断的时候。与之相反，分析性量表则会将描述信息按任务要素(component)细分，要求评分员根据考生在不同考查要素上的表现给出相应分数，通过加和得出总分。考生或许会在某一要素上表现不错，而在其他要素上得分较低，而如何把这各个要素得分进行组合、叠加进而得出总分，则取决于考试组织方的考查目的，因此，这种评分方法常常会涉及到另一个重要的测试学概念——权重(weighting)的分配，今次笔者先开一坑，不做赘述。

表1 A Sample Holistic Scale

From: UCLES InternationalExaminations in English as a Foreign Language General Handbook, 1987

表2 A Sample Analytic Scale(部分)

From: Test of English forEducational Purposes, Associated Examining Board, UK, 1984

考试主办方会根据需要选择评分方式，两种评分方式并不存在绝对的孰优孰劣，在ESL领域，无论侧重语言整体面貌的展现还是更加关注语言要素的掌握，都体现了语言学习的不用阶段要求，也代表着相应的语言学习观。而对于ESL测试的评分员来说，最大的挑战便是充分理解他们手头那份分数量表背后的规则、描述内涵，并灵活、准确地使用，最终达到“撇开剑谱，剑在心中”的境界!

而面对托福的口语评分量表，可以说是对两类量表加以融合：在General Description的基础之上，各分档对Delivery、Language Use、Topic Development也进行了相应的表现描写。这样做结合了两类量表的优点，既体现了对语言基本要素的要求，也符合了托福考查实际语言应用能力的目的。但这同时也带来了更大的评分难度，不同要素之间不平衡带来的分数浮动该如何控制?各要素如何权衡?这些“一千个考生有一千种作答”的评分问题，既考验了评分员在ESL领域的实践经验，也需要一定时间与工作量的评分员培训积累。不得不说，托福口语评分员们还是很值得钦佩的，哪怕咱们没从他们手中拿到高分。