托福考试
同学们为了能拿到满意的分数,不惜考2次以上,甚至考个8-9次考到怀疑人生。可是很少有学生会了解ETS阅卷的方式,所以这次我爱学习网小编给大家分享一下托福考试ETS是如何阅卷。
什么是ETS?
ETS为美国教育考试服务中心(Educational Testing Service)的缩写,它创建于1947年是世界最大的私立非盈利性教育考试和评估机构。ETS总部位于美国新泽西州劳伦斯镇。
美国教育考试服务中心(Educational Testing Service,简称ETS)成立于1947年,是目前非盈利教育考试评估机构,也是教育研究领域的领导者。
该组织致力于为近200个国家的个人、教育机构和政府部门提供服务,并在全球范围内开展、管理着每年1200多万人次的考试,其中包括我们所熟悉的TOEFL、GRE考试等。
问题一:ETS 是全球统一阅卷么?
ETS 在整个试卷的制作过程中,非常关注 Fairness 这样一个核心要素。而公平原则其中非常重要的一个体现就是确保全球的做题结果都是由统一的阅卷人来进行批改。
尤其是 ETS 将托福改革成 iBT 之后,更是加速了利用网络进行统一阅卷评分的进程。
ETS 管理着诸多考试项目,仅仅是托福项目在中国每年就有超过20万人报考,这也意味着仅是从阅卷评分这个层面就需要投入大量的人力。但是从 ETS 总部有限的办公区域来看,我们可以料想到它是不可能去配备那么多官方人员来阅卷的。
ETS 的评分员并非仅限于 ETS 官方人员,而是面向美国本土的人员通过特定的流程进行招募的。只要是在美国本土工作的人员都可以申请成为评分员,他们不需要在 ETS 办公,甚至可以在家里阅卷。
但是为了确保评分的科学性和准确性,所有的评分人员都必须参与评分培训,并且最终通过认证测试。申请人通过资质审核后,会先进入到线上培训环节成为一名 Train rater。
当培训者熟练掌握所有的评分标准之后,就会进入线上评分环节,培训者必须利用大量的模板文章进行对比式评分,直至自己的打分和目标打分完全一致方能通过测试,成为一名 Certify rater。
而在整个过程中,ETS 的官方评分员充当的就是一个裁判和导师的角色,也正是利用这样的模式才确保了专业人员的高效利用,同时也确保了评分的科学性和准确性。
其实电脑评分这个概念,很早就已经运用于写作考试中,这并非什么新兴产物。自从2010年1月开始,iBT 的写作评分系统就进行了调整。由原来的2个评分员评分,取算术平均分作为 raw score 原始分,改为1个评分员和1个电脑评分系统(e-Rater)评分,取算术平均分作为原始分的方式。
尽管之后也有很多出题机构也学习了这种评分方式,但是最终都因为评分效果不理想而最终放弃,这也正是很多人猜测 ETS 现今的考试中是否还继续使用电脑评分的原因所在。
可以说在 ETS 的培训中,几乎每一位ETS的官方人员都会不断地提及 Human Scoring & Automated Scoring 的概念。
其实来到 ETS 之前,对电脑评分这件事情也是心存顾虑的,总担心这样的评分方式不够智能,会过于机械化地得出结果。
而真正意义上的 e-Rater 更像是一个基于强大数据系统支持的一个运算系统,它能够将输入的文章内容和数据库里面的内容进行比照式批阅,这样就极大地增强了阅卷评分的灵活度和广泛度。
ETS 作为全球最大的测试服务机构,有着得天独厚的优势,那就是它每年都能够积累大量的文章数据,而且能够不断进行更新迭代,这能使得他的电脑评分系统的智能化不断地提升。
相比而言,其他测试机构的电脑评分系统却虚有其表,没有大量数据内核作为支持,所以自然无法得到一个理想的评分效果。
另一方面,电脑评分有着它独特的优势,那就是具备足够的客观性。
对于托福考试而言,关于语言输出部分的口语和写作两个项目都会涉及到电脑评分,而且评分结果是计入到真实成绩的。我们其实可以更形象地把他们理解成为分工协作,联合判分。
首先,E-Rater 负责 Linguistic 的部分,关注的是文章的逻辑、语法、用法、架构、词汇等要素,而人工负责内容和含义的理解,他们在评分目标上各有分工。
其次,阅卷人和电脑是独立判分,他们彼此看不到对方的分数。当两者的分差介于动态区间值时分数有效,判分结束;当两者的分差大于动态区间值时,人工评分和电脑评分均无效,将会引入新的判分组进行重新评分。
如果仍然判分无效,将会指定给 ETS 官方阅卷人主管直接判分,但这种情况很少出现。
相关推荐: