今天ETS中的一位资深写作口语评分专家Nehal Sadek女士对自动化评分软件E-rater的工作原理作了一些说明,笔者选取一部分来跟大家共享。
ETS资深写作口语评分专家Nehal Sadek女士(左),新东方托福名师郑马骏(右)
首先准备巨量的学生写作样本,由两位专家进行评分。根据评出的分数高低,这些写作样本会被分成若干类别,比如说3分类别,4分类别,5分类别等。每一类别中的文章由计算机程序(核心技术含量所在)进行分析学习,归纳出同类文章在词汇、句子结构、段落发展等方面的共性特征。这些共性特征随即成为E-rater内置的评分标准,用来判定新的文章。
在ETS的评分流程中,一篇作文首先由一位评卷人评分,然后再由电脑程序E-rater进行评分。
1. 如果两个结果差值小于等于1分,则两者取平均就是最后得分。
2. 如果两个结果之间差值大于1分,则再请第二位评卷人进行评分。最后看第二位评分人评出的分数与之前的两个分数中哪一个更接近,找到接近的那个分数两者取平均,并且丢弃距离较远的那个分数(outlier)。