本周,德克萨斯州的学生将参加州规定的考试,他们正被用作一种新的人工智能评分系统的小白鼠,该系统将取代该地区大部分的人工评分员。据《德克萨斯论坛报》报道,德克萨斯州教育署(TEA)正在推出一个"自动评分引擎",该引擎利用自然语言处理技术(该技术使 OpenAI 的 ChatGPT 等聊天机器人能够理解用户并与之交流)为德克萨斯州学术准备评估(STAAR)考试中的开放式试题评分。
德克萨斯州各地的 STAAR 测试于周二开始
该机构预计,通过减少对临时人工评分员的需求,该系统每年可节省 1500 万至 2000 万美元,并计划在今年雇用不到 2,000 名评分员,而 2023 年需要 6,000 名。
"我们希望尽可能多地保留开放式回答,但这些回答需要花费大量时间来评分"。
STAAR 考试测试三年级至八年级学生对核心课程的理解,去年重新设计了考试,减少了选择题。现在,它包含的开放式问题增加了七倍,TEA 学生评估主管 Jose Rios 说,该机构"希望尽可能多地保留构建式开放回答,但它们需要花费大量的时间来评分"。
根据TEA 网站上的幻灯片显示,新的评分系统是使用 3000 份已经过两轮人工评分的考试答卷进行训练的。此外,还实施了一些安全网--例如,计算机评分结果的四分之一将由人类重新评分,令人工智能系统感到困惑的答案(包括使用俚语或非英语作答)也将由人类重新评分。
虽然TEA乐观地认为人工智能将使其节省大量现金,但一些教育工作者却并不热衷于看到它的实施。刘易斯维尔独立学区校长洛里-拉普(Lori Rapp)说,2023 年 12 月,当自动评分系统在有限范围内使用时,她所在的学区发现,得零分的建构式回答"急剧增加"。拉普说:"目前,我们还无法确定是试题出了问题,还是新的自动评分系统出了问题。"
人工智能论文评分引擎并不新鲜。Motherboard2019 年的一份报告发现,至少有 21 个州正在使用这种引擎,并取得了不同程度的成功,不过 TEA 似乎决心避免重蹈覆辙。TEA 幻灯片上的小字还强调,它的新评分引擎是一个封闭系统,与人工智能有本质区别,因为"人工智能是计算机使用渐进式学习算法来适应,让数据来做编程,本质上是自学"。
试图在两者之间划清界限并不令人惊讶--网上不乏教师对人工智能生成服务如何被用来在作业和家庭作业中作弊感到绝望。被这一新评分系统评分的学生可能很难接受,他们认为"只许州官放火,不许百姓点灯"在这里是如何被应用的。