AI 给托福口语打分准不准?674 份实测
ETS 现在用 AI 先给托福口语打分。官方引擎到底量什么、准到什么程度、好的评分器又在它之上多做了什么。
ETS 现在不再用人工给托福口语打分了。2026 年 1 月改革后,它的自动评分引擎 SpeechRater 成了每一道口语题的 first-pass scorer(首轮评分),人工评分员则退到后面,只复核被标记为异常的那些回答。
所以"AI 给口语打分准不准",问的不是某个创业公司的小玩意。问的是官方评分通路本身。
我们自己也在同一套标准上做了一个评分器。基于 101 位学员、674 份真实评分,下面讲清楚:官方引擎到底量什么、它的准已知到什么程度、以及一个评分器应该在它之上多做的那一件事。
官方标准:SpeechRater 量的是什么
SpeechRater 是 ETS 的自动语音评分引擎。它先对你的回答做语音识别,再抽出 100 多个可量化特征,归成三大 construct。从头到尾,长这样:
这三个 construct,就是一道口语回答被评判的骨架。每一个又能展开成引擎真正在量的具体子能力:
在特征层面,同一个引擎还会读出流利度、清晰度,以及在复述类题型上的复述准确度——你正确复现了多少原句词汇。
骨架比名字重要。官方引擎不会甩给你一个总判决。它沿着几条独立的轴读你的回答,每条单独给分——因为一个总分,会把你的强项和短板平均成一团没用的模糊。
那它到底准不准
就它量的那部分而言,准——而且不是小幅度的准。ETS 称其自动评分与人工评分的吻合度,接近两位受训评分员彼此之间的吻合度;其技术文档引用的数字,把人机相关性放在 0.89 左右,而两位人类之间约为 0.96。机器还从不漂移:当天第五十份录音,用的是和第一份一样的尺子。
不过这份可靠,在三个 construct 之间并不均匀——而讲清原因的,正是 ETS 自己。
表达和语言使用,是自动评分最强的地方,因为两者都能落到模型可以计数的信号上:语速、停顿的长短和频率、清晰度、语法错误、词汇范围。它们可量化,而且每次都用同一套尺子量。
话题展开是难的那一个。判断一个想法是否真的切题、具体、有道理,是一道判断题;ETS 自己的研究一直把它当成最不适合自动化的 construct——最依赖人类读者的那一个。说白了:AI 对"你怎么说"的把握,远高于"你说的内容到底好不好"。
这才是"准"诚实的样子。不是全知——对可计数的精确,对其余的让位。
一个评分器,应该在标准之上多做什么
标准告诉你有哪些 construct。但它本身,并不会告诉一个学员下一步该干嘛。我们补的就是这道缝。
我们评的是和 ETS 一样的 construct。面试引擎读表达、语言使用、话题展开;Listen & Repeat 引擎读特征层信号——流利度、清晰度、复述准确度。和官方引擎同一组轴,所以练的东西能迁移到真考。
我们多做的有两件。第一,真考甩回来一个分档,我们把分档底下的逐 construct 分摊开,让你看清是哪条轴丢的分,而不是自己猜。第二——这条更要紧——在话题展开上,这个连 ETS 都当成机器最难的 construct,我们不把判决压成一个小数、再假装它已成定论。每道回答会拆成 Opening、Support、Closing,配上绑着你原话、具体可引用的反馈,讲你的论点到底展开了没有。引擎评它能数好的,把它数得最差的那部分摊开过程给你看,而不是硬编一个数。
这就是评分器赢得信任的那条线:信号可计数处自信,信号不可计数处透明。
674 份评分,看出考生真正在哪丢分
这一段,正是逐 construct 分让人看见的东西。在 148 份面试回答里,话题展开是分数最高的 construct,5 分里的 3.35。表达和语言使用都更低,2.74——这才是真正的瓶颈。
把它放到最常见的考试恐惧前面看。考生最担心的是"该说什么"。数据说,他们的想法大体没问题;分是从"怎么说"以及底下的语法词汇控制里漏掉的。
这是本文两半漂亮的一次撞合。AI 评得最有把握的 construct——表达和语言使用——恰恰是考生最有提升空间的那两条。所以对着机器的可量化轴练,不是绕路;练的就是那件既被可靠评分、又最值得修的事。
这也是口语分为什么总像卡住。你把备考时间花在攒更多内容上,而真正的约束,是把已经有的东西执行出来——清楚地、实时地。这道缺口我们单独写过 多少分算好的托福口语分;这里的 construct 数据,就是它背后的机制。
(一点刻度说明,因为题型正处在过渡期:口语 section 按 1–6 的 CEFR 分档报分。我们的 Listen & Repeat 评分已经按这个分档报;上面的面试 construct 分,展示的是引擎读取它们用的 0–5 construct 刻度,下一步也会迁到 1–6 分档。)
AI 分能用来干什么,不能干什么
AI 分是对你口语里可量化部分的一次快速、稳定、可复现的读数。这让它成为极好的训练仪器:练五十遍,每遍拿到同一把尺子,看着表达和语言使用随次数往上走。没有哪个人类评分员能这么陪练——这恰恰是 ETS 把首轮评分自动化的原因。
它不能当的,是你想法是否聪明的最终裁决。把那个数当成对执行的测量,把逐题反馈当成对内容的教练。真考现在也是这么划线的——可计数的 construct 交给自动评分,人工在环里管其余——所以一个对这条线诚实的评分器,教你的就是真正那件事。
所谓准,到头来不等于全知。它的意思是:清楚自己能量什么,每次用同一种方法量,并对量不了的那部分保持诚实。
延伸阅读
- SpeechRater Service —— ETS 官方自动语音评分引擎页面
- 2026 托福口语怎么打分 —— SpeechRater 的角色与评分维度
- 多少分算好的托福口语分? —— 1–6 分档、CEFR 对照,以及考生在哪过线
- 2026 托福改了什么 —— 让自动评分成为首轮的那场改革
- 为什么复述一句话比看起来难 —— Listen & Repeat 题型背后的机制
常见问题
真正的托福口语用 AI 打分吗?
用。2026 年 1 月改革后,ETS 的自动评分引擎 SpeechRater 是每一道口语题的 first-pass scorer(首轮评分)。人工评分员转为质量保证角色,只复核引擎标记为异常的回答,不再逐题手工打分。
托福口语的 AI 评分准不准?
在可计数的 construct 上——表达和语言使用——非常稳定;ETS 称其自动评分与人工评分的吻合度,接近两位受训评分员之间的吻合度。它在话题展开(你说的内容本身)上最没把握,所以人工复核始终留在环里。
SpeechRater 是什么?
SpeechRater 是 ETS 官方的托福自动语音评分引擎。它先对你的回答做语音识别,再抽取 100 多个特征,归到三大 construct——表达、语言使用、话题展开——据此给分。
托福口语里 AI 判不准的是什么?
话题展开——你的想法是否切题、具体、有道理。ETS 自己的研究都把它当成最不适合自动化的 construct。AI 对'你怎么说'的把握,远高于'你说的内容好不好'。
2026 年托福口语怎么打分?
自动引擎先给每道回答打分,维度是表达、语言使用、话题展开,按对接 CEFR 的 1–6 分档报分。被标记的回答交人工复核。完整分档对照见我们那篇'多少分算好'。