AI 给托福口语打分准不准?674 份实测

ETS 现在用 AI 先给托福口语打分。官方引擎到底量什么、准到什么程度、好的评分器又在它之上多做了什么。

ETS 现在不再用人工给托福口语打分了。2026 年 1 月改革后,它的自动评分引擎 SpeechRater 成了每一道口语题的 first-pass scorer(首轮评分),人工评分员则退到后面,只复核被标记为异常的那些回答。

所以"AI 给口语打分准不准",问的不是某个创业公司的小玩意。问的是官方评分通路本身。

我们自己也在同一套标准上做了一个评分器。基于 101 位学员、674 份真实评分,下面讲清楚:官方引擎到底量什么、它的准已知到什么程度、以及一个评分器应该在它之上多做的那一件事。

官方标准:SpeechRater 量的是什么

SpeechRater 是 ETS 的自动语音评分引擎。它先对你的回答做语音识别,再抽出 100 多个可量化特征,归成三大 construct。从头到尾,长这样:

AI 给口语回答打分的流程:音频 → 语音识别 → 100+ 特征 → 三大 construct(表达 / 语言使用 / 话题展开)→ 分数

这三个 construct,就是一道口语回答被评判的骨架。每一个又能展开成引擎真正在量的具体子能力:

每个 construct 量什么:AI Rating 拆成表达(语速停顿、发音、节奏语调)、语言使用(语法准确度、词汇范围、措辞精度)、话题展开(连贯性、观点推进、展开充分度)

在特征层面,同一个引擎还会读出流利度、清晰度,以及在复述类题型上的复述准确度——你正确复现了多少原句词汇。

骨架比名字重要。官方引擎不会甩给你一个总判决。它沿着几条独立的轴读你的回答,每条单独给分——因为一个总分,会把你的强项和短板平均成一团没用的模糊。

那它到底准不准

就它量的那部分而言,准——而且不是小幅度的准。ETS 称其自动评分与人工评分的吻合度,接近两位受训评分员彼此之间的吻合度;其技术文档引用的数字,把人机相关性放在 0.89 左右,而两位人类之间约为 0.96。机器还从不漂移:当天第五十份录音,用的是和第一份一样的尺子。

不过这份可靠,在三个 construct 之间并不均匀——而讲清原因的,正是 ETS 自己。

表达和语言使用,是自动评分最强的地方,因为两者都能落到模型可以计数的信号上:语速、停顿的长短和频率、清晰度、语法错误、词汇范围。它们可量化,而且每次都用同一套尺子量。

话题展开是难的那一个。判断一个想法是否真的切题、具体、有道理,是一道判断题;ETS 自己的研究一直把它当成最不适合自动化的 construct——最依赖人类读者的那一个。说白了:AI 对"你怎么说"的把握,远高于"你说的内容到底好不好"。

这才是"准"诚实的样子。不是全知——对可计数的精确,对其余的让位。

一个评分器,应该在标准之上多做什么

标准告诉你有哪些 construct。但它本身,并不会告诉一个学员下一步该干嘛。我们补的就是这道缝。

我们评的是和 ETS 一样的 construct。面试引擎读表达、语言使用、话题展开;Listen & Repeat 引擎读特征层信号——流利度、清晰度、复述准确度。和官方引擎同一组轴,所以练的东西能迁移到真考。

我们多做的有两件。第一,真考甩回来一个分档,我们把分档底下的逐 construct 分摊开,让你看清是哪条轴丢的分,而不是自己猜。第二——这条更要紧——在话题展开上,这个连 ETS 都当成机器最难的 construct,我们不把判决压成一个小数、再假装它已成定论。每道回答会拆成 Opening、Support、Closing,配上绑着你原话、具体可引用的反馈,讲你的论点到底展开了没有。引擎评它能数好的,把它数得最差的那部分摊开过程给你看,而不是硬编一个数。

这就是评分器赢得信任的那条线:信号可计数处自信,信号不可计数处透明。

674 份评分,看出考生真正在哪丢分

这一段,正是逐 construct 分让人看见的东西。在 148 份面试回答里,话题展开是分数最高的 construct,5 分里的 3.35。表达和语言使用都更低,2.74——这才是真正的瓶颈。

把它放到最常见的考试恐惧前面看。考生最担心的是"该说什么"。数据说,他们的想法大体没问题;分是从"怎么说"以及底下的语法词汇控制里漏掉的。

这是本文两半漂亮的一次撞合。AI 评得最有把握的 construct——表达和语言使用——恰恰是考生最有提升空间的那两条。所以对着机器的可量化轴练,不是绕路;练的就是那件既被可靠评分、又最值得修的事。

这也是口语分为什么总像卡住。你把备考时间花在攒更多内容上,而真正的约束,是把已经有的东西执行出来——清楚地、实时地。这道缺口我们单独写过多少分算好的托福口语分;这里的 construct 数据,就是它背后的机制。

(一点刻度说明,因为题型正处在过渡期:口语 section 按 1–6 的 CEFR 分档报分。我们的 Listen & Repeat 评分已经按这个分档报;上面的面试 construct 分,展示的是引擎读取它们用的 0–5 construct 刻度,下一步也会迁到 1–6 分档。)

AI 分能用来干什么,不能干什么

AI 分是对你口语里可量化部分的一次快速、稳定、可复现的读数。这让它成为极好的训练仪器:练五十遍,每遍拿到同一把尺子,看着表达和语言使用随次数往上走。没有哪个人类评分员能这么陪练——这恰恰是 ETS 把首轮评分自动化的原因。

它不能当的,是你想法是否聪明的最终裁决。把那个数当成对执行的测量,把逐题反馈当成对内容的教练。真考现在也是这么划线的——可计数的 construct 交给自动评分,人工在环里管其余——所以一个对这条线诚实的评分器,教你的就是真正那件事。

所谓准,到头来不等于全知。它的意思是:清楚自己能量什么,每次用同一种方法量,并对量不了的那部分保持诚实。

常见问题

真正的托福口语用 AI 打分吗?

用。2026 年 1 月改革后,ETS 的自动评分引擎 SpeechRater 是每一道口语题的 first-pass scorer(首轮评分)。人工评分员转为质量保证角色,只复核引擎标记为异常的回答,不再逐题手工打分。

托福口语的 AI 评分准不准?

在可计数的 construct 上——表达和语言使用——非常稳定;ETS 称其自动评分与人工评分的吻合度,接近两位受训评分员之间的吻合度。它在话题展开(你说的内容本身)上最没把握,所以人工复核始终留在环里。

SpeechRater 是什么?

SpeechRater 是 ETS 官方的托福自动语音评分引擎。它先对你的回答做语音识别,再抽取 100 多个特征,归到三大 construct——表达、语言使用、话题展开——据此给分。

托福口语里 AI 判不准的是什么?

话题展开——你的想法是否切题、具体、有道理。ETS 自己的研究都把它当成最不适合自动化的 construct。AI 对'你怎么说'的把握,远高于'你说的内容好不好'。

2026 年托福口语怎么打分?

自动引擎先给每道回答打分,维度是表达、语言使用、话题展开,按对接 CEFR 的 1–6 分档报分。被标记的回答交人工复核。完整分档对照见我们那篇'多少分算好'。