什么是 词错误率?

我们很高兴为您分享更多关于自动语音转录的知识。

词错误率计算公式

词错误率(通常简称为 WER)是衡量自动语音识别 (ASR) 系统性能的一种方法。它的测量比较复杂,因为“ASR 结果”的长度可能与“语音输入”不同。

这里有一种简单的方法来理解 WER 是如何计算的:

Sonix - 词错误率公式

为了进一步说明,这里有一些定义:

ASR 系统的漏识别 (Deletion):

语音输入: I surf small waves
ASR 结果: I surf waves

ASR 系统的误插入 (Insertion):

语音输入: I surf waves
ASR 结果: I surf small waves

ASR 系统的替换 (Substitution):

语音输入: I surf small waves
ASR 结果: I surf all waves

谁在领先?

自 1950 年代以来,语音识别技术已经走过了漫长的道路。我们之前的文章 语音识别简史 讨论了这一过程中的一些关键事件。我也提到过,我们已经达到(或几乎达到,取决于您问谁)了自动语音识别的一个拐点。

Google、IBM 和 Microsoft 等大型科技公司都在争夺准确率的冠军头衔。以下是 2017 年发布声明的时间线:

2017年3月: IBM 声称词错误率为 5.5%
2017年5月: Google 声称词错误率为 4.9%
2017年8月: Microsoft 声称词错误率为 5.1%

随着新声明的发布,我们将继续更新此内容。

立即开始

免费试用 Sonix

Sonix 对您的音频和视频文件进行转录、添加时间戳和整理,以便您搜索、编辑和共享您的媒体。

包含 30 分钟免费转录

继续阅读

99% 准确度。 每个字都很重要。

支持 53+ 种语言的 AI 转录和翻译。

30 minutes 免费
无需信用卡
随时取消