什么是 词错误率?
我们很高兴为您分享更多关于自动语音转录的知识。
词错误率计算公式
词错误率(通常简称为 WER)是衡量自动语音识别 (ASR) 系统性能的一种方法。它的测量比较复杂,因为“ASR 结果”的长度可能与“语音输入”不同。
这里有一种简单的方法来理解 WER 是如何计算的:

为了进一步说明,这里有一些定义:
ASR 系统的漏识别 (Deletion):
语音输入: I surf small waves
ASR 结果: I surf waves
ASR 系统的误插入 (Insertion):
语音输入: I surf waves
ASR 结果: I surf small waves
ASR 系统的替换 (Substitution):
语音输入: I surf small waves
ASR 结果: I surf all waves
谁在领先?
自 1950 年代以来,语音识别技术已经走过了漫长的道路。我们之前的文章 语音识别简史 讨论了这一过程中的一些关键事件。我也提到过,我们已经达到(或几乎达到,取决于您问谁)了自动语音识别的一个拐点。
Google、IBM 和 Microsoft 等大型科技公司都在争夺准确率的冠军头衔。以下是 2017 年发布声明的时间线:
2017年3月: IBM 声称词错误率为 5.5%
2017年5月: Google 声称词错误率为 4.9%
2017年8月: Microsoft 声称词错误率为 5.1%
随着新声明的发布,我们将继续更新此内容。
免费试用 Sonix
Sonix 对您的音频和视频文件进行转录、添加时间戳和整理,以便您搜索、编辑和共享您的媒体。
包含 30 分钟免费转录