简史: 语音识别

语音识别技术在过去 30 个月里的进步比最初 30 年还要多。

计算能力和人工智能是这一领域取得进步的主要原因。凭借海量的语音数据和更快的处理速度,语音识别已经到了一个转折点,其能力已基本与人类持平。

下图来自 Mary Meeker 的 2017 年互联网趋势报告(注:该报告在 Slideshare 上已不再可用)。它绘制了 Google 的词汇准确率,最近已突破了 95% 的人类准确率门槛。

Mary Meeker 2017 年互联网趋势报告 — 第 48 页

虽然最近取得了巨大进步,但语音识别可以追溯到 20 世纪 50 年代初。以下是过去 70 年间塑造这项技术的一些关键事件。

20 世纪 50 年代和 60 年代

最早的语音识别系统专注于数字而非单词。1952 年,Bell Laboratories 设计了 “Audrey”系统,它可以识别单个声音大声朗读的数字。十年后,IBM 推出了 “Shoebox”,它可以理解并响应 16 个英语单词。

全球其他国家也开发了可以识别声音和语音的硬件。到 60 年代末,该技术已经可以支持包含四个元音和九个辅音的词汇。

20 世纪 70 年代

语音识别在这一十年中取得了多项有意义的进展。这主要归功于美国国防部和 DARPA。他们运行的语音理解研究 (SUR) 项目是语音识别历史上同类项目中规模最大的之一。 卡内基梅隆大学的“Harpy”语音系统就诞生于该项目,它能够理解 1,000 多个单词,大约相当于三岁儿童的词汇量。

70 年代另一个重大事件是 Bell Laboratories 推出了一套可以解析多种声音的系统。

20 世纪 80 年代

80 年代,语音识别词汇量从几百个单词增长到几千个。其中一项突破来自一种名为 “隐马尔可夫模型 (HMM)” 的统计方法。HMM 不仅仅是使用单词并寻找声音模式,而是估算未知声音实际为单词的概率。

20 世纪 90 年代

语音识别在 90 年代得到了极大的推动,很大程度上是因为个人电脑。更快的处理器使得 Dragon Dictate 等软件能够得到更广泛的应用。

BellSouth 推出了语音门户 (VAL),这是一个拨入式交互语音识别系统。该系统催生了至今仍在使用的无数电话树系统。

2000 年代

到 2001 年,语音识别技术的准确率已接近 80%。在这一十年的大部分时间里,进步并不多,直到 Google 推出了 Google Voice Search。因为它是一个应用程序,这让语音识别走进了数百万人的手中。它的意义还在于处理能力可以卸载到其数据中心。不仅如此,Google 还在从数十亿次搜索中收集数据,这有助于它预测人们实际在说什么。当时,Google 的英语语音搜索系统包含来自用户搜索的 2300 亿个单词。

2010 年代

2011 年,Apple 推出了类似于 Google Voice Search 的 Siri。这十年的早期见证了其他语音识别应用的激增。随着 Amazon Alexa 和 Google Home 的出现,我们看到消费者越来越习惯与机器对话。

如今,一些顶尖科技公司正在争夺语音准确率的冠军头衔。2016 年,IBM 的词错率达到了 6.9%。2017 年,Microsoft 以 5.9% 的成绩超越了 IBM。此后不久,IBM 将其比率提高到 5.5%。然而,目前声称最低词错率的是 Google,为 4.9%。

展望未来

未来趋势: 语音识别

支持语音应用的技术现在既相对便宜又功能强大。随着人工智能的进步以及可以轻松挖掘的语音数据量的增加,语音极有可能成为下一个主流交互界面。

Sonix,我们感谢在我们之前将语音识别推向今日高度的所有公司。我们实现了转录工作流程的自动化,使其变得快速、简便且经济实惠。如果没有前人所做的卓越工作,我们就无法实现这一切。

立即开始

免费试用 Sonix

Sonix 对您的音频和视频文件进行转录、添加时间戳和整理,以便您搜索、编辑和共享您的媒体。

包含 30 分钟免费转录

继续阅读

99% 准确度。 每个字都很重要。

支持 53+ 种语言的 AI 转录和翻译。

30 minutes 免费
无需信用卡
随时取消