その短い歴史について 音声認識
音声認識技術は、最初の30年間よりも、ここ最近の30ヶ月間の方がはるかに大きな進歩を遂げています。
コンピューティング能力と人工知能が、この分野の進歩を支える大きな要因となっています。膨大な音声データと高速な処理が組み合わさることで、音声認識はその能力が人間とほぼ同等になるという変曲点に達しました。
下のグラフは、Mary Meekerによる2017年のインターネットトレンドレポート(注:現在はSlideshareでは閲覧不可)からのものです。これは、最近人間の精度である95%の基準を突破したGoogleの単語正確性をプロットしたものです。
最近の飛躍的な進歩が注目されていますが、音声認識の歴史は1950年代初頭まで遡ります。以下に、過去70年間にこの技術を形作った主要な出来事をまとめました。
1950年代および60年代
初期の音声認識システムは、言葉ではなく数字に焦点を当てていました。1952年、Bell Laboratoriesは数字を読み上げる単一の声を認識できる「Audrey」システムを設計しました。10年後、IBMは16語の英語を理解し応答する「Shoebox」を発表しました。
世界中で、音や音声を認識できるハードウェアが開発されました。60年代の終わりまでには、この技術は4つの母音と9つの子音を含む単語をサポートできるようになりました。
1970年代
この10年間で、音声認識はいくつかの重要な進歩を遂げました。これは主に、米国国防総省とDARPAによるものでした。彼らが実施した音声理解研究(SUR)プログラムは、音声認識の歴史においてこの種のものとしては最大規模の一つでした。Carnegie Mellonの「Harpy」音声システムはこのプログラムから生まれ、3歳児の語彙力に相当する1,000語以上を理解することができました。
また、70年代には、複数の声を解釈できるシステムをBell Laboratoriesが導入したことも重要です。
1980年代
80年代には、音声認識の語彙が数百語から数千語へと拡大しました。突破口の一つは、「隠れマルコフモデル (HMM)」として知られる統計的手法でした。単に単語を使用して音のパターンを探すのではなく、HMMは未知の音が実際に特定の単語である確率を推定しました。
1990年代
音声認識は、主にパーソナルコンピュータの普及によって90年代に大きく前進しました。プロセッサの高速化により、Dragon Dictateのようなソフトウェアがより広く利用されるようになりました。
BellSouthは、ダイヤルイン式の対話型音声認識システムであるボイスポータル(VAL)を導入しました。このシステムは、今日でも存在する数多くの自動音声応答(電話ツリー)システムの先駆けとなりました。
2000年代
2001年までに、音声認識技術は80%近い精度を達成しました。この10年の大半は大きな進歩がありませんでしたが、GoogleがGoogle Voice Searchをリリースしたことで状況が変わりました。アプリとしての提供により、音声認識は何百万人もの人々の手に渡ることとなりました。また、処理能力をデータセンターにオフロードできるようになった点も重要でした。それだけでなく、Googleは何十億もの検索からデータを収集しており、それによって人が実際に何を言っているかを予測することができました。当時、Googleの英語音声検索システムには、ユーザーの検索から得られた2,300億語が含まれていました。
2010年代
2011年、AppleはGoogleの音声検索に似たSiriを発表しました。この10年の前半には、他の音声認識アプリが爆発的に増加しました。そしてAmazonのAlexaやGoogle Homeの登場により、消費者が機械に話しかけることにますます抵抗がなくなっていくのを目にすることとなりました。
今日、大手テック企業のいくつかが音声精度の称号をかけて競い合っています。2016年、IBMは6.9パーセントの単語誤り率を達成しました。2017年には、Microsoftが5.9パーセントを主張してIBMの座を奪いました。その直後、IBMは5.5パーセントまで改善しました。しかし、現在最も低い4.9パーセントという数値を主張しているのはGoogleです。
その未来について 音声認識
音声アプリケーションをサポートする技術は、今や比較的安価でかつ強力なものとなっています。人工知能の進歩と、容易にマイニング可能な音声データの増加により、音声が次の主要なインターフェースになる可能性は非常に高いと言えます。
Sonixでは、音声認識を今日のレベルまで押し上げてくれた多くの先人企業に感謝しています。私たちは文字起こしのワークフローを自動化し、高速、簡単、そして手頃な価格で提供しています。これまでに成し遂げられた素晴らしい成果なしには、私たちのサービスは存在し得ませんでした。
Sonixを無料で試す
Sonixは、オーディオおよびビデオファイルを文字起こし、タイムスタンプ付与、整理することで、メディアの検索、編集、共有を可能にします。
30 分間の無料文字起こしが含まれています
