単語誤り率とは 単語誤り率(Word Error Rate)
自動音声文字起こしに関する詳細を皆様に共有できることを嬉しく思います。
単語誤り率の計算式
単語誤り率(通常 WER と呼ばれる)は、自動音声認識(ASR)システムの性能を測定するための手法です。「ASRの結果」は「音声入力」とは長さが異なる場合があるため、測定には工夫が必要です。
WERがどのように計算されるかを理解するための簡単な方法は以下の通りです。

さらに詳しく理解するために、いくつかの定義を挙げます。
ASRシステムによる削除(Deletion):
音声入力: I surf small waves
ASR結果: I surf waves
ASRシステムによる挿入(Insertion):
音声入力: I surf waves
ASR結果: I surf small waves
ASRシステムによる置換(Substitution):
音声入力: I surf small waves
ASR結果: I surf all waves
誰が勝っているのか?
音声認識技術は1950年代から大きな進歩を遂げてきました。以前の投稿音声認識の短い歴史では、その過程における主要な出来事について触れました。自動音声認識が(誰に聞くかにもよりますが)変曲点に到達した、あるいは到達しつつあることについてお話ししました。
Google、IBM、Microsoftといった大手テクノロジー企業は、いずれも精度の王座を激しく争っています。以下は、2017年に発表された主張の時系列です。
2017年3月: IBMが単語誤り率5.5%を達成と主張
2017年5月: Googleが単語誤り率4.9%を達成と主張
2017年8月: Microsoftが単語誤り率5.1%を達成と主張
新しい主張が発表され次第、随時更新していきます。
Sonixを無料で試す
Sonixは、オーディオおよびビデオファイルを文字起こし、タイムスタンプ付与、整理することで、メディアの検索、編集、共有を可能にします。
30 分間の無料文字起こしが含まれています