単語誤り率とは 単語誤り率(Word Error Rate)

自動音声文字起こしに関する詳細を皆様に共有できることを嬉しく思います。

単語誤り率の計算式

単語誤り率(通常 WER と呼ばれる)は、自動音声認識(ASR)システムの性能を測定するための手法です。「ASRの結果」は「音声入力」とは長さが異なる場合があるため、測定には工夫が必要です。

WERがどのように計算されるかを理解するための簡単な方法は以下の通りです。

Sonix - 単語誤り率(Word Error Rate)の計算式

さらに詳しく理解するために、いくつかの定義を挙げます。

ASRシステムによる削除(Deletion):

音声入力: I surf small waves
ASR結果: I surf waves

ASRシステムによる挿入(Insertion):

音声入力: I surf waves
ASR結果: I surf small waves

ASRシステムによる置換(Substitution):

音声入力: I surf small waves
ASR結果: I surf all waves

誰が勝っているのか?

音声認識技術は1950年代から大きな進歩を遂げてきました。以前の投稿音声認識の短い歴史では、その過程における主要な出来事について触れました。自動音声認識が(誰に聞くかにもよりますが)変曲点に到達した、あるいは到達しつつあることについてお話ししました。

Google、IBM、Microsoftといった大手テクノロジー企業は、いずれも精度の王座を激しく争っています。以下は、2017年に発表された主張の時系列です。

2017年3月: IBMが単語誤り率5.5%を達成と主張
2017年5月: Googleが単語誤り率4.9%を達成と主張
2017年8月: Microsoftが単語誤り率5.1%を達成と主張

新しい主張が発表され次第、随時更新していきます。

今すぐ始める

Sonixを無料で試す

Sonixは、オーディオおよびビデオファイルを文字起こし、タイムスタンプ付与、整理することで、メディアの検索、編集、共有を可能にします。

30 分間の無料文字起こしが含まれています

続きを読む

99% の精度。 一言一句を大切に。

53+ 言語対応の AI 文字起こしと翻訳。

30 minutes 無料
クレジットカード不要
いつでもキャンセル可能