O que é Word Error Rate?
Adoramos compartilhar com você mais sobre a transcrição automatizada de fala.
Fórmula do Word Error Rate
Word Error Rate, muitas vezes referido como WER, é uma forma de medir o desempenho de um sistema de reconhecimento automático de fala (ASR). É difícil de medir porque o "resultado do ASR" pode ter um comprimento diferente da "entrada de voz".
Aqui está uma maneira simples de entender como o WER é calculado:

Para ajudar a esclarecer ainda mais, aqui estão algumas definições:
Exclusão pelo sistema ASR:
Entrada de voz: I surf small waves
Resultado do ASR: I surf waves
Inserção pelo sistema ASR:
Entrada de voz: I surf waves
Resultado do ASR: I surf small waves
Substituição pelo sistema ASR:
Entrada de voz: I surf small waves
Resultado do ASR: I surf all waves
Quem está vencendo?
A tecnologia de reconhecimento de fala percorreu um longo caminho desde a década de 1950. Nosso post anterior uma breve história do reconhecimento de fala fala sobre alguns dos principais eventos ao longo do caminho. Falei sobre como alcançamos (ou quase alcançamos, dependendo de com quem você fala) um ponto de inflexão no reconhecimento automatizado de fala.
As maiores empresas de tecnologia como Google, IBM e Microsoft estão todas clamando pelo título de precisão. Abaixo está a cronologia das reivindicações feitas em 2017:
Mar 2017: IBM reivindica 5,5% de word error rate
Maio 2017: Google reivindica 4,9% de word error rate
Ago 2017: Microsoft reivindica 5,1% de Word Error Rate
Continuaremos a atualizar isso à medida que novas reivindicações forem feitas.
Experimente o Sonix gratuitamente
O Sonix transcreve, gera carimbos de data/hora e organiza seus arquivos de áudio e vídeo para que você possa pesquisar, editar e compartilhar sua mídia.
Inclui 30 minutos de transcrição gratuita