¿Qué es la tasa de error de palabras?
Nos encanta compartir con usted más sobre la transcripción de voz automatizada.
Fórmula de la tasa de error de palabras
La tasa de error de palabras, a menudo denominada WER, es una forma de medir el rendimiento de un sistema de reconocimiento automático del habla (ASR). Es difícil de medir porque el "resultado del ASR" puede tener una longitud diferente a la de la "entrada de voz".
Aquí tiene una forma sencilla de entender cómo se calcula el WER:

Para ayudar a aclarar aún más, aquí tiene algunas definiciones:
Eliminación por el sistema ASR:
Entrada de voz: I surf small waves
Resultado ASR: I surf waves
Inserción por el sistema ASR:
Entrada de voz: I surf waves
Resultado ASR: I surf small waves
Sustitución por el sistema ASR:
Entrada de voz: I surf small waves
Resultado ASR: I surf all waves
¿Quién está ganando?
La tecnología de reconocimiento de voz ha recorrido un largo camino desde la década de 1950. Nuestra publicación anterior una breve historia del reconocimiento de voz habla sobre algunos de los eventos clave en el camino. Hablé sobre cómo hemos alcanzado (o casi alcanzado, dependiendo de con quién hable) un punto de inflexión en el reconocimiento de voz automatizado.
Las empresas tecnológicas más grandes como Google, IBM y Microsoft claman por el título de precisión. A continuación se muestra la cronología de las afirmaciones realizadas en 2017:
Mar 2017: IBM afirma una tasa de error de palabras del 5.5%
May 2017: Google afirma una tasa de error de palabras del 4.9%
Ago 2017: Microsoft afirma una tasa de error de palabras del 5.1%
Continuaremos actualizando esto a medida que se realicen nuevas afirmaciones.
Pruebe Sonix gratis
Sonix transcribe, pone marcas de tiempo y organiza sus archivos de audio y vídeo para que pueda buscar, editar y compartir su contenido multimedia.
Incluye 30 minutos de transcripción gratuita