¿Qué es la tasa de error de palabras?

El número que hay detrás de toda afirmación de precisión en transcripción: cómo se calcula, qué esconde y cómo medirlo con su propio audio.

Escrito por David Dat NguyenPublicado febrero 2018Actualizado julio 2026

Fórmula de la tasa de error de palabras

La tasa de error de palabras —WER, por sus siglas en inglés— es la forma estándar de medir el rendimiento de un sistema de reconocimiento automático del habla (ASR). Compara la transcripción de la máquina con una transcripción de referencia humana cuidadosamente preparada y cuenta tres tipos de errores: sustituciones, eliminaciones e inserciones. Medirla es más complicado de lo que parece, porque el resultado del ASR puede tener una longitud distinta a la del habla original.

Aquí tiene una forma sencilla de entender cómo se calcula el WER:

Sonix - Fórmula de la tasa de error de palabras

Un WER del 5% significa aproximadamente un error por cada veinte palabras; dicho al revés, un 95% de precisión. Sin embargo, los números son abstractos. Aquí tiene cada tipo de error haciendo daño de verdad:

Eliminación1 palabra menos

Usted dijo: No debes firmar el contrato
La máquina escribió: No debes firmar el contrato

Una palabra menos, una tarde muy distinta para el equipo legal.

1 eliminación ÷ 5 palabras = 20% WER — y el 100% del significado

Inserción1 palabra de más

Usted dijo: Los resultados fueron prometedores
La máquina escribió: Los resultados no fueron prometedores

La misma palabrita, llegando sin que nadie la invitara. Inversores brevemente devastados.

1 inserción ÷ 4 palabras = 25% WER

Sustitución1 palabra cambiada

Usted dijo: Trae una vaca hasta el campamento
La máquina escribió: Trae una ~~vaca~~ baca hasta el campamento

Una sola letra entre el ganado y el portaequipajes del coche.

1 sustitución ÷ 6 palabras = 17% WER

Calculadora de WER: pruebe la fórmula usted mismo

Ahora que sabe qué cuenta como error, eche las cuentas. Fije la longitud de su transcripción de referencia, arrastre los errores que encontró y observe cómo se mueve la tasa de error de palabras: esta es exactamente la aritmética que hay detrás de cada afirmación de precisión que leerá.

Palabras en su transcripción de referencia500Sustituciones (vaca → baca)6Eliminaciones (palabras que desaparecieron)3Inserciones (palabras que aparecieron)1

2.0%tasa de error de palabras

98.0%precisión

≈ un error cada 50 palabras

Terreno de audio limpio: un vistazo rápido y está lista para publicar.

La cuenta, en vivo: (6 + 3 + 1) ÷ 500 = 2.0%

La carrera por la precisión y dónde acabó

El reconocimiento de voz ha avanzado mucho desde la década de 1950; nuestra breve historia del reconocimiento de voz recorre todo el camino hasta aquí. Para 2017, las mayores empresas tecnológicas competían públicamente entre sí en WER, medido frente a un punto de referencia estándar de conversaciones telefónicas grabadas:

Mar 2017: IBM afirma una tasa de error de palabras del 5.5%
May 2017: Google afirma una tasa de error de palabras del 4.9%
Ago 2017: Microsoft afirma una tasa de error de palabras del 5.1%

Aquellos anuncios importaban porque se acercaban a la tasa de error de los transcriptores humanos profesionales sobre el mismo punto de referencia: el momento que la industria llamó «paridad humana». Pero la carrera sobre puntos de referencia limpios terminó, en la práctica, en un pelotón de números similares. En conjuntos de prueba grabados con cuidado y de un solo dominio, todo motor moderno serio puntúa bien, y precisamente por eso el WER de referencia dejó de ser la pregunta interesante.

Las diferencias reales entre los sistemas de transcripción aparecen ahora en otro lugar: en audio de reuniones captado a distancia, hablantes que se solapan, acentos marcados, vocabulario especializado y grabaciones ruidosas del mundo real. Dos motores con puntuaciones de referencia casi idénticas pueden comportarse de forma muy distinta en su videollamada del martes, y por eso la única comparación que importa es la que hace con su propio audio.

Lo que el WER no mide

El WER cuenta errores de palabras y nada más, y buena parte de lo que hace útil una transcripción le resulta invisible. La puntuación y el uso de mayúsculas no se evalúan: un muro de palabras reconocidas a la perfección pero sin puntuar puede lograr un WER excelente y ser una tortura de leer. La atribución de hablantes tampoco se evalúa: poner las palabras correctas en boca de la persona equivocada sale gratis, en lo que al WER respecta. Los números, las fechas y los nombres se puntúan igual que cualquier otra palabra, aunque equivocarse con «SARM» o «los ingresos del T3» suele costar mucho más que perder un «el».

Por eso una transcripción con una tasa de error algo mayor pero con puntuación, párrafos y etiquetas de hablante limpios suele ser más útil que otra técnicamente «más precisa» pero sin estructura. Cuando evalúe la calidad de una transcripción, lea el resultado como un documento, no solo como un recuento de palabras, y pondere los errores por lo que le costarían, no por cuántos son.

Cómo hacer su propia prueba de WER

Ignore el número de marketing de cada proveedor, incluido el nuestro: la prueba que importa lleva más o menos una hora. Elija diez minutos de audio que representen de verdad su trabajo: sus salas de reuniones, sus entrevistados, su jerga. Prepare una transcripción de referencia cuidadosa de ese fragmento (esta es la parte lenta: la referencia tiene que estar bien). Después pase el mismo clip por cada servicio que esté evaluando y cuente sustituciones, eliminaciones e inserciones frente a su referencia.

Dos advertencias prácticas. Primera, normalice antes de contar: decida de antemano si «OK» y «okay», los dígitos y los números escritos con letra, o las muletillas cuentan como errores, y aplique las mismas reglas a todos los motores; ahí es donde falla la mayoría de las comparaciones caseras, no en el conteo. Segunda, no se quede en la tasa de error: anote qué tipos de palabras falló cada motor y cuánta limpieza necesitó realmente el resultado. Un atajo que funciona casi igual de bien: transcriba el clip en todas partes, corrija cada transcripción hasta dejarla lista para publicar y cronometre la limpieza. El motor que le cuesta menos correcciones en su audio es el preciso, digan lo que digan los puntos de referencia.

Cómo leer las afirmaciones de precisión de los proveedores (incluidas las nuestras)

Cuando Sonix dice «hasta un 99% de precisión», ese número describe audio claro y bien grabado: micrófonos cercanos, ruido de fondo mínimo, un solo hablante a la vez. Es un número honesto en esas condiciones, y el número destacado de cualquier proveedor lleva la misma letra pequeña, lo diga o no. La precisión se degrada con el ruido, la distancia, las voces cruzadas y la compresión fuerte; ningún motor se libra, porque la física del audio marca el techo.

Así que trate cualquier afirmación de precisión como una afirmación sobre condiciones ideales, y trate sus propias grabaciones como el punto de referencia que cuenta. Mejorar el audio —un micrófono más cerca, una sala más silenciosa, una sola voz a la vez— hará más por su tasa de error de palabras que cambiar de un motor moderno a otro. Y para lo que quede después de eso, un editor sincronizado que le permite hacer clic en una palabra sospechosa y escuchar el audio que hay detrás es lo que cierra la brecha entre la precisión medida y una transcripción que puede publicar.

Empiece ahora

Pruebe Sonix gratis

Sonix transcribe, pone marcas de tiempo y organiza sus archivos de audio y vídeo para que pueda buscar, editar y compartir su contenido multimedia.

Incluye 30 minutes minutos de transcripción gratuita

Siga leyendo

¿Qué es la tasa de error de palabras?

Fórmula de la tasa de error de palabras

Calculadora de WER: pruebe la fórmula usted mismo

La carrera por la precisión y dónde acabó

Lo que el WER no mide

Cómo hacer su propia prueba de WER

Cómo leer las afirmaciones de precisión de los proveedores (incluidas las nuestras)

Pruebe Sonix gratis

Otros artículos de Sonix

99% de precisión. Cada palabra cuenta.

¿Necesita ayuda para comenzar?

La Plataforma

Inteligencia basada en datos precisos

Industrias populares

Explorar

Ahorre horas. Reduzca costos. Escale fácilmente.

Aprender

Empresa

Creado para profesionales que valoran la precisión

Fórmula de la tasa de error de palabras

Calculadora de WER: pruebe la fórmula usted mismo

La carrera por la precisión y dónde acabó

Lo que el WER no mide

Cómo hacer su propia prueba de WER

Cómo leer las afirmaciones de precisión de los proveedores (incluidas las nuestras)

99% de precisión. Cada palabra cuenta.

¿Necesita ayuda para comenzar?