Qu'est-ce que le taux d'erreur de mots ?
Nous aimons partager avec vous davantage d'informations sur la transcription vocale automatisée.
Formule du taux d'erreur de mots
Le taux d'erreur de mots, souvent appelé WER, est un moyen de mesurer la performance d'un système de reconnaissance automatique de la parole (ASR). Il est complexe à mesurer car le « résultat ASR » peut avoir une longueur différente de l'« entrée vocale ».
Voici une manière simple de comprendre comment le WER est calculé :

Pour plus de clarté, voici quelques définitions :
Suppression par le système ASR :
Entrée vocale : Je surfe sur de petites vagues
Résultat ASR : Je surfe sur des vagues
Insertion par le système ASR :
Entrée vocale : Je surfe sur des vagues
Résultat ASR : Je surfe sur de petites vagues
Substitution par le système ASR :
Entrée vocale : Je surfe sur de petites vagues
Résultat ASR : Je surfe sur toutes les vagues
Qui est en tête ?
La technologie de reconnaissance vocale a parcouru un long chemin depuis les années 1950. Notre article précédent une courte histoire de la reconnaissance vocale traite de certains des événements clés de ce parcours. J'y explique comment nous avons atteint (ou presque atteint, selon les interlocuteurs) un point d'inflexion dans la reconnaissance vocale automatisée.
Les plus grandes entreprises technologiques comme Google, IBM, et Microsoft se disputent toutes le titre de la précision. Voici la chronologie des revendications faites en 2017 :
Mars 2017 : IBM revendique un taux d'erreur de mots de 5,5 %
Mai 2017 : Google revendique un taux d'erreur de mots de 4,9 %
Août 2017 : Microsoft revendique un taux d'erreur de mots de 5,1 %
Nous continuerons à mettre cela à jour au fur et à mesure des nouvelles annonces.
Essayez Sonix gratuitement
Sonix transcrit, ajoute des horodatages et organise vos fichiers audio et vidéo afin que vous puissiez rechercher, éditer et partager vos médias.
Comprend 30 minutes de transcription gratuite