Hvad er Word Error Rate?
Vi elsker at dele mere med dig om automatiseret transskription af tale.
Formel for Word Error Rate
Word Error Rate, ofte forkortet som WER, er en måde at måle ydeevnen af et automatisk talegenkendelsessystem (ASR). Det er komplekst at måle, fordi "ASR-resultatet" kan have en anden længde end "stemme-inputtet".
Her er en enkel måde at forstå, hvordan WER beregnes:

For at hjælpe med yderligere afklaring er her nogle definitioner:
Sletning af ASR-system:
Stemme-input: I surf small waves
ASR-resultat: I surf waves
Indsættelse af ASR-system:
Stemme-input: I surf waves
ASR-resultat: I surf small waves
Udskiftning af ASR-system:
Stemme-input: I surf small waves
ASR-resultat: I surf all waves
Hvem vinder?
Talegenkendelsesteknologi er nået langt siden 1950'erne. Vores tidligere indlæg en kort historie om talegenkendelse fortæller om nogle af de vigtigste begivenheder undervejs. Jeg talte om, hvordan vi har nået (eller næsten nået, afhængigt af hvem man taler med) et vendepunkt inden for automatiseret talegenkendelse.
De største teknologivirksomheder som Google, IBM og Microsoft kæmper alle om titlen for nøjagtighed. Nedenfor er kronologien over de påstande, der blev fremsat i 2017:
Mar 2017: IBM hævder 5,5% Word Error Rate
Maj 2017: Google hævder 4,9% Word Error Rate
Aug 2017: Microsoft hævder 5,1% Word Error Rate
Vi vil fortsætte med at opdatere dette, efterhånden som der kommer nye påstande.
Prøv Sonix gratis
Sonix transskriberer, tidsstempler og organiserer dine lyd- og videofiler, så du kan søge i, redigere og dele dine medier.
Inkluderer 30 minutters gratis transskription