Tasa de error de palabra

La tasa de error de palabras ( WER ) es una métrica común del rendimiento de un sistema de reconocimiento de voz o de traducción automática .

La dificultad general de medir el rendimiento radica en el hecho de que la secuencia de palabras reconocida puede tener una longitud diferente a la secuencia de palabras de referencia (supuestamente la correcta). El WER se deriva de la distancia de Levenshtein , trabajando a nivel de palabra en lugar de a nivel de fonema . El WER es una herramienta valiosa para comparar diferentes sistemas, así como para evaluar mejoras dentro de un sistema. Sin embargo, este tipo de medición no proporciona detalles sobre la naturaleza de los errores de traducción y, por lo tanto, se requiere más trabajo para identificar las principales fuentes de error y centrar cualquier esfuerzo de investigación.

Este problema se resuelve alineando primero la secuencia de palabras reconocidas con la secuencia de palabras de referencia (habladas) utilizando la alineación dinámica de cadenas. El examen de esta cuestión se ve a través de una teoría llamada ley de potencia que establece la correlación entre la perplejidad y la tasa de error de palabras. ^[1]

La tasa de error de palabras se puede calcular como:

{\mathit {WER}}={\frac {S+D+I}{N}}={\frac {S+D+I}{S+D+C}}

dónde

S es el número de sustituciones,
D es el número de eliminaciones,
I es el número de inserciones,
C es el número de palabras correctas,
N es el número de palabras en la referencia (N=S+D+C)

La intuición detrás de la "eliminación" y la "inserción" es cómo pasar de la referencia a la hipótesis. Entonces, si tenemos la referencia "Esto es wikipedia" y la hipótesis "Esto _ wikipedia", lo llamamos eliminación.

Al informar sobre el rendimiento de un sistema de reconocimiento de voz, a veces se utiliza la precisión de palabras (WAcc) :

{\mathit {WAcc}}=1-{\mathit {WER}}={\frac {NSDI}{N}}={\frac {CI}{N}}

Tenga en cuenta que, dado que N es el número de palabras en la referencia, la tasa de error de palabras puede ser mayor que 1,0 y, por lo tanto, la precisión de las palabras puede ser menor que 0,0.

experimentos

Comúnmente se cree que una tasa de error de palabras más baja muestra una precisión superior en el reconocimiento del habla, en comparación con una tasa de error de palabras más alta. Sin embargo, al menos un estudio ha demostrado que esto puede no ser cierto. En un experimento de Microsoft Research , se demostró que, si las personas fueran entrenadas bajo "que coincida con el objetivo de optimización para la comprensión", (Wang, Acero y Chelba, 2003) mostrarían una mayor precisión en la comprensión del lenguaje que otras personas que demostraron una menor tasa de error de palabras, lo que demuestra que la verdadera comprensión del lenguaje hablado depende de algo más que una alta precisión en el reconocimiento de palabras . ^[2]

Otras métricas

Sin embargo, un problema con el uso de una fórmula genérica como la anterior es que no se tiene en cuenta el efecto que los diferentes tipos de error pueden tener sobre la probabilidad de un resultado exitoso; por ejemplo, algunos errores pueden ser más perjudiciales que otros y algunos pueden corregirse más fácilmente que otros. Es probable que estos factores sean específicos de la sintaxis que se está probando. Otro problema es que, incluso con la mejor alineación, la fórmula no puede distinguir un error de sustitución de un error combinado de eliminación más inserción.

Hunt (1990) ha propuesto el uso de una medida ponderada de precisión del desempeño donde los errores de sustitución se ponderan en la unidad pero los errores de eliminación e inserción se ponderan sólo en 0,5, por lo tanto:

{\mathit {WER}}={\frac {S+0,5D+0,5I}{N}}

Sin embargo, existe cierto debate sobre si la fórmula de Hunt puede usarse adecuadamente para evaluar el desempeño de un solo sistema, ya que fue desarrollada como un medio para comparar sistemas candidatos que compiten de manera más justa. Se añade una complicación adicional por si una sintaxis determinada permite la corrección de errores y, si lo hace, qué tan fácil es ese proceso para el usuario. Por lo tanto, hay cierto mérito en el argumento de que las métricas de desempeño deben desarrollarse para adaptarse al sistema particular que se está midiendo.

Sin embargo, cualquiera que sea la métrica utilizada, un problema teórico importante al evaluar el rendimiento de un sistema es decidir si una palabra ha sido “mal pronunciada”, es decir, si la culpa es del usuario o del reconocedor. Esto puede ser particularmente relevante en un sistema diseñado para tratar con hablantes no nativos de un idioma determinado o con fuertes acentos regionales.

El ritmo al que se deben pronunciar las palabras durante el proceso de medición también es una fuente de variabilidad entre los sujetos, al igual que la necesidad de que los sujetos descansen o tomen un respiro. Es posible que sea necesario controlar todos estos factores de alguna manera.

Para el dictado de texto, generalmente se acepta que la precisión del rendimiento a una tasa inferior al 95% no es aceptable, pero esto también puede ser específico de la sintaxis y/o del dominio, por ejemplo, si hay presión de tiempo sobre los usuarios para completar la tarea, si existen métodos alternativos. de finalización, etc.

El término "tasa de errores de una sola palabra" a veces se denomina porcentaje de reconocimientos incorrectos para cada palabra diferente en el vocabulario del sistema.

Editar distancia

La tasa de error de palabras también puede denominarse distancia de edición normalizada de longitud . ^[3] La distancia de edición normalizada entre X e Y, d ( X, Y ) se define como el mínimo de W( P ) / L ( P ), donde P es una ruta de edición entre X e Y, W ( P ) es la suma de los pesos de las operaciones de edición elementales de P, y L(P) es el número de estas operaciones (longitud de P). ^[4]

Ver también

Referencias

Notas

^ Klakow, Dietrich; Jochen Peters (septiembre de 2002). "Prueba de la correlación entre la tasa de error de palabras y la perplejidad". Comunicación del habla . 38 (1–2): 19–28. doi :10.1016/S0167-6393(01)00041-3. ISSN 0167-6393.
^ Wang, Y.; Acero, A.; Chelba, C. (2003). ¿Es la tasa de error de palabras un buen indicador de la precisión de la comprensión del lenguaje hablado ? Taller IEEE sobre comprensión y reconocimiento automático de voz. St. Thomas, Islas Vírgenes de los Estados Unidos. CiteSeerX 10.1.1.89.424 .
^ Nießen y otros (2000)
^ Cálculo de distancia de edición normalizada y aplicación: AndrCs Marzal y Enrique Vidal

Otras fuentes

McCowan et al. 2005: Sobre el uso de medidas de recuperación de información para la evaluación del reconocimiento de voz Archivado el 24 de febrero de 2019 en Wayback Machine.
Hunt, MJ, 1990: Cifras de mérito para evaluar reconocedores de palabras conectados (Speech Communication, 9, 1990, págs. 239-336)
Zechner, K., Waibel, A. Minimizar la tasa de error de palabras en resúmenes textuales del lenguaje hablado