Algoritmo fonético
El método de calificación de coincidencias (MRA) es un algoritmo fonético para indexar palabras por su pronunciación desarrollado por Western Airlines en 1977 para la indexación y comparación de nombres homófonos . [1]
El algoritmo en sí tiene un conjunto simple de reglas de codificación, pero un conjunto más extenso de reglas de comparación. El mecanismo principal es la comparación de similitud, que calcula la cantidad de caracteres no coincidentes comparando las cadenas de izquierda a derecha y luego de derecha a izquierda, y eliminando los caracteres idénticos. Este valor se resta de 6 y luego se compara con un umbral mínimo. El umbral mínimo se define en la tabla A y depende de la longitud de las cadenas.
El nombre codificado se conoce (quizás incorrectamente) como identificador numérico personal (PNI). El nombre codificado nunca puede contener más de 6 caracteres alfanuméricos.
El método de clasificación de coincidencias funciona bien con nombres que contienen la letra "y", a diferencia del algoritmo NYSIIS original ; por ejemplo, los apellidos "Smith" y "Smyth" se combinan correctamente. Sin embargo, MRA no funciona bien con nombres codificados que difieren en longitud en más de 2.
Reglas de codificación
- Eliminar todas las vocales a menos que la vocal inicie la palabra
- Eliminar la segunda consonante de cualquier consonante doble presente
- Reducir el códice a 6 letras uniendo solo las primeras 3 y las últimas 3 letras
Reglas de comparación
En esta sección, las palabras "cadena(s)" y "nombre(s)" significan "cadena(s) codificada(s)" y "nombre(s) codificado(s)".
- Si la diferencia de longitud entre las cadenas codificadas es 3 o mayor, no se realiza ninguna comparación de similitud.
- Obtenga el valor de calificación mínimo calculando la suma de longitudes de las cadenas codificadas y utilizando la tabla A
- Procese las cadenas codificadas de izquierda a derecha y elimine cualquier carácter idéntico que encuentre en ambas cadenas respectivamente.
- Procese los caracteres no coincidentes de derecha a izquierda y elimine cualquier carácter idéntico encontrado en ambos nombres respectivamente.
- Reste la cantidad de caracteres no coincidentes de 6 en la cadena más larga. Este es el índice de similitud.
- Si el índice de similitud es igual o mayor que el índice mínimo, entonces la coincidencia se considera buena.
Umbral mínimo
La siguiente tabla muestra la correlación entre la calificación mínima y las longitudes de las cadenas.
Ejemplos de enfoques de calificación de coincidencias
La siguiente tabla muestra el resultado del algoritmo de clasificación de coincidencias para algunos nombres homófonos comunes.
Véase también
Sonido
Referencias
- ^ Moore, G B.; Kuhns, J L.; Treffzs, J L.; Montgomery, C A. (1 de febrero de 1977). Acceso a registros individuales de archivos de datos personales utilizando identificadores no únicos. Instituto Nacional de Estándares y Tecnología de EE. UU., pág. 17. NIST SP - 500-2.
Enlaces externos
El Wikilibro Algorithm_implementation tiene una página sobre el tema: Enfoque de calificación de coincidencias
- Descripción general de las cuestiones relacionadas con el uso de identificadores personales, HSMD, Statistics Canada
- Implementación en C#: http://sounditout.codeplex.com/