stringtranslate.com

Distancia Jaro-Winkler

En informática y estadística , la similitud Jaro-Winkler es una métrica de cadena que mide una distancia de edición entre dos secuencias. Es una variante de la métrica de distancia de Jaro [1] (1989, Matthew A. Jaro) propuesta en 1990 por William E. Winkler . [2]

La distancia Jaro-Winkler utiliza una escala de prefijo que otorga calificaciones más favorables a las cadenas que coinciden desde el principio para una longitud de prefijo establecida .

Cuanto mayor es la distancia Jaro-Winkler para dos cuerdas, menos similares son las cuerdas. La puntuación se normaliza de modo que 0 significa una coincidencia exacta y 1 significa que no hay similitud. En realidad, el artículo original definió la métrica en términos de similitud, por lo que la distancia se define como la inversión de ese valor (distancia = 1 - similitud).

Aunque a menudo se la denomina métrica de distancia , la distancia de Jaro-Winkler no es una métrica en el sentido matemático del término porque no obedece a la desigualdad del triángulo .

Definición

Similitud con Jaro

La similitud Jaro de dos cadenas dadas y es

Dónde:

La puntuación de similitud de Jaro es 0 si las cadenas no coinciden en absoluto y 1 si coinciden exactamente. En el primer paso, cada carácter de se compara con todos sus caracteres coincidentes en . Dos caracteres de y respectivamente se consideran coincidentes solo si son iguales y no están separados por más de caracteres. Por ejemplo, las siguientes dos cadenas de nueve caracteres, FAREMVIEL y FARMVILLE, tienen 8 caracteres coincidentes. 'F', 'A' y 'R' están en la misma posición en ambas cuerdas. Además, 'M', 'V', 'I', 'E' y 'L' están a tres (resultado de ) caracteres de distancia. [3] Si no se encuentran caracteres coincidentes, entonces las cadenas no son similares y el algoritmo termina devolviendo una puntuación de similitud de Jaro de 0.

Si se encuentran caracteres coincidentes distintos de cero, el siguiente paso es encontrar el número de transposiciones. La transposición es el número de caracteres coincidentes que no están en el orden correcto dividido por dos. En el ejemplo anterior entre FAREMVIEL y FARMVILLE, 'E' y 'L' son caracteres coincidentes que no están en el orden correcto. Entonces el número de transposición es uno.

Finalmente, al ingresar el número de caracteres coincidentes y el número de transposiciones, se puede calcular la similitud Jaro de FAREMVIEL y FARMVILLE.

Similitud entre Jaro y Winkler

La similitud Jaro-Winkler utiliza una escala de prefijo que otorga calificaciones más favorables a las cadenas que coinciden desde el principio para una longitud de prefijo establecida . Dadas dos cadenas y , su similitud Jaro-Winkler es:

dónde:

La distancia de Jaro-Winkler se define como .

Aunque a menudo se la denomina métrica de distancia , la distancia de Jaro-Winkler no es una métrica en el sentido matemático del término porque no obedece a la desigualdad del triángulo . [4] La distancia de Jaro-Winkler tampoco satisface el axioma de identidad .

Relación con otras métricas de distancia de edición

Existen otras medidas populares de distancia de edición , que se calculan utilizando un conjunto diferente de operaciones de edición permitidas. Por ejemplo,

La distancia de edición generalmente se define como una métrica parametrizable calculada con un conjunto específico de operaciones de edición permitidas, y a cada operación se le asigna un costo (posiblemente infinito). Esto se generaliza aún más mediante algoritmos de alineación de secuencias de ADN , como el algoritmo de Smith-Waterman , que hacen que el costo de una operación dependa de dónde se aplica.

Ver también

Notas a pie de página

  1. ^ Jaro, Matthew A. (1 de junio de 1989). "Avances en la metodología de vinculación de registros aplicada para comparar el censo de 1985 de Tampa, Florida". Revista de la Asociación Estadounidense de Estadística . págs. 414–420. doi :10.1080/01621459.1989.10478785.
  2. ^ Winkler, William E. (1990). "Métricas de comparación de cadenas y reglas de decisión mejoradas en el modelo de vinculación de registros de Fellegi-Sunter".
  3. ^ "¿Qué es la similitud Jaro-Winkler?". www.baseclass.io . Consultado el 26 de julio de 2012 .
  4. ^ "Jaro-Winkler« Invitando a la epifanía ". RichardMinerich.com . Consultado el 12 de junio de 2017 .

Referencias

enlaces externos