Medida de similitud

En estadística y campos relacionados, una medida de similitud , función de similitud o métrica de similitud es una función de valor real que cuantifica la similitud entre dos objetos. Aunque no existe una única definición de similitud, normalmente estas medidas son en cierto sentido la inversa de las métricas de distancia : toman valores grandes para objetos similares y cero o un valor negativo para objetos muy diferentes. Aunque, en términos más amplios, una función de similitud también puede satisfacer axiomas métricos.

La similitud de coseno es una medida de similitud de uso común para vectores de valores reales, que se utiliza (entre otros campos) en la recuperación de información para puntuar la similitud de documentos en el modelo de espacio vectorial . En el aprendizaje automático , las funciones de kernel comunes , como el kernel RBF, pueden considerarse funciones de similitud. ^[1]

Uso de diferentes fórmulas de medida de similitud

Existen distintos tipos de medidas de similitud para distintos tipos de objetos, según los objetos que se comparen. Para cada tipo de objeto existen distintas fórmulas de medición de similitud. ^[2]

Similitud entre dos puntos de datos

Existen muchas opciones diferentes disponibles cuando se trata de encontrar similitud entre dos puntos de datos, algunas de las cuales son una combinación de otros métodos de similitud. Algunos de los métodos para las medidas de similitud entre dos puntos de datos incluyen la distancia euclidiana, la distancia de Manhattan, la distancia de Minkowski y la distancia de Chebyshev. La fórmula de la distancia euclidiana se utiliza para encontrar la distancia entre dos puntos en un plano, que se visualiza en la imagen a continuación. La distancia de Manhattan se utiliza comúnmente en aplicaciones de GPS , ya que se puede utilizar para encontrar la ruta más corta entre dos direcciones. ^{[ cita requerida ]} Cuando generalizas la fórmula de la distancia euclidiana y la fórmula de la distancia de Manhattan, te quedan las fórmulas de la distancia de Minkowski , que se pueden utilizar en una amplia variedad de aplicaciones.

Similitud entre cadenas

Para comparar cadenas, se pueden utilizar varias medidas de similitud de cadenas . Algunos de estos métodos incluyen la distancia de edición, la distancia de Levenshtein, la distancia de Hamming y la distancia de Jaro. La fórmula que mejor se ajuste depende de los requisitos de la aplicación. Por ejemplo, la distancia de edición se utiliza con frecuencia para aplicaciones y funciones de procesamiento de lenguaje natural , como la corrección ortográfica. La distancia de Jaro se utiliza habitualmente en la vinculación de registros para comparar nombres y apellidos con otras fuentes.

Similitud entre dos distribuciones de probabilidad

Las medidas típicas de similitud para distribuciones de probabilidad son la distancia de Bhattacharyya y la distancia de Hellinger . Ambas proporcionan una cuantificación de la similitud para dos distribuciones de probabilidad en el mismo dominio y están matemáticamente estrechamente vinculadas. La distancia de Bhattacharyya no cumple la desigualdad triangular , lo que significa que no forma una métrica . La distancia de Hellinger sí forma una métrica en el espacio de distribuciones de probabilidad.

Semejanza entre dos conjuntos

La fórmula del índice de Jaccard mide la similitud entre dos conjuntos en función de la cantidad de elementos presentes en ambos conjuntos en relación con la cantidad total de elementos. Se utiliza habitualmente en sistemas de recomendación y análisis de redes sociales ^{[ cita requerida ]} . El coeficiente de Sørensen-Dice también compara la cantidad de elementos en ambos conjuntos con la cantidad total de elementos presentes, pero el peso de la cantidad de elementos compartidos es mayor. El coeficiente de Sørensen-Dice se utiliza habitualmente en aplicaciones de biología , midiendo la similitud entre dos conjuntos de genes o especies ^{[ cita requerida ]} .

Similitud entre dos secuencias

Al comparar secuencias temporales (series de tiempo), algunas medidas de similitud deben tener en cuenta además la similitud de dos secuencias que no están completamente alineadas.

Deformación temporal dinámica

Uso en clustering

La agrupación o análisis de conglomerados es una técnica de minería de datos que se utiliza para descubrir patrones en los datos agrupando objetos similares. Implica dividir un conjunto de puntos de datos en grupos o conglomerados en función de sus similitudes. Uno de los aspectos fundamentales de la agrupación es cómo medir la similitud entre los puntos de datos.

Las medidas de similitud desempeñan un papel crucial en muchas técnicas de agrupamiento, ya que se utilizan para determinar qué tan estrechamente relacionados están dos puntos de datos y si deben agruparse en el mismo grupo. Una medida de similitud puede adoptar muchas formas diferentes según el tipo de datos que se agrupan y el problema específico que se resuelve.

Una de las medidas de similitud más utilizadas es la distancia euclidiana , que se utiliza en muchas técnicas de agrupamiento, incluidas la agrupación de K-medias y la agrupación jerárquica . La distancia euclidiana es una medida de la distancia en línea recta entre dos puntos en un espacio de alta dimensión. Se calcula como la raíz cuadrada de la suma de las diferencias al cuadrado entre las coordenadas correspondientes de los dos puntos. Por ejemplo, si tenemos dos puntos de datos y , la distancia euclidiana entre ellos es . $(x_{1},y_{1})$ $(x_{2},y_{2})$ $d=\surd [(x_{2}-x_{1})^{2}+(y_{2}-y_{1})^{2}]$

Otra medida de similitud comúnmente utilizada es el índice de Jaccard o similitud de Jaccard, que se utiliza en técnicas de agrupamiento que trabajan con datos binarios como datos de presencia/ausencia ^[3] o datos booleanos; La similitud de Jaccard es particularmente útil para técnicas de agrupamiento que trabajan con datos de texto, donde se puede utilizar para identificar grupos de documentos similares en función de sus características o palabras clave compartidas. ^[4] Se calcula como el tamaño de la intersección de dos conjuntos dividido por el tamaño de la unión de los dos conjuntos: . $J(A,B)={A\bigcap B \sobre A\bigcup B}$

Las similitudes entre 162 perfiles nucleares relevantes se prueban utilizando la medida de similitud de Jaccard (ver figura con mapa de calor). La similitud de Jaccard del perfil nuclear varía de 0 a 1, donde 0 indica que no hay similitud entre los dos conjuntos y 1 indica una similitud perfecta con el objetivo de agrupar el perfil nuclear más similar.

La distancia de Manhattan, también conocida como geometría del taxi , es una medida de similitud que se utiliza habitualmente en técnicas de agrupamiento que funcionan con datos continuos. Es una medida de la distancia entre dos puntos de datos en un espacio de alta dimensión, calculada como la suma de las diferencias absolutas entre las coordenadas correspondientes de los dos puntos . $\left\vert x_{1}-x_{2}\right\vert +\left\vert y_{1}-y_{2}\right\vert$

Cuando se trabaja con datos de tipo mixto, incluidos atributos nominales, ordinales y numéricos por objeto, la distancia de Gower (o similitud) es una opción común, ya que puede manejar diferentes tipos de variables de manera implícita. Primero calcula similitudes entre el par de variables en cada objeto y luego combina esas similitudes en un solo promedio ponderado por par de objetos. Como tal, para dos objetos y que tienen descriptores, la similitud se define como: donde son pesos no negativos y es la similitud entre los dos objetos con respecto a su variable -ésima. ${\estilo de visualización i}$ ${\estilo de visualización j}$ ${\estilo de visualización p}$ ${\estilo de visualización S}$ $S_{ij}={\frac {\sum _{k=1}^{p}w_{ijk}s_{ijk}}{\sum _{k=1}^{p}w_{ijk} }},$ $w_{ijk}$ $s_{ijk}$ ${\estilo de visualización k}$

En el agrupamiento espectral , se utiliza una medida de similitud o afinidad para transformar los datos y superar las dificultades relacionadas con la falta de convexidad en la forma de la distribución de los datos. ^[5] La medida da lugar a un tamaño de ${\estilo de visualización (n,n)}$ matriz de similitud para un conjunto de $n$ puntos, donde la entradadistancia euclidiana(recíproca de la)entrey, o puede ser una medida de distancia más compleja como la gaussiana.^[5] También es común modificar aún más este resultado con técnicas de análisis de red.^[6] ${\estilo de visualización (i,j)}$ ${\estilo de visualización i}$ ${\estilo de visualización j}$ $e^{-\|s_{1}-s_{2}\|^{2}/2\sigma ^{2}}$

La elección de la medida de similitud depende del tipo de datos que se van a agrupar y del problema específico que se va a resolver. Por ejemplo, si se trabaja con datos continuos, como los datos de expresión genética, la distancia euclidiana o la similitud de coseno pueden ser adecuadas. Si se trabaja con datos binarios, como la presencia de un loci genómico en un perfil nuclear, el índice de Jaccard puede ser más adecuado. Por último, si se trabaja con datos que están dispuestos en una estructura de cuadrícula o enrejado, como los datos de procesamiento de imágenes o señales, la distancia de Manhattan es especialmente útil para la agrupación.

Uso en sistemas de recomendación

Las medidas de similitud se utilizan para desarrollar sistemas de recomendación . Observa la percepción y el gusto de un usuario por varios elementos. En los sistemas de recomendación, el método utiliza un cálculo de distancia comoDistancia euclidiana oSimilitud de coseno para generar unMatriz de similitud con valores que representan la similitud de cualquier par de objetivos. Luego, al analizar y comparar los valores en la matriz, es posible hacer coincidir dos objetivos con las preferencias de un usuario o vincular usuarios en función de sus marcas. En este sistema, es relevante observar el valor en sí mismo y la distancia absoluta entre dos valores.^[7]La recopilación de estos datos puede indicar la probabilidad de una marca para un usuario, así como la proximidad mutua entre dos marcas ya sea rechazadas o aceptadas. Es posible entonces recomendar a un usuario objetivos con alta similitud con los gustos del usuario.

Los sistemas de recomendación se observan en múltiples plataformas de entretenimiento en línea, en redes sociales y sitios web de transmisión. La lógica para la construcción de estos sistemas se basa en medidas de similitud. ^{[ cita requerida ]}

Uso en alineación de secuencias

Las matrices de similitud se utilizan en la alineación de secuencias . Se otorgan puntuaciones más altas a los caracteres más similares y puntuaciones más bajas o negativas a los caracteres diferentes.

Las matrices de similitud de nucleótidos se utilizan para alinear secuencias de ácidos nucleicos . Debido a que solo hay cuatro nucleótidos que se encuentran comúnmente en el ADN ( adenina (A), citosina (C), guanina (G) y timina (T)), las matrices de similitud de nucleótidos son mucho más simples que las matrices de similitud de proteínas . Por ejemplo, una matriz simple asignará a las bases idénticas una puntuación de +1 y a las bases no idénticas una puntuación de −1. Una matriz más complicada daría una puntuación más alta a las transiciones (cambios de una pirimidina como C o T a otra pirimidina, o de una purina como A o G a otra purina) que a las transversiones (de una pirimidina a una purina o viceversa). La relación de coincidencia/desajuste de la matriz establece la distancia evolutiva objetivo. ^[8]^[9] La matriz de ADN +1/−3 utilizada por BLASTN es la más adecuada para encontrar coincidencias entre secuencias que son 99% idénticas; Una matriz +1/−1 (o +4/−4) es mucho más adecuada para secuencias con un 70 % de similitud. Las matrices para secuencias con menor similitud requieren alineaciones de secuencias más largas.

Las matrices de similitud de aminoácidos son más complicadas, porque hay 20 aminoácidos codificados por el código genético y, por lo tanto, un mayor número de posibles sustituciones. Por lo tanto, la matriz de similitud de aminoácidos contiene 400 entradas (aunque generalmente es simétrica ). El primer enfoque puntuaba todos los cambios de aminoácidos por igual. Un refinamiento posterior fue determinar las similitudes de aminoácidos en función de cuántos cambios de bases se requerían para cambiar un codón para codificar ese aminoácido. Este modelo es mejor, pero no tiene en cuenta la presión selectiva de los cambios de aminoácidos. Los mejores modelos tenían en cuenta las propiedades químicas de los aminoácidos.

Un enfoque ha sido generar empíricamente las matrices de similitud. El método de Dayhoff utilizó árboles filogenéticos y secuencias tomadas de especies en el árbol. Este enfoque ha dado lugar a la serie de matrices PAM . Las matrices PAM se etiquetan en función de cuántos cambios de nucleótidos se han producido, por cada 100 aminoácidos. Si bien las matrices PAM se benefician de tener un modelo evolutivo bien entendido, son más útiles en distancias evolutivas cortas (PAM10–PAM120). En distancias evolutivas largas, por ejemplo PAM250 o 20% de identidad, se ha demostrado que las matrices BLOSUM son mucho más efectivas.

Las series BLOSUM se generaron comparando varias secuencias divergentes. Las series BLOSUM se etiquetan en función de la cantidad de entropía que permanece sin mutar entre todas las secuencias, por lo que un número BLOSUM más bajo corresponde a un número PAM más alto.

Uso en visión artificial

El método más común para comparar dos imágenes en la recuperación de imágenes basada en contenido (normalmente una imagen de ejemplo y una imagen de la base de datos) es utilizar una medida de distancia de imagen. Una medida de distancia de imagen compara la similitud de dos imágenes en varias dimensiones, como color, textura, forma y otras. Por ejemplo, una distancia de 0 significa una coincidencia exacta con la consulta, con respecto a las dimensiones que se consideraron. Como se puede intuir, un valor mayor que 0 indica varios grados de similitud entre las imágenes. Los resultados de la búsqueda se pueden ordenar en función de su distancia a la imagen consultada. ^[10] Se han desarrollado muchas medidas de distancia de imagen (modelos de similitud). ^[11]

Véase también

Propagación por afinidad : algoritmo en minería de datos
Espacio latente : Incorporación de datos dentro de una variedad en función de una función de similitud
Aprendizaje de similitud : aprendizaje supervisado de una función de similitud
Matriz de autosimilitud
Similitud semántica – Procesamiento del lenguaje natural
Similitud (ciencia de redes) : en el análisis de redes, cuando dos nodos (u otras estructuras más elaboradas) caen en la misma clase de equivalencia.
Semejanza (filosofía) – Relación de semejanza entre objetos
Distancia estadística – Distancia entre dos objetos estadísticos
Métrica de cadena : métrica que mide la distancia entre dos cadenas de texto
Búsqueda por similitud : búsqueda de elementos similares en un conjunto de datos
tf–idf – Estimación de la importancia de una palabra en un documento
Gráfico de recurrencia , una herramienta de visualización de recurrencias en sistemas dinámicos (y otros)

Referencias

^ Vert, Jean-Philippe; Tsuda, Koji; Schölkopf, Bernhard (2004). "Introducción a los métodos del kernel" (PDF) . Métodos del kernel en biología computacional .
^ https://iq.opengenus.org/similarity-measurements/ "Diferentes tipos de mediciones de similitud"
^ Chung, Neo Christopher; Miasojedow, BłaŻej; Startek, Michał; Gambin, Anna (2019). "Prueba de similitud de Jaccard/Tanimoto y métodos de estimación para datos biológicos de presencia-ausencia". BMC Bioinformatics . 20 (S15): 644. doi : 10.1186/s12859-019-3118-5 . ISSN 1471-2105. PMC 6929325 . PMID 31874610.
^ Conferencia internacional multidisciplinaria de ingenieros y científicos informáticos: IMECS 2013: 13-15 de marzo de 2013, Royal Garden Hotel, Kowloon, Hong Kong. SI Ao, Asociación Internacional de Ingenieros. Hong Kong: Newswood Ltd. 2013. ISBN 978-988-19251-8-3.OCLC 842831996 .{{cite book}}: Mantenimiento de CS1: otros ( enlace )
^ ab Ng, AY; Jordan, MI; Weiss, Y. (2001), "Sobre el agrupamiento espectral: análisis y un algoritmo", Avances en sistemas de procesamiento de información neuronal , 14 , MIT Press: 849–856
^ Li, Xin-Ye; Guo, Li-Jie (2012), "Construcción de una matriz de afinidad en agrupamiento espectral basado en la propagación de vecinos", Neurocomputing , 97 : 125–130, doi :10.1016/j.neucom.2012.06.023
^ Bondarenko, Kirill (2019), Métricas de similitud en sistemas de recomendación , consultado el 25 de abril de 2023
^ Estados, D; Gish, W; Altschul, S (1991). "Mejora de la sensibilidad de las búsquedas en bases de datos de ácidos nucleicos mediante matrices de puntuación específicas de la aplicación". Métodos: un complemento de los métodos en enzimología . 3 (1): 66. CiteSeerX 10.1.1.114.8183 . doi :10.1016/S1046-2023(05)80165-3.
^ Sean R. Eddy (2004). "¿De dónde proviene la matriz de puntuación de alineamiento de BLOSUM62?" (PDF) . Nature Biotechnology . 22 (8): 1035–6. doi :10.1038/nbt0804-1035. PMID 15286655. S2CID 205269887. Archivado desde el original (PDF) el 3 de septiembre de 2006.
^ Shapiro, Linda ; George Stockman (2001). Visión artificial . Upper Saddle River, Nueva Jersey: Prentice Hall. ISBN 978-0-13-030796-5.
^ Eidenberger, Horst (2011). "Comprensión fundamental de los medios", en prensa. ISBN 978-3-8423-7917-6 .

F. Gregory Ashby; Daniel M. Ennis (2007). "Medidas de similitud". Scholarpedia . 2 (12): 4116. Bibcode :2007SchpJ...2.4116A. doi : 10.4249/scholarpedia.4116 .