En estadística y campos relacionados, una medida de similitud , función de similitud o métrica de similitud es una función de valor real que cuantifica la similitud entre dos objetos. Aunque no existe una única definición de similitud, normalmente estas medidas son en cierto sentido la inversa de las métricas de distancia : toman valores grandes para objetos similares y cero o un valor negativo para objetos muy diferentes. Aunque, en términos más amplios, una función de similitud también puede satisfacer axiomas métricos.
La similitud de coseno es una medida de similitud de uso común para vectores de valores reales, que se utiliza (entre otros campos) en la recuperación de información para puntuar la similitud de documentos en el modelo de espacio vectorial . En el aprendizaje automático , las funciones de kernel comunes , como el kernel RBF, pueden considerarse funciones de similitud. [1]
Existen distintos tipos de medidas de similitud para distintos tipos de objetos, según los objetos que se comparen. Para cada tipo de objeto existen distintas fórmulas de medición de similitud. [2]
Similitud entre dos puntos de datos
Existen muchas opciones diferentes disponibles cuando se trata de encontrar similitud entre dos puntos de datos, algunas de las cuales son una combinación de otros métodos de similitud. Algunos de los métodos para las medidas de similitud entre dos puntos de datos incluyen la distancia euclidiana, la distancia de Manhattan, la distancia de Minkowski y la distancia de Chebyshev. La fórmula de la distancia euclidiana se utiliza para encontrar la distancia entre dos puntos en un plano, que se visualiza en la imagen a continuación. La distancia de Manhattan se utiliza comúnmente en aplicaciones de GPS , ya que se puede utilizar para encontrar la ruta más corta entre dos direcciones. [ cita requerida ] Cuando generalizas la fórmula de la distancia euclidiana y la fórmula de la distancia de Manhattan, te quedan las fórmulas de la distancia de Minkowski , que se pueden utilizar en una amplia variedad de aplicaciones.
Similitud entre cadenas
Para comparar cadenas, se pueden utilizar varias medidas de similitud de cadenas . Algunos de estos métodos incluyen la distancia de edición, la distancia de Levenshtein, la distancia de Hamming y la distancia de Jaro. La fórmula que mejor se ajuste depende de los requisitos de la aplicación. Por ejemplo, la distancia de edición se utiliza con frecuencia para aplicaciones y funciones de procesamiento de lenguaje natural , como la corrección ortográfica. La distancia de Jaro se utiliza habitualmente en la vinculación de registros para comparar nombres y apellidos con otras fuentes.
Similitud entre dos distribuciones de probabilidad
Las medidas típicas de similitud para distribuciones de probabilidad son la distancia de Bhattacharyya y la distancia de Hellinger . Ambas proporcionan una cuantificación de la similitud para dos distribuciones de probabilidad en el mismo dominio y están matemáticamente estrechamente vinculadas. La distancia de Bhattacharyya no cumple la desigualdad triangular , lo que significa que no forma una métrica . La distancia de Hellinger sí forma una métrica en el espacio de distribuciones de probabilidad.
Semejanza entre dos conjuntos
La fórmula del índice de Jaccard mide la similitud entre dos conjuntos en función de la cantidad de elementos presentes en ambos conjuntos en relación con la cantidad total de elementos. Se utiliza habitualmente en sistemas de recomendación y análisis de redes sociales [ cita requerida ] . El coeficiente de Sørensen-Dice también compara la cantidad de elementos en ambos conjuntos con la cantidad total de elementos presentes, pero el peso de la cantidad de elementos compartidos es mayor. El coeficiente de Sørensen-Dice se utiliza habitualmente en aplicaciones de biología , midiendo la similitud entre dos conjuntos de genes o especies [ cita requerida ] .
Similitud entre dos secuencias
Al comparar secuencias temporales (series de tiempo), algunas medidas de similitud deben tener en cuenta además la similitud de dos secuencias que no están completamente alineadas.
La agrupación o análisis de conglomerados es una técnica de minería de datos que se utiliza para descubrir patrones en los datos agrupando objetos similares. Implica dividir un conjunto de puntos de datos en grupos o conglomerados en función de sus similitudes. Uno de los aspectos fundamentales de la agrupación es cómo medir la similitud entre los puntos de datos.
Las medidas de similitud desempeñan un papel crucial en muchas técnicas de agrupamiento, ya que se utilizan para determinar qué tan estrechamente relacionados están dos puntos de datos y si deben agruparse en el mismo grupo. Una medida de similitud puede adoptar muchas formas diferentes según el tipo de datos que se agrupan y el problema específico que se resuelve.
Una de las medidas de similitud más utilizadas es la distancia euclidiana , que se utiliza en muchas técnicas de agrupamiento, incluidas la agrupación de K-medias y la agrupación jerárquica . La distancia euclidiana es una medida de la distancia en línea recta entre dos puntos en un espacio de alta dimensión. Se calcula como la raíz cuadrada de la suma de las diferencias al cuadrado entre las coordenadas correspondientes de los dos puntos. Por ejemplo, si tenemos dos puntos de datos y , la distancia euclidiana entre ellos es .
Otra medida de similitud comúnmente utilizada es el índice de Jaccard o similitud de Jaccard, que se utiliza en técnicas de agrupamiento que trabajan con datos binarios como datos de presencia/ausencia [3] o datos booleanos; La similitud de Jaccard es particularmente útil para técnicas de agrupamiento que trabajan con datos de texto, donde se puede utilizar para identificar grupos de documentos similares en función de sus características o palabras clave compartidas. [4] Se calcula como el tamaño de la intersección de dos conjuntos dividido por el tamaño de la unión de los dos conjuntos: .
Las similitudes entre 162 perfiles nucleares relevantes se prueban utilizando la medida de similitud de Jaccard (ver figura con mapa de calor). La similitud de Jaccard del perfil nuclear varía de 0 a 1, donde 0 indica que no hay similitud entre los dos conjuntos y 1 indica una similitud perfecta con el objetivo de agrupar el perfil nuclear más similar.
La distancia de Manhattan, también conocida como geometría del taxi , es una medida de similitud que se utiliza habitualmente en técnicas de agrupamiento que funcionan con datos continuos. Es una medida de la distancia entre dos puntos de datos en un espacio de alta dimensión, calculada como la suma de las diferencias absolutas entre las coordenadas correspondientes de los dos puntos .
Cuando se trabaja con datos de tipo mixto, incluidos atributos nominales, ordinales y numéricos por objeto, la distancia de Gower (o similitud) es una opción común, ya que puede manejar diferentes tipos de variables de manera implícita. Primero calcula similitudes entre el par de variables en cada objeto y luego combina esas similitudes en un solo promedio ponderado por par de objetos. Como tal, para dos objetos y que tienen descriptores, la similitud se define como: donde son pesos no negativos y es la similitud entre los dos objetos con respecto a su variable -ésima.
En el agrupamiento espectral , se utiliza una medida de similitud o afinidad para transformar los datos y superar las dificultades relacionadas con la falta de convexidad en la forma de la distribución de los datos. [5] La medida da lugar a un tamaño dematriz de similitud para un conjunto denpuntos, donde la entradadistancia euclidiana(recíproca de la)entrey, o puede ser una medida de distancia más compleja como la gaussiana.[5] También es común modificar aún más este resultado con técnicas de análisis de red.[6]
La elección de la medida de similitud depende del tipo de datos que se van a agrupar y del problema específico que se va a resolver. Por ejemplo, si se trabaja con datos continuos, como los datos de expresión genética, la distancia euclidiana o la similitud de coseno pueden ser adecuadas. Si se trabaja con datos binarios, como la presencia de un loci genómico en un perfil nuclear, el índice de Jaccard puede ser más adecuado. Por último, si se trabaja con datos que están dispuestos en una estructura de cuadrícula o enrejado, como los datos de procesamiento de imágenes o señales, la distancia de Manhattan es especialmente útil para la agrupación.
Las medidas de similitud se utilizan para desarrollar sistemas de recomendación . Observa la percepción y el gusto de un usuario por varios elementos. En los sistemas de recomendación, el método utiliza un cálculo de distancia comoDistancia euclidiana oSimilitud de coseno para generar unMatriz de similitud con valores que representan la similitud de cualquier par de objetivos. Luego, al analizar y comparar los valores en la matriz, es posible hacer coincidir dos objetivos con las preferencias de un usuario o vincular usuarios en función de sus marcas. En este sistema, es relevante observar el valor en sí mismo y la distancia absoluta entre dos valores.[7]La recopilación de estos datos puede indicar la probabilidad de una marca para un usuario, así como la proximidad mutua entre dos marcas ya sea rechazadas o aceptadas. Es posible entonces recomendar a un usuario objetivos con alta similitud con los gustos del usuario.
Los sistemas de recomendación se observan en múltiples plataformas de entretenimiento en línea, en redes sociales y sitios web de transmisión. La lógica para la construcción de estos sistemas se basa en medidas de similitud. [ cita requerida ]
Las matrices de similitud se utilizan en la alineación de secuencias . Se otorgan puntuaciones más altas a los caracteres más similares y puntuaciones más bajas o negativas a los caracteres diferentes.
Las matrices de similitud de nucleótidos se utilizan para alinear secuencias de ácidos nucleicos . Debido a que solo hay cuatro nucleótidos que se encuentran comúnmente en el ADN ( adenina (A), citosina (C), guanina (G) y timina (T)), las matrices de similitud de nucleótidos son mucho más simples que las matrices de similitud de proteínas . Por ejemplo, una matriz simple asignará a las bases idénticas una puntuación de +1 y a las bases no idénticas una puntuación de −1. Una matriz más complicada daría una puntuación más alta a las transiciones (cambios de una pirimidina como C o T a otra pirimidina, o de una purina como A o G a otra purina) que a las transversiones (de una pirimidina a una purina o viceversa). La relación de coincidencia/desajuste de la matriz establece la distancia evolutiva objetivo. [8] [9] La matriz de ADN +1/−3 utilizada por BLASTN es la más adecuada para encontrar coincidencias entre secuencias que son 99% idénticas; Una matriz +1/−1 (o +4/−4) es mucho más adecuada para secuencias con un 70 % de similitud. Las matrices para secuencias con menor similitud requieren alineaciones de secuencias más largas.
Las matrices de similitud de aminoácidos son más complicadas, porque hay 20 aminoácidos codificados por el código genético y, por lo tanto, un mayor número de posibles sustituciones. Por lo tanto, la matriz de similitud de aminoácidos contiene 400 entradas (aunque generalmente es simétrica ). El primer enfoque puntuaba todos los cambios de aminoácidos por igual. Un refinamiento posterior fue determinar las similitudes de aminoácidos en función de cuántos cambios de bases se requerían para cambiar un codón para codificar ese aminoácido. Este modelo es mejor, pero no tiene en cuenta la presión selectiva de los cambios de aminoácidos. Los mejores modelos tenían en cuenta las propiedades químicas de los aminoácidos.
Un enfoque ha sido generar empíricamente las matrices de similitud. El método de Dayhoff utilizó árboles filogenéticos y secuencias tomadas de especies en el árbol. Este enfoque ha dado lugar a la serie de matrices PAM . Las matrices PAM se etiquetan en función de cuántos cambios de nucleótidos se han producido, por cada 100 aminoácidos. Si bien las matrices PAM se benefician de tener un modelo evolutivo bien entendido, son más útiles en distancias evolutivas cortas (PAM10–PAM120). En distancias evolutivas largas, por ejemplo PAM250 o 20% de identidad, se ha demostrado que las matrices BLOSUM son mucho más efectivas.
Las series BLOSUM se generaron comparando varias secuencias divergentes. Las series BLOSUM se etiquetan en función de la cantidad de entropía que permanece sin mutar entre todas las secuencias, por lo que un número BLOSUM más bajo corresponde a un número PAM más alto.
{{cite book}}
: Mantenimiento de CS1: otros ( enlace )