stringtranslate.com

Similitud del coseno

En el análisis de datos , la similitud del coseno es una medida de similitud entre dos vectores distintos de cero definidos en un espacio producto interno . La similitud del coseno es el coseno del ángulo entre los vectores; es decir, es el producto escalar de los vectores dividido por el producto de sus longitudes. De ello se deduce que la similitud del coseno no depende de las magnitudes de los vectores, sino sólo de su ángulo. La similitud coseno siempre pertenece al intervalo. Por ejemplo, dos vectores proporcionales tienen una similitud coseno de 1, dos vectores ortogonales tienen una similitud de 0 y dos vectores opuestos tienen una similitud de -1. En algunos contextos, los valores de los componentes de los vectores no pueden ser negativos, en cuyo caso la similitud del coseno está acotada en .

Por ejemplo, en la recuperación de información y minería de textos , a cada palabra se le asigna una coordenada diferente y un documento se representa mediante el vector de los números de apariciones de cada palabra en el documento. La similitud del coseno proporciona entonces una medida útil de cuán similares pueden ser dos documentos, en términos de su tema e independientemente de la extensión de los documentos. [1]

La técnica también se utiliza para medir la cohesión dentro de clusters en el campo de la minería de datos . [2]

Una ventaja de la similitud del coseno es su baja complejidad , especialmente para vectores dispersos : sólo es necesario considerar las coordenadas distintas de cero.

Otros nombres para la similitud del coseno incluyen similitud de Orchini y coeficiente de congruencia de Tucker ; la similitud Otsuka-Ochiai (ver más abajo) es una similitud coseno aplicada a datos binarios .

Definición

El coseno de dos vectores distintos de cero se puede derivar utilizando la fórmula del producto escalar euclidiano :

Dados dos vectores de atributos de n dimensiones , A y B , la similitud del coseno, cos(θ) , se representa utilizando un producto escalar y una magnitud como

donde y son los ésimos componentes de los vectores y , respectivamente.

La similitud resultante varía desde -1, que significa exactamente opuesto, hasta 1, que significa exactamente igual, donde 0 indica ortogonalidad o descorrelación , mientras que los valores intermedios indican similitud o disimilitud intermedia.

Para la coincidencia de texto , los vectores de atributos A y B suelen ser los vectores de frecuencia de términos de los documentos. La similitud del coseno puede verse como un método para normalizar la longitud del documento durante la comparación. En el caso de la recuperación de información , la similitud coseno de dos documentos oscilará entre , ya que el término frecuencias no puede ser negativo. Esto sigue siendo cierto cuando se utilizan pesas TF-IDF . El ángulo entre dos vectores de frecuencia de términos no puede ser mayor que 90°.

Si los vectores de atributos se normalizan restando las medias de los vectores (p. ej., ), la medida se denomina similitud del coseno centrado y es equivalente al coeficiente de correlación de Pearson . Para un ejemplo de centrado,

Distancia del coseno

El término distancia coseno [3] se usa comúnmente para el complemento de similitud coseno en el espacio positivo, es decir

Es importante señalar que la distancia del coseno no es una verdadera métrica de distancia, ya que no presenta la propiedad de desigualdad del triángulo (o, más formalmente, la desigualdad de Schwarz ) y viola el axioma de coincidencia. Una forma de ver esto es notar que la distancia del coseno es la mitad de la distancia euclidiana al cuadrado de la normalización de los vectores, y la distancia euclidiana al cuadrado tampoco satisface la desigualdad del triángulo. Para reparar la propiedad de desigualdad del triángulo manteniendo el mismo orden, es necesario convertirla a distancia angular o distancia euclidiana. Alternativamente, la desigualdad triangular que sí funciona para distancias angulares se puede expresar directamente en términos de cosenos; vea abajo.

Distancia angular y similitud.

El ángulo normalizado, denominado distancia angular , entre dos vectores cualesquiera , es una métrica de distancia formal y se puede calcular a partir de la similitud del coseno. [4] El complemento de la métrica de distancia angular se puede utilizar para definir la función de similitud angular limitada entre 0 y 1, inclusive.

Cuando los elementos del vector pueden ser positivos o negativos:

O, si los elementos del vector son siempre positivos:

Desafortunadamente, calcular la función coseno inverso ( arccos ) es lento, lo que hace que el uso de la distancia angular sea más costoso computacionalmente que usar la distancia coseno más común (pero no métrica) mencionada anteriormente.

L 2 -distancia euclidiana normalizada

Otro indicador eficaz de la distancia del coseno se puede obtener mediante la normalización de los vectores, seguida de la aplicación de la distancia euclidiana normal . Usando esta técnica, cada término de cada vector se divide primero por la magnitud del vector, lo que produce un vector de longitud unitaria. Entonces, la distancia euclidiana sobre los puntos finales de dos vectores cualesquiera es una métrica adecuada que proporciona el mismo orden que la distancia del coseno (una transformación monótona de la distancia euclidiana; ver más abajo) para cualquier comparación de vectores y, además, evita las operaciones trigonométricas potencialmente costosas. operaciones necesarias para producir una métrica adecuada. Una vez que se ha producido la normalización, el espacio vectorial se puede utilizar con toda la gama de técnicas disponibles para cualquier espacio euclidiano, en particular las técnicas estándar de reducción de dimensionalidad . Esta distancia de forma normalizada se utiliza a menudo en muchos algoritmos de aprendizaje profundo .

Coeficiente de Otsuka-Ochiai

En biología, existe un concepto similar conocido como coeficiente Otsuka-Ochiai que lleva el nombre de Yanosuke Otsuka (también escrito como Ōtsuka, Ootsuka u Otuka, [5] japonés :大塚 弥之助) [6] y Akira Ochiai ( japonés :落合 明), [7] también conocido como coeficiente de Ochiai-Barkman [8] o coeficiente de Ochiai, [9] que puede representarse como:

Aquí, y son conjuntos , y es el número de elementos en . Si los conjuntos se representan como vectores de bits, se puede considerar que el coeficiente de Otsuka-Ochiai es el mismo que la similitud del coseno. Es idéntica a la partitura introducida por Godfrey Thomson . [10]

En un libro reciente, [11] el coeficiente se atribuye erróneamente a otro investigador japonés con el apellido Otsuka. La confusión surge porque en 1957 Akira Ochiai atribuye el coeficiente sólo a Otsuka (sin nombre mencionado) [7] al citar un artículo de Ikuso Hamai ( japonés :浜井 生三), [12] quien a su vez cita el artículo original de 1936 de Yanosuke Otsuka. [6]

Propiedades

La propiedad más notable de la similitud del coseno es que refleja una comparación relativa, más que absoluta, de las dimensiones del vector individual. Para cualquier constante y vector , los vectores y son máximamente similares. Por tanto, la medida es más apropiada para datos en los que la frecuencia es más importante que los valores absolutos; en particular, la frecuencia de los términos en los documentos. Sin embargo, se ha demostrado que métricas más recientes basadas en la teoría de la información, como Jensen-Shannon , SED y la divergencia triangular, han mejorado la semántica en al menos algunos contextos. [13]

La similitud del coseno se relaciona con la distancia euclidiana de la siguiente manera. Denota la distancia euclidiana por lo habitual y observa que

( identidad de polarización )

por expansión . Cuando A y B están normalizados a la unidad de longitud, esta expresión es igual a

En resumen, la distancia del coseno se puede expresar en términos de distancia euclidiana como

.

La distancia euclidiana se llama distancia de cuerda (porque es la longitud de la cuerda en el círculo unitario) y es la distancia euclidiana entre los vectores que se normalizaron a la suma unitaria de valores al cuadrado dentro de ellos.

Distribución nula: para datos que pueden ser tanto negativos como positivos, la distribución nula para la similitud del coseno es la distribución del producto escalar de dos vectores unitarios aleatorios independientes . Esta distribución tiene una media de cero y una varianza de (donde está el número de dimensiones), y aunque la distribución está limitada entre -1 y +1, a medida que crece, la distribución se aproxima cada vez más a la distribución normal . [14] [15] Otros tipos de datos, como los flujos de bits , que solo toman los valores 0 o 1, la distribución nula toma una forma diferente y puede tener una media distinta de cero. [dieciséis]

Desigualdad de triángulos para similitud coseno

La desigualdad triangular ordinaria para ángulos (es decir, longitudes de arco en una hiperesfera unitaria) nos da que

Debido a que la función coseno disminuye a medida que aumenta un ángulo en [0, π ] radianes, el sentido de estas desigualdades se invierte cuando tomamos el coseno de cada valor:

Usando las fórmulas de suma y resta de cosenos, estas dos desigualdades se pueden escribir en términos de los cosenos originales,

Esta forma de desigualdad triangular se puede utilizar para limitar la similitud mínima y máxima de dos objetos A y B si ya se conocen las similitudes con un objeto de referencia C. Esto se utiliza, por ejemplo, en la indexación de datos métricos, pero también se ha utilizado para acelerar la agrupación de k-medias esféricas [17] de la misma manera que se ha utilizado la desigualdad del triángulo euclidiano para acelerar k-medias regulares.

Medida del coseno suave

Un coseno suave o similitud ("suave") entre dos vectores considera similitudes entre pares de características. [18] La similitud de coseno tradicional considera las características del modelo de espacio vectorial (VSM) como independientes o completamente diferentes, mientras que la medida de coseno suave propone considerar la similitud de características en VSM, lo que ayuda a generalizar el concepto de coseno (y coseno suave) también. como la idea de similitud (suave).

Por ejemplo, en el campo del procesamiento del lenguaje natural (PNL), la similitud entre características es bastante intuitiva. Características como palabras, n -gramas o n -gramas sintácticos [19] pueden ser bastante similares, aunque formalmente se consideran características diferentes en el VSM. Por ejemplo, las palabras “jugar” y “juego” son palabras diferentes y, por lo tanto, están asignadas a puntos diferentes en VSM; sin embargo, están semánticamente relacionados. En el caso de n -gramas o n -gramas sintácticos, se puede aplicar la distancia de Levenshtein (de hecho, la distancia de Levenshtein también se puede aplicar a las palabras).

Para calcular el coseno suave, la matriz s se utiliza para indicar la similitud entre características. Se puede calcular mediante la distancia de Levenshtein, la similitud de WordNet u otras medidas de similitud . Luego simplemente multiplicamos por esta matriz.

Dados dos vectores de N dimensiones y , la similitud del coseno suave se calcula de la siguiente manera:

donde s ij = similitud (característica i , característica j ) .

Si no hay similitud entre características ( s ii = 1 , s ij = 0 para ij ), la ecuación dada es equivalente a la fórmula de similitud del coseno convencional.

La complejidad temporal de esta medida es cuadrática, lo que la hace aplicable a tareas del mundo real. Tenga en cuenta que la complejidad se puede reducir a subcuadrática. [20] En la biblioteca de código abierto Gensim se incluye una implementación eficiente de dicha similitud de coseno suave .

Ver también

Referencias

  1. ^ Singhal, Amit (2001). "Recuperación de información moderna: una breve descripción". Boletín del Comité Técnico de Ingeniería de Datos del IEEE Computer Society 24 (4): 35–43.
  2. ^ P.-N. Tan, M. Steinbach y V. Kumar, Introducción a la minería de datos , Addison-Wesley (2005), ISBN  0-321-32136-7 , capítulo 8; página 500.
  3. ^ Investigación Wolfram (2007). "CosineDistance - Centro de documentación de sistemas y lenguaje Wolfram". wolfram.com .{{cite web}}: CS1 maint: numeric names: authors list (link)
  4. ^ "DISTANCIA COSINO, SIMILARIDAD COSINO, DISTANCIA COSINO ANGULAR, SIMILARIDAD COSINO ANGULAR". www.itl.nist.gov . Consultado el 11 de julio de 2020 .
  5. ^ Omori, Masae (2004). "Idea geológica de Yanosuke Otuka, quien sentó las bases de la neotectónica (geocientífico)". Ciencia de la Tierra . 58 (4): 256–259. doi :10.15080/agcjchikyukagaku.58.4_256.
  6. ^ ab Otsuka, Yanosuke (1936). "El carácter faunístico de los moluscos marinos del Pleistoceno japonés, como evidencia de que el clima se volvió más frío durante el Pleistoceno en Japón". Boletín de la Sociedad Biogeográfica de Japón . 6 (16): 165-170.
  7. ^ ab Ochiai, Akira (1957). "Estudios zoogeográficos sobre los peces soleoides encontrados en Japón y sus regiones vecinas-II". Boletín de la Sociedad Japonesa de Pesca Científica . 22 (9): 526–530. doi : 10.2331/suisan.22.526 .
  8. ^ Barkman, enero J. (1958). Fitosociología y ecología de epífitas criptogámicas: incluido un estudio taxonómico y una descripción de sus unidades de vegetación en Europa . Assen: Van Gorcum.
  9. ^ Romesburg, H. Charles (1984). Análisis de conglomerados para investigadores. Belmont, California: Publicaciones de aprendizaje de por vida. pag. 149.
  10. ^ Thomson, Godfrey (1916). «Una jerarquía sin factor general» (PDF) . Revista británica de psicología . 8 : 271–281.
  11. ^ Howarth, Richard J. (2017). Diccionario de geociencias matemáticas: con notas históricas. Cham: Springer. pag. 421.doi :10.1007/978-3-319-57315-1 . ISBN 978-3-319-57314-4. S2CID  67081034. […] atribuido por él a "Otsuka" [?A. Otsuka del Departamento de Pesca, Universidad de Tohoku].
  12. ^ Hamai, Ikuso (1955). "Estratificación de comunidad mediante" coeficiente comunitario "(continuación)". Revista Japonesa de Ecología . 5 (1): 41–45. doi :10.18960/seitai.5.1_41.
  13. ^ Connor, Richard (2016). Una historia de cuatro métricas. Búsqueda de similitudes y aplicaciones. Tokio: Springer. doi :10.1007/978-3-319-46759-7_16.
  14. ^ Spruill, Marcus C. (2007). "Distribución asintótica de coordenadas en esferas de alta dimensión". Comunicaciones electrónicas en probabilidad . 12 : 234–247. doi : 10.1214/ECP.v12-1294 .
  15. ^ "Distribución de productos escalares entre dos vectores unitarios aleatorios en RD". Validación cruzada .
  16. ^ Graham L. Giller (2012). "Las propiedades estadísticas de los flujos de bits aleatorios y la distribución de muestreo de la similitud del coseno". Notas de investigación de Giller Investments (20121024/1). doi :10.2139/ssrn.2167044. S2CID  123332455.
  17. ^ Schubert, Erich; Lang, Andrés; Feher, Gloria (2021). Reyes, Nora; Connor, Ricardo; Kriege, Nils; Kazempour, Daniyal; Bartolini, Ilaria; Schubert, Erich; Chen, Jian-Jia (eds.). "Aceleración de k-medias esféricas". Búsqueda y aplicaciones de similitud . Apuntes de conferencias sobre informática. 13058 . Cham: Springer International Publishing: 217–231. arXiv : 2107.04074 . doi :10.1007/978-3-030-89657-7_17. ISBN 978-3-030-89657-7. S2CID  235790358.
  18. ^ Sidorov, Grigori; Gelbukh, Alejandro; Gómez-Adorno, Helena; Pinto, David (29 de septiembre de 2014). "Medida de semejanza suave y coseno suave: similitud de características en el modelo de espacio vectorial". Computación y Sistemas . 18 (3): 491–504. doi :10.13053/CyS-18-3-2043 . Consultado el 7 de octubre de 2014 .
  19. ^ Sidorov, Grigori; Velásquez, Francisco; Stamatatos, Efstathios; Gelbukh, Alejandro; Chanona-Hernández, Liliana (2013). Avances en Inteligencia Computacional . Apuntes de conferencias sobre informática. vol. 7630. LNAI 7630. págs. 1–11. doi :10.1007/978-3-642-37798-3_1. ISBN 978-3-642-37798-3.
  20. ^ Novotný, Vít (2018). Notas de implementación para la medida del coseno suave . La 27ª Conferencia Internacional ACM sobre Gestión de la Información y el Conocimiento. Torun, Italia: Asociación de Maquinaria Informática. págs. 1639-1642. arXiv : 1808.09407 . doi :10.1145/3269206.3269317. ISBN 978-1-4503-6014-2.

enlaces externos