stringtranslate.com

Aprendizaje por similitud

El aprendizaje por similitud es un área del aprendizaje automático supervisado en inteligencia artificial . Está estrechamente relacionado con la regresión y la clasificación , pero el objetivo es aprender una función de similitud que mida qué tan similares o relacionados son dos objetos. Tiene aplicaciones en la clasificación , en los sistemas de recomendación , en el seguimiento de la identidad visual, en la verificación de rostros y en la verificación de hablantes.

Configuración de aprendizaje

Hay cuatro configuraciones comunes para el aprendizaje a distancia por similitud y métrica.

Aprendizaje por similitud de regresión
En esta configuración, se proporcionan pares de objetos junto con una medida de su similitud . El objetivo es aprender una función que se aproxime a cada nuevo ejemplo de triplete etiquetado . Esto se logra generalmente minimizando una pérdida regularizada .
Aprendizaje por similitud de clasificación
Se dan pares de objetos similares y no similares . Una formulación equivalente es que cada par se da junto con una etiqueta binaria que determina si los dos objetos son similares o no. El objetivo es, nuevamente, aprender un clasificador que pueda decidir si un nuevo par de objetos es similar o no.
Aprendizaje por similitud de clasificación
Se dan tripletes de objetos cuya similitud relativa obedece a un orden predefinido: se sabe que es más similar a que a . El objetivo es aprender una función tal que para cualquier nuevo triplete de objetos , obedezca ( aprendizaje contrastivo ). Esta configuración supone una forma más débil de supervisión que en la regresión, porque en lugar de proporcionar una medida exacta de similitud , solo hay que proporcionar el orden relativo de similitud. Por esta razón, el aprendizaje de similitud basado en clasificación es más fácil de aplicar en aplicaciones reales a gran escala. [1]
Hashing sensible a la localidad (LSH) [2]
Realiza un algoritmo hash de los elementos de entrada para que los elementos similares se asignen a los mismos "cubos" en la memoria con alta probabilidad (la cantidad de cubos es mucho menor que el universo de posibles elementos de entrada). A menudo se aplica en la búsqueda del vecino más cercano en datos de gran escala y alta dimensión, por ejemplo, bases de datos de imágenes, colecciones de documentos, bases de datos de series temporales y bases de datos de genomas. [3]

Un enfoque común para aprender la similitud es modelar la función de similitud como una forma bilineal . Por ejemplo, en el caso del aprendizaje de similitud por clasificación, se busca aprender una matriz W que parametrice la función de similitud . Cuando los datos son abundantes, un enfoque común es aprender una red siamesa , un modelo de red profunda con uso compartido de parámetros.

Aprendizaje métrico

El aprendizaje por similitud está estrechamente relacionado con el aprendizaje de métricas de distancia . El aprendizaje métrico es la tarea de aprender una función de distancia sobre objetos. Una métrica o función de distancia tiene que obedecer a cuatro axiomas: no negatividad , identidad de indiscernibles , simetría y subaditividad (o la desigualdad triangular). En la práctica, los algoritmos de aprendizaje métrico ignoran la condición de identidad de indiscernibles y aprenden una pseudométrica.

Cuando los objetos son vectores en , entonces cualquier matriz en el cono semidefinido positivo simétrico define una distancia pseudométrica del espacio de x a través de la forma . Cuando es una matriz definida positiva simétrica, es una métrica. Además, como cualquier matriz semidefinida positiva simétrica se puede descomponer como donde y , la función de distancia se puede reescribir de manera equivalente . La distancia corresponde a la distancia euclidiana entre los vectores de características transformados y .

Se han propuesto muchas formulaciones para el aprendizaje métrico. [4] [5] Algunos enfoques conocidos para el aprendizaje métrico incluyen el aprendizaje a partir de comparaciones relativas, [6] que se basa en la pérdida de tripletes , el vecino más cercano de gran margen , [7] y el aprendizaje métrico teórico de la información (ITML). [8]

En estadística , la matriz de covarianza de los datos a veces se utiliza para definir una métrica de distancia llamada distancia de Mahalanobis .

Aplicaciones

El aprendizaje por similitud se utiliza en la recuperación de información para aprender a clasificar , en la verificación o identificación de rostros, [9] [10] y en los sistemas de recomendación . Además, muchos enfoques de aprendizaje automático se basan en alguna métrica. Esto incluye el aprendizaje no supervisado , como la agrupación , que agrupa objetos cercanos o similares. También incluye enfoques supervisados ​​como el algoritmo de los K vecinos más cercanos , que se basan en las etiquetas de los objetos cercanos para decidir la etiqueta de un nuevo objeto. El aprendizaje métrico se ha propuesto como un paso de preprocesamiento para muchos de estos enfoques. [11]

Escalabilidad

El aprendizaje de métricas y similitudes escala de manera ingenua de manera cuadrática con la dimensión del espacio de entrada, como se puede ver fácilmente cuando la métrica aprendida tiene una forma bilineal . El escalamiento a dimensiones más altas se puede lograr al imponer una estructura de escasez sobre el modelo de matriz, como se hace con HDSL, [12] y con COMET. [13]

Software

Más información

Para obtener más información sobre este tema, consulte las encuestas sobre aprendizaje métrico y de similitud de Bellet et al. [4] y Kulis. [5]

Véase también

Referencias

  1. ^ Chechik, G.; Sharma, V.; Shalit, U.; Bengio, S. (2010). "Aprendizaje en línea a gran escala de similitud de imágenes mediante clasificación" (PDF) . Journal of Machine Learning Research . 11 : 1109–1135.
  2. ^ Gionis, Aristides, Piotr Indyk y Rajeev Motwani. "Búsqueda de similitud en grandes dimensiones mediante hash". VLDB. Vol. 99. Núm. 6. 1999.
  3. ^ Rajaraman, A.; Ullman, J. (2010). "Extracción de conjuntos de datos masivos, cap. 3".
  4. ^ ab Bellet, A.; Habrard, A.; Sebban, M. (2013). "Una encuesta sobre aprendizaje métrico para vectores de características y datos estructurados". arXiv : 1306.6709 [cs.LG].
  5. ^ ab Kulis, B. (2012). "Aprendizaje métrico: una encuesta". Fundamentos y tendencias en aprendizaje automático . 5 (4): 287–364. doi :10.1561/2200000019.
  6. ^ Schultz, M.; Joachims, T. (2004). "Aprendizaje de una métrica de distancia a partir de comparaciones relativas" (PDF) . Avances en sistemas de procesamiento de información neuronal . 16 : 41–48.
  7. ^ Weinberger, KQ; Blitzer, JC; Saul, LK (2006). "Aprendizaje de métricas de distancia para clasificación de vecinos más cercanos con márgenes amplios" (PDF) . Avances en sistemas de procesamiento de información neuronal . 18 : 1473–1480.
  8. ^ Davis, JV; Kulis, B.; Jain, P.; Sra, S.; Dhillon, IS (2007). "Aprendizaje métrico basado en la teoría de la información". Conferencia internacional sobre aprendizaje automático (ICML) : 209–216.
  9. ^ Guillaumin, M.; Verbeek, J.; Schmid, C. (2009). "¿Eres tú? Enfoques de aprendizaje métrico para la identificación de rostros" (PDF) . Conferencia Internacional sobre Visión por Computador (ICCV) del IEEE .
  10. ^ Mignon, A.; Jurie, F. (2012). "PCCA: Un nuevo enfoque para el aprendizaje a distancia a partir de restricciones dispersas por pares" (PDF) . Conferencia IEEE sobre Visión artificial y reconocimiento de patrones .
  11. ^ Xing, EP; Ng, AY; Jordan, MI; Russell, S. (2002). "Aprendizaje de métricas de distancia, con aplicación a la agrupación con información lateral" (PDF) . Avances en sistemas de procesamiento de información neuronal . 15 : 505–512.
  12. ^ Liu; Bellet; Sha (2015). "Aprendizaje de similitud para datos dispersos de alta dimensión" (PDF) . Conferencia internacional sobre inteligencia artificial y estadística (AISTATS) . arXiv : 1411.2374 . Código Bibliográfico :2014arXiv1411.2374L.
  13. ^ Atzmon; Shalit; Chechik (2015). "Aprendizaje de métricas dispersas, una característica a la vez" (PDF) . J. Mach. Learn. Research (JMLR) .
  14. ^ "Scikit-learn-contrib/Metric-learn". GitHub .
  15. ^ Vazelhes; Carey; Tang; Vauquier; Bellet (2020). "metric-learn: Algoritmos de aprendizaje métrico en Python" (PDF) . J. Mach. Learn. Research (JMLR) . arXiv : 1908.04710 .
  16. ^ "Equipo OML/Aprendizaje de métricas abiertas". GitHub .