stringtranslate.com

Aprendizaje de múltiples instancias

En el aprendizaje automático , el aprendizaje de múltiples instancias (MIL) es un tipo de aprendizaje supervisado . En lugar de recibir un conjunto de instancias etiquetadas individualmente , el alumno recibe un conjunto de bolsas etiquetadas , cada una de las cuales contiene muchas instancias. En el caso simple de la clasificación binaria de múltiples instancias , una bolsa puede etiquetarse como negativa si todas las instancias que contiene son negativas. Por otro lado, una bolsa se etiqueta como positiva si hay al menos una instancia en ella que es positiva. A partir de una colección de bolsas etiquetadas, el alumno intenta (i) inducir un concepto que etiquetará las instancias individuales correctamente o (ii) aprender a etiquetar bolsas sin inducir el concepto.

Babenko (2008) [1] ofrece un ejemplo sencillo de MIL. Imaginemos que varias personas tienen un llavero que contiene varias llaves. Algunas de estas personas pueden entrar en una habitación determinada y otras no. La tarea consiste entonces en predecir si una determinada llave o un determinado llavero puede permitirnos entrar en esa habitación. Para resolver este problema, necesitamos encontrar la llave exacta que sea común a todos los llaveros "positivos". Si podemos identificar correctamente esta llave, también podemos clasificar correctamente un llavero completo: positivo si contiene la llave requerida o negativo si no la contiene.

Aprendizaje automático

Según el tipo y la variación de los datos de entrenamiento, el aprendizaje automático se puede clasificar en tres marcos: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje de refuerzo. El aprendizaje de instancias múltiples (MIL) se incluye en el marco del aprendizaje supervisado, donde cada instancia de entrenamiento tiene una etiqueta, ya sea discreta o con valor real. MIL se ocupa de los problemas con el conocimiento incompleto de las etiquetas en los conjuntos de entrenamiento. Más precisamente, en el aprendizaje de instancias múltiples, el conjunto de entrenamiento consta de "bolsas" etiquetadas, cada una de las cuales es una colección de instancias sin etiquetar. Una bolsa está etiquetada positivamente si al menos una instancia en ella es positiva, y está etiquetada negativamente si todas las instancias en ella son negativas. El objetivo del MIL es predecir las etiquetas de bolsas nuevas, no vistas.

Historia

Keeler et al., [2] en su trabajo a principios de la década de 1990 fue el primero en explorar el área de MIL. El término actual de aprendizaje de múltiples instancias fue introducido a mediados de la década de 1990, por Dietterich et al. mientras investigaban el problema de la predicción de la actividad de los fármacos. [3] Intentaron crear un sistema de aprendizaje que pudiera predecir si una nueva molécula estaba calificada para producir algún fármaco, o no, mediante el análisis de una colección de moléculas conocidas. Las moléculas pueden tener muchos estados alternativos de baja energía, pero solo uno, o algunos de ellos, están calificados para producir un fármaco. El problema surgió porque los científicos solo podían determinar si la molécula estaba calificada, o no, pero no podían decir exactamente cuáles de sus formas de baja energía son responsables de eso.

Una de las formas propuestas para resolver este problema fue utilizar el aprendizaje supervisado y considerar todas las formas de baja energía de la molécula calificada como instancias de entrenamiento positivas, mientras que todas las formas de baja energía de las moléculas no calificadas como instancias negativas. Dietterich et al. demostraron que dicho método tendría un alto ruido de falsos positivos, debido a todas las formas de baja energía que están mal etiquetadas como positivas, y por lo tanto no era realmente útil. [3] Su enfoque fue considerar cada molécula como una bolsa etiquetada, y todas las formas alternativas de baja energía de esa molécula como instancias en la bolsa, sin etiquetas individuales. De este modo, se formuló el aprendizaje de múltiples instancias.

La solución al problema de aprendizaje de instancias múltiples que Dietterich et al. propusieron es el algoritmo de rectángulos paralelos a ejes (APR). [3] Intenta buscar rectángulos paralelos a ejes apropiados construidos por la conjunción de las características. Probaron el algoritmo en el conjunto de datos de Musk, [4] [5] [ dudosodiscutir ] que es un dato de prueba concreto de predicción de la actividad de fármacos y el punto de referencia más utilizado en el aprendizaje de instancias múltiples. El algoritmo APR logró el mejor resultado, pero APR fue diseñado teniendo en cuenta los datos de Musk.

El problema del aprendizaje de múltiples instancias no es exclusivo de la búsqueda de fármacos. En 1998, Maron y Ratan encontraron otra aplicación del aprendizaje de múltiples instancias para la clasificación de escenas en visión artificial y diseñaron el marco de trabajo Diverse Density [6] . Dada una imagen, una instancia se considera una o más subimágenes de tamaño fijo, y el conjunto de instancias se considera la imagen completa. Una imagen se etiqueta como positiva si contiene la escena objetivo (una cascada, por ejemplo) y negativa en caso contrario. El aprendizaje de múltiples instancias se puede utilizar para aprender las propiedades de las subimágenes que caracterizan la escena objetivo. A partir de ahí, estos marcos se han aplicado a un amplio espectro de aplicaciones, que van desde el aprendizaje de conceptos de imágenes y la categorización de textos hasta la predicción del mercado de valores.

Ejemplos

Tomemos como ejemplo la clasificación de imágenes de Amores (2013). Dada una imagen, queremos saber su clase de destino en función de su contenido visual. Por ejemplo, la clase de destino podría ser "playa", donde la imagen contiene tanto "arena" como "agua". En términos MIL , la imagen se describe como una bolsa , donde cada una es el vector de características (llamado instancia ) extraído de la región -ésima correspondiente en la imagen y es el total de regiones (instancias) que dividen la imagen. La bolsa se etiqueta como positiva ("playa") si contiene instancias de la región "arena" e instancias de la región "agua".

Algunos ejemplos de aplicaciones de MIL son:

Numerosos investigadores han trabajado en la adaptación de técnicas de clasificación clásicas, como máquinas de vectores de soporte o boosting , para que funcionen en el contexto del aprendizaje de múltiples instancias.

Definiciones

Si el espacio de instancias es , entonces el conjunto de bolsas es el conjunto de funciones , que es isomorfo al conjunto de subconjuntos múltiples de . Para cada bolsa y cada instancia , se considera como el número de veces que ocurre en . [8] Sea el espacio de etiquetas, entonces un "concepto de instancia múltiple" es un mapa . El objetivo de MIL es aprender dicho concepto. El resto del artículo se centrará en la clasificación binaria , donde .

Supuestos

La mayor parte de los trabajos sobre aprendizaje de instancias múltiples, incluidos los primeros artículos de Dietterich et al. (1997) y Maron & Lozano-Pérez (1997), [3] [9], parten de la suposición sobre la relación entre las instancias dentro de una bolsa y la etiqueta de clase de la bolsa. Debido a su importancia, esa suposición a menudo se denomina suposición de MI estándar.

Supuesto estándar

La suposición estándar supone que cada instancia tiene una etiqueta asociada que está oculta para el alumno. El par se denomina "concepto a nivel de instancia". Ahora, una bolsa se considera un conjunto múltiple de conceptos a nivel de instancia y se etiqueta como positiva si al menos una de sus instancias tiene una etiqueta positiva, y negativa si todas sus instancias tienen etiquetas negativas. Formalmente, sea una bolsa. La etiqueta de es entonces . La suposición estándar de MI es asimétrica, lo que significa que si las etiquetas positiva y negativa se invierten, la suposición tiene un significado diferente. Por eso, cuando utilizamos esta suposición, debemos tener claro qué etiqueta debe ser la positiva.

El supuesto estándar puede ser visto como demasiado estricto y, por lo tanto, en los últimos años, los investigadores intentaron relajar esa posición, lo que dio lugar a otros supuestos más laxos. [10] La razón de esto es la creencia de que el supuesto estándar de MI es apropiado para el conjunto de datos de Musk, pero como MIL se puede aplicar a muchos otros problemas, probablemente podrían ser más apropiados algunos supuestos diferentes. Guiado por esa idea, Weidmann [11] formuló una jerarquía de supuestos generalizados basados ​​en instancias para MIL. Consiste en el supuesto estándar de MI y tres tipos de supuestos generalizados de MI, cada uno más general que el último, en el sentido de que el primero se puede obtener como una elección específica de parámetros del último, estándar basado en presencia basado en umbral basado en conteo, siendo el supuesto basado en conteo el más general y el supuesto estándar el menos general. (Sin embargo, cabe señalar que cualquier bolsa que cumpla con el supuesto basado en el recuento cumple con el supuesto basado en el umbral, que a su vez cumple con el supuesto basado en la presencia, que, a su vez, cumple con el supuesto estándar. En ese sentido, también es correcto afirmar que el supuesto estándar es el más débil, por lo tanto, el más general, y el supuesto basado en el recuento es el más fuerte, por lo tanto, el menos general). Uno esperaría que un algoritmo que funciona bien bajo uno de estos supuestos funcione al menos igual de bien bajo los supuestos menos generales.

Supuestos basados ​​en presencia, umbral y recuento

El supuesto basado en la presencia es una generalización del supuesto estándar, en el que una bolsa debe contener todas las instancias que pertenecen a un conjunto de conceptos requeridos a nivel de instancia para ser etiquetada como positiva. Formalmente, sea el conjunto de conceptos requeridos a nivel de instancia y sea denotar la cantidad de veces que el concepto a nivel de instancia aparece en la bolsa . Entonces , para todos los . Nótese que, al tomar que contiene solo un concepto a nivel de instancia, el supuesto basado en la presencia se reduce al supuesto estándar.

Una generalización adicional viene con el supuesto basado en umbrales, donde cada concepto requerido a nivel de instancia debe ocurrir no solo una vez en una bolsa, sino un número mínimo (umbral) de veces para que la bolsa sea etiquetada como positiva. Con la notación anterior, a cada concepto requerido a nivel de instancia se le asocia un umbral . Para una bolsa , para todos los .

La suposición basada en el recuento es una generalización final que impone límites inferiores y superiores para la cantidad de veces que un concepto requerido puede aparecer en una bolsa etiquetada positivamente. Cada concepto requerido a nivel de instancia tiene un umbral inferior y un umbral superior con . Una bolsa se etiqueta según para todos los .

Supuesto GMIL

Scott, Zhang y Brown (2005) [12] describen otra generalización del modelo estándar, que denominan "aprendizaje generalizado de múltiples instancias" (GMIL). El supuesto GMIL especifica un conjunto de instancias requeridas . Una bolsa se etiqueta como positiva si contiene instancias que están suficientemente cerca de al menos de las instancias requeridas . [12] Solo bajo esta condición, el supuesto GMIL es equivalente al supuesto basado en presencia. [8] Sin embargo, Scott et al. describen una generalización adicional en la que hay un conjunto de puntos de atracción y un conjunto de puntos de repulsión . Una bolsa se etiqueta como positiva si y solo si contiene instancias que están suficientemente cerca de al menos de los puntos de atracción y están suficientemente cerca de la mayoría de los puntos de repulsión. [12] Esta condición es estrictamente más general que la basada en presencia, aunque no cae dentro de la jerarquía anterior.

Suposición colectiva

A diferencia de los supuestos anteriores, en los que las bolsas se consideraban fijas, el supuesto colectivo considera que una bolsa es una distribución entre instancias y, de manera similar, considera que las etiquetas son una distribución entre instancias. El objetivo de un algoritmo que opera bajo el supuesto colectivo es, entonces, modelar la distribución .

Dado que normalmente se considera fijo pero desconocido, los algoritmos se centran en calcular la versión empírica: , donde es el número de instancias en bag . Dado que también se suele considerar fijo pero desconocido, la mayoría de los métodos basados ​​en suposiciones colectivas se centran en aprender esta distribución, como en la versión de instancia única. [8] [10]

Mientras que el supuesto colectivo pondera cada instancia con la misma importancia, Foulds extendió el supuesto colectivo para incorporar ponderaciones de instancias. El supuesto colectivo ponderado es entonces que , donde es una función de ponderación sobre instancias y . [8]

Algoritmos

Marco MIL

Existen dos tipos principales de algoritmos para el aprendizaje de múltiples instancias: algoritmos basados ​​en instancias y algoritmos basados ​​en metadatos o algoritmos basados ​​en incrustaciones. El término "basado en instancias" denota que el algoritmo intenta encontrar un conjunto de instancias representativas basándose en una suposición de MI y clasificar las futuras bolsas a partir de estos representantes. Por el contrario, los algoritmos basados ​​en metadatos no hacen suposiciones sobre la relación entre las instancias y las etiquetas de las bolsas, y en su lugar intentan extraer información independiente de las instancias (o metadatos) sobre las bolsas para aprender el concepto. [10] Para un estudio de algunos de los algoritmos de MI modernos, consulte Foulds y Frank. [8]

Algoritmos basados ​​en instancias

Los primeros algoritmos MI propuestos fueron un conjunto de algoritmos de "discriminación iterada" desarrollados por Dietterich et al., y Diverse Density desarrollado por Maron y Lozano-Pérez. [3] [9] Ambos algoritmos operaron bajo el supuesto estándar.

Discriminación iterada

En términos generales, todos los algoritmos de discriminación iterada constan de dos fases. La primera fase consiste en hacer crecer un rectángulo paralelo a los ejes (APR) que contenga al menos una instancia de cada bolsa positiva y ninguna instancia de ninguna bolsa negativa. Esto se hace de forma iterativa: a partir de una instancia aleatoria en una bolsa positiva, el APR se expande hasta el APR más pequeño que cubra cualquier instancia en una nueva bolsa positiva . Este proceso se repite hasta que el APR cubra al menos una instancia de cada bolsa positiva. Luego, a cada instancia contenida en el APR se le asigna una "relevancia", que corresponde a la cantidad de puntos negativos que excluye del APR si se elimina. Luego, el algoritmo selecciona instancias representativas candidatas en orden de relevancia decreciente, hasta que ninguna instancia contenida en una bolsa negativa también esté contenida en el APR. El algoritmo repite estos pasos de crecimiento y selección de representantes hasta la convergencia, donde el tamaño del APR en cada iteración se considera solo a lo largo de los representantes candidatos.

Después de la primera fase, se piensa que la APR contiene estrictamente solo los atributos representativos. La segunda fase expande esta APR estricta de la siguiente manera: se centra una distribución gaussiana en cada atributo y se dibuja una APR más flexible de modo que los casos positivos queden fuera de la APR estricta con una probabilidad fija. [4] Aunque las técnicas de discriminación iterada funcionan bien con el supuesto estándar, no se generalizan bien a otros supuestos de MI. [8]

Densidad diversa

En su forma más simple, la densidad diversa (DD) supone una única instancia representativa como concepto. Esta instancia representativa debe ser "densa" en el sentido de que está mucho más cerca de las instancias de los grupos positivos que de los grupos negativos, así como "diversa" en el sentido de que está cerca de al menos una instancia de cada grupo positivo.

Sea el conjunto de bolsas etiquetadas positivamente y sea el conjunto de bolsas etiquetadas negativamente, entonces el mejor candidato para la instancia representativa está dado por , donde la densidad diversa bajo el supuesto de que las bolsas se distribuyen independientemente dado el concepto . Si denotamos la instancia j de la bolsa i, el modelo ruidoso-or da:

se toma como la distancia escalada donde es el vector de escala. De esta manera, si cada bolsa positiva tiene una instancia cercana a , entonces será alta para cada , pero si cualquier bolsa negativa tiene una instancia cercana a , será baja. Por lo tanto, es alta solo si cada bolsa positiva tiene una instancia cercana a y ninguna bolsa negativa tiene una instancia cercana a . El concepto candidato se puede obtener a través de métodos de gradiente. La clasificación de nuevas bolsas se puede realizar evaluando la proximidad a . [9] Aunque la densidad diversa fue propuesta originalmente por Maron et al. en 1998, los algoritmos MIL más recientes utilizan el marco DD, como EM-DD en 2001 [13] y DD-SVM en 2004, [14] y MILES en 2006 [8]

También se han adaptado varios algoritmos de instancia única a un contexto de instancias múltiples bajo el supuesto estándar, incluidos

Después del año 2000, se produjo un alejamiento del supuesto estándar y el desarrollo de algoritmos diseñados para abordar los supuestos más generales enumerados anteriormente. [10]

Debido a la alta dimensionalidad del nuevo espacio de características y al costo de enumerar explícitamente todos los APR del espacio de instancias original, GMIL-1 es ineficiente tanto en términos de computación como de memoria. GMIL-2 se desarrolló como un refinamiento de GMIL-1 en un esfuerzo por mejorar la eficiencia. GMIL-2 preprocesa las instancias para encontrar un conjunto de instancias representativas candidatas. Luego, GMIL-2 asigna cada bolsa a un vector booleano, como en GMIL-1, pero solo considera los APR correspondientes a subconjuntos únicos de las instancias representativas candidatas. Esto reduce significativamente los requisitos de memoria y computación. [8]

Algoritmos basados ​​en metadatos (o incrustaciones)

Al asignar cada bolsa a un vector de características de metadatos, los algoritmos basados ​​en metadatos permiten la flexibilidad de usar un algoritmo arbitrario de instancia única para realizar la tarea de clasificación real. Las bolsas futuras simplemente se asignan (incrustan) en el espacio de características de los metadatos y se etiquetan mediante el clasificador elegido. Por lo tanto, gran parte del enfoque de los algoritmos basados ​​en metadatos se centra en qué características o qué tipo de incrustación conducen a una clasificación efectiva. Tenga en cuenta que algunos de los algoritmos mencionados anteriormente, como TLC y GMIL, podrían considerarse basados ​​en metadatos.

Definen dos variaciones de kNN, Bayesian-kNN y citation-kNN, como adaptaciones del tradicional problema del vecino más cercano al entorno de múltiples instancias.

Generalizaciones

Hasta ahora, este artículo ha considerado el aprendizaje de múltiples instancias exclusivamente en el contexto de clasificadores binarios. Sin embargo, las generalizaciones de los clasificadores binarios de una sola instancia pueden trasladarse al caso de múltiples instancias.

Véase también

Referencias

  1. ^ Babenko, Boris. "Aprendizaje de instancias múltiples: algoritmos y aplicaciones". Ver artículo PubMed/NCBI Google Scholar (2008).
  2. ^ Keeler, James D., David E. Rumelhart y Wee-Kheng Leow. Segmentación integrada y reconocimiento de números impresos a mano. Microelectronics and Computer Technology Corporation, 1991.
  3. ^ abcde Dietterich, Thomas G., Richard H. Lathrop y Tomás Lozano-Pérez. "Resolución del problema de instancias múltiples con rectángulos de ejes paralelos". Inteligencia artificial 89.1 (1997): 31-71.
  4. ^ ab C. Blake, E. Keogh y CJ Merz. Repositorio UCI de bases de datos de aprendizaje automático [1], Departamento de Información y Ciencias de la Computación, Universidad de California, Irvine, CA, 1998.
  5. ^ Wang, Wei-Hong; Du, Yan-ye; Li, Qu; Colmillo, Zhao-lin (2011). "Evaluación de créditos basada en programación de expresión genética y selección clonal". Ingeniería de Procedia . 15 : 3759–3763. doi : 10.1016/j.proeng.2011.08.704 .
  6. ^ O. Maron y AL Ratan. Aprendizaje de múltiples instancias para la clasificación de escenas naturales. En Actas de la 15.ª Conferencia Internacional sobre Aprendizaje Automático, Madison, WI, págs. 341-349, 1998.
  7. ^ Minhas, F. u. A. A; Ben-Hur, A (2012). "Aprendizaje de múltiples instancias de sitios de unión de calmodulina". Bioinformática . 28 (18): i416–i422. doi :10.1093/bioinformatics/bts416. PMC 3436843 . PMID  22962461. 
  8. ^ abcdefghijk Foulds, James y Eibe Frank. "Una revisión de los supuestos de aprendizaje de múltiples instancias". The Knowledge Engineering Review 25.01 (2010): 1-25.
  9. ^ abc Maron, Oded y Tomás Lozano-Pérez. "Un marco para el aprendizaje de múltiples instancias". Avances en sistemas de procesamiento de información neuronal (1998): 570-576
  10. ^ abcde Xu, X. Aprendizaje estadístico en problemas de instancias múltiples. Tesis de maestría, Universidad de Waikato (2003).
  11. ^ ab Weidmann, Nils B. "Clasificación de dos niveles para datos generalizados de instancias múltiples". Disentimiento. Universidad Albert-Ludwigs, 2003.
  12. ^ abcd Scott, Stephen, Jun Zhang y Joshua Brown. "Sobre el aprendizaje generalizado de múltiples instancias". Revista internacional de inteligencia computacional y aplicaciones 5.01 (2005): 21-35.
  13. ^ Zhang, Qi y Sally A. Goldman . "EM-DD: una técnica de aprendizaje de múltiples instancias mejorada". Avances en sistemas de procesamiento de información neuronal. (2001): 1073-80
  14. ^ Chen, Yixin y James Z. Wang. "Categorización de imágenes mediante aprendizaje y razonamiento con regiones". The Journal of Machine Learning Research 5 (2004): 913-939
  15. ^ Andrews, Stuart, Ioannis Tsochantaridis y Thomas Hofmann. "Máquinas de vectores de soporte para el aprendizaje de múltiples instancias". Avances en sistemas de procesamiento de información neuronal (2003). pp. 561-658
  16. ^ Zhou, Zhi-Hua y Min-Ling Zhang. "Redes neuronales para el aprendizaje en múltiples instancias". Actas de la Conferencia Internacional sobre Tecnología de la Información Inteligente, Beijing, China. (2002). pp 455 - 459
  17. ^ Blockeel, Hendrik, David Page y Ashwin Srinivasan. "Aprendizaje de árboles de múltiples instancias". Actas de la 22.ª conferencia internacional sobre aprendizaje automático. ACM, 2005. pp. 57-64
  18. ^ Auer, Peter y Ronald Ortner. "Un enfoque de impulso al aprendizaje de instancias múltiples". Aprendizaje automático: ECML 2004. Springer Berlin Heidelberg, 2004. 63-74.
  19. ^ Chen, Yixin; Bi, Jinbo; Wang, JZ (1 de diciembre de 2006). "MILES: aprendizaje de múltiples instancias mediante selección de instancias integradas". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 28 (12): 1931–1947. doi :10.1109/TPAMI.2006.248. ISSN  0162-8828. PMID  17108368. S2CID  18137821.
  20. ^ Cheplygina, Veronika; Tax, David MJ; Loog, Marco (1 de enero de 2015). "Aprendizaje de instancias múltiples con diferencias de bolsa". Reconocimiento de patrones . 48 (1): 264–275. arXiv : 1309.5643 . Código Bibliográfico :2015PatRe..48..264C. doi :10.1016/j.patcog.2014.07.022. S2CID  17606924.
  21. ^ Wang, Jun y Jean-Daniel Zucker. "Resolución de problemas de instancias múltiples: un enfoque de aprendizaje perezoso". ICML (2000): 1119-25
  22. ^ Zhou, Zhi-Hua y Min-Ling Zhang. "Aprendizaje multi-instancia y multi-etiqueta con aplicación a la clasificación de escenas". Avances en sistemas de procesamiento de información neuronal. 2006. pp. 1609-16.
  23. ^ Ray, Soumya y David Page. "Regresión de instancias múltiples". ICML. Vol. 1. 2001. págs. 425-32.

Lectura adicional

Las revisiones recientes de la literatura MIL incluyen: