stringtranslate.com

Clasificación de una clase

En el aprendizaje automático , la clasificación de una clase ( OCC ), también conocida como clasificación unaria o modelado de clases , intenta identificar objetos de una clase específica entre todos los objetos, aprendiendo principalmente de un conjunto de entrenamiento que contiene solo los objetos de esa clase, [1] aunque existen variantes de clasificadores de una clase donde se utilizan contraejemplos para refinar aún más el límite de clasificación. Esto es diferente y más difícil que el problema de clasificación tradicional , que intenta distinguir entre dos o más clases con el conjunto de entrenamiento que contiene objetos de todas las clases. Los ejemplos incluyen el monitoreo de cajas de engranajes de helicópteros, [2] [3] [4] predicción de fallas de motores, [5] o el estado operativo de una planta nuclear como 'normal': [6] En este escenario, hay pocos, si es que hay alguno, ejemplos de estados catastróficos del sistema; solo se conocen las estadísticas de operación normal.

Si bien muchos de los enfoques anteriores se centran en el caso de eliminar una pequeña cantidad de valores atípicos o anomalías, también se puede aprender el otro extremo, donde la clase única cubre un pequeño subconjunto coherente de los datos, utilizando un enfoque de cuello de botella de información . [7]

Descripción general

El término clasificación de una clase (OCC) fue acuñado por Moya y Hush (1996) [8] y se pueden encontrar muchas aplicaciones en la literatura científica, por ejemplo , detección de valores atípicos , detección de anomalías y detección de novedades . Una característica de la OCC es que utiliza solo puntos de muestra de la clase asignada, de modo que no se requiere estrictamente un muestreo representativo para las clases no objetivo. [9]

Introducción

La hiperesfera que contiene los datos del objetivo con centro c y radio r. Los objetos en el límite son vectores de soporte y dos objetos se encuentran fuera del límite y tienen una holgura mayor que 0.

La clasificación de una clase basada en SVM (OCC) se basa en la identificación de la hiperesfera más pequeña (con radio r y centro c) que consta de todos los puntos de datos. [10] Este método se denomina descripción de datos de vectores de soporte (SVDD). Formalmente, el problema se puede definir en la siguiente forma de optimización restringida:

Sin embargo, la formulación anterior es muy restrictiva y sensible a la presencia de valores atípicos. Por lo tanto, se formula una formulación flexible que permite la presencia de valores atípicos, como se muestra a continuación.

De las condiciones de Karush-Kuhn-Tucker para optimalidad, obtenemos

donde las ' son la solución del siguiente problema de optimización:

sujeto a,

La introducción de la función kernel proporciona flexibilidad adicional al algoritmo SVM de una clase (OSVM). [11]

Aprendizaje PU (positivo sin etiqueta)

Un problema similar es el aprendizaje PU , en el que se construye un clasificador binario mediante aprendizaje semisupervisado únicamente a partir de puntos de muestra positivos y no etiquetados . [12]

En el aprendizaje PU, se supone que hay dos conjuntos de ejemplos disponibles para el entrenamiento: el conjunto positivo y un conjunto mixto , que se supone que contiene muestras tanto positivas como negativas, pero sin que estén etiquetadas como tales. Esto contrasta con otras formas de aprendizaje semisupervisado, donde se supone que hay disponible un conjunto etiquetado que contiene ejemplos de ambas clases además de muestras no etiquetadas. Existe una variedad de técnicas para adaptar los clasificadores supervisados ​​al entorno de aprendizaje PU, incluidas variantes del algoritmo EM . El aprendizaje PU se ha aplicado con éxito a texto , [13] [14] [15] series de tiempo, [16] tareas de bioinformática , [17] [18] y datos de teledetección . [19]

Aproches

Se han propuesto varios enfoques para resolver la clasificación de una clase (OCC). Los enfoques se pueden distinguir en tres categorías principales: estimación de densidad , métodos de contorno y métodos de reconstrucción . [6]

Métodos de estimación de densidad

Los métodos de estimación de densidad se basan en la estimación de la densidad de los puntos de datos y en la fijación del umbral. Estos métodos se basan en la suposición de distribuciones, como la distribución gaussiana o la distribución de Poisson . A partir de ahí, se pueden utilizar pruebas de discordancia para probar los nuevos objetos. Estos métodos son robustos a la varianza de escala.

El modelo gaussiano [20] es uno de los métodos más simples para crear clasificadores de una clase. Debido al Teorema del Límite Central (CLT), [21] estos métodos funcionan mejor cuando hay una gran cantidad de muestras y se ven perturbadas por pequeños valores de error independientes. La distribución de probabilidad para un objeto de dimensión d está dada por:

Donde, es la media y es la matriz de covarianza. Calcular la inversa de la matriz de covarianza ( ) es la operación más costosa y, en los casos en que los datos no están escalados correctamente o tienen direcciones singulares, se utiliza la pseudoinversa para aproximar la inversa y se calcula como . [22]

Métodos de límites

Los métodos de límites se centran en establecer límites en torno a unos pocos puntos, denominados puntos objetivo. Estos métodos intentan optimizar el volumen. Los métodos de límites se basan en distancias y, por lo tanto, no son robustos a la variación de escala. El método de los centros K, NN-d y SVDD son algunos de los ejemplos clave.

Centros K

En el algoritmo K-center, [23] se colocan pequeñas bolas con el mismo radio para minimizar la distancia máxima de todas las distancias mínimas entre los objetos de entrenamiento y los centros. Formalmente, se minimiza el siguiente error:

El algoritmo utiliza un método de búsqueda hacia adelante con inicialización aleatoria, donde el radio se determina por la distancia máxima que debe alcanzar el objeto cualquier bola dada. Una vez que se determinan los centros, para cualquier objeto de prueba dado, la distancia se puede calcular como:

Métodos de reconstrucción

Los métodos de reconstrucción utilizan el conocimiento previo y el proceso de generación para construir un modelo generador que se ajuste mejor a los datos. Los nuevos objetos se pueden describir en términos de un estado del modelo generador. Algunos ejemplos de métodos de reconstrucción para OCC son la agrupación en clústeres de k-medias, la cuantificación de vectores de aprendizaje, los mapas autoorganizados, etc.

Aplicaciones

Clasificación de documentos

El paradigma básico de la máquina de vectores de soporte (SVM) se entrena utilizando ejemplos positivos y negativos; sin embargo, los estudios han demostrado que existen muchas razones válidas para utilizar solo ejemplos positivos. Cuando se modifica el algoritmo SVM para utilizar solo ejemplos positivos, el proceso se considera una clasificación de una clase. Una situación en la que este tipo de clasificación podría resultar útil para el paradigma SVM es cuando se intenta identificar los sitios de interés de un navegador web basándose únicamente en el historial de navegación del usuario.

Estudios biomédicos

La clasificación de una clase puede ser particularmente útil en estudios biomédicos donde a menudo los datos de otras clases pueden ser difíciles o imposibles de obtener. Al estudiar datos biomédicos puede ser difícil y/o costoso obtener el conjunto de datos etiquetados de la segunda clase que sería necesario para realizar una clasificación de dos clases. Un estudio de The Scientific World Journal encontró que el enfoque de tipicidad es el más útil para analizar datos biomédicos porque se puede aplicar a cualquier tipo de conjunto de datos (continuo, discreto o nominal). [24] El enfoque de tipicidad se basa en la agrupación de datos mediante el examen de los datos y su colocación en grupos nuevos o existentes. [25] Para aplicar la tipicidad a la clasificación de una clase para estudios biomédicos, cada nueva observación, , se compara con la clase objetivo, , y se identifica como un valor atípico o un miembro de la clase objetivo. [24]

Detección de desviaciones conceptuales sin supervisión

La clasificación de una clase tiene similitudes con la detección de deriva de conceptos no supervisada, donde ambas tienen como objetivo identificar si los datos no vistos comparten características similares a los datos iniciales. Un concepto se conoce como la distribución de probabilidad fija de la que se extraen los datos. En la detección de deriva de conceptos no supervisada, el objetivo es detectar si la distribución de datos cambia sin utilizar etiquetas de clase. En la clasificación de una clase, el flujo de datos no es importante. Los datos no vistos se clasifican como típicos o atípicos según sus características, ya sea que provengan del concepto inicial o no. Sin embargo, la detección de deriva no supervisada monitorea el flujo de datos y señala una deriva si hay una cantidad significativa de cambios o anomalías. La detección de deriva de conceptos no supervisada puede identificarse como la forma continua de la clasificación de una clase. [26] Los clasificadores de una clase se utilizan para detectar derivas de conceptos. [27]

Véase también

Referencias

  1. ^ Oliveri P (agosto de 2017). "Modelado de clases en química analítica de alimentos: cuestiones de desarrollo, muestreo, optimización y validación - Un tutorial". Analytica Chimica Acta . 982 : 9–19. doi :10.1016/j.aca.2017.05.013. hdl : 11567/881059 . PMID  28734370.
  2. ^ Japkowicz N, Myers C, Gluck M (1995). "Un enfoque de detección de novedad para la clasificación". págs. 518–523. CiteSeerX 10.1.1.40.3663 . 
  3. ^ Japkowicz N (1999). Aprendizaje de conceptos en ausencia de contraejemplos: un enfoque basado en la autoasociación para la clasificación (tesis). Universidad Rutgers.
  4. ^ Japkowicz N (2001). "Aprendizaje binario supervisado versus no supervisado mediante redes neuronales de avance" (PDF) . Aprendizaje automático . 42 : 97–122. doi : 10.1023/A:1007660820062 . S2CID  7298189.
  5. ^ Petsche T, Marcantonio A, Darken C, Hanson S, Kuhn G, Santoso I (1996). "Un autoasociador de red neuronal para la predicción de fallas en motores de inducción" (PDF) . NIPS.
  6. ^ ab Tax D (2001). Clasificación de una clase: aprendizaje de conceptos en ausencia de contraejemplos (PDF) (tesis doctoral). Países Bajos: Universidad de Delft.
  7. ^ Crammer, Koby (2004). "Una aguja en un pajar". Vigésimo primer congreso internacional sobre aprendizaje automático - ICML '04 . p. 26. doi :10.1145/1015330.1015399. ISBN 978-1-58113-838-2.S2CID8736254  .​
  8. ^ Moya, M.; Hush, D. (1996). "Restricciones de red y optimización multiobjetivo para la clasificación de una clase". Redes neuronales . 9 (3): 463–474. doi :10.1016/0893-6080(95)00120-4.
  9. ^ Rodionova OY, Oliveri P, Pomerantsev AL (15 de diciembre de 2016). "Enfoques rigurosos y compatibles para la clasificación de una clase". Quimiometría y sistemas de laboratorio inteligentes . 159 : 89–96. doi :10.1016/j.chemolab.2016.10.002. hdl : 11567/864539 .
  10. ^ Zineb, Noumir; Honeine, Paul; Richard, Cedue (2012). "Sobre métodos de clasificación de una clase simple". Actas del Simposio Internacional IEEE sobre Teoría de la Información . IEEE, 2012.
  11. ^ Khan, Shehroz S.; Madden, Michael G. (2010). Coyle, Lorcan; Freyne, Jill (eds.). "Un estudio de las tendencias recientes en la clasificación de una clase". Inteligencia artificial y ciencia cognitiva . Apuntes de clase en informática. 6206. Springer Berlin Heidelberg: 188–197. doi :10.1007/978-3-642-17080-5_21. hdl : 10379/1472 . ISBN . 978-3-642-17080-5. Número de identificación del sujeto:  36784649.
  12. ^ Liu, Bing (2007). Minería de datos web . Springer. págs. 165–178.
  13. ^ Bing Liu; Wee Sun Lee; Philip S. Yu y Xiao-Li Li (2002). Clasificación parcialmente supervisada de documentos de texto . ICML. págs. 8–12.
  14. ^ Hwanjo Yu; Jiawei Han; Kevin Chen-Chuan Chang (2002). PEBL: aprendizaje basado en ejemplos positivos para la clasificación de páginas web utilizando SVM . ACM SIGKDD.
  15. ^ Xiao-Li Li y Bing Liu (2003). Aprendiendo a clasificar textos usando datos positivos y no etiquetados . IJCAI.
  16. ^ Minh Nhut Nguyen; Xiao-Li Li y See-Kiong Ng (2011). Aprendizaje positivo sin etiquetas para la clasificación de series temporales . IJCAI.
  17. ^ Peng Yang; Xiao-Li Li; Jian-Ping Mei; Chee-Keong Kwoh y See-Kiong Ng (2012). Aprendizaje positivo sin etiquetar para la identificación de genes de enfermedades . Bioinformática, volumen 28 (20).
  18. ^ Bugnon, LA; Yones, C.; Milone, DH y Stegmayer, G. (2020). "Descubrimiento de pre-miRNA en todo el genoma: comparación de enfoques recientes basados ​​en aprendizaje automático". Oxford Bioinformatics . 22 (3). doi :10.1093/bib/bbaa184. PMID  32814347.
  19. ^ Li, W.; Guo, Q.; Elkan, C. (febrero de 2011). "Un algoritmo de aprendizaje positivo y sin etiquetas para la clasificación de una clase de datos de teledetección". IEEE Transactions on Geoscience and Remote Sensing . 49 (2): 717–725. Bibcode :2011ITGRS..49..717L. doi :10.1109/TGRS.2010.2058578. ISSN  0196-2892. S2CID  267120.
  20. ^ Bishop, Christopher M.; Bishop, profesor de computación neuronal Christopher M. (23 de noviembre de 1995). Redes neuronales para el reconocimiento de patrones. Clarendon Press. ISBN 978-0-19-853864-6.
  21. ^ Ullman, Neil R (1 de enero de 2017). Estadística elemental.[ enlace muerto ]
  22. ^ "Introducción a las Matemáticas Aplicadas". Librería SIAM . Consultado el 29 de abril de 2019 .
  23. ^ Ypma, Alejandro; Duin, Robert PW (1998). Niklasson, Lars; Bodén, Mikael; Ziemke, Tom (eds.). "Objetos de soporte para la aproximación de dominios". ICANN 98 . Perspectivas de la computación neuronal. Springer Londres: 719–724. doi :10.1007/978-1-4471-1599-1_110. ISBN 978-1-4471-1599-1.
  24. ^ ab Irigoien I, Sierra B, Arenas C (2014). "Hacia la aplicación de métodos de clasificación de una clase a los datos médicos". TheScientificWorldJournal . 2014 : 730712. doi : 10.1155/2014/730712 . PMC 3980920 . PMID  24778600. 
  25. ^ Irigoien I, Arenas C (julio 2008). "INCA: nueva estadística para estimar el número de clusters e identificar unidades atípicas". Estadística en Medicina . 27 (15): 2948–73. doi :10.1002/sim.3143. PMID  18050154. S2CID  24791212.
  26. ^ Gözüaçık, Ömer; Can, Fazli (noviembre de 2020). "Aprendizaje de conceptos utilizando clasificadores de una clase para la detección de deriva implícita en flujos de datos en evolución". Revisión de Inteligencia Artificial . 54 (5): 3725–3747. doi :10.1007/s10462-020-09939-x. hdl : 11693/77042 . S2CID  229506136.
  27. ^ Krawczyk, Bartosz; Woźniak, Michał (2015). "Clasificadores de una clase con aprendizaje incremental y olvido para flujos de datos con deriva de conceptos". Soft Computing . 19 (12): 3387–3400. doi : 10.1007/s00500-014-1492-5 . S2CID  207011971.