Clasificación de una clase

En el aprendizaje automático , la clasificación de una clase ( OCC ), también conocida como clasificación unaria o modelado de clases , intenta identificar objetos de una clase específica entre todos los objetos, aprendiendo principalmente de un conjunto de entrenamiento que contiene solo los objetos de esa clase ^{. 1]} aunque existen variantes de clasificadores de una clase donde se utilizan contraejemplos para refinar aún más el límite de clasificación. Esto es diferente y más difícil que el problema de clasificación tradicional , que intenta distinguir entre dos o más clases con el conjunto de entrenamiento que contiene objetos de todas las clases. Los ejemplos incluyen el monitoreo de las cajas de cambios de helicópteros, ^[2]^[3]^[4] la predicción de fallas de motores, ^[5] o el estado operativo de una planta nuclear como "normal": ^[6] En este escenario, hay pocos, si es que hay alguno. , ejemplos de estados catastróficos del sistema; sólo se conocen las estadísticas de funcionamiento normal.

Si bien muchos de los enfoques anteriores se centran en el caso de eliminar una pequeña cantidad de valores atípicos o anomalías, también se puede aprender el otro extremo, donde la clase única cubre un pequeño subconjunto coherente de datos, utilizando un enfoque de cuello de botella de información . ^[7]

Descripción general

El término clasificación de una clase (OCC) fue acuñado por Moya y Hush (1996) ^[8] y se pueden encontrar muchas aplicaciones en la literatura científica, por ejemplo, detección de valores atípicos , detección de anomalías y detección de novedades . Una característica de OCC es que utiliza sólo puntos de muestra de la clase asignada, de modo que no se requiere estrictamente un muestreo representativo para clases no objetivo. ^[9]

Introducción

La clasificación de una clase (OCC) basada en SVM se basa en la identificación de la hiperesfera más pequeña (con radio r y centro c) que consta de todos los puntos de datos. ^[10] Este método se llama Descripción de datos de vectores de soporte (SVDD). Formalmente, el problema se puede definir en la siguiente forma de optimización restringida,

\min _{r,c}r^{2}{\text{ sujeto a, }}||\Phi (x_{i})-c||^{2}\leq r^{2} \;\;\forall i=1,2,...,n

Sin embargo, la formulación anterior es muy restrictiva y sensible a la presencia de valores atípicos. Por lo tanto, una formulación flexible que permita la presencia de valores atípicos se formula como se muestra a continuación:

$\min _{r,c,\zeta }r^{2}+{\frac {1}{\nu n}}\sum _{i=1}^{n}\zeta _{i}$

${\text{sujeto a, }}||\Phi (x_{i})-c||^{2}\leq r^{2}+\zeta _{i}\;\;\forall i=1,2,...,n$

A partir de las condiciones de optimización de Karush-Kuhn-Tucker (KKT), obtenemos

$c=\sum _ {i=1}^{n}\alpha _ {i}\Phi (x_ {i}),$

donde los 's son la solución al siguiente problema de optimización: $\alpha _ {i}$

$\max _{\alpha }\sum _{i=1}^{n}\alpha _{i}\kappa (x_{i},x_{i})-\sum _{i,j= 1}^{n}\alpha _{i}\alpha _{j}\kappa (x_{i},x_{j})$

sujeto a, $\sum _{i=1}^{n}\alpha _{i}=1{\text{ y }}0\leq \alpha _{i}\leq {\frac {1}{\nu n}}{\text{para todos }}i=1,2,...,n.$

La introducción de la función del kernel proporciona flexibilidad adicional al algoritmo SVM de clase única (OSVM). ^[11]

Aprendizaje PU (Positivo Sin Etiquetar)

Un problema similar es el aprendizaje PU , en el que un clasificador binario se aprende de forma semisupervisada únicamente a partir de puntos de muestra positivos y sin etiquetar . ^[12]

En el aprendizaje de PU, se supone que hay dos conjuntos de ejemplos disponibles para el entrenamiento: el conjunto positivo y un conjunto mixto , que se supone que contiene muestras tanto positivas como negativas, pero sin que estas estén etiquetadas como tales. Esto contrasta con otras formas de aprendizaje semisupervisado, donde se supone que está disponible un conjunto etiquetado que contiene ejemplos de ambas clases, además de muestras sin etiquetar. Existe una variedad de técnicas para adaptar clasificadores supervisados al entorno de aprendizaje de PU, incluidas variantes del algoritmo EM . El aprendizaje PU se ha aplicado con éxito al texto , ^[13]^[14]^[15] series temporales, ^[16] tareas bioinformáticas , ^[17]^[18] y datos de teledetección. ^[19] $P$ $U$

Enfoques

Se han propuesto varios enfoques para resolver la clasificación de una clase (OCC). Los enfoques se pueden distinguir en tres categorías principales: estimación de densidad , métodos de límites y métodos de reconstrucción . ^[6]

Métodos de estimación de densidad.

Los métodos de estimación de densidad se basan en estimar la densidad de los puntos de datos y establecer el umbral. Estos métodos se basan en asumir distribuciones, como la distribución gaussiana o de Poisson . A continuación, se pueden utilizar pruebas de discordancia para probar los nuevos objetos. Estos métodos son robustos para escalar la varianza.

El modelo gaussiano ^[20] es uno de los métodos más simples para crear clasificadores de una clase. Debido al teorema del límite central (CLT), ^[21] estos métodos funcionan mejor cuando hay una gran cantidad de muestras presentes y se ven perturbados por pequeños valores de error independientes. La distribución de probabilidad para un objeto d-dimensional viene dada por:

$p_{\mathcal {N}}(x;\mu ;\Sigma )={\frac {1}{(2\pi )^{\frac {d}{2}}|\Sigma |^{\frac {1}{2}}}}\exp\{-{\frac {1}{2}}(z-\mu )^{T}\Sigma ^{-1}(z-\mu )\}$

Donde, es la media y es la matriz de covarianza. Calcular la inversa de la matriz de covarianza ( ) es la operación más costosa y, en los casos en que los datos no están escalados correctamente o los datos tienen direcciones singulares, se utiliza la pseudoinversa para aproximar la inversa y se calcula como . ^[22] $\mu$ $\Sigma$ $\Sigma ^{-1}$ $\Sigma ^{+}$ $\Sigma ^{T}(\Sigma \Sigma ^{T})^{-1}$

Métodos de límites

Los métodos de límites se centran en establecer límites alrededor de un conjunto de puntos, llamados puntos objetivo. Estos métodos intentan optimizar el volumen. Los métodos de límites se basan en distancias y, por lo tanto, no son robustos para la varianza de escala. El método de los centros K, NN-d y SVDD son algunos de los ejemplos clave.

centros K

En el algoritmo de centro K, ^[23] se colocan bolas pequeñas con igual radio para minimizar la distancia máxima de todas las distancias mínimas entre los objetos de entrenamiento y los centros. Formalmente, se minimiza el siguiente error, $k$

$\varepsilon _{k-center}=\max _{i}(\min _{k}||x_{i}-\mu _{k}||^{2})$

El algoritmo utiliza un método de búsqueda directa con inicialización aleatoria, donde el radio está determinado por la distancia máxima del objeto que cualquier bola debe capturar. Una vez determinados los centros, para cualquier objeto de prueba determinado, la distancia se puede calcular como, $z$

$d_{k-centr}(z)=\min _{k}||z-\mu _{k}||^{2}$

Métodos de reconstrucción

Los métodos de reconstrucción utilizan conocimientos previos y procesos de generación para construir un modelo generador que se ajuste mejor a los datos. Los nuevos objetos se pueden describir en términos de un estado del modelo generador. Algunos ejemplos de métodos de reconstrucción para OCC son: agrupamiento de k-medias, cuantificación de vectores de aprendizaje, mapas autoorganizados, etc.

Aplicaciones

Clasificación de documentos

El paradigma básico de la máquina de vectores de soporte (SVM) se entrena utilizando ejemplos positivos y negativos; sin embargo, los estudios han demostrado que hay muchas razones válidas para usar solo ejemplos positivos. Cuando el algoritmo SVM se modifica para utilizar solo ejemplos positivos, el proceso se considera clasificación de una clase. Una situación en la que este tipo de clasificación podría resultar útil para el paradigma SVM es intentar identificar los sitios de interés de un navegador web basándose únicamente en el historial de navegación del usuario.

Estudios biomédicos

La clasificación de una clase puede ser particularmente útil en estudios biomédicos donde a menudo puede resultar difícil o imposible obtener datos de otras clases. Al estudiar datos biomédicos puede resultar difícil y/o costoso obtener el conjunto de datos etiquetados de la segunda clase que sería necesario para realizar una clasificación de dos clases. Un estudio de The Scientific World Journal encontró que el enfoque de tipicidad es el más útil para analizar datos biomédicos porque se puede aplicar a cualquier tipo de conjunto de datos (continuo, discreto o nominal). ^[24] El enfoque de tipicidad se basa en la agrupación de datos examinando los datos y colocándolos en grupos nuevos o existentes. ^[25] Para aplicar la tipicidad a la clasificación de una clase para estudios biomédicos, cada nueva observación, se compara con la clase objetivo, y se identifica como un valor atípico o un miembro de la clase objetivo. ^[24] $y_{0}$ $C$

Detección de deriva de conceptos no supervisada

La clasificación de una clase tiene similitudes con la detección de deriva de conceptos no supervisada, donde ambas tienen como objetivo identificar si los datos invisibles comparten características similares a los datos iniciales. Un concepto se denomina distribución de probabilidad fija de la que se extraen los datos. En la detección de deriva de conceptos no supervisada, el objetivo es detectar si la distribución de datos cambia sin utilizar etiquetas de clase. En la clasificación de una clase, el flujo de datos no es importante. Los datos no vistos se clasifican en típicos o atípicos en función de sus características, ya sean del concepto inicial o no. Sin embargo, la detección de deriva no supervisada monitorea el flujo de datos y señala una desviación si hay una cantidad significativa de cambios o anomalías. La detección de deriva de conceptos no supervisada se puede identificar como la forma continua de clasificación de una clase. ^[26] Los clasificadores de una clase se utilizan para detectar desviaciones de conceptos. ^[27]

Ver también

Referencias

^ Oliveri P (agosto de 2017). "Modelado de clases en química analítica de alimentos: cuestiones de desarrollo, muestreo, optimización y validación: un tutorial". Analytica Chimica Acta . 982 : 9–19. doi :10.1016/j.aca.2017.05.013. hdl : 11567/881059 . PMID 28734370.
^ Japkowicz N, Myers C, Gluck M (1995). "Un enfoque de detección novedoso para la clasificación". págs. 518–523. CiteSeerX 10.1.1.40.3663 .
^ Japkowicz N (1999). Aprendizaje de conceptos en ausencia de contraejemplos: un enfoque de clasificación basado en la autoasociación (Tesis). Universidad Rutgers.
^ Japkowicz N (2001). "Aprendizaje binario supervisado versus no supervisado mediante redes neuronales de avance" (PDF) . Aprendizaje automático . 42 : 97-122. doi : 10.1023/A:1007660820062 . S2CID 7298189.
^ Petsche T, Marcantonio A, Darken C, Hanson S, Kuhn G, Santoso I (1996). "Un autoasociador de redes neuronales para la predicción de fallas de motores de inducción" (PDF) . NIPS.
^ ab Impuesto D (2001). Clasificación de una clase: aprendizaje de conceptos en ausencia de contraejemplos (PDF) (tesis doctoral). Países Bajos: Universidad de Delft.
^ Cramer, Koby (2004). "Una aguja en un pajar". Vigésima primera conferencia internacional sobre aprendizaje automático - ICML '04 . pag. 26. doi : 10.1145/1015330.1015399. ISBN 978-1-58113-838-2. S2CID 8736254.
^ Moyá, M.; Silencio, D. (1996). "Restricciones de red y optimización de objetivos múltiples para clasificación de una clase". Redes neuronales . 9 (3): 463–474. doi :10.1016/0893-6080(95)00120-4.
^ Rodionova OY, Oliveri P, Pomerantsev AL (15 de diciembre de 2016). "Enfoques rigurosos y conformes para la clasificación de una sola clase". Quimiometría y Sistemas Inteligentes de Laboratorio . 159 : 89–96. doi :10.1016/j.chemolab.2016.10.002. hdl : 11567/864539 .
^ Zineb, Noumir; Honine, Paul; Richard, Cedue (2012). "Sobre métodos simples de clasificación de una clase". Simposio internacional del IEEE sobre procedimientos de teoría de la información . IEEE, 2012.
^ Khan, Shehroz S.; Madden, Michael G. (2010). Coyle, Lorcan; Freyne, Jill (eds.). "Una encuesta de tendencias recientes en la clasificación de una clase". Inteligencia artificial y ciencia cognitiva . Apuntes de conferencias sobre informática. 6206 . Springer Berlín Heidelberg: 188–197. doi :10.1007/978-3-642-17080-5_21. hdl : 10379/1472 . ISBN 978-3-642-17080-5. S2CID 36784649.
^ Liu, Bing (2007). Minería de datos web . Saltador. págs. 165-178.
^ Bing Liu; el pequeño Sun Lee; Philip S. Yu y Xiao-Li Li (2002). Clasificación parcialmente supervisada de documentos de texto . ICML. págs. 8-12.
^ Hwanjo Yu; Jiawei Han; Kevin Chen-Chuan Chang (2002). PEBL: aprendizaje basado en ejemplos positivos para la clasificación de páginas web utilizando SVM . ACM SIGKDD.
^ Xiao-Li Li y Bing Liu (2003). Aprender a clasificar texto utilizando datos positivos y sin etiquetar . IJCAI.
^ Minh Nhut Nguyen; Xiao-Li Li y See-Kiong Ng (2011). Aprendizaje positivo sin etiquetar para la clasificación de series temporales . IJCAI.
^ Peng Yang; Xiao-Li Li; Jian-Ping Mei; Chee-Keong Kwoh y See-Kiong Ng (2012). Aprendizaje positivo sin etiquetar para la identificación de genes de enfermedades . Bioinformática, volumen 28 (20).
^ Bugnon, Luisiana; Yones, C.; Milone, DH y Stegmayer, G. (2020). "Descubrimiento de pre-miARN en todo el genoma: comparación de enfoques recientes basados en el aprendizaje automático". Bioinformática de Oxford . 22 (3). doi : 10.1093/bib/bbaa184. PMID 32814347.
^ Li, W.; Guo, Q.; Elkan, C. (febrero de 2011). "Un algoritmo de aprendizaje positivo y sin etiquetar para la clasificación de datos de teledetección en una clase". Transacciones IEEE sobre geociencia y teledetección . 49 (2): 717–725. Código Bib : 2011ITGRS..49..717L. doi :10.1109/TGRS.2010.2058578. ISSN 0196-2892. S2CID 267120.
^ Obispo, Christopher M.; Bishop, profesor de Computación Neural Christopher M. (23 de noviembre de 1995). Redes neuronales para reconocimiento de patrones. Prensa de Clarendon. ISBN 978-0-19-853864-6.
^ Ullman, Neil R (1 de enero de 2017). Estadística elemental.^{[ enlace muerto ]}
^ "Introducción a la Matemática Aplicada". Librería SIAM . Consultado el 29 de abril de 2019 .
^ Ypma, Alejandro; Duin, Robert PW (1998). Niklasson, Lars; Bodén, Mikael; Ziemke, Tom (eds.). "Objetos de soporte para la aproximación de dominios". ICANN 98 . Perspectivas de la computación neuronal. Springer Londres: 719–724. doi :10.1007/978-1-4471-1599-1_110. ISBN 978-1-4471-1599-1.
^ ab Irigoien I, Sierra B, Arenas C (2014). "Hacia la aplicación de métodos de clasificación de una clase a datos médicos". El diario científico mundial . 2014 : 730712. doi : 10.1155/2014/730712 . PMC 3980920 . PMID 24778600.
^ Irigoien I, Arenas C (julio de 2008). "INCA: nueva estadística para estimar el número de conglomerados e identificar unidades atípicas". Estadística en Medicina . 27 (15): 2948–73. doi :10.1002/sim.3143. PMID 18050154. S2CID 24791212.
^ Gözüaçık, Ömer; Can, Fazli (noviembre de 2020). "Aprendizaje de conceptos utilizando clasificadores de una clase para la detección de deriva implícita en flujos de datos en evolución". Revisión de inteligencia artificial . 54 (5): 3725–3747. doi :10.1007/s10462-020-09939-x. hdl : 11693/77042 . S2CID 229506136.
^ Krawczyk, Bartosz; Woźniak, Michał (2015). "Clasificadores de una clase con aprendizaje incremental y olvido de flujos de datos con deriva de conceptos". Computación blanda . 19 (12): 3387–3400. doi : 10.1007/s00500-014-1492-5 . S2CID 207011971.