Detección de anomalías

En el análisis de datos , la detección de anomalías (también denominada detección de valores atípicos y, a veces, detección de novedades ) se entiende generalmente como la identificación de elementos, eventos u observaciones raros que se desvían significativamente de la mayoría de los datos y no se ajustan a una noción bien definida de comportamiento normal. ^[1] Estos ejemplos pueden despertar sospechas de haber sido generados por un mecanismo diferente, ^[2] o parecer inconsistentes con el resto de ese conjunto de datos. ^[3]

La detección de anomalías se aplica en muchos ámbitos, como la ciberseguridad , la medicina , la visión artificial , las estadísticas , la neurociencia , la aplicación de la ley y el fraude financiero , por nombrar solo algunos. Inicialmente, se buscaban anomalías para detectar un claro rechazo u omisión de los datos con el fin de facilitar el análisis estadístico, por ejemplo, para calcular la media o la desviación estándar. También se eliminaron para obtener mejores predicciones a partir de modelos como la regresión lineal y, más recientemente, su eliminación ayuda al rendimiento de los algoritmos de aprendizaje automático. Sin embargo, en muchas aplicaciones, las anomalías en sí mismas son de interés y son las observaciones más deseables en todo el conjunto de datos, que deben identificarse y separarse del ruido o los valores atípicos irrelevantes.

Existen tres categorías amplias de técnicas de detección de anomalías. ^{[1] Las técnicas} de detección de anomalías supervisadas requieren un conjunto de datos que se haya etiquetado como "normal" y "anormal" e implican el entrenamiento de un clasificador. Sin embargo, este enfoque rara vez se utiliza en la detección de anomalías debido a la falta general de disponibilidad de datos etiquetados y la naturaleza desequilibrada inherente de las clases. Las técnicas de detección de anomalías semisupervisadas suponen que una parte de los datos está etiquetada. Esto puede ser cualquier combinación de datos normales o anómalos, pero la mayoría de las veces, las técnicas construyen un modelo que representa el comportamiento normal a partir de un conjunto de datos de entrenamiento normal dado y luego prueban la probabilidad de que el modelo genere una instancia de prueba. Las técnicas de detección de anomalías no supervisadas suponen que los datos no están etiquetados y son, con mucho, las más utilizadas debido a su aplicación más amplia y relevante.

Definición

En las comunidades de estadística e informática se han hecho muchos intentos de definir una anomalía. Las más frecuentes son las siguientes y se pueden clasificar en tres grupos: las que son ambiguas, las que son específicas de un método con umbrales predefinidos que suelen elegirse empíricamente y las que están definidas formalmente:

Mal definido

Un valor atípico es una observación que se desvía tanto de las demás observaciones que despierta sospechas de que fue generada por un mecanismo diferente. ^[2]
Las anomalías son instancias o colecciones de datos que ocurren muy raramente en el conjunto de datos y cuyas características difieren significativamente de la mayoría de los datos.
Un valor atípico es una observación (o subconjunto de observaciones) que parece ser inconsistente con el resto de ese conjunto de datos. ^[3]
Una anomalía es un punto o conjunto de puntos que está relativamente distante de otros puntos en un espacio multidimensional de características.
Las anomalías son patrones en los datos que no se ajustan a una noción bien definida de comportamiento normal. ^[1]

Específico

Sea T observaciones de una distribución gaussiana univariante y O un punto de T. Entonces, el puntaje z para O es mayor que un umbral preseleccionado si y solo si O es un valor atípico.

Historia

Detección de intrusiones

El concepto de detección de intrusiones, un componente fundamental de la detección de anomalías, ha evolucionado significativamente con el tiempo. Inicialmente, era un proceso manual en el que los administradores de sistemas supervisaban actividades inusuales, como el acceso a la cuenta de un usuario que estaba de vacaciones o una actividad inesperada de la impresora. Este enfoque no era escalable y pronto fue reemplazado por el análisis de registros de auditoría y registros del sistema en busca de señales de comportamiento malicioso. ^[4]

A finales de los años 1970 y principios de los años 1980, el análisis de estos registros se utilizaba principalmente de forma retrospectiva para investigar incidentes, ya que el volumen de datos hacía que su seguimiento en tiempo real resultara poco práctico. La asequibilidad del almacenamiento digital condujo finalmente a que los registros de auditoría se analizaran en línea y se desarrollaran programas especializados para examinar los datos. Sin embargo, estos programas se ejecutaban normalmente durante las horas de menor actividad debido a su intensidad computacional. ^[4]

En la década de 1990 aparecieron los sistemas de detección de intrusiones en tiempo real capaces de analizar los datos de auditoría a medida que se generaban, lo que permitió detectar y responder de inmediato a los ataques. Esto marcó un cambio significativo hacia la detección proactiva de intrusiones. ^[4]

A medida que el campo ha seguido desarrollándose, el enfoque se ha desplazado hacia la creación de soluciones que puedan implementarse de manera eficiente en entornos de red grandes y complejos, adaptándose a la creciente variedad de amenazas de seguridad y a la naturaleza dinámica de las infraestructuras informáticas modernas. ^[4]

Aplicaciones

La detección de anomalías se puede aplicar en una gran cantidad y variedad de dominios y es un subárea importante del aprendizaje automático no supervisado. Como tal, tiene aplicaciones en ciberseguridad, detección de intrusiones , detección de fraudes , detección de fallas, monitoreo del estado del sistema, detección de eventos en redes de sensores, detección de perturbaciones del ecosistema, detección de defectos en imágenes mediante visión artificial , diagnóstico médico y aplicación de la ley. ^[5]

Detección de intrusiones

La detección de anomalías fue propuesta para los sistemas de detección de intrusiones (IDS) por Dorothy Denning en 1986. ^[6] La detección de anomalías para IDS normalmente se logra con umbrales y estadísticas, pero también se puede hacer con computación blanda y aprendizaje inductivo. ^[7] Los tipos de características propuestas en 1999 incluían perfiles de usuarios, estaciones de trabajo, redes, hosts remotos, grupos de usuarios y programas basados en frecuencias, medias, varianzas, covarianzas y desviaciones estándar. ^[8] La contraparte de la detección de anomalías en la detección de intrusiones es la detección de mal uso .

Detección de fraudes en tecnología financiera

La detección de anomalías es vital en el ámbito de la tecnología financiera para la prevención del fraude . ^[9]^[10]

Preprocesamiento

El preprocesamiento de datos para eliminar anomalías puede ser un paso importante en el análisis de datos y se realiza por varias razones. Las estadísticas como la media y la desviación estándar son más precisas después de la eliminación de anomalías, y también se puede mejorar la visualización de datos. En el aprendizaje supervisado , la eliminación de los datos anómalos del conjunto de datos a menudo da como resultado un aumento estadísticamente significativo en la precisión. ^[11]^[12]

Videovigilancia

La detección de anomalías se ha vuelto cada vez más vital en la videovigilancia para mejorar la seguridad y la protección. ^[13]^[14] Con el advenimiento de las tecnologías de aprendizaje profundo, los métodos que utilizan redes neuronales convolucionales (CNN) y unidades recurrentes simples (SRU) han demostrado ser muy prometedores en la identificación de actividades o comportamientos inusuales en datos de video. ^[13] Estos modelos pueden procesar y analizar transmisiones de video extensas en tiempo real, reconociendo patrones que se desvían de la norma, lo que puede indicar posibles amenazas a la seguridad o violaciones de seguridad. ^[13]

Infraestructura de TI

En la gestión de la infraestructura de TI , la detección de anomalías es crucial para garantizar el buen funcionamiento y la fiabilidad de los servicios. ^[15] Se emplean técnicas como la Biblioteca de Infraestructura de TI (ITIL) y los marcos de supervisión para realizar un seguimiento y gestionar el rendimiento del sistema y la experiencia del usuario. ^[15] La detección de anomalías puede ayudar a identificar y prevenir posibles degradaciones del rendimiento o fallos del sistema, manteniendo así la productividad y la eficacia de los procesos de negocio. ^[15]

Sistemas de IoT

La detección de anomalías es fundamental para la seguridad y la eficiencia de los sistemas de Internet de las cosas (IoT). ^[16] Ayuda a identificar fallas del sistema y brechas de seguridad en redes complejas de dispositivos de IoT. ^[16] Los métodos deben gestionar datos en tiempo real, diversos tipos de dispositivos y escalar de manera efectiva. Garbe et al. ^[17] han presentado un marco de detección de anomalías de múltiples etapas que mejora los métodos tradicionales al incorporar agrupamiento espacial, agrupamiento basado en densidad y hash sensible a la localidad. Este enfoque personalizado está diseñado para manejar mejor la naturaleza vasta y variada de los datos de IoT, mejorando así la seguridad y la confiabilidad operativa en infraestructuras inteligentes y sistemas de IoT industriales. ^[17]

Industria petrolera

La detección de anomalías es crucial en la industria petrolera para monitorear maquinaria crítica. ^[18] Martí et al. utilizaron un nuevo algoritmo de segmentación para analizar datos de sensores para la detección de anomalías en tiempo real. ^[18] Este enfoque ayuda a identificar y abordar rápidamente cualquier irregularidad en las lecturas de los sensores, lo que garantiza la confiabilidad y la seguridad de las operaciones petroleras. ^[18]

Monitoreo de oleoductos y gasoductos

En el sector del petróleo y el gas, la detección de anomalías no solo es crucial para el mantenimiento y la seguridad, sino también para la protección del medio ambiente. ^[19] Aljameel et al. proponen un modelo avanzado basado en aprendizaje automático para detectar fugas menores en oleoductos y gasoductos, una tarea que los métodos tradicionales pueden pasar por alto. ^[19]

Métodos

En la literatura se han propuesto muchas técnicas de detección de anomalías. ^[1]^[20] El rendimiento de los métodos suele depender de los conjuntos de datos. Por ejemplo, algunos pueden ser adecuados para detectar valores atípicos locales, mientras que otros son globales, y los métodos tienen pocas ventajas sistemáticas sobre otros cuando se comparan con muchos conjuntos de datos. ^[21]^[22] Casi todos los algoritmos también requieren la configuración de parámetros no intuitivos críticos para el rendimiento y, por lo general, desconocidos antes de la aplicación. A continuación se mencionan algunas de las técnicas más populares y se dividen en categorías:

Estadístico

Sin parámetros

Basado en parámetros

Densidad

Técnicas basadas en densidad ( k-vecino más cercano , ^[23]^[24]^[25] factor de valor atípico local , ^[26] bosques de aislamiento , ^[27]^[28] y muchas más variaciones de este concepto ^[29] )
Detección de valores atípicos basada en subespacios (SOD), ^[30] correlación (COP) ^[31] y tensor ^[32] para datos de alta dimensión ^[33]
Máquinas de vectores de soporte de una clase ^[34] (OCSVM, SVDD)

Redes neuronales

Redes neuronales replicadoras , ^[35] autocodificadores , autocodificadores variacionales, ^[36] redes neuronales de memoria a corto y largo plazo ^[37]
Redes bayesianas ^[35]
Modelos ocultos de Markov (HMM) ^[35]
Determinante de covarianza mínima ^[38]^[39]
Aprendizaje profundo ^[13]
- Redes neuronales convolucionales (CNN): las CNN han demostrado un rendimiento excepcional en el dominio del aprendizaje no supervisado para la detección de anomalías, especialmente en el análisis de datos de imágenes y videos.^[13] Su capacidad para aprender de manera automática y jerárquica jerarquías espaciales de características desde patrones de bajo a alto nivel las hace particularmente adecuadas para detectar anomalías visuales. Por ejemplo, las CNN se pueden entrenar en conjuntos de datos de imágenes para identificar patrones atípicos indicativos de defectos o condiciones fuera de lo normal en escenarios de control de calidad industrial.^[40]
- Unidades recurrentes simples (SRUs): en datos de series temporales, las SRU, un tipo de red neuronal recurrente, se han utilizado de manera eficaz para la detección de anomalías mediante la captura de dependencias temporales y anomalías de secuencia. ^[13] A diferencia de las RNN tradicionales, las SRU están diseñadas para ser más rápidas y más paralelizables, lo que ofrece un mejor ajuste para la detección de anomalías en tiempo real en sistemas complejos como mercados financieros dinámicos o mantenimiento predictivo en maquinaria, donde la identificación rápida de irregularidades temporales es crucial. ^[41]

Basado en clúster

Agrupamiento: detección de valores atípicos basada en análisis de conglomerados ^[42]^[43]
Desviaciones de las reglas de asociación y conjuntos de elementos frecuentes
Detección de valores atípicos basada en lógica difusa

Conjuntos

Técnicas de conjunto , utilizando feature bagging , ^[44]^[45] normalización de puntuaciones ^[46]^[47] y diferentes fuentes de diversidad ^[48]^[49]

Otros

La puntuación de valores atípicos basada en histogramas (HBOS) utiliza histogramas de valores y supone la independencia de las características para realizar predicciones rápidas. ^[50]

Detección de anomalías en redes dinámicas

Las redes dinámicas, como las que representan los sistemas financieros, las interacciones en las redes sociales y la infraestructura de transporte, están sujetas a cambios constantes, lo que hace que la detección de anomalías en ellas sea una tarea compleja. A diferencia de los gráficos estáticos, las redes dinámicas reflejan relaciones y estados en evolución, lo que requiere técnicas adaptativas para la detección de anomalías.

Tipos de anomalías en redes dinámicas

Anomalías comunitarias
Anomalías de compresión
Anomalías de descomposición
Anomalías de distancia
Anomalías del modelo probabilístico

Detección de anomalías explicables

Muchos de los métodos que se han analizado anteriormente solo arrojan una predicción de la puntuación de anomalía, que a menudo se puede explicar a los usuarios como que el punto se encuentra en una región de baja densidad de datos (o una densidad relativamente baja en comparación con las densidades del vecino). En la inteligencia artificial explicable , los usuarios exigen métodos con mayor capacidad de explicación. Algunos métodos permiten explicaciones más detalladas:

El grado de valor atípico del subespacio (SOD) ^[30] identifica los atributos en los que una muestra es normal y los atributos en los que la muestra se desvía de lo esperado.
Las probabilidades de valores atípicos de correlación (COP) ^[31] calculan un vector de error de cómo un punto de muestra se desvía de una ubicación esperada, lo que puede interpretarse como una explicación contrafactual: la muestra sería normal si se moviera a esa ubicación.

Software

ELKI es un kit de herramientas de minería de datos Java de código abierto que contiene varios algoritmos de detección de anomalías, así como aceleración de índice para ellos.
PyOD es una biblioteca Python de código abierto desarrollada específicamente para la detección de anomalías. ^[51]
scikit-learn es una biblioteca Python de código abierto que contiene algunos algoritmos para la detección de anomalías no supervisadas.
Wolfram Mathematica proporciona funcionalidad para la detección de anomalías no supervisadas en múltiples tipos de datos ^[52]

Conjuntos de datos

Repositorio de datos de referencia de detección de anomalías con conjuntos de datos cuidadosamente seleccionados de la Ludwig-Maximilians-Universität München ; Mirror Archivado el 31 de marzo de 2022 en Wayback Machine en la Universidad de São Paulo .
ODDS – ODDS: una gran colección de conjuntos de datos de detección de valores atípicos disponibles públicamente con verdad fundamental en diferentes dominios.
Punto de referencia de detección de anomalías no supervisada en Harvard Dataverse: conjuntos de datos para la detección de anomalías no supervisada con verdad fundamental.
Repositorio de datos KMASH en Research Data Australia que cuenta con más de 12 000 conjuntos de datos de detección de anomalías con veracidad fundamental.

Véase también

Referencias

^ abcd Chandola, V.; Banerjee, A.; Kumar, V. (2009). "Detección de anomalías: una encuesta". Encuestas de computación ACM . 41 (3): 1–58. doi :10.1145/1541880.1541882. S2CID 207172599.
^ ab Hawkins, Douglas M. (1980). Identificación de valores atípicos . Springer. ISBN 978-0-412-21900-9.OCLC 6912274 .
^ ab Barnett, Vic; Lewis, Lewis (1978). Valores atípicos en datos estadísticos . Wiley. ISBN 978-0-471-99599-9.OCLC 1150938591 .
^ abcd Kemmerer, RA; Vigna, G. (abril de 2002). "Detección de intrusiones: una breve historia y descripción general". Computer . 35 (4): supl27–supl30. doi :10.1109/mc.2002.1012428. ISSN 0018-9162.
^ Aggarwal, Charu (2017). Análisis de valores atípicos . Springer Publishing Company, Incorporated. ISBN 978-3319475776.
^ Denning, DE (1987). "Un modelo de detección de intrusiones" (PDF) . IEEE Transactions on Software Engineering . SE-13 (2): 222–232. CiteSeerX 10.1.1.102.5127 . doi :10.1109/TSE.1987.232894. S2CID 10028835. Archivado (PDF) desde el original el 22 de junio de 2015.
^ Teng, HS; Chen, K.; Lu, SC (1990). "Detección adaptativa de anomalías en tiempo real utilizando patrones secuenciales generados inductivamente". Actas. Simposio de la IEEE Computer Society de 1990 sobre investigación en seguridad y privacidad (PDF) . págs. 278–284. doi :10.1109/RISP.1990.63857. ISBN . 978-0-8186-2060-7. Número de identificación del sujeto 35632142.
^ Jones, Anita K.; Sielken, Robert S. (2000). "Detección de intrusiones en sistemas informáticos: una encuesta". Informe técnico sobre informática . Departamento de Ciencias de la Computación, Universidad de Virginia: 1–25}.
^ Stojanović, Branka; Božić, Josip; Hofer-Schmitz, Katharina; Nahrgang, Kai; Weber, Andreas; Badii, Atta; Sundaram, Maheshkumar; Jordan, Elliot; Runevic, Joel (enero de 2021). "Seguir el rastro: aprendizaje automático para la detección de fraudes en aplicaciones de tecnología financiera". Sensores . 21 (5): 1594. Bibcode :2021Senso..21.1594S. doi : 10.3390/s21051594 . ISSN 1424-8220. PMC 7956727 . PMID 33668773.
^ Ahmed, Mohiuddin; Mahmood, Abdun Naser; Islam, Md. Rafiqul (febrero de 2016). "Un estudio de las técnicas de detección de anomalías en el ámbito financiero". Future Generation Computer Systems . 55 : 278–288. doi :10.1016/j.future.2015.01.001. ISSN 0167-739X. S2CID 204982937.
^ Tomek, Ivan (1976). "Un experimento con la regla del vecino más próximo editada". IEEE Transactions on Systems, Man, and Cybernetics . 6 (6): 448–452. doi :10.1109/TSMC.1976.4309523.
^ Smith, MR; Martinez, T. (2011). "Mejora de la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse incorrectamente" (PDF) . La Conferencia Conjunta Internacional sobre Redes Neuronales de 2011. pág. 2690. CiteSeerX 10.1.1.221.1371 . doi :10.1109/IJCNN.2011.6033571. ISBN. 978-1-4244-9635-8. Número de identificación del sujeto 5809822.
^ abcdef Qasim, Maryam; Verdu, Elena (1 de junio de 2023). "Sistema de detección de anomalías de vídeo utilizando modelos convolucionales y recurrentes profundos". Resultados en Ingeniería . 18 : 101026. doi : 10.1016/j.rineng.2023.101026 . ISSN 2590-1230. S2CID 257728239.
^ Zhang, Tan; Chowdhery, Aakanksha; Bahl, Paramvir (Victor); Jamieson, Kyle; Banerjee, Suman (7 de septiembre de 2015). "El diseño y la implementación de un sistema de videovigilancia inalámbrico". Actas de la 21.ª Conferencia internacional anual sobre informática móvil y redes. MobiCom '15. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 426–438. doi :10.1145/2789168.2790123. ISBN 978-1-4503-3619-2.S2CID12310150 .
^ abc Gow, Richard; Rabhi, Fethi A.; Venugopal, Srikumar (2018). "Detección de anomalías en sistemas complejos de aplicaciones del mundo real". IEEE Transactions on Network and Service Management . 15 : 83–96. doi :10.1109/TNSM.2017.2771403. hdl : 1959.4/unsworks_73660 . S2CID 3883483 . Consultado el 8 de noviembre de 2023 .
^ ab Chatterjee, Ayan; Ahmed, Bestoun S. (agosto de 2022). "Métodos y aplicaciones de detección de anomalías de IoT: una encuesta". Internet de las cosas . 19 : 100568. arXiv : 2207.09092 . doi : 10.1016/j.iot.2022.100568 . ISSN 2542-6605. S2CID 250644468.
^ ab Garg, Sahil; Kaur, Kuljeet; Batra, Shalini; Kaddoum, Georges; Kumar, Neeraj; Boukerche, Azzedine (1 de marzo de 2020). "Un esquema de detección de anomalías en múltiples etapas para aumentar la seguridad en aplicaciones habilitadas para IoT". Future Generation Computer Systems . 104 : 105–118. doi :10.1016/j.future.2019.09.038. ISSN 0167-739X. S2CID 204077191.
^ abc Martí, Luis; Sanchez-Pi, Nayat; Molina, José Manuel; Garcia, Ana Cristina Bicharra (febrero de 2015). "Detección de anomalías basada en datos de sensores en aplicaciones de la industria petrolera". Sensores . 15 (2): 2774–2797. Bibcode :2015Senso..15.2774M. doi : 10.3390/s150202774 . ISSN 1424-8220. PMC 4367333 . PMID 25633599.
^ ab Aljameel, Sumayh S.; Alomari, Dorieh M.; Alismail, Shatha; Khawaher, Fatimah; Alkhudhair, Aljawharah A.; Aljubran, Fatimah; Alzannan, Razan M. (agosto de 2022). "Un modelo de detección de anomalías para oleoductos y gasoductos mediante aprendizaje automático". Computation . 10 (8): 138. doi : 10.3390/computation10080138 . ISSN 2079-3197.
^ Zimek, Arthur ; Filzmoser, Peter (2018). "Ida y vuelta: detección de valores atípicos entre el razonamiento estadístico y los algoritmos de minería de datos" (PDF) . Wiley Interdisciplinary Reviews: Minería de datos y descubrimiento de conocimiento . 8 (6): e1280. doi :10.1002/widm.1280. ISSN 1942-4787. S2CID 53305944. Archivado desde el original (PDF) el 2021-11-14 . Consultado el 2019-12-09 .
^ Campos, Guilherme O.; Zimek, Arthur ; Sander, Jörg; Campello, Ricardo JGB; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E. (2016). "Sobre la evaluación de la detección de valores atípicos no supervisados: medidas, conjuntos de datos y un estudio empírico". Minería de datos y descubrimiento de conocimiento . 30 (4): 891. doi :10.1007/s10618-015-0444-8. ISSN 1384-5810. S2CID 1952214.
^ Repositorio de datos de referencia de detección de anomalías de la Ludwig-Maximilians-Universität München ; Mirror Archivado el 31 de marzo de 2022 en Wayback Machine en la Universidad de São Paulo .
^ Knorr, EM; Ng, RT; Tucakov, V. (2000). "Valores atípicos basados en la distancia: algoritmos y aplicaciones". The VLDB Journal, la revista internacional sobre bases de datos muy grandes . 8 (3–4): 237–253. CiteSeerX 10.1.1.43.1842 . doi :10.1007/s007780050006. S2CID 11707259.
^ Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). Algoritmos eficientes para extraer valores atípicos de grandes conjuntos de datos . Actas de la conferencia internacional ACM SIGMOD de 2000 sobre gestión de datos – SIGMOD '00. pág. 427. doi :10.1145/342009.335437. ISBN 1-58113-217-4.
^ Angiulli, F.; Pizzuti, C. (2002). Detección rápida de valores atípicos en espacios de alta dimensión . Principios de minería de datos y descubrimiento de conocimiento. Apuntes de clase en informática. Vol. 2431. pág. 15. doi : 10.1007/3-540-45681-3_2 . ISBN. 978-3-540-44037-6.
^ Breunig, MM; Kriegel, H.-P .; Ng, RT; Sander, J. (2000). LOF: Identificación de valores atípicos locales basados en la densidad (PDF) . Actas de la Conferencia internacional ACM SIGMOD de 2000 sobre gestión de datos . SIGMOD . págs. 93–104. doi :10.1145/335191.335388. ISBN 1-58113-217-4.
^ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (diciembre de 2008). "Bosque de aislamiento". Octava Conferencia Internacional IEEE sobre Minería de Datos de 2008. págs. 413–422. doi :10.1109/ICDM.2008.17. ISBN 9780769535029.S2CID6505449 .
^ Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (marzo de 2012). "Detección de anomalías basada en aislamiento". ACM Transactions on Knowledge Discovery from Data . 6 (1): 1–39. doi :10.1145/2133360.2133363. S2CID 207193045.
^ Schubert, E.; Zimek, A. ; Kriegel, H. -P. (2012). "Reconsideración de la detección de valores atípicos locales: una visión generalizada de la localidad con aplicaciones para la detección de valores atípicos espaciales, de video y de red". Minería de datos y descubrimiento de conocimiento . 28 : 190–237. doi :10.1007/s10618-012-0300-z. S2CID 19036098.
^ ab Kriegel, HP ; Kröger, P.; Schubert, E.; Zimek, A. (2009). Detección de valores atípicos en subespacios de ejes paralelos de datos de alta dimensión . Avances en el descubrimiento de conocimientos y la minería de datos. Apuntes de clase en informática. Vol. 5476. pág. 831. doi :10.1007/978-3-642-01307-2_86. ISBN 978-3-642-01306-5.
^ ab Kriegel, HP ; Kroger, P.; Schubert, E.; Zimek, A. (2012). Detección de valores atípicos en subespacios orientados arbitrariamente . 2012 IEEE 12th International Conference on Data Mining. p. 379. doi :10.1109/ICDM.2012.21. ISBN 978-1-4673-4649-8.
^ Fanaee-T, H.; Gama, J. (2016). "Detección de anomalías basada en tensores: un estudio interdisciplinario". Knowledge-Based Systems . 98 : 130–147. doi :10.1016/j.knosys.2016.01.027. S2CID 16368060.
^ Zimek, A. ; Schubert, E.; Kriegel, H.-P. (2012). "Una encuesta sobre detección de valores atípicos no supervisados en datos numéricos de alta dimensión". Análisis estadístico y minería de datos . 5 (5): 363–387. doi :10.1002/sam.11161. S2CID 6724536.
^ Schölkopf, B. ; Platt, JC; Shawe-Taylor, J.; Smola, AJ; Williamson, RC (2001). "Estimación del soporte de una distribución de alta dimensión". Neural Computation . 13 (7): 1443–71. CiteSeerX 10.1.1.4.4106 . doi :10.1162/089976601750264965. PMID 11440593. S2CID 2110475.
^ abc Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan (2002). "Detección de valores atípicos mediante redes neuronales replicadoras". Almacenamiento de datos y descubrimiento de conocimiento . Notas de clase en informática. Vol. 2454. págs. 170–180. CiteSeerX 10.1.1.12.3366 . doi :10.1007/3-540-46145-0_17. ISBN. 978-3-540-44123-6.S2CID6436930 .
^ An, J.; Cho, S. (2015). "Detección de anomalías basada en autocodificador variacional utilizando probabilidad de reconstrucción" (PDF) . Conferencia especial sobre ingeniería inversa . 2 (1): 1–18. SNUDM-TR-2015-03.
^ Malhotra, Pankaj; Vig, Lovekesh; Shroff, Gautman; Agarwal, Puneet (22-24 de abril de 2015). Redes de memoria a corto y largo plazo para la detección de anomalías en series temporales. ESANN 2015: 23.º Simposio europeo sobre redes neuronales artificiales, inteligencia computacional y aprendizaje automático. pp. 89-94. ISBN 978-2-87587-015-5.
^ Hubert, Mia ; Debruyne, Michiel; Rousseeuw, Peter J. (2018). "Determinante de covarianza mínima y extensiones". WIREs Computational Statistics . 10 (3). arXiv : 1709.07045 . doi : 10.1002/wics.1421 . ISSN 1939-5108. S2CID 67227041.
^ Hubert, Mia ; Debruyne, Michiel (2010). "Determinante de covarianza mínima". WIREs Computational Statistics . 2 (1): 36–43. doi :10.1002/wics.61. ISSN 1939-0068. S2CID 123086172.
^ Alzubaidi, Laith; Zhang, Jinglan; Humaidi, Amjad J.; Al-Dujaili, Ayad; Duan, Ye; Al-Shamma, Omran; Santamaría, J.; Fadhel, Mohammed A.; Al-Amidie, Muthana; Farhan, Laith (31 de marzo de 2021). "Revisión del aprendizaje profundo: conceptos, arquitecturas CNN, desafíos, aplicaciones, direcciones futuras". Revista de Big Data . 8 (1): 53. doi : 10.1186/s40537-021-00444-8 . ISSN 2196-1115. PMC 8010506 . PMID 33816053.
^ Belay, Mohammed Ayalew; Blakseth, Sindre Stenen; Rasheed, Adil; Salvo Rossi, Pierluigi (enero de 2023). "Detección de anomalías no supervisada para series temporales multivariadas basadas en IoT: soluciones existentes, análisis de rendimiento y direcciones futuras". Sensores . 23 (5): 2844. Bibcode :2023Senso..23.2844B. doi : 10.3390/s23052844 . ISSN 1424-8220. PMC 10007300 . PMID 36905048.
^ He, Z.; Xu, X.; Deng, S. (2003). "Descubrimiento de valores atípicos locales basados en clústeres". Pattern Recognition Letters . 24 (9–10): 1641–1650. Bibcode :2003PaReL..24.1641H. CiteSeerX 10.1.1.20.4242 . doi :10.1016/S0167-8655(03)00003-5.
^ Campello, RJGB; Moulavi, D.; Zimek, A .; Sander, J. (2015). "Estimaciones de densidad jerárquica para agrupamiento de datos, visualización y detección de valores atípicos". ACM Transactions on Knowledge Discovery from Data . 10 (1): 5:1–51. doi :10.1145/2733381. S2CID 2887636.
^ Lazarevic, A.; Kumar, V. (2005). "Feature bagging for outlier detection" (Etiquetado de características para la detección de valores atípicos). Actas de la undécima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento en minería de datos . pp. 157–166. CiteSeerX 10.1.1.399.425 . doi :10.1145/1081870.1081891. ISBN . 978-1-59593-135-1.S2CID2054204 .
^ Nguyen, HV; Ang, HH; Gopalkrishnan, V. (2010). Minería de valores atípicos con un conjunto de detectores heterogéneos en subespacios aleatorios . Sistemas de bases de datos para aplicaciones avanzadas. Apuntes de clase en informática. Vol. 5981. pág. 368. doi :10.1007/978-3-642-12026-8_29. ISBN 978-3-642-12025-1.
^ Kriegel, HP ; Kröger, P.; Schubert, E.; Zimek, A. (2011). Interpretación y unificación de puntuaciones de valores atípicos . Actas de la Conferencia internacional SIAM de 2011 sobre minería de datos. págs. 13–24. CiteSeerX 10.1.1.232.2719 . doi :10.1137/1.9781611972818.2. ISBN 978-0-89871-992-5.
^ Schubert, E.; Wojdanowski, R.; Zimek, A .; Kriegel, HP (2012). Sobre la evaluación de clasificaciones y puntuaciones de valores atípicos . Actas de la Conferencia internacional SIAM de 2012 sobre minería de datos. págs. 1047–1058. doi :10.1137/1.9781611972825.90. ISBN 978-1-61197-232-0.
^ Zimek, A. ; Campello, RJGB; Sander, JR (2014). "Conjuntos para la detección de valores atípicos no supervisados". Boletín de exploraciones de ACM SIGKDD . 15 : 11–22. doi :10.1145/2594473.2594476. S2CID 8065347.
^ Zimek, A .; Campello, RJGB; Sander, JR (2014). Perturbación de datos para conjuntos de detección de valores atípicos . Actas de la 26.ª Conferencia internacional sobre gestión de bases de datos científicas y estadísticas – SSDBM '14. pág. 1. doi :10.1145/2618243.2618257. ISBN 978-1-4503-2722-0.
^ Goldstein, Markus; Dengel, Andreas (2012). "Puntuación de valores atípicos basada en histogramas (HBOS): un algoritmo rápido de detección de anomalías no supervisado" (PDF) . Página personal de Markus Goldstein .(Póster sólo en la conferencia KI 2012, no en las actas)
^ Zhao, Yue; Nasrullah, Zain; Li, Zheng (2019). "Pyod: una caja de herramientas de Python para la detección escalable de valores atípicos" (PDF) . Revista de investigación en aprendizaje automático . 20 . arXiv : 1901.01588 .
^ "FindAnomalies". Documentación de Mathematica .