Parte aislada

Figura 1. Diagrama de caja de datos del experimento de Michelson-Morley que muestra cuatro valores atípicos en la columna del medio, así como un valor atípico en la primera columna.

En estadística , un valor atípico es un dato que difiere significativamente de otras observaciones. ^[1]^[2] Un valor atípico puede deberse a una variabilidad en la medición, una indicación de datos nuevos o puede ser el resultado de un error experimental; estos últimos a veces quedan excluidos del conjunto de datos . ^[3]^[4] Un valor atípico puede ser una indicación de una posibilidad interesante, pero también puede causar serios problemas en los análisis estadísticos.

Los valores atípicos pueden ocurrir por casualidad en cualquier distribución, pero pueden indicar comportamientos o estructuras novedosos en el conjunto de datos, errores de medición o que la población tiene una distribución de colas pesadas . En el caso de los errores de medición, conviene descartarlos o utilizar estadísticas que sean robustas frente a los valores atípicos, mientras que en el caso de las distribuciones de colas pesadas, indican que la distribución tiene una gran asimetría y que se debe ser muy cauteloso al utilizar herramientas o intuiciones que asumen una distribución normal . Una causa frecuente de valores atípicos es una mezcla de dos distribuciones, que pueden ser dos subpoblaciones distintas, o pueden indicar "ensayo correcto" versus "error de medición"; esto se modela mediante un modelo de mezcla .

En la mayoría de las muestras de datos más grandes, algunos puntos de datos estarán más alejados de la media muestral de lo que se considera razonable. Esto puede deberse a un error sistemático incidental o fallas en la teoría que generó una supuesta familia de distribuciones de probabilidad , o puede ser que algunas observaciones estén lejos del centro de los datos. Por lo tanto, los puntos atípicos pueden indicar datos defectuosos, procedimientos erróneos o áreas donde una determinada teoría podría no ser válida. Sin embargo, en muestras grandes, es de esperar un pequeño número de valores atípicos (y no debido a ninguna condición anómala).

Los valores atípicos, al ser las observaciones más extremas, pueden incluir el máximo o el mínimo de la muestra , o ambos, dependiendo de si son extremadamente altos o bajos. Sin embargo, el máximo y el mínimo de la muestra no siempre son valores atípicos porque es posible que no estén inusualmente alejados de otras observaciones.

La interpretación ingenua de estadísticas derivadas de conjuntos de datos que incluyen valores atípicos puede resultar engañosa. Por ejemplo, si se está calculando la temperatura promedio de 10 objetos en una habitación, y nueve de ellos están entre 20 y 25 grados centígrados , pero un horno está a 175 °C, la mediana de los datos estará entre 20 y 25 °C. C pero la temperatura media estará entre 35,5 y 40 °C. En este caso, la mediana refleja mejor que la media la temperatura de un objeto muestreado al azar (pero no la temperatura de la habitación); interpretar ingenuamente la media como "una muestra típica", equivalente a la mediana, es incorrecto. Como se ilustra en este caso, los valores atípicos pueden indicar puntos de datos que pertenecen a una población diferente al resto del conjunto de muestras .

Se dice que los estimadores capaces de hacer frente a valores atípicos son robustos: la mediana es una estadística robusta de tendencia central , mientras que la media no lo es. ^[5] Sin embargo, la media es generalmente un estimador más preciso. ^[6]

Ocurrencia y causas

En el caso de datos distribuidos normalmente , la regla de tres sigma significa que aproximadamente 1 de cada 22 observaciones diferirá en dos veces la desviación estándar o más de la media, y 1 de cada 370 se desviará tres veces la desviación estándar. ^[7] En una muestra de 1000 observaciones, la presencia de hasta cinco observaciones que se desvían de la media en más de tres veces la desviación estándar está dentro del rango de lo que se puede esperar, siendo menos del doble del número esperado y, por lo tanto, dentro de 1 desviación estándar del número esperado (ver distribución de Poisson ) y no indicar una anomalía. Sin embargo, si el tamaño de la muestra es sólo de 100, sólo tres de esos valores atípicos ya son motivo de preocupación, siendo más de 11 veces el número esperado.

En general, si se conoce a priori la naturaleza de la distribución de la población , es posible probar si el número de valores atípicos se desvía significativamente de lo que se puede esperar: para un límite dado (de modo que las muestras caen más allá del límite con probabilidad p ) de un dada una distribución, el número de valores atípicos seguirá una distribución binomial con parámetro p , que generalmente puede aproximarse bien mediante la distribución de Poisson con λ = pn . Por lo tanto, si se toma una distribución normal con un límite de 3 desviaciones estándar de la media, p es aproximadamente 0,3% y, por lo tanto, para 1000 ensayos se puede aproximar el número de muestras cuya desviación excede 3 sigmas mediante una distribución de Poisson con λ = 3.

Causas

Los valores atípicos pueden tener muchas causas anómalas. Es posible que un aparato físico para tomar medidas haya sufrido un mal funcionamiento transitorio. Es posible que haya habido un error en la transmisión o transcripción de datos. Los valores atípicos surgen debido a cambios en el comportamiento del sistema, comportamiento fraudulento, errores humanos, errores de instrumentos o simplemente a través de desviaciones naturales en las poblaciones. Es posible que una muestra haya sido contaminada con elementos ajenos a la población que se examina. Alternativamente, un valor atípico podría ser el resultado de una falla en la teoría supuesta, lo que requeriría una mayor investigación por parte del investigador. Además, la apariencia patológica de valores atípicos de cierta forma aparece en una variedad de conjuntos de datos, lo que indica que el mecanismo causal de los datos podría diferir en el extremo ( efecto King ).

Definiciones y detección

No existe una definición matemática rígida de lo que constituye un valor atípico; Determinar si una observación es o no un valor atípico es, en última instancia, un ejercicio subjetivo. ^[8] Existen varios métodos de detección de valores atípicos, algunos de los cuales se tratan como sinónimos de detección de novedades. ^[9]^[10]^[11]^[12]^[13] Algunos son gráficos, como los gráficos de probabilidad normal . Otros se basan en modelos. Los diagramas de caja son un híbrido.

Los métodos basados en modelos que se utilizan comúnmente para la identificación suponen que los datos provienen de una distribución normal e identifican observaciones que se consideran "improbables" según la media y la desviación estándar:

El criterio de Chauvenet
Prueba de Grubbs para valores atípicos
Prueba Q de Dixon
ASTM E178: Práctica estándar para tratar observaciones atípicas ^[14]
La distancia y el apalancamiento de Mahalanobis se utilizan a menudo para detectar valores atípicos, especialmente en el desarrollo de modelos de regresión lineal.
Técnicas basadas en subespacio y correlación para datos numéricos de alta dimensión ^[13]

El criterio de Peirce

Se propone determinar en una serie de observaciones el límite de error, más allá del cual todas las observaciones que impliquen un error tan grande pueden ser rechazadas, siempre que sean tantas como dichas observaciones. El principio sobre el cual se propone resolver este problema es que las observaciones propuestas deben rechazarse cuando la probabilidad del sistema de errores obtenido al retenerlas es menor que la del sistema de errores obtenido al rechazarlas multiplicada por la probabilidad de haciendo tantas, y ninguna más, observaciones anormales. (Citado en la nota editorial de la página 516 a Peirce (edición de 1982) de A Manual of Astronomy 2:558 de Chauvenet.) ^[15]^[16]^[17]^[18] $m$ $n$

vallas de tukey

Otros métodos señalan observaciones basadas en medidas como el rango intercuartil . Por ejemplo, si y son los cuartiles inferior y superior respectivamente, entonces se podría definir un valor atípico como cualquier observación fuera del rango: ${\ Displaystyle Q_ {1}}$ ${\ Displaystyle Q_ {3}}$

{\big [}Q_{1}-k(Q_{3}-Q_{1}),Q_{3}+k(Q_{3}-Q_{1}){\big ]}

para alguna constante no negativa . John Tukey propuso esta prueba, donde indica un "valor atípico" e indica datos que están "lejos". ^[19] $k$ $k=1,5$ $k=3$

En detección de anomalías

En diversos ámbitos, como, entre otros, estadística , procesamiento de señales , finanzas , econometría , fabricación , redes y minería de datos , la tarea de detección de anomalías puede adoptar otros enfoques. Algunos de estos pueden estar basados en la distancia ^[20]^[21] y en la densidad, como el factor de valor atípico local (LOF). ^[22] Algunos enfoques pueden utilizar la distancia a los k vecinos más cercanos para etiquetar las observaciones como valores atípicos o no atípicos. ^[23]

Prueba Thompson Tau modificada

La prueba Thompson Tau modificada ^{[ cita necesaria ]} es un método utilizado para determinar si existe un valor atípico en un conjunto de datos. La ventaja de este método radica en el hecho de que tiene en cuenta la desviación estándar y el promedio de un conjunto de datos y proporciona una zona de rechazo determinada estadísticamente; proporcionando así un método objetivo para determinar si un punto de datos es un valor atípico. ^{[ cita necesaria ]}^[24] Cómo funciona: Primero, se determina el promedio de un conjunto de datos. A continuación se determina la desviación absoluta entre cada punto de datos y el promedio. En tercer lugar, se determina una región de rechazo mediante la fórmula:

{\text{Región de rechazo}}{=}{\frac {{t_{\alpha /2}}{\left(n-1\right)}}{{\sqrt {n}}{\sqrt {n-2+{t_{\alpha /2}^{2}}}}}}

;

donde es el valor crítico de la distribución $t de Student con$ n -2 grados de libertad, n es el tamaño de la muestra y s es la desviación estándar de la muestra. Para determinar si un valor es un valor atípico: Calcule . Si δ > Región de rechazo, el punto de datos es un valor atípico. Si δ ≤ Región de rechazo, el punto de datos no es un valor atípico. $\scriptstyle {t_{\alpha /2}}$ $\scriptstyle \delta =|(X-media(X))/s|$

La prueba Thompson Tau modificada se utiliza para encontrar un valor atípico a la vez (el valor más grande de δ se elimina si es un valor atípico). Es decir, si se descubre que un punto de datos es un valor atípico, se elimina del conjunto de datos y la prueba se aplica nuevamente con una nueva región de promedio y rechazo. Este proceso continúa hasta que no queden valores atípicos en un conjunto de datos.

Algunos trabajos también han examinado valores atípicos de datos nominales (o categóricos). En el contexto de un conjunto de ejemplos (o instancias) en un conjunto de datos, la dureza de la instancia mide la probabilidad de que una instancia se clasifique erróneamente ( donde $y$ es la etiqueta de clase asignada y $x$ representa el valor del atributo de entrada para una instancia en el conjunto de entrenamiento). $t$ ). ^[25] Idealmente, la dureza de la instancia se calcularía sumando el conjunto de todas las hipótesis posibles $H$ : $1-p(y|x)$

{\begin{aligned}IH(\langle x,y\rangle )&=\sum _ {H}(1-p(y,x,h))p(h|t)\\&=\ suma _{H}p(h|t)-p(y,x,h)p(h|t)\\&=1-\sum _{H}p(y,x,h)p(h| t).\end{alineado}}

En la práctica, esta formulación es inviable ya que $H$ es potencialmente infinito y muchos algoritmos desconocen el cálculo. Por tanto, la dureza de la instancia se puede aproximar utilizando un subconjunto diverso : $p(h|t)$ $L\subconjunto H$

IH_{L}(\langle x,y\rangle )=1-{\frac {1}{|L|}}\sum _{j=1}^{|L|}p(y|x ,g_{j}(t,\alpha ))

¿Dónde está la hipótesis inducida por el algoritmo de aprendizaje entrenado en el conjunto de entrenamiento $t$ con hiperparámetros ? La dureza de la instancia proporciona un valor continuo para determinar si una instancia es atípica. $g_{j}(t,\alpha)$ ${\ Displaystyle g_ {j}}$ $\alpha$

Trabajar con valores atípicos

La elección de cómo abordar un valor atípico debería depender de la causa. Algunos estimadores son muy sensibles a los valores atípicos, en particular la estimación de matrices de covarianza .

Retención

Incluso cuando un modelo de distribución normal es apropiado para los datos que se analizan, se esperan valores atípicos para tamaños de muestra grandes y no deben descartarse automáticamente si ese es el caso. ^[26] En su lugar, se debe utilizar un método que sea robusto frente a valores atípicos para modelar o analizar datos con valores atípicos que ocurren naturalmente. ^[26]

Exclusión

Al decidir si se elimina un valor atípico, se debe considerar la causa. Como se mencionó anteriormente, si el origen del valor atípico puede atribuirse a un error experimental, o si se puede determinar de otro modo que el punto de datos atípico es erróneo, generalmente se recomienda eliminarlo. ^[26]^[27] Sin embargo, es más deseable corregir el valor erróneo, si es posible.

Por otro lado, eliminar un punto de datos únicamente porque es un valor atípico es una práctica controvertida, a menudo mal vista por muchos científicos e instructores de ciencias, ya que normalmente invalida los resultados estadísticos. ^[26]^[27] Si bien los criterios matemáticos proporcionan un método objetivo y cuantitativo para el rechazo de datos, no hacen que la práctica sea más científica o metodológicamente sólida, especialmente en conjuntos pequeños o donde no se puede asumir una distribución normal. El rechazo de valores atípicos es más aceptable en áreas de práctica donde se conocen con seguridad el modelo subyacente del proceso que se está midiendo y la distribución habitual del error de medición.

Los dos enfoques comunes para excluir valores atípicos son el truncamiento (o recorte) y Winsorising . El recorte descarta los valores atípicos, mientras que Winsorising reemplaza los valores atípicos con los datos "no sospechosos" más cercanos. ^[28] La exclusión también puede ser una consecuencia del proceso de medición, como cuando un experimento no es completamente capaz de medir valores tan extremos, lo que resulta en datos censurados . ^[29]

En problemas de regresión , un enfoque alternativo puede ser excluir únicamente los puntos que exhiban un gran grado de influencia en los coeficientes estimados, utilizando una medida como la distancia de Cook . ^[30]

Si uno o varios puntos de datos se excluyen del análisis de datos , esto debe indicarse claramente en cualquier informe posterior.

Distribuciones no normales

Se debe considerar la posibilidad de que la distribución subyacente de los datos no sea aproximadamente normal y tenga " colas gruesas ". Por ejemplo, cuando se toma un muestreo de una distribución de Cauchy , ^[31] la varianza de la muestra aumenta con el tamaño de la muestra, la media de la muestra no converge a medida que aumenta el tamaño de la muestra y se esperan valores atípicos a tasas mucho mayores que en una distribución normal. Incluso una ligera diferencia en la gordura de las colas puede suponer una gran diferencia en el número esperado de valores extremos.

Incertidumbres sobre la membresía del conjunto

Un enfoque de membresía de conjuntos considera que la incertidumbre correspondiente a la _i- ésima medición de un vector aleatorio desconocido x está representada por un conjunto Xi (en lugar de una función de densidad de probabilidad). Si no se producen valores atípicos, x debería pertenecer a la intersección de todos los X _i . Cuando ocurren valores atípicos, esta intersección podría estar vacía, y deberíamos relajar un pequeño número _de conjuntos Xi (lo más pequeño posible) para evitar cualquier inconsistencia. ^[32] Esto se puede hacer usando la noción de q - intersección relajada . Como se ilustra en la figura, la intersección q -relajada corresponde al conjunto de todos los x que pertenecen a todos los conjuntos excepto q de ellos. Se podría sospechar que los conjuntos X _i que no intersectan la intersección q -relajada son valores atípicos.

Modelos alternativos

En los casos en que se conozca la causa de los valores atípicos, es posible incorporar este efecto en la estructura del modelo, por ejemplo, utilizando un modelo jerárquico de Bayes o un modelo mixto . ^[33]^[34]

Ver también

Referencias

^ Grubbs, FE (febrero de 1969). "Procedimientos para la detección de observaciones atípicas en muestras". Tecnometría . 11 (1): 1–21. doi :10.1080/00401706.1969.10490657. Una observación atípica, o "valor atípico", es aquella que parece desviarse notablemente de otros miembros de la muestra en la que ocurre.
^ Maddala, GS (1992). "Valores atípicos". Introducción a la econometría (2ª ed.). Nueva York: MacMillan. págs.89. ISBN 978-0-02-374545-4. Un valor atípico es una observación que está muy alejada del resto de las observaciones.
^ Pimentel, MA, Clifton, DA, Clifton, L. y Tarassenko, L. (2014). Una revisión de la detección de novedades. Procesamiento de señales, 99, 215-249.
^ Grubbs 1969, pag. 1 que dice: "Una observación atípica puede ser simplemente una manifestación extrema de la variabilidad aleatoria inherente a los datos... Por otra parte, una observación atípica puede ser el resultado de una desviación grave del procedimiento experimental prescrito o de un error en el cálculo o registro". el valor numérico."
^ Ripley, Brian D. 2004. Estadísticas sólidas Archivado el 21 de octubre de 2012 en Wayback Machine.
^ Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometría y análisis de datos para países en desarrollo Vol. 1" [1]
^ Ruan, papá; Chen, Guoqing; Kerré, Etienne (2005). Wets, G. (ed.). Minería de datos inteligente: técnicas y aplicaciones . Estudios en Inteligencia Computacional vol. 5. Saltador. pag. 318.ISBN _ 978-3-540-26256-5.
^ Zimek, Arturo; Filzmoser, Peter (2018). "De ida y vuelta: detección de valores atípicos entre el razonamiento estadístico y los algoritmos de minería de datos" (PDF) . Revisiones interdisciplinarias de Wiley: minería de datos y descubrimiento de conocimientos . 8 (6): e1280. doi : 10.1002/widm.1280. ISSN 1942-4787. S2CID 53305944. Archivado desde el original (PDF) el 14 de noviembre de 2021 . Consultado el 11 de diciembre de 2019 .
^ Pimentel, MA, Clifton, DA, Clifton, L. y Tarassenko, L. (2014). Una revisión de la detección de novedades. Procesamiento de señales, 99, 215-249.
^ Rousseeuw, P ; Leroy, A. (1996), Regresión robusta y detección de valores atípicos (3.ª ed.), John Wiley & Sons
^ Hodge, Victoria J.; Austin, Jim (2004), "Una encuesta sobre metodologías de detección de valores atípicos", Revisión de inteligencia artificial , 22 (2): 85–126, CiteSeerX 10.1.1.109.1943 , doi :10.1023/B:AIRE.0000045502.10941.a9, S2CID 3330313
^ Barnett, Vic; Lewis, Toby (1994) [1978], Valores atípicos en datos estadísticos (3 ed.), Wiley, ISBN 978-0-471-93094-5
^ abZimek, A.; Schubert, E.; Kriegel, H.-P. (2012). "Una encuesta sobre la detección de valores atípicos no supervisados en datos numéricos de alta dimensión". Análisis Estadístico y Minería de Datos . 5 (5): 363–387. doi :10.1002/sam.11161. S2CID 6724536.
^ E178: Práctica estándar para tratar observaciones alejadas
^ Benjamin Peirce , "Criterio para el rechazo de observaciones dudosas", Astronomical Journal II 45 (1852) y erratas del artículo original.
^ Peirce, Benjamin (mayo de 1877 - mayo de 1878). "Según el criterio de Peirce". Actas de la Academia Estadounidense de Artes y Ciencias . 13 : 348–351. doi :10.2307/25138498. JSTOR 25138498.
^ Peirce, Charles Sanders (1873) [1870]. "Anexo No. 21. Sobre la Teoría de los Errores de Observación". Informe del Superintendente del Estudio Costero de los Estados Unidos que muestra el progreso del estudio durante el año 1870 : 200–224.. NOAA PDF Eprint (va al Informe p. 200, PDF p. 215).
^ Peirce, Charles Sanders (1986) [1982]. "Sobre la teoría de los errores de observación". En Kloesel, Christian JW; et al. (eds.). Escritos de Charles S. Peirce: una edición cronológica. vol. 3, 1872–1878. Bloomington, Indiana: Prensa de la Universidad de Indiana. págs. 140-160. ISBN 978-0-253-37201-7.– Apéndice 21, según nota editorial en la página 515
^ Tukey, John W (1977). Análisis exploratorio de datos. Addison-Wesley. ISBN 978-0-201-07616-5. OCLC 3058187.
^ Knorr, EM; Ng, TA; Tucakov, V. (2000). "Valores atípicos basados en la distancia: algoritmos y aplicaciones". The VLDB Journal, la revista internacional sobre bases de datos muy grandes . 8 (3–4): 237. CiteSeerX 10.1.1.43.1842 . doi :10.1007/s007780050006. S2CID 11707259.
^ Ramaswamy, S.; Rastogi, R.; Calza, K. (2000). "Algoritmos eficientes para extraer valores atípicos de grandes conjuntos de datos ". Actas de la conferencia internacional ACM SIGMOD 2000 sobre gestión de datos - SIGMOD '00. pag. 427. doi : 10.1145/342009.335437. ISBN 1581132174.
^ Breunig, MM; Kriegel, H.-P. ; Ng, TA; Sander, J. (2000). LOF: Identificación de valores atípicos locales basados en la densidad (PDF) . Actas de la Conferencia Internacional ACM SIGMOD 2000 sobre Gestión de Datos . SIGMOD . págs. 93-104. doi :10.1145/335191.335388. ISBN 1-58113-217-4.
^ Schubert, E.; Zimek, A.; Kriegel, H.-P. (2012). "Reconsideración de la detección de valores atípicos locales: una visión generalizada de la localidad con aplicaciones a la detección de valores atípicos espaciales, de vídeo y de red". Minería de datos y descubrimiento de conocimientos . 28 : 190–237. doi :10.1007/s10618-012-0300-z. S2CID 19036098.
^ Thompson.R. (1985). "Una nota sobre la estimación de máxima verosimilitud restringida con un modelo de valor atípico alternativo". Revista de la Royal Statistical Society. Serie B (Metodológica), vol. 47, núm. 1, págs. 53-55
^ Smith, señor; Martínez, T.; Giraud-Carrier, C. (2014). "Un análisis a nivel de instancia de la complejidad de los datos". Aprendizaje automático, 95(2): 225-256.
^ abcd Karch, Julian D. (2023). "Es posible que los valores atípicos no se eliminen automáticamente". Revista de Psicología Experimental: General . 152 (6): 1735-1753. doi :10.1037/xge0001357. PMID 37104797. S2CID 258376426.
^ ab Bakker, Marjan; Wicherts, Jelte M. (2014). "Eliminación de valores atípicos, puntuaciones de suma e inflación de la tasa de error tipo I en pruebas t de muestras independientes: el poder de las alternativas y recomendaciones". Métodos psicológicos . 19 (3): 409–427. doi :10.1037/met0000014. PMID 24773354.
^ Wike, Edward L. (2006). Análisis de datos: una introducción estadística para estudiantes de psicología . Editores de transacciones. págs. 24 y 25. ISBN 9780202365350.
^ Dixon, WJ (junio de 1960). "Estimación simplificada a partir de muestras normales censuradas". Los anales de la estadística matemática . 31 (2): 385–391. doi : 10.1214/aoms/1177705900 .
^ Cook, R. Dennis (febrero de 1977). "Detección de observaciones influyentes en regresión lineal". Tecnometría (Asociación Estadounidense de Estadística) 19 (1): 15–18.
^ Weisstein, Eric W. Cauchy Distribución. De MathWorld: un recurso web de Wolfram
^ Jaulín, L. (2010). "Enfoque probabilístico de pertenencia a conjuntos para una regresión sólida" (PDF) . Revista de teoría y práctica estadística . 4 : 155-167. doi :10.1080/15598608.2010.10411978. S2CID 16500768.
^ Roberts, S. y Tarassenko, L.: 1995, Una red probabilística de asignación de recursos para la detección de novedades. Computación neuronal 6, 270–284.
^ Obispo, CM (agosto de 1994). "Detección de novedades y validación de redes neuronales". Actas de la IEE: procesamiento de visión, imágenes y señales . 141 (4): 217–222. doi :10.1049/ip-vis:19941330.

enlaces externos

Wikimedia Commons tiene medios relacionados con valores atípicos .

Renze, Juan. "Parte aislada". MundoMatemático .
Balakrishnan, N.; Childs, A. (2001) [1994], "Outlier", Enciclopedia de Matemáticas , EMS Press
Prueba de Grubbs descrita por el manual del NIST