Estimación de densidad

En estadística , la estimación de densidad de probabilidad o simplemente estimación de densidad es la construcción de una estimación , basada en datos observados , de una función de densidad de probabilidad subyacente no observable . La función de densidad no observable se considera la densidad según la cual se distribuye una gran población; Los datos generalmente se consideran como una muestra aleatoria de esa población. ^[1]

Se utilizan diversos enfoques para la estimación de la densidad, incluidas ventanas de Parzen y una variedad de técnicas de agrupación de datos , incluida la cuantificación vectorial . La forma más básica de estimación de densidad es un histograma reescalado .

Ejemplo

Consideraremos registros de la incidencia de diabetes . Lo siguiente se cita textualmente de la descripción del conjunto de datos :

A una población de mujeres que tenían al menos 21 años, de herencia india Pima y que vivían cerca de Phoenix, Arizona, se les realizó una prueba de diabetes mellitus según los criterios de la Organización Mundial de la Salud . Los datos fueron recopilados por el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de EE. UU. Se utilizaron los 532 registros completos. ^[2]^[3]

En este ejemplo, construimos tres estimaciones de densidad para "glu" ( concentración de glucosa en plasma ), una condicional a la presencia de diabetes, la segunda condicional a la ausencia de diabetes y la tercera no condicionada a la diabetes. Las estimaciones de densidad condicional se utilizan luego para construir la probabilidad de diabetes condicionada a "glu".

Los datos "glu" se obtuvieron del paquete MASS ^[4] del lenguaje de programación R. Dentro de R, ?Pima.try ?Pima.tedar una cuenta más completa de los datos.

La media de "glu" en los casos de diabetes es 143,1 y la desviación estándar es 31,26. La media de "glu" en los casos sin diabetes es 110,0 y la desviación estándar es 24,29. De esto vemos que, en este conjunto de datos, los casos de diabetes están asociados con mayores niveles de "glu". Esto quedará más claro mediante gráficos de las funciones de densidad estimadas.

La primera figura muestra estimaciones de densidad de p (glu | diabetes=1), p (glu | diabetes=0) yp (glu). Las estimaciones de densidad son estimaciones de densidad del núcleo que utilizan un núcleo gaussiano. Es decir, se coloca una función de densidad gaussiana en cada punto de datos y la suma de las funciones de densidad se calcula en el rango de los datos.

A partir de la densidad de "glu" condicionada a la diabetes, podemos obtener la probabilidad de diabetes condicionada a "glu" mediante la regla de Bayes . Para abreviar, "diabetes" se abrevia como "db". en esta fórmula.

p({\mbox{diabetes}}=1|{\mbox{glu}})={\frac {p({\mbox{glu}}|{\mbox{db.}}=1)\ ,p({\mbox{db.}}=1)}{p({\mbox{glu}}|{\mbox{db.}}=1)\,p({\mbox{db.}}= 1)+p({\mbox{glu}}|{\mbox{db.}}=0)\,p({\mbox{db.}}=0)}}

La segunda figura muestra la probabilidad posterior estimada p (diabetes=1 | glu). A partir de estos datos, parece que un nivel elevado de "glu" está asociado con la diabetes.

Aplicación y finalidad

Un uso muy natural de las estimaciones de densidad es la investigación informal de las propiedades de un conjunto de datos determinado. Las estimaciones de densidad pueden dar una indicación valiosa de características tales como la asimetría y la multimodalidad de los datos. En algunos casos arrojarán conclusiones que luego podrán considerarse evidentemente verdaderas, mientras que en otros lo único que harán será señalar el camino para un análisis y/o recopilación de datos más profundos. ^[5]

Un aspecto importante de las estadísticas es a menudo la presentación de datos al cliente para explicar e ilustrar las conclusiones que posiblemente se hayan obtenido por otros medios. Las estimaciones de densidad son ideales para este propósito, por la sencilla razón de que son bastante fácilmente comprensibles para los no matemáticos.

Más ejemplos que ilustran el uso de estimaciones de densidad con fines exploratorios y de presentación, incluido el importante caso de los datos bivariados. ^[7]

La estimación de densidad también se utiliza con frecuencia en la detección de anomalías o de novedades : ^[8] si una observación se encuentra en una región de muy baja densidad, es probable que se trate de una anomalía o una novedad.

En hidrología, el histograma y la función de densidad estimada de los datos de lluvia y caudal de los ríos, analizados con una distribución de probabilidad , se utilizan para obtener información sobre su comportamiento y frecuencia de ocurrencia. ^[9] En la figura azul se muestra un ejemplo.

Estimación de la densidad del grano.

En estadística , la estimación de densidad de kernel (KDE) es la aplicación del suavizado de kernel para la estimación de densidad de probabilidad , es decir, un método no paramétrico para estimar la función de densidad de probabilidad de una variable aleatoria basada en kernels como ponderaciones . KDE responde a un problema fundamental de suavizado de datos en el que se hacen inferencias sobre la población basándose en una muestra de datos finita . En algunos campos, como el procesamiento de señales y la econometría, también se le denomina método de ventana de Parzen-Rosenblatt, en honor a Emanuel Parzen y Murray Rosenblatt , a quienes generalmente se les atribuye haberlo creado de forma independiente en su forma actual. ^[10]^{[11] Una de las aplicaciones famosas de la estimación de la densidad del núcleo es la estimación de las}densidades marginales de datos condicionales de clase cuando se utiliza un clasificador Bayes ingenuo , ^[12]^[13] que puede mejorar la precisión de su predicción. ^[12]

Ver también

Referencias

^ Alberto Bernacchia, Simone Pigolotti, Método autoconsistente para la estimación de la densidad, Revista de la Royal Statistical Society Serie B: Metodología estadística, volumen 73, número 3, junio de 2011, páginas 407–422, https://doi.org/10.1111 /j.1467-9868.2011.00772.x
^ "Diabetes en mujeres indias pima - documentación R".
^ Smith, JW, Everhart, JE, Dickson, WC, Knowler, WC y Johannes, RS (1988). RA Greenes (ed.). "Uso del algoritmo de aprendizaje ADAP para pronosticar la aparición de diabetes mellitus". Actas del Simposio sobre aplicaciones informáticas en la atención médica (Washington, 1988) . Los Alamitos, California: 261–265. PMC 2245318 . {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ "Funciones de soporte y conjuntos de datos para Venables y Ripley's MASS".
^ Silverman, BW (1986). Estimación de densidad para estadística y análisis de datos. Chapman y Hall. ISBN 978-0412246203.
^ Una calculadora para distribuciones de probabilidad y funciones de densidad.
^ Geof H., Dados (2013). Estadística Computacional. Wiley. pag. 330. ISBN 978-0-470-53331-4 .
^ Pimentel, Marco AF; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2 de enero de 2014). "Una revisión de la detección de novedades". Procesamiento de la señal . 99 (junio de 2014): 215–249. doi :10.1016/j.sigpro.2013.12.026.
^ Una ilustración de histogramas y funciones de densidad de probabilidad.
^ Rosenblatt, M. (1956). "Observaciones sobre algunas estimaciones no paramétricas de una función de densidad". Los anales de la estadística matemática . 27 (3): 832–837. doi : 10.1214/aoms/1177728190 .
^ Parzen, E. (1962). "En la estimación de una función de densidad de probabilidad y el modo". Los anales de la estadística matemática . 33 (3): 1065-1076. doi : 10.1214/aoms/1177704472 . JSTOR 2237880.
^ ab Piryonesi S. Madeh; El-Diraby Tamer E. (1 de junio de 2020). "Papel del análisis de datos en la gestión de activos de infraestructura: superar los problemas de calidad y tamaño de los datos". Revista de Ingeniería del Transporte, Parte B: Pavimentos . 146 (2): 04020022. doi : 10.1061/JPEODX.0000175. S2CID 216485629.
^ Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome H. (2001). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción: con 200 ilustraciones a todo color . Nueva York: Springer. ISBN 0-387-95284-5. OCLC 46809224.

Fuentes

Brian D. Ripley (1996). Reconocimiento de patrones y redes neuronales. Cambridge: Prensa de la Universidad de Cambridge. ISBN 978-0521460866.
Trevor Hastie , Robert Tibshirani y Jerome Friedman. Los elementos del aprendizaje estadístico . Nueva York: Springer, 2001. ISBN 0-387-95284-5 . (Ver Capítulo 6.)
Qi Li y Jeffrey S. Racine. Econometría no paramétrica: teoría y práctica . Prensa de la Universidad de Princeton, 2007, ISBN 0-691-12161-3 . (Ver Capítulo 1.)
DW Scott. Estimación de densidad multivariada. Teoría, Práctica y Visualización . Nueva York: Wiley, 1992.
BW Silverman . Estimación de densidad . Londres: Chapman y Hall, 1986. ISBN 978-0-412-24620-3

enlaces externos

CREEM: Centro de Investigación sobre Modelado Ecológico y Ambiental Descargas gratuitas de paquetes de software de estimación de densidad Distancia 4 (de la Unidad de Investigación para la Evaluación de Poblaciones de Vida Silvestre "RUWPA") y WiSP.
Resumen del contenido del repositorio de aprendizaje automático de la UCI (consulte "Base de datos sobre diabetes de los indios Pima" para obtener el conjunto de datos original de 732 registros y notas adicionales).
Código MATLAB para estimación de densidad unidimensional y bidimensional
Software libAGF C++ para estimación de densidad de núcleo variable .