Estimación de una función de densidad de probabilidad subyacente no observable
En estadística , la estimación de densidad de probabilidad o simplemente estimación de densidad es la construcción de una estimación , basada en datos observados , de una función de densidad de probabilidad subyacente no observable . La función de densidad no observable se considera como la densidad según la cual se distribuye una población grande; los datos generalmente se consideran como una muestra aleatoria de esa población. [1]
Analizaremos los registros de incidencia de diabetes . A continuación se cita textualmente la descripción del conjunto de datos :
Se realizó una prueba de diabetes mellitus a una población de mujeres de al menos 21 años de edad, de ascendencia india Pima y residentes cerca de Phoenix, Arizona, según los criterios de la Organización Mundial de la Salud . Los datos fueron recopilados por el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de los Estados Unidos. Utilizamos los 532 registros completos. [2] [3]
En este ejemplo, construimos tres estimaciones de densidad para "glu" ( concentración de glucosa en plasma ), una condicional a la presencia de diabetes, la segunda condicional a la ausencia de diabetes y la tercera no condicional a la diabetes. Las estimaciones de densidad condicionales se utilizan luego para construir la probabilidad de diabetes condicional a "glu".
Los datos "glu" se obtuvieron del paquete MASS [4] del lenguaje de programación R. Dentro de R, ?Pima.try ?Pima.tedan una descripción más completa de los datos.
La media de "glu" en los casos de diabetes es 143,1 y la desviación estándar es 31,26. La media de "glu" en los casos sin diabetes es 110,0 y la desviación estándar es 24,29. De esto se desprende que, en este conjunto de datos, los casos de diabetes están asociados a mayores niveles de "glu". Esto se verá más claro mediante los gráficos de las funciones de densidad estimadas.
La primera figura muestra las estimaciones de densidad de p (glu | diabetes=1), p (glu | diabetes=0) y p (glu). Las estimaciones de densidad son estimaciones de densidad kernel que utilizan un kernel gaussiano. Es decir, se coloca una función de densidad gaussiana en cada punto de datos y se calcula la suma de las funciones de densidad sobre el rango de los datos.
A partir de la densidad de "glu" condicionada a la diabetes, podemos obtener la probabilidad de diabetes condicionada a "glu" mediante la regla de Bayes . Para abreviar, "diabetes" se abrevia "db." en esta fórmula.
La segunda figura muestra la probabilidad posterior estimada p (diabetes=1 | glu). A partir de estos datos, parece que un nivel elevado de "glu" está asociado con la diabetes.
Aplicación y finalidad
Un uso muy natural de las estimaciones de densidad es la investigación informal de las propiedades de un conjunto determinado de datos. Las estimaciones de densidad pueden dar una indicación valiosa de características como la asimetría y la multimodalidad de los datos. En algunos casos, producirán conclusiones que pueden considerarse evidentemente verdaderas, mientras que en otros lo único que harán será señalar el camino hacia un análisis más profundo y/o la recopilación de datos. [5]
Un aspecto importante de la estadística es a menudo la presentación de los datos al cliente para ofrecer una explicación e ilustración de las conclusiones que podrían haberse obtenido por otros medios. Las estimaciones de densidad son ideales para este propósito, por la sencilla razón de que son bastante fáciles de comprender para quienes no son matemáticos.
Más ejemplos que ilustran el uso de estimaciones de densidad con fines exploratorios y de presentación, incluido el importante caso de datos bivariados. [7]
La estimación de densidad también se utiliza con frecuencia en la detección de anomalías o novedades : [8] si una observación se encuentra en una región de muy baja densidad, es probable que sea una anomalía o una novedad.
En hidrología, el histograma y la función de densidad estimada de los datos de precipitaciones y descargas fluviales, analizados con una distribución de probabilidad , se utilizan para obtener información sobre su comportamiento y frecuencia de ocurrencia. [9] Un ejemplo se muestra en la figura azul.
^ Alberto Bernacchia, Simone Pigolotti, Método autoconsistente para la estimación de la densidad, Journal of the Royal Statistical Society Series B: Statistical Methodology, Volumen 73, Número 3, junio de 2011, páginas 407–422, https://doi.org/10.1111/j.1467-9868.2011.00772.x
^ "Diabetes en mujeres indígenas Pima - Documentación R".
^ Smith, JW, Everhart, JE, Dickson, WC, Knowler, WC y Johannes, RS (1988). RA Greenes (ed.). "Uso del algoritmo de aprendizaje ADAP para pronosticar la aparición de diabetes mellitus". Actas del Simposio sobre aplicaciones informáticas en la atención médica (Washington, 1988) . Los Alamitos, CA: 261–265. PMC 2245318 .{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ "Funciones de soporte y conjuntos de datos para Venables y MASS de Ripley".
^ Silverman, BW (1986). Estimación de densidad para estadísticas y análisis de datos. Chapman y Hall. ISBN978-0412246203.
^ Una calculadora para distribuciones de probabilidad y funciones de densidad
^ Pimentel, Marco AF; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2 de enero de 2014). "Una revisión de la detección de novedades". Procesamiento de señales . 99 (junio de 2014): 215–249. doi :10.1016/j.sigpro.2013.12.026.
^ Una ilustración de histogramas y funciones de densidad de probabilidad
^ Rosenblatt, M. (1956). "Observaciones sobre algunas estimaciones no paramétricas de una función de densidad". Anales de estadística matemática . 27 (3): 832–837. doi : 10.1214/aoms/1177728190 .
^ Parzen, E. (1962). "Sobre la estimación de una función de densidad de probabilidad y un modo". Anales de estadística matemática . 33 (3): 1065–1076. doi : 10.1214/aoms/1177704472 . JSTOR 2237880.
Qi Li y Jeffrey S. Racine. Econometría no paramétrica: teoría y práctica . Princeton University Press, 2007, ISBN 0-691-12161-3 . (Véase el capítulo 1.)
DW Scott. Estimación de densidad multivariante. Teoría, práctica y visualización . Nueva York: Wiley, 1992.
CREEM: Centro de Investigación en Modelado Ecológico y Ambiental Descargas gratuitas de paquetes de software de estimación de densidad Distance 4 (de la Unidad de Investigación para la Evaluación de Poblaciones de Vida Silvestre "RUWPA") y WiSP.
Resumen del contenido del repositorio de aprendizaje automático de la UCI (consulte "Base de datos de diabetes de los indios Pima" para obtener el conjunto de datos original de 732 registros y notas adicionales).
Código MATLAB para estimación de densidad unidimensional y bidimensional