Estimación de una función de densidad de probabilidad subyacente no observable
En estadística , la estimación de densidad de probabilidad o simplemente estimación de densidad es la construcción de una estimación , basada en datos observados , de una función de densidad de probabilidad subyacente no observable . La función de densidad no observable se considera la densidad según la cual se distribuye una gran población; Los datos generalmente se consideran como una muestra aleatoria de esa población. [1]
Consideraremos registros de la incidencia de diabetes . Lo siguiente se cita textualmente de la descripción del conjunto de datos :
A una población de mujeres que tenían al menos 21 años, de herencia india Pima y que vivían cerca de Phoenix, Arizona, se les realizó una prueba de diabetes mellitus según los criterios de la Organización Mundial de la Salud . Los datos fueron recopilados por el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de EE. UU. Se utilizaron los 532 registros completos. [2] [3]
En este ejemplo, construimos tres estimaciones de densidad para "glu" ( concentración de glucosa en plasma ), una condicional a la presencia de diabetes, la segunda condicional a la ausencia de diabetes y la tercera no condicionada a la diabetes. Las estimaciones de densidad condicional se utilizan luego para construir la probabilidad de diabetes condicionada a "glu".
Los datos "glu" se obtuvieron del paquete MASS [4] del lenguaje de programación R. Dentro de R, ?Pima.try ?Pima.tedar una cuenta más completa de los datos.
La media de "glu" en los casos de diabetes es 143,1 y la desviación estándar es 31,26. La media de "glu" en los casos sin diabetes es 110,0 y la desviación estándar es 24,29. De esto vemos que, en este conjunto de datos, los casos de diabetes están asociados con mayores niveles de "glu". Esto quedará más claro mediante gráficos de las funciones de densidad estimadas.
La primera figura muestra estimaciones de densidad de p (glu | diabetes=1), p (glu | diabetes=0) yp (glu). Las estimaciones de densidad son estimaciones de densidad del núcleo que utilizan un núcleo gaussiano. Es decir, se coloca una función de densidad gaussiana en cada punto de datos y la suma de las funciones de densidad se calcula en el rango de los datos.
A partir de la densidad de "glu" condicionada a la diabetes, podemos obtener la probabilidad de diabetes condicionada a "glu" mediante la regla de Bayes . Para abreviar, "diabetes" se abrevia como "db". en esta fórmula.
La segunda figura muestra la probabilidad posterior estimada p (diabetes=1 | glu). A partir de estos datos, parece que un nivel elevado de "glu" está asociado con la diabetes.
Aplicación y finalidad
Un uso muy natural de las estimaciones de densidad es la investigación informal de las propiedades de un conjunto de datos determinado. Las estimaciones de densidad pueden dar una indicación valiosa de características tales como la asimetría y la multimodalidad de los datos. En algunos casos arrojarán conclusiones que luego podrán considerarse evidentemente verdaderas, mientras que en otros lo único que harán será señalar el camino para un análisis y/o recopilación de datos más profundos. [5]
Un aspecto importante de las estadísticas es a menudo la presentación de datos al cliente para explicar e ilustrar las conclusiones que posiblemente se hayan obtenido por otros medios. Las estimaciones de densidad son ideales para este propósito, por la sencilla razón de que son bastante fácilmente comprensibles para los no matemáticos.
Más ejemplos que ilustran el uso de estimaciones de densidad con fines exploratorios y de presentación, incluido el importante caso de los datos bivariados. [7]
La estimación de densidad también se utiliza con frecuencia en la detección de anomalías o de novedades : [8] si una observación se encuentra en una región de muy baja densidad, es probable que se trate de una anomalía o una novedad.
En hidrología, el histograma y la función de densidad estimada de los datos de lluvia y caudal de los ríos, analizados con una distribución de probabilidad , se utilizan para obtener información sobre su comportamiento y frecuencia de ocurrencia. [9] En la figura azul se muestra un ejemplo.
^ Alberto Bernacchia, Simone Pigolotti, Método autoconsistente para la estimación de la densidad, Revista de la Royal Statistical Society Serie B: Metodología estadística, volumen 73, número 3, junio de 2011, páginas 407–422, https://doi.org/10.1111 /j.1467-9868.2011.00772.x
^ "Diabetes en mujeres indias pima - documentación R".
^ Smith, JW, Everhart, JE, Dickson, WC, Knowler, WC y Johannes, RS (1988). RA Greenes (ed.). "Uso del algoritmo de aprendizaje ADAP para pronosticar la aparición de diabetes mellitus". Actas del Simposio sobre aplicaciones informáticas en la atención médica (Washington, 1988) . Los Alamitos, California: 261–265. PMC 2245318 .{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ "Funciones de soporte y conjuntos de datos para Venables y Ripley's MASS".
^ Silverman, BW (1986). Estimación de densidad para estadística y análisis de datos. Chapman y Hall. ISBN978-0412246203.
^ Una calculadora para distribuciones de probabilidad y funciones de densidad.
^ Geof H., Dados (2013). Estadística Computacional. Wiley. pag. 330. ISBN 978-0-470-53331-4 .
^ Pimentel, Marco AF; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2 de enero de 2014). "Una revisión de la detección de novedades". Procesamiento de la señal . 99 (junio de 2014): 215–249. doi :10.1016/j.sigpro.2013.12.026.
^ Una ilustración de histogramas y funciones de densidad de probabilidad.
^ Rosenblatt, M. (1956). "Observaciones sobre algunas estimaciones no paramétricas de una función de densidad". Los anales de la estadística matemática . 27 (3): 832–837. doi : 10.1214/aoms/1177728190 .
^ ab Piryonesi S. Madeh; El-Diraby Tamer E. (1 de junio de 2020). "Papel del análisis de datos en la gestión de activos de infraestructura: superar los problemas de calidad y tamaño de los datos". Revista de Ingeniería del Transporte, Parte B: Pavimentos . 146 (2): 04020022. doi : 10.1061/JPEODX.0000175. S2CID 216485629.
Qi Li y Jeffrey S. Racine. Econometría no paramétrica: teoría y práctica . Prensa de la Universidad de Princeton, 2007, ISBN 0-691-12161-3 . (Ver Capítulo 1.)
DW Scott. Estimación de densidad multivariada. Teoría, Práctica y Visualización . Nueva York: Wiley, 1992.
CREEM: Centro de Investigación sobre Modelado Ecológico y Ambiental Descargas gratuitas de paquetes de software de estimación de densidad Distancia 4 (de la Unidad de Investigación para la Evaluación de Poblaciones de Vida Silvestre "RUWPA") y WiSP.
Resumen del contenido del repositorio de aprendizaje automático de la UCI (consulte "Base de datos sobre diabetes de los indios Pima" para obtener el conjunto de datos original de 732 registros y notas adicionales).
Código MATLAB para estimación de densidad unidimensional y bidimensional