stringtranslate.com

Estimación de densidad

Demostración de la estimación de densidad mediante la estimación de densidad Kernel : la densidad real es una mezcla de dos gaussianas centradas en 0 y 3, que se muestran con una curva azul sólida. En cada cuadro, se generan 100 muestras de la distribución, que se muestran en rojo. Centrado en cada muestra, se dibuja un kernel gaussiano en gris. Al promediar las gaussianas se obtiene la estimación de densidad que se muestra en la curva negra discontinua.

En estadística , la estimación de densidad de probabilidad o simplemente estimación de densidad es la construcción de una estimación , basada en datos observados , de una función de densidad de probabilidad subyacente no observable . La función de densidad no observable se considera como la densidad según la cual se distribuye una población grande; los datos generalmente se consideran como una muestra aleatoria de esa población. [1]

Se utilizan diversos métodos para estimar la densidad, incluidas las ventanas Parzen y una variedad de técnicas de agrupamiento de datos , incluida la cuantificación vectorial . La forma más básica de estimación de densidad es un histograma reescalado .

Ejemplo

Densidad estimada de p (glu | diabetes=1) (rojo), p  (glu | diabetes=0) (azul) y p  (glu) (negro)
Probabilidad estimada de p (diabetes=1 | glu)
Probabilidad estimada de p  (diabetes=1 | glu)

Analizaremos los registros de incidencia de diabetes . A continuación se cita textualmente la descripción del conjunto de datos :

Se realizó una prueba de diabetes mellitus a una población de mujeres de al menos 21 años de edad, de ascendencia india Pima y residentes cerca de Phoenix, Arizona, según los criterios de la Organización Mundial de la Salud . Los datos fueron recopilados por el Instituto Nacional de Diabetes y Enfermedades Digestivas y Renales de los Estados Unidos. Utilizamos los 532 registros completos. [2] [3]

En este ejemplo, construimos tres estimaciones de densidad para "glu" ( concentración de glucosa en plasma ), una condicional a la presencia de diabetes, la segunda condicional a la ausencia de diabetes y la tercera no condicional a la diabetes. Las estimaciones de densidad condicionales se utilizan luego para construir la probabilidad de diabetes condicional a "glu".

Los datos "glu" se obtuvieron del paquete MASS [4] del lenguaje de programación R. Dentro de R, ?Pima.try ?Pima.tedan una descripción más completa de los datos.

La media de "glu" en los casos de diabetes es 143,1 y la desviación estándar es 31,26. La media de "glu" en los casos sin diabetes es 110,0 y la desviación estándar es 24,29. De esto se desprende que, en este conjunto de datos, los casos de diabetes están asociados a mayores niveles de "glu". Esto se verá más claro mediante los gráficos de las funciones de densidad estimadas.

La primera figura muestra las estimaciones de densidad de p (glu | diabetes=1), p (glu | diabetes=0) y p (glu). Las estimaciones de densidad son estimaciones de densidad kernel que utilizan un kernel gaussiano. Es decir, se coloca una función de densidad gaussiana en cada punto de datos y se calcula la suma de las funciones de densidad sobre el rango de los datos.

A partir de la densidad de "glu" condicionada a la diabetes, podemos obtener la probabilidad de diabetes condicionada a "glu" mediante la regla de Bayes . Para abreviar, "diabetes" se abrevia "db." en esta fórmula.

La segunda figura muestra la probabilidad posterior estimada p (diabetes=1 | glu). A partir de estos datos, parece que un nivel elevado de "glu" está asociado con la diabetes.

Aplicación y finalidad

Un uso muy natural de las estimaciones de densidad es la investigación informal de las propiedades de un conjunto determinado de datos. Las estimaciones de densidad pueden dar una indicación valiosa de características como la asimetría y la multimodalidad de los datos. En algunos casos, producirán conclusiones que pueden considerarse evidentemente verdaderas, mientras que en otros lo único que harán será señalar el camino hacia un análisis más profundo y/o la recopilación de datos. [5]

Histograma y función de densidad para una distribución de Gumbel [6]

Un aspecto importante de la estadística es a menudo la presentación de los datos al cliente para ofrecer una explicación e ilustración de las conclusiones que podrían haberse obtenido por otros medios. Las estimaciones de densidad son ideales para este propósito, por la sencilla razón de que son bastante fáciles de comprender para quienes no son matemáticos.

Más ejemplos que ilustran el uso de estimaciones de densidad con fines exploratorios y de presentación, incluido el importante caso de datos bivariados. [7]

La estimación de densidad también se utiliza con frecuencia en la detección de anomalías o novedades : [8] si una observación se encuentra en una región de muy baja densidad, es probable que sea una anomalía o una novedad.

Estimación de la densidad del núcleo

Estimación de la densidad del kernel de 100 números aleatorios distribuidos normalmente utilizando diferentes anchos de banda de suavizado.
En estadística , la estimación de densidad de kernel (KDE) es la aplicación del suavizado de kernel para la estimación de densidad de probabilidad , es decir, un método no paramétrico para estimar la función de densidad de probabilidad de una variable aleatoria basada en kernels como pesos . KDE responde a un problema fundamental de suavizado de datos donde se realizan inferencias sobre la población en función de una muestra de datos finita . En algunos campos, como el procesamiento de señales y la econometría, también se denomina método de ventana de Parzen-Rosenblatt, en honor a Emanuel Parzen y Murray Rosenblatt , a quienes generalmente se les atribuye la creación independiente del método en su forma actual. [10] [11] Una de las aplicaciones famosas de la estimación de densidad de kernel es la estimación de las densidades marginales condicionales de clase de los datos cuando se utiliza un clasificador bayesiano ingenuo , que puede mejorar su precisión de predicción. [12]

Véase también

Referencias

  1. ^ Alberto Bernacchia, Simone Pigolotti, Método autoconsistente para la estimación de la densidad, Journal of the Royal Statistical Society Series B: Statistical Methodology, Volumen 73, Número 3, junio de 2011, páginas 407–422, https://doi.org/10.1111/j.1467-9868.2011.00772.x
  2. ^ "Diabetes en mujeres indígenas Pima - Documentación R".
  3. ^ Smith, JW, Everhart, JE, Dickson, WC, Knowler, WC y Johannes, RS (1988). RA Greenes (ed.). "Uso del algoritmo de aprendizaje ADAP para pronosticar la aparición de diabetes mellitus". Actas del Simposio sobre aplicaciones informáticas en la atención médica (Washington, 1988) . Los Alamitos, CA: 261–265. PMC 2245318 . {{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
  4. ^ "Funciones de soporte y conjuntos de datos para Venables y MASS de Ripley".
  5. ^ Silverman, BW (1986). Estimación de densidad para estadísticas y análisis de datos. Chapman y Hall. ISBN 978-0412246203.
  6. ^ Una calculadora para distribuciones de probabilidad y funciones de densidad
  7. ^ Geof H., Givens (2013). Estadística computacional. Wiley. pág. 330. ISBN 978-0-470-53331-4
  8. ^ Pimentel, Marco AF; Clifton, David A.; Clifton, Lei; Tarassenko, Lionel (2 de enero de 2014). "Una revisión de la detección de novedades". Procesamiento de señales . 99 (junio de 2014): 215–249. doi :10.1016/j.sigpro.2013.12.026.
  9. ^ Una ilustración de histogramas y funciones de densidad de probabilidad
  10. ^ Rosenblatt, M. (1956). "Observaciones sobre algunas estimaciones no paramétricas de una función de densidad". Anales de estadística matemática . 27 (3): 832–837. doi : 10.1214/aoms/1177728190 .
  11. ^ Parzen, E. (1962). "Sobre la estimación de una función de densidad de probabilidad y un modo". Anales de estadística matemática . 33 (3): 1065–1076. doi : 10.1214/aoms/1177704472 . JSTOR  2237880.
  12. ^ Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome H. (2001). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción: con 200 ilustraciones a todo color . Nueva York: Springer. ISBN 0-387-95284-5.OCLC 46809224  .

Fuentes

Enlaces externos