stringtranslate.com

Media muestral y covarianza

La media muestral ( promedio muestral ) o media empírica ( promedio empírico ) y la covarianza muestral o covarianza empírica son estadísticas calculadas a partir de una muestra de datos sobre una o más variables aleatorias .

La media muestral es el valor promedio (o valor medio ) de una muestra de números tomados de una población más grande de números, donde "población" indica no el número de personas sino la totalidad de los datos relevantes, ya sean recopilados o no. Por conveniencia, se podría utilizar una muestra de las ventas de 40 empresas de Fortune 500 en lugar de observar la población, es decir, las ventas de las 500 empresas. La media muestral se utiliza como estimador de la media poblacional, el valor promedio en toda la población, donde es más probable que la estimación se acerque a la media poblacional si la muestra es grande y representativa. La confiabilidad de la media muestral se estima mediante el error estándar , que a su vez se calcula utilizando la varianza de la muestra. Si la muestra es aleatoria, el error estándar disminuye con el tamaño de la muestra y la distribución de la media muestral se acerca a la distribución normal a medida que aumenta el tamaño de la muestra.

El término "media muestral" también se puede utilizar para referirse a un vector de valores promedio cuando el estadístico observa los valores de varias variables en la muestra, por ejemplo, las ventas, las ganancias y los empleados de una muestra de empresas Fortune 500. En este caso, no hay solo una varianza muestral para cada variable, sino una matriz de varianza-covarianza muestral (o simplemente matriz de covarianza ) que muestra también la relación entre cada par de variables. Esta sería una matriz de 3×3 cuando se consideran 3 variables. La covarianza muestral es útil para juzgar la confiabilidad de las medias muestrales como estimadores y también es útil como estimación de la matriz de covarianza poblacional.

Debido a su facilidad de cálculo y otras características deseables, la media muestral y la covarianza muestral se utilizan ampliamente en estadística para representar la ubicación y dispersión de la distribución de valores en la muestra y para estimar los valores de la población.

Definición de la media muestral

La media muestral es el promedio de los valores de una variable en una muestra, que es la suma de esos valores dividida por el número de valores. Usando notación matemática, si se toma de la población una muestra de N observaciones sobre la variable X , la media muestral es:

Según esta definición, si la muestra (1, 4, 1) se toma de la población (1,1,3,4,0,2,1,0), entonces la media muestral es , en comparación con la media poblacional de . Incluso si una muestra es aleatoria, rara vez es perfectamente representativa, y otras muestras tendrían otras medias muestrales incluso si todas las muestras fueran de la misma población. La muestra (2, 1, 0), por ejemplo, tendría una media muestral de 1.

Si el estadístico está interesado en K variables en lugar de una, y cada observación tiene un valor para cada una de esas K variables, la media muestral general consta de K medias muestrales para variables individuales. Sea la i -ésima observación dibujada independientemente ( i =1,..., N ) sobre la j - ésima variable aleatoria ( j =1,..., K ). Estas observaciones se pueden organizar en N vectores de columna, cada uno con K entradas, denotando el vector de columna K × 1 las i -ésimas observaciones de todas las variables ( i =1,..., N ).

El vector de media muestral es un vector de columna cuyo j -ésimo elemento es el valor promedio de las N observaciones de la j -ésima variable:

Por lo tanto, el vector de media muestral contiene el promedio de las observaciones para cada variable y se escribe

Definición de covarianza muestral

La matriz de covarianza de muestra es una matriz K por K con entradas

donde es una estimación de la covarianza entre la j -ésima variable y la k -ésima variable de la población subyacente a los datos. En términos de los vectores de observación, la covarianza muestral es

Alternativamente, organizar los vectores de observación como las columnas de una matriz, de modo que

,

que es una matriz de K filas y N columnas. Aquí, la matriz de covarianza de la muestra se puede calcular como

,

donde es un vector de unos de N por 1 . Si las observaciones están organizadas como filas en lugar de columnas, ahora lo es un vector de fila 1 × K y es una matriz N × K cuya columna j es el vector de N observaciones en la variable j , luego aplicando transposiciones en los lugares apropiados se obtiene

Al igual que las matrices de covarianza para vectores aleatorios , las matrices de covarianza muestrales son semidefinidas positivas . Para demostrarlo, tenga en cuenta que para cualquier matriz la matriz es semidefinida positiva. Además, una matriz de covarianza es definida positiva si y sólo si el rango de los vectores es K.

Imparcialidad

La media muestral y la matriz de covarianza muestral son estimaciones insesgadas de la media y la matriz de covarianza del vector aleatorio , un vector de fila cuyo j -ésimo elemento ( j = 1, ..., K ) es una de las variables aleatorias. [1] La matriz de covarianza muestral se debe en el denominador en lugar de a una variante de la corrección de Bessel : en resumen, la covarianza muestral se basa en la diferencia entre cada observación y la media muestral, pero la media muestral está ligeramente correlacionada con cada observación ya que se define en términos de todas las observaciones. Si se conoce la media poblacional , la estimación insesgada análoga

usando la media poblacional, tiene en el denominador. Este es un ejemplo de por qué en probabilidad y estadística es esencial distinguir entre variables aleatorias (letras mayúsculas) y realizaciones de las variables aleatorias (letras minúsculas).

La estimación de máxima verosimilitud de la covarianza.

para el caso de distribución gaussiana también tiene N en el denominador. La relación de 1/ N a 1/( N  − 1) se acerca a 1 para  N grande , por lo que la estimación de máxima verosimilitud es aproximadamente igual a la estimación insesgada cuando la muestra es grande.

Distribución de la media muestral

Para cada variable aleatoria, la media muestral es un buen estimador de la media poblacional, donde un "buen" estimador se define como eficiente e insesgado. Por supuesto, es probable que el estimador no sea el valor verdadero de la media poblacional , ya que diferentes muestras extraídas de la misma distribución darán diferentes medias muestrales y, por lo tanto, diferentes estimaciones de la media verdadera. Por tanto, la media muestral es una variable aleatoria , no una constante, y en consecuencia tiene su propia distribución. Para una muestra aleatoria de N observaciones en la j -ésima variable aleatoria, la distribución de la media muestral en sí tiene una media igual a la media poblacional y una varianza igual a , donde es la varianza poblacional.

La media aritmética de una población , o media poblacional, a menudo se denota como μ . [2] La media muestral (la media aritmética de una muestra de valores extraída de la población) es un buen estimador de la media poblacional, ya que su valor esperado es igual a la media poblacional (es decir, es un estimador insesgado ). La media muestral es una variable aleatoria , no una constante, ya que su valor calculado diferirá aleatoriamente dependiendo de qué miembros de la población se muestreen y, en consecuencia, tendrá su propia distribución. Para una muestra aleatoria de n observaciones independientes , el valor esperado de la media muestral es

y la varianza de la media muestral es

Si las muestras no son independientes, sino correlacionadas , entonces se debe tener especial cuidado para evitar el problema de la pseudorreplicación .

Si la población tiene una distribución normal , entonces la media muestral se distribuye normalmente de la siguiente manera:

Si la población no tiene una distribución normal, la media muestral se distribuye aproximadamente normalmente si n es grande y  σ 2 / n  < +∞. Esto es una consecuencia del teorema del límite central .

Muestras ponderadas

En una muestra ponderada, a cada vector (cada conjunto de observaciones individuales de cada una de las K variables aleatorias) se le asigna un peso . Sin pérdida de generalidad, supongamos que los pesos están normalizados :

(Si no es así, divida los pesos por su suma). Entonces el vector medio ponderado viene dado por

y los elementos de la matriz de covarianza ponderada son [3]

Si todas las ponderaciones son iguales, la media ponderada y la covarianza se reducen a la media muestral (sesgada) y la covarianza mencionadas anteriormente.

Crítica

La media muestral y la covarianza muestral no son estadísticas sólidas , lo que significa que son sensibles a los valores atípicos . Como la robustez es a menudo un rasgo deseado, particularmente en aplicaciones del mundo real, alternativas sólidas pueden resultar deseables, en particular estadísticas basadas en cuantiles , como la mediana muestral para la ubicación [4] y el rango intercuartil (IQR) para la dispersión. Otras alternativas incluyen recortar y winsorizar , como en la media recortada y la media winsorizada .

Ver también

Referencias

  1. ^ Richard Arnold Johnson; Dean W. Wichern (2007). Análisis Estadístico Multivariado Aplicado. Pearson-Prentice Hall. ISBN 978-0-13-187715-3. Consultado el 10 de agosto de 2012 .
  2. ^ Bajo colina, LG; Bradfield d. (1998) Introstat , Juta and Company Ltd. ISBN 0-7021-3838-X p. 181 
  3. ^ Mark Galassi, Jim Davies, James Theiler, Brian Gough, Gerard Jungman, Michael Booth y Fabrice Rossi. Biblioteca científica GNU - Manual de referencia, Versión 2.6, 2021. Sección Estadísticas: Muestras ponderadas
  4. ^ The World Question Center 2006: La media muestral, Bart Kosko