La media muestral ( promedio muestral ) o media empírica ( promedio empírico ), y la covarianza muestral o covarianza empírica son estadísticas calculadas a partir de una muestra de datos sobre una o más variables aleatorias .
La media muestral es el valor promedio (o valor medio ) de una muestra de números tomados de una población mayor de números, donde "población" no indica el número de personas sino la totalidad de los datos relevantes, ya sea que se hayan recopilado o no. Se puede utilizar una muestra de las ventas de 40 empresas de Fortune 500 por conveniencia en lugar de observar la población, las ventas de las 500 empresas. La media muestral se utiliza como estimador de la media poblacional, el valor promedio en toda la población, donde es más probable que la estimación esté cerca de la media poblacional si la muestra es grande y representativa. La confiabilidad de la media muestral se estima utilizando el error estándar , que a su vez se calcula utilizando la varianza de la muestra. Si la muestra es aleatoria, el error estándar disminuye con el tamaño de la muestra y la distribución de la media muestral se aproxima a la distribución normal a medida que aumenta el tamaño de la muestra.
El término "media de la muestra" también se puede utilizar para referirse a un vector de valores promedio cuando el estadístico está observando los valores de varias variables en la muestra, por ejemplo, las ventas, las ganancias y los empleados de una muestra de empresas de Fortune 500. En este caso, no solo hay una varianza de la muestra para cada variable, sino una matriz de varianza-covarianza de la muestra (o simplemente matriz de covarianza ) que muestra también la relación entre cada par de variables. Esta sería una matriz de 3 × 3 cuando se consideran 3 variables. La covarianza de la muestra es útil para juzgar la confiabilidad de las medias de la muestra como estimadores y también es útil como una estimación de la matriz de covarianza de la población.
Debido a su facilidad de cálculo y otras características deseables, la media de la muestra y la covarianza de la muestra se utilizan ampliamente en estadística para representar la ubicación y dispersión de la distribución de valores en la muestra y para estimar los valores de la población.
La media muestral es el promedio de los valores de una variable en una muestra, que es la suma de esos valores dividida por el número de valores. Utilizando la notación matemática, si se toma una muestra de N observaciones de la variable X de la población, la media muestral es:
Según esta definición, si la muestra (1, 4, 1) se toma de la población (1,1,3,4,0,2,1,0), entonces la media muestral es , en comparación con la media poblacional de . Incluso si una muestra es aleatoria, rara vez es perfectamente representativa, y otras muestras tendrían otras medias muestrales incluso si todas las muestras fueran de la misma población. La muestra (2, 1, 0), por ejemplo, tendría una media muestral de 1.
Si el estadístico está interesado en K variables en lugar de una, y cada observación tiene un valor para cada una de esas K variables, la media muestral general consta de K medias muestrales para variables individuales. Sea la i -ésima observación extraída independientemente ( i =1,..., N ) sobre la j -ésima variable aleatoria ( j =1,..., K ). Estas observaciones se pueden organizar en N vectores columna, cada uno con K entradas, y el vector columna K ×1 que da las i -ésimas observaciones de todas las variables se denota ( i =1,..., N ).
El vector de media muestral es un vector columna cuyo elemento j - ésimo es el valor promedio de las N observaciones de la variable j -ésima :
Por lo tanto, el vector de media muestral contiene el promedio de las observaciones para cada variable y se escribe
La matriz de covarianza de muestra es una matriz K por K con entradas
donde es una estimación de la covarianza entre la variable j y la variable k de la población subyacente a los datos. En términos de los vectores de observación, la covarianza de la muestra es
Alternativamente, organizar los vectores de observación como columnas de una matriz, de modo que
que es una matriz de K filas y N columnas. Aquí, la matriz de covarianza de muestra se puede calcular como
donde es un vector de unos de N por 1. Si las observaciones se organizan como filas en lugar de columnas, entonces es ahora un vector de fila 1× K y es una matriz N × K cuya columna j es el vector de N observaciones en la variable j , entonces al aplicar transposiciones en los lugares apropiados se obtiene
Al igual que las matrices de covarianza para vectores aleatorios , las matrices de covarianza de muestra son semidefinidas positivas . Para demostrarlo, observe que para cualquier matriz, la matriz es semidefinida positiva. Además, una matriz de covarianza es definida positiva si y solo si el rango de los vectores es K.
La media de la muestra y la matriz de covarianza de la muestra son estimaciones insesgadas de la media y la matriz de covarianza del vector aleatorio , un vector fila cuyo elemento j ( j = 1, ..., K ) es una de las variables aleatorias. [1] La matriz de covarianza de la muestra tiene en el denominador en lugar de debido a una variante de la corrección de Bessel : En resumen, la covarianza de la muestra se basa en la diferencia entre cada observación y la media de la muestra, pero la media de la muestra está ligeramente correlacionada con cada observación ya que se define en términos de todas las observaciones. Si se conoce la media de la población , la estimación insesgada análoga
Utilizando la media poblacional, tiene en el denominador. Este es un ejemplo de por qué en probabilidad y estadística es esencial distinguir entre variables aleatorias (letras mayúsculas) y realizaciones de las variables aleatorias (letras minúsculas).
La estimación de máxima verosimilitud de la covarianza
En el caso de la distribución gaussiana , también hay N en el denominador. La relación entre 1/ N y 1/( N − 1) se acerca a 1 para valores grandes de N , por lo que la estimación de máxima verosimilitud es aproximadamente igual a la estimación no sesgada cuando la muestra es grande.
Para cada variable aleatoria, la media muestral es un buen estimador de la media poblacional, donde un "buen" estimador se define como eficiente e imparcial. Por supuesto, el estimador probablemente no será el valor verdadero de la media poblacional ya que diferentes muestras extraídas de la misma distribución darán diferentes medias muestrales y, por lo tanto, diferentes estimaciones de la media verdadera. Por lo tanto, la media muestral es una variable aleatoria , no una constante, y en consecuencia tiene su propia distribución. Para una muestra aleatoria de N observaciones en la j -ésima variable aleatoria, la distribución de la media muestral en sí tiene una media igual a la media poblacional y una varianza igual a , donde es la varianza poblacional.
La media aritmética de una población , o media poblacional, a menudo se denota μ . [2] La media muestral (la media aritmética de una muestra de valores extraídos de la población) constituye un buen estimador de la media poblacional, ya que su valor esperado es igual a la media poblacional (es decir, es un estimador insesgado ). La media muestral es una variable aleatoria , no una constante, ya que su valor calculado diferirá aleatoriamente dependiendo de qué miembros de la población sean muestreados y, en consecuencia, tendrá su propia distribución. Para una muestra aleatoria de n observaciones independientes , el valor esperado de la media muestral es
y la varianza de la media de la muestra es
Si las muestras no son independientes, sino correlacionadas , entonces se debe tener especial cuidado para evitar el problema de la pseudorreplicación .
Si la población se distribuye normalmente , entonces la media de la muestra se distribuye normalmente de la siguiente manera:
Si la población no se distribuye normalmente, la media de la muestra se distribuye de forma aproximadamente normal si n es grande y σ 2 / n < +∞. Esto es una consecuencia del teorema del límite central .
En una muestra ponderada, a cada vector (cada conjunto de observaciones individuales de cada una de las K variables aleatorias) se le asigna un peso . Sin pérdida de generalidad, supongamos que los pesos están normalizados :
(Si no lo son, divida los pesos por su suma). Entonces el vector de media ponderada viene dado por
y los elementos de la matriz de covarianza ponderada son [3]
Si todos los pesos son iguales, la media ponderada y la covarianza se reducen a la media y covarianza de la muestra (sesgadas) mencionadas anteriormente.
La media de la muestra y la covarianza de la muestra no son estadísticas robustas , lo que significa que son sensibles a los valores atípicos . Como la robustez es a menudo un rasgo deseado, en particular en aplicaciones del mundo real, pueden resultar deseables alternativas robustas, en particular las estadísticas basadas en cuartiles , como la mediana de la muestra para la ubicación [4] y el rango intercuartil (RIC) para la dispersión. Otras alternativas incluyen el recorte y la aplicación de Winsorización , como en la media recortada y la media Winsorizada .