En estadística , la puntuación estándar es el número de desviaciones estándar por las cuales el valor de una puntuación bruta (es decir, un valor observado o un punto de datos) está por encima o por debajo del valor medio de lo que se está observando o midiendo. Las puntuaciones brutas por encima de la media tienen puntuaciones estándar positivas, mientras que las que están por debajo de la media tienen puntuaciones estándar negativas.
Se calcula restando la media de la población de una puntuación bruta individual y luego dividiendo la diferencia por la desviación estándar de la población . Este proceso de convertir una puntuación bruta en una puntuación estándar se denomina estandarización o normalización (sin embargo, "normalizar" puede referirse a muchos tipos de proporciones; consulte Normalización para obtener más información).
Las puntuaciones estándar se denominan comúnmente puntuaciones z ; ambos términos pueden utilizarse indistintamente, como en este artículo. Otros términos equivalentes en uso incluyen valor z , estadística z , puntuación normal , variable estandarizada y pull en física de alta energía . [1] [2]
Para calcular una puntuación z es necesario conocer la media y la desviación estándar de la población completa a la que pertenece un punto de datos; si solo se tiene una muestra de observaciones de la población, entonces el cálculo análogo utilizando la media de la muestra y la desviación estándar de la muestra produce la estadística t .
Si se conocen la media y la desviación estándar de la población, una puntuación bruta x se convierte en una puntuación estándar mediante [3]
dónde:
El valor absoluto de z representa la distancia entre esa puntuación bruta x y la media de la población en unidades de desviación estándar. z es negativo cuando la puntuación bruta está por debajo de la media, positivo cuando está por encima.
Para calcular z con esta fórmula es necesario utilizar la media y la desviación estándar de la población, no la media o la desviación estándar de la muestra. Sin embargo, conocer la media y la desviación estándar verdaderas de una población suele ser una expectativa poco realista, excepto en casos como las pruebas estandarizadas , donde se mide a toda la población.
Cuando se desconocen la media y la desviación estándar de la población, la puntuación estándar se puede estimar utilizando la media y la desviación estándar de la muestra como estimaciones de los valores de la población. [4] [5] [6] [7]
En estos casos, la puntuación z viene dada por
dónde:
Aunque siempre debe indicarse, a menudo no se hace la distinción entre el uso de estadísticas de población y de muestra. En ambos casos, el numerador y el denominador de las ecuaciones tienen las mismas unidades de medida, de modo que las unidades se cancelan mediante la división y z queda como una cantidad adimensional .
La puntuación z se utiliza a menudo en la prueba z de las pruebas estandarizadas, que es el análogo de la prueba t de Student para una población cuyos parámetros se conocen, en lugar de estimarse. Como es muy poco habitual conocer la población completa, la prueba t se utiliza mucho más ampliamente.
La puntuación estándar se puede utilizar en el cálculo de intervalos de predicción . Un intervalo de predicción [ L , U ], que consta de un punto final inferior designado L y un punto final superior designado U , es un intervalo tal que una observación futura X se encontrará en el intervalo con alta probabilidad , es decir
Para la puntuación estándar Z de X se obtiene: [8]
Determinando el cuartil z tal que
Sigue lo siguiente:
En aplicaciones de control de procesos, el valor Z proporciona una evaluación del grado en el cual un proceso está funcionando fuera del objetivo.
Cuando las puntuaciones se miden en diferentes escalas, se pueden convertir en puntuaciones z para facilitar la comparación. Dietz et al. [9] dan el siguiente ejemplo, comparando las puntuaciones de los estudiantes en los (antiguos) exámenes SAT y ACT de secundaria. La tabla muestra la media y la desviación estándar de las puntuaciones totales en el SAT y el ACT. Supongamos que el estudiante A obtuvo 1800 puntos en el SAT y el estudiante B 24 puntos en el ACT. ¿Qué estudiante obtuvo un mejor resultado en relación con los demás examinados?
La puntuación z del estudiante A es
La puntuación z del estudiante B es
Debido a que el estudiante A tiene una puntuación z más alta que el estudiante B, el estudiante A tuvo un mejor desempeño en comparación con otros examinados que el estudiante B.
Continuando con el ejemplo de los puntajes ACT y SAT, si se puede suponer además que ambos puntajes se distribuyen normalmente (lo cual es aproximadamente correcto), entonces los puntajes z se pueden usar para calcular el porcentaje de examinados que recibieron puntajes más bajos que los estudiantes A y B.
“Para algunas técnicas multivariadas, como el escalamiento multidimensional y el análisis de conglomerados, el concepto de distancia entre las unidades de los datos suele ser de considerable interés e importancia… Cuando las variables de un conjunto de datos multivariados están en escalas diferentes, tiene más sentido calcular las distancias después de alguna forma de estandarización”. [10]
En el análisis de componentes principales, "las variables medidas en diferentes escalas o en una escala común con rangos muy diferentes suelen estar estandarizadas". [11]
La estandarización de variables antes del análisis de regresión múltiple se utiliza a veces como ayuda para la interpretación. [12] (página 95) afirma lo siguiente.
"La pendiente de regresión estandarizada es la pendiente en la ecuación de regresión si X e Y están estandarizados... La estandarización de X e Y se realiza restando las medias respectivas de cada conjunto de observaciones y dividiéndolas por las respectivas desviaciones estándar... En la regresión múltiple, donde se utilizan varias variables X, los coeficientes de regresión estandarizados cuantifican la contribución relativa de cada variable X".
Sin embargo, Kutner et al. [13] (p. 278) hacen la siguiente advertencia: "... hay que ser cauteloso al interpretar los coeficientes de regresión, ya sean estandarizados o no. La razón es que cuando las variables predictoras están correlacionadas entre sí, ... los coeficientes de regresión se ven afectados por las otras variables predictoras del modelo... Las magnitudes de los coeficientes de regresión estandarizados se ven afectadas no sólo por la presencia de correlaciones entre las variables predictoras, sino también por los espaciamientos de las observaciones de cada una de estas variables. A veces, estos espaciamientos pueden ser bastante arbitrarios. Por lo tanto, normalmente no es prudente interpretar las magnitudes de los coeficientes de regresión estandarizados como reflejo de la importancia comparativa de las variables predictoras".
En estadística matemática , una variable aleatoria X se estandariza restando su valor esperado y dividiendo la diferencia por su desviación estándar.
Si la variable aleatoria en consideración es la media muestral de una muestra aleatoria de X :
Entonces la versión estandarizada es
En la evaluación educativa, la puntuación T es una puntuación estándar desplazada en Z y escalada para tener una media de 50 y una desviación estándar de 10. [14] [15] [16]
En las mediciones de densidad ósea, el T-score es el puntaje estándar de la medición en comparación con la población de adultos sanos de 30 años, y tiene una media habitual de 0 y una desviación estándar de 1. [17]