En estadística , una tendencia central (o medida de tendencia central ) es un valor central o típico de una distribución de probabilidad . [1]
Coloquialmente, las medidas de tendencia central suelen denominarse promedios . El término tendencia central data de finales de la década de 1920. [2]
Las medidas de tendencia central más comunes son la media aritmética , la mediana y la moda . Se puede calcular una tendencia media para un conjunto finito de valores o para una distribución teórica, como la distribución normal . Ocasionalmente, los autores utilizan la tendencia central para denotar "la tendencia de los datos cuantitativos a agruparse en torno a algún valor central". [2] [3]
La tendencia central de una distribución normalmente se contrasta con su dispersión o variabilidad ; La dispersión y la tendencia central son las propiedades a menudo caracterizadas de las distribuciones. El análisis puede juzgar si los datos tienen una tendencia central fuerte o débil en función de su dispersión.
Lo siguiente se puede aplicar a datos unidimensionales. Dependiendo de las circunstancias, puede ser apropiado transformar los datos antes de calcular una tendencia central. Algunos ejemplos son elevar al cuadrado los valores o tomar logaritmos. Si una transformación es apropiada y cuál debería ser, depende en gran medida de los datos que se analicen.
Cualquiera de los anteriores se puede aplicar a cada dimensión de datos multidimensionales, pero los resultados pueden no ser invariantes a las rotaciones del espacio multidimensional.
Varias medidas de tendencia central pueden caracterizarse como soluciones a un problema variacional, en el sentido del cálculo de variaciones , es decir, minimizando la variación desde el centro. Es decir, dada una medida de dispersión estadística , se pide una medida de tendencia central que minimice la variación: de modo que la variación desde el centro sea mínima entre todas las opciones de centro. En una broma, "la dispersión precede a la ubicación". Estas medidas se definen inicialmente en una dimensión, pero pueden generalizarse a múltiples dimensiones. Este centro puede ser único o no. En el sentido de L p espacios , la correspondencia es:
Las funciones asociadas se denominan p -normas : respectivamente 0-"norma", 1-norma, 2-norma y ∞-norma. La función correspondiente al espacio L 0 no es una norma y, por lo tanto, a menudo se la menciona entre comillas: 0-"norma".
En ecuaciones, para un conjunto de datos dado (finito) X , considerado como un vector x = ( x 1 ,…, x n ) , la dispersión alrededor de un punto c es la "distancia" de x al vector constante c = ( c ,…, c ) en la p -norma (normalizada por el número de puntos n ):
Para p = 0 y p = ∞ estas funciones se definen tomando límites, respectivamente como p → 0 y p → ∞ . Para p = 0 los valores límite son 0 0 = 0 y a 0 = 0 o a ≠ 0 , por lo que la diferencia se convierte en simplemente igualdad, por lo que la norma 0 cuenta el número de puntos desiguales . Para p = ∞ domina el número más grande y, por tanto, la norma ∞ es la diferencia máxima.
La media ( L 2 centro) y el rango medio ( L ∞ centro) son únicos (cuando existen), mientras que la mediana ( L 1 centro) y la moda ( L 0 centro) no son en general únicos. Esto puede entenderse en términos de convexidad de las funciones asociadas ( funciones coercitivas ).
La norma 2 y la norma ∞ son estrictamente convexas y, por lo tanto (mediante optimización convexa), el minimizador es único (si existe) y existe para distribuciones acotadas. Por tanto, la desviación estándar respecto de la media es menor que la desviación estándar respecto de cualquier otro punto, y la desviación máxima respecto del rango medio es menor que la desviación máxima respecto de cualquier otro punto.
La norma 1 no es estrictamente convexa, mientras que se necesita una convexidad estricta para garantizar la unicidad del minimizador. En consecuencia, la mediana (en este sentido de minimizar) no es en general única y, de hecho, cualquier punto entre los dos puntos centrales de una distribución discreta minimiza la desviación absoluta promedio.
La "norma" 0 no es convexa (por lo tanto, no es una norma). En consecuencia, la moda no es única; por ejemplo, en una distribución uniforme cualquier punto es la moda.
En lugar de un único punto central, se pueden solicitar múltiples puntos de modo que se minimice la variación desde estos puntos. Esto conduce al análisis de conglomerados , donde cada punto del conjunto de datos se agrupa con el "centro" más cercano. Más comúnmente, el uso de la norma 2 generaliza la agrupación de medias a k medias , mientras que el uso de la norma 1 generaliza la mediana (geométrica) a la agrupación de k -medianas . El uso de la norma 0 simplemente generaliza la moda (valor más común) al uso de los k valores más comunes como centros.
A diferencia de las estadísticas de un solo centro, esta agrupación multicéntrica en general no puede calcularse en una expresión de forma cerrada y, en cambio, debe calcularse o aproximarse mediante un método iterativo ; Un enfoque general son los algoritmos de expectativa-maximización .
La noción de "centro" que minimiza la variación se puede generalizar en geometría de la información como una distribución que minimiza la divergencia (una distancia generalizada) de un conjunto de datos. El caso más común es la estimación de máxima verosimilitud , donde la estimación de máxima verosimilitud (MLE) maximiza la probabilidad (minimiza la sorpresa esperada ), que puede interpretarse geométricamente mediante el uso de entropía para medir la variación: la MLE minimiza la entropía cruzada (equivalentemente, entropía relativa , Kullback –Divergencia de Leibler).
Un ejemplo simple de esto es para el centro de datos nominales: en lugar de usar la moda (el único "centro" de un solo valor), a menudo se usa la medida empírica (la distribución de frecuencia dividida por el tamaño de la muestra ) como "centro". . Por ejemplo, dados datos binarios , digamos cara o cruz, si un conjunto de datos consta de 2 caras y 1 cruz, entonces la moda es "cara", pero la medida empírica es 2/3 cara, 1/3 cruz, lo que minimiza la entropía cruzada (sorpresa total) del conjunto de datos. Esta perspectiva también se utiliza en el análisis de regresión , donde los mínimos cuadrados encuentran la solución que minimiza las distancias desde ella, y de manera análoga en la regresión logística , una estimación de máxima verosimilitud minimiza la sorpresa (distancia de información).
Para distribuciones unimodales, los siguientes límites son conocidos y definidos: [4]
donde μ es la media, ν es la mediana, θ es la moda y σ es la desviación estándar.
Para cada distribución, [5] [6]