stringtranslate.com

Modo (estadísticas)

En estadística , la moda es el valor que aparece con mayor frecuencia en un conjunto de valores de datos. [1] Si X es una variable aleatoria discreta, la moda es el valor x en el que la función de masa de probabilidad toma su valor máximo (es decir, x =argmax x i P( X = x i ) ). En otras palabras, es el valor que tiene más probabilidades de ser muestreado.

Al igual que la media y la mediana estadística , la moda es una forma de expresar, en un número (normalmente) único, información importante sobre una variable aleatoria o una población . El valor numérico de la moda es el mismo que el de la media y la mediana en una distribución normal , y puede ser muy diferente en distribuciones muy asimétricas .

La moda no es necesariamente única en una distribución discreta dada , ya que la función de masa de probabilidad puede tomar el mismo valor máximo en varios puntos x 1 , x 2 , etc. El caso más extremo ocurre en distribuciones uniformes , donde todos los valores ocurren con la misma frecuencia.

A menudo se considera que una moda de una distribución de probabilidad continua es cualquier valor x en el que su función de densidad de probabilidad tiene un valor máximo local. [2] Cuando la función de densidad de probabilidad de una distribución continua tiene múltiples máximos locales, es común referirse a todos los máximos locales como modas de la distribución, por lo que cualquier pico es una moda. Esta distribución continua se denomina multimodal (a diferencia de unimodal ).

En distribuciones unimodales simétricas , como la distribución normal , la media (si está definida), la mediana y la moda coinciden. Para las muestras, si se sabe que provienen de una distribución unimodal simétrica, la media muestral se puede utilizar como estimación de la moda poblacional.

Modo de una muestra

La moda de una muestra es el elemento que ocurre con mayor frecuencia en la colección. Por ejemplo, la moda de la muestra [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] es 6. Dada la lista de datos [1, 1, 2, 4, 4] su modo no es único. En tal caso, se dice que un conjunto de datos es bimodal , mientras que un conjunto con más de dos modas puede describirse como multimodal .

Para una muestra de una distribución continua, como [0,935..., 1,211..., 2,430..., 3,668..., 3,874...], el concepto no se puede utilizar en su forma original, ya que no hay dos valores. será exactamente el mismo, por lo que cada valor ocurrirá exactamente una vez. Para estimar la moda de la distribución subyacente, la práctica habitual es discretizar los datos asignando valores de frecuencia a intervalos de igual distancia, como para hacer un histograma , reemplazando efectivamente los valores por los puntos medios de los intervalos a los que están asignados. La moda es entonces el valor donde el histograma alcanza su punto máximo. Para muestras pequeñas o medianas, el resultado de este procedimiento es sensible a la elección del ancho del intervalo si se elige demasiado estrecho o demasiado amplio; normalmente uno debería tener una fracción considerable de los datos concentrados en un número relativamente pequeño de intervalos (5 a 10), mientras que la fracción de los datos que quedan fuera de estos intervalos también es considerable. Un enfoque alternativo es la estimación de la densidad del núcleo , que esencialmente difumina las muestras puntuales para producir una estimación continua de la función de densidad de probabilidad que puede proporcionar una estimación de la moda.

El siguiente ejemplo de código MATLAB (u Octave ) calcula el modo de una muestra:

X = ordenar ( x ); % x es un índice de conjunto de datos de vector de columna = find ( diff ([ X ; realmax ]) > 0 ); % de índices donde los valores repetidos cambian [ modelL , i ] = max ( diff ([ 0 ; indices ])); % de longitud de persistencia más larga de valores repetidos modo = X ( índices ( i ));                

El algoritmo requiere como primer paso ordenar la muestra en orden ascendente. Luego calcula la derivada discreta de la lista ordenada y encuentra los índices donde esta derivada es positiva. Luego calcula la derivada discreta de este conjunto de índices, localiza el máximo de esta derivada de índices y finalmente evalúa la muestra ordenada en el punto donde ocurre ese máximo, que corresponde al último miembro del tramo de valores repetidos.

Comparación de media, mediana y moda.

Visualización geométrica de la moda, mediana y media de una función de densidad de probabilidad arbitraria. [3]

Usar

A diferencia de la media y la mediana, el concepto de moda también tiene sentido para los " datos nominales " (es decir, que no constan de valores numéricos en el caso de la media, ni siquiera de valores ordenados en el caso de la mediana). Por ejemplo, tomando una muestra de apellidos coreanos , se podría encontrar que " Kim " aparece con más frecuencia que cualquier otro nombre. Entonces "Kim" sería la moda de la muestra. En cualquier sistema de votación donde una pluralidad determina la victoria, un único valor modal determina al vencedor, mientras que un resultado multimodal requeriría algún procedimiento de desempate.

A diferencia de la mediana, el concepto de moda tiene sentido para cualquier variable aleatoria que asuma valores de un espacio vectorial , incluidos los números reales (un espacio vectorial unidimensional) y los números enteros (que pueden considerarse incrustados en los reales). Por ejemplo, una distribución de puntos en el plano normalmente tendrá una media y una moda, pero el concepto de mediana no se aplica. La mediana tiene sentido cuando existe un orden lineal de los valores posibles. Las generalizaciones del concepto de mediana a espacios de dimensiones superiores son la mediana geométrica y el punto central .

Unicidad y definición

Para algunas distribuciones de probabilidad , el valor esperado puede ser infinito o indefinido, pero si está definido, es único. La media de una muestra (finita) siempre está definida. La mediana es el valor tal que las fracciones que no la superan y las que no quedan por debajo son al menos 1/2 cada una. No es necesariamente único, pero nunca infinito o totalmente indefinido. Para una muestra de datos, es el valor "a mitad de camino" cuando la lista de valores está ordenada en valores crecientes, mientras que normalmente para una lista de longitud par se toma el promedio numérico de los dos valores más cercanos a "a mitad de camino". Finalmente, como se dijo antes, la moda no es necesariamente única. Ciertas distribuciones patológicas (por ejemplo, la distribución de Cantor ) no tienen ningún modo definido. [ cita necesaria ] [4] Para una muestra de datos finita, la moda es uno (o más) de los valores de la muestra.

Propiedades

Suponiendo definición y, por simplicidad, unicidad, las siguientes son algunas de las propiedades más interesantes.

Ejemplo de distribución asimétrica

Un ejemplo de distribución sesgada es la riqueza personal : pocas personas son muy ricas, pero entre ellas algunas son extremadamente ricas. Sin embargo, muchos son bastante pobres.

Comparación de la media , mediana y moda de dos distribuciones log-normales con diferente asimetría .

Una clase bien conocida de distribuciones que pueden ser arbitrariamente sesgadas está dada por la distribución log-normal . Se obtiene transformando una variable aleatoria X que tiene una distribución normal en una variable aleatoria Y = e X. Entonces el logaritmo de la variable aleatoria Y tiene distribución normal, de ahí el nombre.

Tomando la media μ de X como 0, la mediana de Y será 1, independientemente de la desviación estándar σ de X. Esto es así porque X tiene una distribución simétrica, por lo que su mediana también es 0. La transformación de X a Y es monótona, por lo que encontramos la mediana e 0 = 1 para Y.

Cuando X tiene una desviación estándar σ = 0,25, la distribución de Y está débilmente sesgada. Usando fórmulas para la distribución log-normal , encontramos:

De hecho, la mediana se encuentra aproximadamente en un tercio del camino de la media a la moda.

Cuando X tiene una desviación estándar mayor, σ = 1 , la distribución de Y está fuertemente sesgada. Ahora

Aquí la regla general de Pearson falla.

Condición de Van Zwet

Van Zwet derivó una desigualdad que proporciona condiciones suficientes para que se cumpla esta desigualdad. [8] La desigualdad

Moda ≤ Mediana ≤ Media

sostiene si

F( Mediana - x ) + F( Mediana + x ) ≥ 1

para todo x donde F() es la función de distribución acumulativa de la distribución.

Distribuciones unimodales

Se puede demostrar que, para una distribución unimodal, la mediana y la media se encuentran dentro de (3/5) 1/2 ≈ 0,7746 desviaciones estándar entre sí. [9] En símbolos,

¿ Dónde está el valor absoluto?

Se mantiene una relación similar entre la mediana y la moda: se encuentran a una distancia de 3 1/2 ≈ 1,732 desviaciones estándar entre sí:

Historia

El término modo se origina con Karl Pearson en 1895. [10]

Pearson usa el término moda indistintamente con máxima ordenada . En una nota a pie de página dice: "Me ha resultado conveniente utilizar el término moda para la abscisa correspondiente a la ordenada de frecuencia máxima".

Ver también

Referencias

  1. ^ Damodar N. Gujarati . Fundamentos de econometría . McGraw-Hill Irwin. 3ª edición, 2006: pág. 110.
  2. ^ Zhang, C; Mapes, BE; Soden, BJ (2003). "Bimodalidad en vapor de agua tropical". Meteorol QJR. Soc . 129 (594): 2847–2866. Código Bib : 2003QJRMS.129.2847Z. doi :10.1256/qj.02.166. S2CID  17153773.
  3. ^ "Revisión de estadísticas AP: curvas de densidad y distribuciones normales". Archivado desde el original el 2 de abril de 2015 . Consultado el 16 de marzo de 2015 .
  4. ^ Morrison, Kent (23 de julio de 1998). "Caminatas aleatorias con pasos decrecientes" (PDF) . Departamento de Matemáticas, Universidad Estatal Politécnica de California . Archivado desde el original (PDF) el 2 de diciembre de 2015 . Consultado el 16 de febrero de 2007 .
  5. ^ "Relación entre la media, mediana, moda y desviación estándar en una distribución unimodal".
  6. ^ Hippel, Paul T. von (2005). "Media, mediana y sesgo: corregir una regla de un libro de texto". Revista de Educación Estadística . 13 (2). doi : 10.1080/10691898.2005.11910556 .
  7. ^ Bottomley, H. (2004). «Distancia máxima entre la moda y la media de una distribución unimodal» (PDF) . Preimpresión no publicada .
  8. ^ van Zwet, WR (1979). "Media, mediana, modo II". Statistica Neerlandica . 33 (1): 1–5. doi :10.1111/j.1467-9574.1979.tb00657.x.
  9. ^ Basu, Sanjib; Dasgupta, Anirban (1997). "La media, mediana y moda de distribuciones unimodales: una caracterización". Teoría de la probabilidad y sus aplicaciones . 41 (2): 210–223. doi :10.1137/S0040585X97975447.
  10. ^ Pearson, Karl (1895). "Contribuciones a la teoría matemática de la evolución. II. Variación sesgada en material homogéneo". Transacciones filosóficas de la Royal Society de Londres A. 186 : 343–414. Código bibliográfico : 1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 .

enlaces externos