Distribución multimodal

**Figura 1.** Una distribución bimodal simple, en este caso una mezcla de dos distribuciones normales con la misma varianza pero medias diferentes. La figura muestra la función de densidad de probabilidad (fdp), que es un promedio igualmente ponderado de las fdp en forma de campana de las dos distribuciones normales. Si los pesos no fueran iguales, la distribución resultante podría seguir siendo bimodal pero con picos de diferentes alturas.

Figura 2. Una distribución bimodal.

**Figura 3.** Una distribución multimodal bivariada

En estadística , una distribución multimodal es una distribución de probabilidad con más de una moda (es decir, más de un pico local de la distribución). Estos aparecen como picos distintos (máximos locales) en la función de densidad de probabilidad , como se muestra en las figuras 1 y 2. Los datos categóricos, continuos y discretos pueden formar distribuciones multimodales. Entre los análisis univariados, las distribuciones multimodales suelen ser bimodales. ^[^{cita requerida}^]

Terminología

Cuando los dos modos son desiguales, el modo mayor se denomina modo mayor y el otro, modo menor. El valor menos frecuente entre los modos se denomina antimodo. La diferencia entre los modos mayor y menor se denomina amplitud . En series temporales, el modo mayor se denomina acrofase y el antimodo, batifase. ^{[ cita requerida ]}

Clasificación de Galtung

Galtung introdujo un sistema de clasificación (AJUS) para distribuciones: ^[1]

A: distribución unimodal – pico en el medio
J: unimodal – pico en cada extremo
U: bimodal – picos en ambos extremos
S: bimodal o multimodal – picos múltiples

Esta clasificación ha sido modificada ligeramente desde entonces:

J: (modificado) – pico a la derecha
L: unimodal – pico a la izquierda
F: sin pico (plano)

Bajo esta clasificación las distribuciones bimodales se clasifican como tipo S o U.

Ejemplos

Las distribuciones bimodales ocurren tanto en matemáticas como en las ciencias naturales.

Distribuciones de probabilidad

Entre las distribuciones bimodales importantes se encuentran la distribución arcoseno y la distribución beta (si ambos parámetros a y b son menores que 1). Otras incluyen la distribución U-cuadrática .

La relación de dos distribuciones normales también se distribuye bimodalmente. Sea

R={\frac {a+x}{b+y}}

donde a y b son constantes y x e y se distribuyen como variables normales con una media de 0 y una desviación estándar de 1. R tiene una densidad conocida que puede expresarse como una función hipergeométrica confluente . ^[2]

La distribución del recíproco de una variable aleatoria distribuida en t es bimodal cuando los grados de libertad son más de uno. De manera similar, el recíproco de una variable distribuida normalmente también se distribuye de manera bimodal.

Una estadística t generada a partir de un conjunto de datos extraídos de una distribución de Cauchy es bimodal. ^[3]

Sucesos en la naturaleza

Ejemplos de variables con distribuciones bimodales incluyen el tiempo entre erupciones de ciertos géiseres , el color de las galaxias , el tamaño de las hormigas tejedoras obreras , la edad de incidencia del linfoma de Hodgkin , la velocidad de inactivación del fármaco isoniazida en adultos estadounidenses, la magnitud absoluta de las novas y los patrones de actividad circadiana de aquellos animales crepusculares que están activos tanto en el crepúsculo matutino como vespertino. En la ciencia pesquera, las distribuciones de longitud multimodal reflejan las diferentes clases de años y, por lo tanto, se pueden utilizar para estimaciones de distribución por edad y crecimiento de la población de peces. ^[4] Los sedimentos generalmente se distribuyen de manera bimodal. Al muestrear galerías mineras que cruzan la roca anfitriona y las vetas mineralizadas, la distribución de las variables geoquímicas sería bimodal. Las distribuciones bimodales también se ven en el análisis del tráfico, donde el tráfico alcanza su pico durante la hora pico de la mañana y luego nuevamente en la hora pico de la tarde. Este fenómeno también se observa en la distribución diaria de agua, ya que la demanda de agua, en forma de duchas, cocina y uso del baño, generalmente alcanza su punto máximo en los períodos de la mañana y la tarde.

Econometría

En los modelos econométricos , los parámetros pueden distribuirse bimodalmente. ^[5]

Orígenes

Matemático

Una distribución bimodal surge comúnmente como una mezcla de dos distribuciones unimodales diferentes (es decir, distribuciones que tienen solo una moda). En otras palabras, la variable aleatoria X distribuida bimodalmente se define como con probabilidad o con probabilidad donde Y y Z son variables aleatorias unimodales y es un coeficiente de mezcla. ${\estilo de visualización Y}$ ${\estilo de visualización \alpha}$ ${\estilo de visualización Z}$ ${\estilo de visualización (1-\alfa ),}$ $0<\alpha <1$

Las mezclas con dos componentes distintos no tienen por qué ser bimodales y las mezclas de dos componentes con densidades de componentes unimodales pueden tener más de dos modos. No existe una conexión inmediata entre el número de componentes de una mezcla y el número de modos de la densidad resultante.

Distribuciones particulares

Las distribuciones bimodales, a pesar de su frecuente aparición en conjuntos de datos, sólo se han estudiado en contadas ocasiones ^{[ cita requerida ]} . Esto puede deberse a las dificultades para estimar sus parámetros con métodos frecuentistas o bayesianos. Entre las que se han estudiado se encuentran

Distribución exponencial bimodal. ^[6]
Distribución alfa-normal asimétrica. ^[7]
Distribución normal bimodal asimétrica. ^[8]
Se ha ajustado una mezcla de distribuciones de Conway-Maxwell-Poisson a datos de recuento bimodal. ^[9]

La bimodalidad también surge naturalmente en la distribución de catástrofes de cúspide .

Biología

En biología se sabe que cinco factores contribuyen a las distribuciones bimodales del tamaño de las poblaciones ^{[ cita requerida ]} :

la distribución inicial de tamaños individuales
la distribución de las tasas de crecimiento entre los individuos
La dependencia del tamaño y del tiempo de la tasa de crecimiento de cada individuo.
Tasas de mortalidad que pueden afectar a cada clase de tamaño de manera diferente
La metilación del ADN en el genoma humano y del ratón.

La distribución bimodal de tamaños de las hormigas tejedoras obreras surge debido a la existencia de dos clases distintas de obreras, a saber, obreras mayores y obreras menores. ^[10]

También se descubre con frecuencia que la distribución de los efectos de aptitud de las mutaciones tanto para genomas completos ^[11]^{[12] como para}genes individuales ^[13] es bimodal, siendo la mayoría de las mutaciones neutrales o letales y relativamente pocas con efectos intermedios.

Propiedades generales

Una mezcla de dos distribuciones unimodales con medias diferentes no es necesariamente bimodal. La distribución combinada de alturas de hombres y mujeres se utiliza a veces como ejemplo de una distribución bimodal, pero de hecho la diferencia en las alturas medias de hombres y mujeres es demasiado pequeña en relación con sus desviaciones estándar para producir bimodalidad cuando se combinan las dos curvas de distribución. ^[14]

Las distribuciones bimodales tienen la propiedad peculiar de que, a diferencia de las distribuciones unimodales, la media puede ser un estimador muestral más robusto que la mediana. ^[15] Esto es claramente así cuando la distribución tiene forma de U, como la distribución de arcoseno. Puede no ser así cuando la distribución tiene una o más colas largas.

Momentos de mezclas

Dejar

f(x)=pg_{1}(x)+(1-p)g_{2}(x)\,

donde g _i es una distribución de probabilidad y p es el parámetro de mezcla.

Los momentos de f ( x ) son ^[16]

\mu =p\mu _{1}+(1-p)\mu _{2}

\nu_{2}=p[\sigma_{1}^{2}+\delta_{1}^{2}]+(1-p)[\sigma_{2}^{2}+\delta_{2}^{2}]

\nu_{3}=p[S_{1}\sigma_{1}^{3}+3\delta_{1}\sigma_{1}^{2}+\delta_{1}^{3}]+(1-p)[S_{2}\sigma_{2}^{3}+3\delta_{2}\sigma_{2}^{2}+\delta_{2}^{3}]

\nu_{4}=p[K_{1}\sigma_{1}^{4}+4S_{1}\delta_{1}\sigma_{1}^{3}+6\delta_{1}^{2}\sigma_{1}^{2}+\delta_{1}^{4}]+(1-p)[K_{2}\sigma_{2}^{4}+4S_{2}\delta_{2}\sigma_{2}^{3}+6\delta_{2}^{2}\sigma_{2}^{2}+\delta_{2}^{4}]

dónde

\mu =\int xf(x)\,dx

\delta _{i}=\mu _{i}-\mu

\nu_{r}=\int (x-\mu)^{r}f(x)\,dx

y S _i y K _i son la asimetría y la curtosis de la i- ^ésima distribución.

Mezcla de dos distribuciones normales

No es raro encontrar situaciones en las que un investigador cree que los datos provienen de una mezcla de dos distribuciones normales. Por ello, esta mezcla se ha estudiado con cierto detalle. ^[17]

Una mezcla de dos distribuciones normales tiene cinco parámetros a estimar: las dos medias, las dos varianzas y el parámetro de mezcla. Una mezcla de dos distribuciones normales con desviaciones estándar iguales es bimodal solo si sus medias difieren en al menos el doble de la desviación estándar común. ^[14] Las estimaciones de los parámetros se simplifican si se puede suponer que las varianzas son iguales (el caso homocedástico ).

Si las medias de las dos distribuciones normales son iguales, entonces la distribución combinada es unimodal. Eisenberger derivó las condiciones para la unimodalidad de la distribución combinada. ^[18] Ray y Lindsay identificaron las condiciones necesarias y suficientes para que una mezcla de distribuciones normales sea bimodal. ^[19]

Una mezcla de dos distribuciones normales de masa aproximadamente iguales tiene una curtosis negativa ya que los dos modos a cada lado del centro de masa reducen efectivamente las colas de la distribución.

Una mezcla de dos distribuciones normales con masa altamente desigual tiene una curtosis positiva ya que la distribución más pequeña alarga la cola de la distribución normal más dominante.

Las mezclas de otras distribuciones requieren la estimación de parámetros adicionales.

Pruebas de unimodalidad

Cuando los componentes de la mezcla tienen varianzas iguales, la mezcla es unimodal si y solo si ^[20] o donde p es el parámetro de mezcla y y donde μ ₁ y μ ₂ son las medias de las dos distribuciones normales y σ es su desviación estándar. $d\leq 1$ $\left\vert \log(1-p)-\log(p)\right\vert \geq 2\log(d-{\sqrt {d^{2}-1}})+2d{\sqrt {d^{2}-1}},$ $d={\frac {\left\vert \mu _{1}-\mu _{2}\right\vert }{2\sigma }},$
La siguiente prueba para el caso p = 1/2 fue descrita por Schilling et al . ^[14] Sea El factor de separación ( S ) es Si las varianzas son iguales entonces S = 1. La densidad de la mezcla es unimodal si y solo si $r={\frac {\sigma _{1}^{2}}{\sigma _{2}^{2}}}.$ $S={\frac {\sqrt {-2+3r+3r^{2}-2r^{3}+2(1-r+r^{2})^{1.5}}}{{\sqrt {r}}(1+{\sqrt {r}})}}.$ $|\mu _{1}-\mu _{2}|<S|\sigma _{1}+\sigma _{2}|.$
Una condición suficiente para la unimodalidad es ^[21] $|\mu_{1}-\mu_{2}|\leq 2\min(\sigma_{1},\sigma_{2}).$
Si las dos distribuciones normales tienen desviaciones estándar iguales, una condición suficiente para la unimodalidad es ^[21] ${\estilo de visualización \sigma ,}$ $|\mu_{1}-\mu_{2}|\leq 2\sigma {\sqrt {1+{\frac {|\log p-\ln(1-p)|}{2}}}}.$

Resumen de estadísticas

Las distribuciones bimodales son un ejemplo común de cómo las estadísticas de resumen, como la media , la mediana y la desviación estándar , pueden ser engañosas cuando se utilizan en una distribución arbitraria. Por ejemplo, en la distribución de la Figura 1, la media y la mediana serían aproximadamente cero, aunque cero no es un valor típico. La desviación estándar también es mayor que la desviación de cada distribución normal.

Aunque se han sugerido varias, actualmente no existe un estadístico resumen (o conjunto de estadísticos) generalmente aceptado para cuantificar los parámetros de una distribución bimodal general. Para una mezcla de dos distribuciones normales, se suelen utilizar las medias y las desviaciones típicas junto con el parámetro de mezcla (el peso de la combinación), lo que da un total de cinco parámetros.

La D de Ashman

Una estadística que puede ser útil es la D de Ashman: ^[22]

D={\frac {\left|\mu _{1}-\mu _{2}\right|}{\sqrt {2(\sigma _{1}^{2}+\sigma _{2}^{2})}}}

donde μ ₁ , μ ₂ son las medias y σ ₁ , σ ₂ son las desviaciones estándar.

Para una mezcla de dos distribuciones normales, se requiere D > 2 para una separación limpia de las distribuciones.

La A de van der Eijk

Esta medida es un promedio ponderado del grado de acuerdo de la distribución de frecuencias. ^[23] Un rango de -1 ( bimodalidad perfecta ) a +1 ( unimodalidad perfecta ). Se define como

A=U\left(1-{\frac {S-1}{K-1}}\right)

donde U es la unimodalidad de la distribución, S el número de categorías que tienen frecuencias distintas de cero y K el número total de categorías.

El valor de U es 1 si la distribución tiene alguna de las tres características siguientes:

Todas las respuestas están en una sola categoría.
Las respuestas se distribuyen uniformemente entre todas las categorías.
Las respuestas se distribuyen uniformemente entre dos o más categorías contiguas, y las demás categorías tienen cero respuestas.

Con distribuciones distintas a estas, los datos deben dividirse en "capas". Dentro de una capa, las respuestas son iguales o cero. Las categorías no tienen que ser contiguas. Se calcula un valor para A para cada capa ( A _i ) y se determina un promedio ponderado para la distribución. Los pesos ( w _i ) para cada capa son el número de respuestas en esa capa. En símbolos

A_{\text{total}}=\sum _{i}w_{i}A_{i}

Una distribución uniforme tiene A = 0: cuando todas las respuestas caen en una categoría A = +1.

Un problema teórico de este índice es que supone que los intervalos están igualmente espaciados, lo que puede limitar su aplicabilidad.

Separación bimodal

Este índice supone que la distribución es una mezcla de dos distribuciones normales con medias ( μ ₁ y μ ₂ ) y desviaciones estándar ( σ ₁ y σ ₂ ): ^[24]

S={\frac {\mu _{1}-\mu _{2}}{2(\sigma _{1}+\sigma _{2})}}

Coeficiente de bimodalidad

El coeficiente de bimodalidad de Sarle b es ^[25]

\beta ={\frac {\gamma ^{2}+1}{\kappa }}

donde γ es la asimetría y κ es la curtosis . La curtosis se define aquí como el cuarto momento estandarizado alrededor de la media. El valor de b se encuentra entre 0 y 1. ^[26] La lógica detrás de este coeficiente es que una distribución bimodal con colas ligeras tendrá una curtosis muy baja, un carácter asimétrico o ambos, todo lo cual aumenta este coeficiente.

La fórmula para una muestra finita es ^[27]

b={\frac {g^{2}+1}{k+{\frac {3(n-1)^{2}}{(n-2)(n-3)}}}}

donde n es el número de elementos en la muestra, g es la asimetría de la muestra y k es el exceso de curtosis de la muestra .

El valor de b para la distribución uniforme es 5/9. Este es también su valor para la distribución exponencial . Los valores mayores que 5/9 pueden indicar una distribución bimodal o multimodal, aunque los valores correspondientes también pueden resultar para distribuciones unimodales muy sesgadas. ^[28] El valor máximo (1.0) se alcanza solo con una distribución de Bernoulli con solo dos valores distintos o la suma de dos funciones delta de Dirac diferentes (una distribución bi-delta).

Se desconoce la distribución de esta estadística. Está relacionada con una estadística propuesta anteriormente por Pearson: la diferencia entre la curtosis y el cuadrado de la asimetría ( véase más adelante ).

Amplitud de bimodalidad

Esto se define como ^[24]

A_{B}={\frac {A_{1}-A_{an}}{A_{1}}}

donde A ₁ es la amplitud del pico más pequeño y A _an es la amplitud del antimodo.

A _B siempre es < 1. Los valores más grandes indican picos más distintos.

Relación bimodal

Esta es la relación entre los picos izquierdo y derecho. ^[24] Matemáticamente

R={\frac {A_{r}}{A_{l}}}

donde A _l y A _r son las amplitudes de los picos izquierdo y derecho respectivamente.

Parámetro de bimodalidad

Este parámetro ( B ) se debe a Wilcock. ^[29]

B={\sqrt {\frac {A_{r}}{A_{l}}}}\suma P_{i}

donde A _l y A _r son las amplitudes de los picos izquierdo y derecho respectivamente y P _i es el logaritmo en base 2 de la proporción de la distribución en el intervalo i ^. El valor máximo de ΣP es 1 pero el valor de B puede ser mayor que éste.

Para utilizar este índice se toma el logaritmo de los valores. Luego, los datos se dividen en intervalos de ancho Φ cuyo valor es log 2. El ancho de los picos se toma como cuatro veces 1/4Φ centrado en sus valores máximos.

Índices de bimodalidad

Índice de Wang

El índice de bimodalidad propuesto por Wang et al. supone que la distribución es una suma de dos distribuciones normales con varianzas iguales pero medias diferentes. ^[30] Se define de la siguiente manera:

\delta ={\frac {|\mu _{1}-\mu _{2}|}{\sigma }}

donde μ ₁ , μ ₂ son las medias y σ es la desviación estándar común.

BI=\delta {\sqrt {p(1-p)}}

donde p es el parámetro de mezcla.

Índice de Sturrock

Sturrock propuso un índice de bimodalidad diferente. ^[31]

Este índice ( B ) se define como

B={\frac {1}{N}}[(\suma _{1}^{N}\cos(2\pi m\gamma )\right)^{2}+\suma _{1}^{N}\sin(2\pi m\gamma )\right)^{2}]

Cuando m = 2 y γ se distribuye uniformemente, B se distribuye exponencialmente. ^[32]

Esta estadística es una forma de periodograma y presenta los problemas habituales de estimación y fuga espectral que son comunes a esta forma de estadística.

Índice de Michele y Accatino

De Michele y Accatino propusieron otro índice de bimodalidad. ^[33] Su índice ( B ) es

B=|\mu -\mu _ {M}|

donde μ es la media aritmética de la muestra y

\mu _{M}={\frac {\sum _{i=1}^{L}m_{i}x_{i}}{\sum _{i=1}^{L}m_{i}}}

donde m _i es el número de puntos de datos en el i- ^ésimo contenedor, x _i es el centro del i- ^ésimo contenedor y L es el número de contenedores.

Los autores sugirieron un valor de corte de 0,1 para B para distinguir entre una distribución bimodal ( B > 0,1) y unimodal ( B < 0,1). No se ofreció ninguna justificación estadística para este valor.

Índice de Sambrook Smith

Sambrook Smith et al . propusieron un índice adicional ( B ) ^[34].

$B=|\phi _{2}-\phi _{1}|{\frac {p_{2}}{p_{1}}}$

donde p ₁ y p ₂ son la proporción contenida en el modo primario (el de mayor amplitud) y secundario (el de menor amplitud) y φ ₁ y φ ₂ son los tamaños φ del modo primario y secundario. El tamaño φ se define como menos uno por el logaritmo del tamaño de los datos llevado a la base 2. Esta transformación se utiliza comúnmente en el estudio de sedimentos.

Los autores recomendaron un valor de corte de 1,5, siendo B mayor que 1,5 para una distribución bimodal y menor que 1,5 para una distribución unimodal. No se proporcionó ninguna justificación estadística para este valor.

El método de Otsu

El método de Otsu para encontrar un umbral de separación entre dos modos se basa en minimizar la cantidad donde n _i es el número de puntos de datos en la i ^ésima subpoblación, σ _i² es la varianza de la i ^ésima subpoblación, m es el tamaño total de la muestra y σ ² es la varianza de la muestra. Algunos investigadores (particularmente en el campo del procesamiento de imágenes digitales ) han aplicado esta cantidad de manera más amplia como un índice para detectar la bimodalidad, donde un valor pequeño indica una distribución más bimodal. ^[35] ${\frac {n_{1}\sigma _{1}^{2}+n_{2}\sigma _{2}^{2}}{m\sigma ^{2}}}$

Pruebas estadísticas

Hay varias pruebas disponibles para determinar si un conjunto de datos está distribuido de manera bimodal (o multimodal).

Métodos gráficos

En el estudio de los sedimentos, el tamaño de las partículas es frecuentemente bimodal. Empíricamente, se ha encontrado útil representar gráficamente la frecuencia en función del logaritmo (tamaño) de las partículas. ^[36]^[37] Esto generalmente proporciona una separación clara de las partículas en una distribución bimodal. En aplicaciones geológicas, el logaritmo normalmente se toma en base 2. Los valores transformados en logaritmo se denominan unidades phi (Φ). Este sistema se conoce como la escala Krumbein (o phi).

Un método alternativo consiste en representar gráficamente el logaritmo del tamaño de la partícula en función de la frecuencia acumulada. Este gráfico suele constar de dos líneas razonablemente rectas con una línea de conexión correspondiente al antimodo.

Estadística

Se pueden derivar valores aproximados para varias estadísticas a partir de los gráficos. ^[36]

{\mathit {Mean}}={\frac {\phi _{16}+\phi _{50}+\phi _{84}}{3}}

{\mathit {StdDev}}={\frac {\phi _{84}-\phi _{16}}{4}}+{\frac {\phi _{95}-\phi _{5}}{6.6}}

{\mathit {Skew}}={\frac {\phi _{84}+\phi _{16}-2\phi _{50}}{2(\phi _{84}-\phi _{16})}}+{\frac {\phi _{95}+\phi _{5}-2\phi _{50}}{2(\phi _{95}-\phi _{5})}}

{\mathit {Kurt}}={\frac {\phi _{95}-\phi _{5}}{2.44(\phi _{75}-\phi _{25})}}

donde Mean es la media, StdDev es la desviación estándar, Skew es la asimetría, Kurt es la curtosis y φ _x es el valor de la variable φ en el x- ^ésimo porcentaje de la distribución.

Distribución unimodal vs. distribución bimodal

En 1894, Pearson fue el primero en idear un procedimiento para comprobar si una distribución podía resolverse en dos distribuciones normales. ^{[38] Este método requería la solución de un}polinomio de noveno orden . En un artículo posterior, Pearson informó que para cualquier asimetría de distribución ² + 1 < curtosis. ^[26] Más tarde, Pearson demostró que ^[39]

b_{2}-b_{1}\geq 1

donde b ₂ es la curtosis y b ₁ es el cuadrado de la asimetría. La igualdad se cumple solo para la distribución de Bernoulli de dos puntos o la suma de dos funciones delta de Dirac diferentes . Estos son los casos más extremos de bimodalidad posibles. La curtosis en ambos casos es 1. Como ambos son simétricos, su asimetría es 0 y la diferencia es 1.

Baker propuso una transformación para convertir una distribución bimodal en una unimodal. ^[40]

Se han propuesto varias pruebas de unimodalidad versus bimodalidad: Haldane sugirió una basada en segundas diferencias centrales. ^[41] Larkin introdujo más tarde una prueba basada en la prueba F; ^[42] Benett creó una basada en la prueba G de Fisher . ^[43] Tokeshi propuso una cuarta prueba. ^[44]^[45] Holzmann y Vollmer propusieron una prueba basada en una razón de verosimilitud. ^[20]

Se ha propuesto un método basado en las pruebas de puntuación y de Wald. ^[46] Este método puede distinguir entre distribuciones unimodales y bimodales cuando se conocen las distribuciones subyacentes.

Pruebas antimodo

Se conocen pruebas estadísticas para el antimodo. ^[47]

El método de Otsu

El método de Otsu se emplea comúnmente en gráficos de computadora para determinar la separación óptima entre dos distribuciones.

Pruebas generales

Para comprobar si una distribución es distinta a unimodal, se han ideado varias pruebas adicionales: la prueba de ancho de banda, ^[48] la prueba de inclinación, ^[49] la prueba de exceso de masa, ^[50] la prueba MAP, ^[51] la prueba de existencia de modo, ^[52] la prueba runt, ^[53]^[54] la prueba de amplitud, ^[55] y la prueba de silla de montar.

Hay una implementación de la prueba dip disponible para el lenguaje de programación R. [ ^56] Los valores p para los valores estadísticos dip varían entre 0 y 1. Los valores p menores a 0,05 indican multimodalidad significativa y los valores p mayores a 0,05 pero menores a 0,10 sugieren multimodalidad con significancia marginal. ^[57]

Prueba de Silverman

Silverman introdujo un método de arranque para el número de modos. ^[48] La prueba utiliza un ancho de banda fijo que reduce la potencia de la prueba y su interpretabilidad. En densidades suavizadas, puede haber un número excesivo de modos cuyo conteo durante el arranque es inestable.

Prueba de Bajgier-Aggarwal

Bajgier y Aggarwal propusieron una prueba basada en la curtosis de la distribución. ^[58]

Casos especiales

Hay pruebas adicionales disponibles para una serie de casos especiales:

Mezcla de dos distribuciones normales

Un estudio de una mezcla de densidad de datos de dos distribuciones normales encontró que la separación en las dos distribuciones normales era difícil a menos que las medias estuvieran separadas por 4 a 6 desviaciones estándar. ^[59]

En astronomía, el algoritmo Kernel Mean Matching se utiliza para decidir si un conjunto de datos pertenece a una única distribución normal o a una mezcla de dos distribuciones normales.

Distribución beta-normal

Esta distribución es bimodal para ciertos valores de sus parámetros. Se ha descrito una prueba para estos valores. ^[60]

Estimación de parámetros y curvas de ajuste

Suponiendo que se sabe que la distribución es bimodal o que se ha demostrado que lo es mediante una o más de las pruebas anteriores, con frecuencia es conveniente ajustar una curva a los datos, lo que puede resultar difícil.

Los métodos bayesianos pueden ser útiles en casos difíciles.

Software

Dos distribuciones normales

Existe un paquete para R que permite realizar pruebas de bimodalidad. ^[61] Este paquete supone que los datos se distribuyen como una suma de dos distribuciones normales. Si esta suposición no es correcta, los resultados pueden no ser confiables. También incluye funciones para ajustar una suma de dos distribuciones normales a los datos.

Suponiendo que la distribución es una mezcla de dos distribuciones normales, se puede utilizar el algoritmo de maximización de expectativas para determinar los parámetros. Existen varios programas para ello, entre ellos Cluster ^[62] y el paquete R nor1mix ^{[63] .}

Otras distribuciones

El paquete mixtools disponible para R puede probar y estimar los parámetros de varias distribuciones diferentes. ^[64] Hay disponible un paquete para una mezcla de dos distribuciones gamma de cola derecha. ^[65]

Hay varios otros paquetes para R disponibles para ajustar modelos de mezcla; estos incluyen flexmix, ^[66] mcclust, ^[67] agrmt, ^[68] y mixdist. ^[69]

El lenguaje de programación estadística SAS también puede ajustar una variedad de distribuciones mixtas con el procedimiento PROC FREQ.

Número de corredores en un parque según la hora del día (X en horas) en una distribución de probabilidad bimodal

En Python, el paquete Scikit-learn contiene una herramienta para modelar mezclas ^[70]

Ejemplo de aplicación de software

El programa CumFreqA ^[71] para el ajuste de distribuciones de probabilidad compuestas a un conjunto de datos (X) puede dividir el conjunto en dos partes con una distribución diferente. La figura muestra un ejemplo de una distribución de Gumbel reflejada doblemente generalizada como en el ajuste de distribución con ecuaciones de función de distribución acumulativa (CDF):

X < 8,10 : CDF = 1 - exp[-exp{-(0,092X ^ 0,01+935)}]X > 8,10: CDF = 1 - exp[-exp{-(-0,0039X ^ 2,79+1,05)}]

Véase también

Sobredispersión
Modelo de mezcla - Modelos de mezcla gaussiana (GMM)
Distribución de mezcla

Referencias

^ Galtung, J. (1969). Teoría y métodos de la investigación social . Oslo: Universitetsforlaget. ISBN 0-04-300017-7.
^ Fieller E (1932). "La distribución del índice en una población bivariada normal". Biometrika . 24 (3–4): 428–440. doi :10.1093/biomet/24.3-4.428.
^ Fiorio, CV; HajivassILiou, VA; Phillips, PCB (2010). "Razones t bimodales: el impacto de las colas gruesas en la inferencia". The Econometrics Journal . 13 (2): 271–289. doi :10.1111/j.1368-423X.2010.00315.x. S2CID 363740.
^ Introducción a la evaluación de poblaciones de peces tropicales
^ Phillips, PCB (2006). "Una observación sobre la bimodalidad y la instrumentación débil en la estimación de ecuaciones estructurales" (PDF) . Teoría econométrica . 22 (5): 947–960. doi :10.1017/S0266466606060439. S2CID 16775883.
^ Hassan, MY; Hijazi, RH (2010). "Una distribución de potencia exponencial bimodal". Revista de Estadística de Pakistán . 26 (2): 379–396.
^ Elal-Olivero, D (2010). "Distribución alfa-sesgada-normal". Proyecciones Journal of Mathematics . 29 (3): 224–240. doi : 10.4067/s0716-09172010000300006 .
^ Hassan, MY; El-Bassiouni, MY (2016). "Distribución normal asimétrica bimodal". Comunicaciones en Estadística - Teoría y Métodos . 45 (5): 1527–1541. doi :10.1080/03610926.2014.882950. S2CID 124087015.
^ Bosea, S.; Shmuelib, G.; Sura, P.; Dubey, P. (2013). "Ajuste de mezclas Com-Poisson a datos de recuento bimodal" (PDF) . Actas de la Conferencia internacional de 2013 sobre información, gestión de operaciones y estadísticas (ICIOMS2013), Kuala Lumpur, Malasia . págs. 1–8.
^ Weber, NA (1946). "Dimorfismo en la obrera africana Oecophylla y una anomalía (Hym.: Formicidae)" (PDF) . Anales de la Sociedad Entomológica de América . 39 : 7–10. doi :10.1093/aesa/39.1.7.
^ Sanjuán, R (27 de junio de 2010). "Efectos de aptitud mutacional en virus de ARN y ADN monocatenario: patrones comunes revelados por estudios de mutagénesis dirigida al sitio". Philosophical Transactions of the Royal Society of London B: Biological Sciences . 365 (1548): 1975–82. doi :10.1098/rstb.2010.0063. PMC 2880115 . PMID 20478892.
^ Eyre-Walker, A; Keightley, PD (agosto de 2007). "La distribución de los efectos de aptitud de las nuevas mutaciones". Nature Reviews Genetics . 8 (8): 610–8. doi :10.1038/nrg2146. PMID 17637733. S2CID 10868777.
^ Hietpas, RT; Jensen, JD; Bolon, DN (10 de mayo de 2011). "Iluminación experimental de un paisaje de fitness". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 108 (19): 7896–901. Bibcode :2011PNAS..108.7896H. doi : 10.1073/pnas.1016024108 . PMC 3093508 . PMID 21464309.
^ abc Schilling, Mark F.; Watkins, Ann E. ; Watkins, William (2002). "¿La altura humana es bimodal?". The American Statistician . 56 (3): 223–229. doi :10.1198/00031300265. S2CID 53495657.
^ Mosteller, F.; Tukey, JW (1977). Análisis de datos y regresión: un segundo curso de estadística . Reading, Mass.: Addison-Wesley. ISBN 0-201-04854-X.
^ Kim, T.-H.; White, H. (2003). "Sobre una estimación más robusta de asimetría y curtosis: simulación y aplicación al índice S&P 500".
^ Robertson, California; Freidora, JG (1969). "Algunas propiedades descriptivas de mezclas normales". Skandinavisk Aktuarietídskrift . 69 (3–4): 137–146. doi :10.1080/03461238.1969.10404590.
^ Eisenberger, I (1964). "Génesis de distribuciones bimodales". Technometrics . 6 (4): 357–363. doi :10.1080/00401706.1964.10490199.
^ Ray, S; Lindsay, BG (2005). "La topografía de mezclas normales multivariadas". Anales de Estadística . 33 (5): 2042–2065. arXiv : math/0602238 . doi :10.1214/009053605000000417. S2CID 36234163.
^ ab Holzmann, Hajo; Vollmer, Sebastian (2008). "Una prueba de razón de verosimilitud para la bimodalidad en mezclas de dos componentes con aplicación a la distribución regional del ingreso en la UE". AStA Advances in Statistical Analysis . 2 (1): 57–69. doi :10.1007/s10182-008-0057-2. S2CID 14470055.
^ ab Behboodian, J (1970). "Sobre los modos de una mezcla de dos distribuciones normales". Technometrics . 12 (1): 131–139. doi :10.2307/1267357. JSTOR 1267357.
^ Ashman KM; Bird CM; Zepf SE (1994). "Detección de bimodalidad en conjuntos de datos astronómicos". The Astronomical Journal . 108 : 2348–2361. arXiv : astro-ph/9408030 . Código Bibliográfico :1994AJ....108.2348A. doi :10.1086/117248. S2CID 13464256.
^ Van der Eijk, C (2001). "Medición de la concordancia en escalas de calificación ordenadas". Calidad y cantidad . 35 (3): 325–341. doi :10.1023/a:1010374114305. S2CID 189822180.
^ abc Zhang, C; Mapes, BE; Soden, BJ (2003). "Bimodalidad en el vapor de agua tropical". Quarterly Journal of the Royal Meteorological Society . 129 (594): 2847–2866. Código Bibliográfico :2003QJRMS.129.2847Z. doi :10.1256/qj.02.166. S2CID 17153773.
^ Ellison, AM (1987). "Efecto del dimorfismo de las semillas en la dinámica dependiente de la densidad de poblaciones experimentales de Atriplex triangularis (Chenopodiaceae)". American Journal of Botany . 74 (8): 1280–1288. doi :10.2307/2444163. JSTOR 2444163.
^ ab Pearson, K (1916). "Contribuciones matemáticas a la teoría de la evolución, XIX: Segundo suplemento a una memoria sobre variación sesgada". Philosophical Transactions of the Royal Society A . 216 (538–548): 429–457. Bibcode :1916RSPTA.216..429P. doi : 10.1098/rsta.1916.0009 . JSTOR 91092.
^ SAS Institute Inc. (2012). Guía del usuario de SAS/STAT 12.1. Cary, NC: Autor.
^ Pfister, R; Schwarz, KA; Janczyk, M.; Dale, R; Freeman, JB (2013). "Las cosas buenas alcanzan su máximo en pares: una nota sobre el coeficiente de bimodalidad". Frontiers in Psychology . 4 : 700. doi : 10.3389/fpsyg.2013.00700 . PMC 3791391 . PMID 24109465.
^ Wilcock, PR (1993). "El esfuerzo cortante crítico de los sedimentos naturales". Journal of Hydraulic Engineering . 119 (4): 491–505. doi :10.1061/(asce)0733-9429(1993)119:4(491).
^ Wang, J; Wen, S; Symmans, WF; Pusztai, L; Coombes, KR (2009). "El índice de bimodalidad: un criterio para descubrir y clasificar firmas bimodales a partir de datos de perfiles de expresión génica del cáncer". Informática del cáncer . 7 : 199–216. doi :10.4137/CIN.S2846. PMC 2730180 . PMID 19718451.
^ Sturrock, P (2008). "Análisis de bimodalidad en histogramas formados a partir de datos de neutrinos solares de GALLEX y GNO". Física solar . 249 (1): 1–10. arXiv : 0711.0216 . Código Bibliográfico :2008SoPh..249....1S. doi :10.1007/s11207-008-9170-3. S2CID 118389173.
^ Scargle, JD (1982). "Estudios en análisis de series temporales astronómicas. II – Aspectos estadísticos del análisis espectral de datos espaciados de forma desigual". The Astrophysical Journal . 263 (1): 835–853. Bibcode :1982ApJ...263..835S. doi :10.1086/160554.
^ De Michele, C; Accatino, F (2014). "Bimodalidad de la cobertura arbórea en sabanas y bosques que surge del cambio entre dos dinámicas de incendios". PLOS ONE . 9 (3): e91195. Bibcode :2014PLoSO...991195D. doi : 10.1371/journal.pone.0091195 . PMC 3963849 . PMID 24663432.
^ Sambrook Smith, GH; Nicholas, AP; Ferguson, RI (1997). "Medición y definición de sedimentos bimodales: problemas e implicaciones". Investigación de recursos hídricos . 33 (5): 1179–1185. Bibcode :1997WRR....33.1179S. doi : 10.1029/97wr00365 .
^ Chaudhuri, D; Agrawal, A (2010). "Procedimiento de división y fusión para la segmentación de imágenes utilizando un enfoque de detección de bimodalidad". Revista de Ciencias de la Defensa . 60 (3): 290–301. doi :10.14429/dsj.60.356.
^ ab Folk, RL; Ward, WC (1957). "Barra del río Brazos: un estudio sobre la importancia de los parámetros del tamaño del grano". Revista de investigación sedimentaria . 27 (1): 3–26. Código Bibliográfico :1957JSedR..27....3F. doi :10.1306/74d70646-2b21-11d7-8648000102c1865d.
^ Dyer, KR (1970). "Parámetros de tamaño de grano para gravas arenosas". Journal of Sedimentary Research . 40 (2): 616–620. doi :10.1306/74D71FE6-2B21-11D7-8648000102C1865D.
^ Pearson, K (1894). "Contribuciones a la teoría matemática de la evolución: sobre la disección de curvas de frecuencia asimétricas". Philosophical Transactions of the Royal Society A . 185 : 71–90. Bibcode :1894RSPTA.185...71P. doi : 10.1098/rsta.1894.0003 .
^ Pearson, K (1929). "Nota editorial". Biometrika . 21 : 370–375.
^ Baker, GA (1930). "Transformaciones de distribuciones bimodales". Anales de estadística matemática . 1 (4): 334–344. doi : 10.1214/aoms/1177733063 .
^ Haldane, JBS (1951). "Pruebas simples de bimodalidad y bitangencialidad". Anales de eugenesia . 16 (1): 359–364. doi :10.1111/j.1469-1809.1951.tb02488.x. PMID 14953132.
^ Larkin, RP (1979). "Un algoritmo para evaluar la bimodalidad frente a la unimodalidad en una distribución univariada". Métodos e instrumentación de investigación del comportamiento . 11 (4): 467–468. doi : 10.3758/BF03205709 .
^ Bennett, SC (1992). "Dimorfismo sexual de Pteranodon y otros pterosaurios, con comentarios sobre las crestas craneales". Revista de Paleontología de Vertebrados . 12 (4): 422–434. doi :10.1080/02724634.1992.10011472.
^ Tokeshi, M (1992). "Dinámica y distribución en comunidades animales; teoría y análisis". Investigaciones sobre ecología de poblaciones . 34 (2): 249–273. doi :10.1007/bf02514796. S2CID 22912914.
^ Barreto, S; Borges, PAV; Guo, Q (2003). "Un error de tipeo en la prueba de bimodalidad de Tokeshi". Ecología global y biogeografía . 12 (2): 173–174. doi :10.1046/j.1466-822x.2003.00018.x. hdl : 10400.3/1408 .
^ Carolan, AM; Rayner, JCW (2001). "Una muestra prueba la ubicación de los modos de datos no normales". Revista de Matemáticas Aplicadas y Ciencias de la Decisión . 5 (1): 1–19. CiteSeerX 10.1.1.504.4999 . doi : 10.1155/s1173912601000013 .
^ Hartigan, JA (2000). "Prueba de antimodos". En Gaul W; Opitz O; Schader M (eds.). Análisis de datos . Estudios en clasificación, análisis de datos y organización del conocimiento. Springer. págs. 169–181. ISBN 3-540-67731-3.
^ ab Silverman, BW (1981). "Uso de estimaciones de densidad de kernel para investigar la multimodalidad". Journal of the Royal Statistical Society, Serie B . 43 (1): 97–99. Bibcode :1981JRSSB..43...97S. doi :10.1111/j.2517-6161.1981.tb01155.x. JSTOR 2985156.
^ Hartigan, JA; Hartigan, PM (1985). "La prueba de inmersión de la unimodalidad". Anales de Estadística . 13 (1): 70–84. doi : 10.1214/aos/1176346577 .
^ Mueller, DW; Sawitzki, G (1991). "Estimaciones de exceso de masa y pruebas de multimodalidad". Revista de la Asociación Estadounidense de Estadística . 86 (415): 738–746. doi :10.1080/01621459.1991.10475103. JSTOR 2290406.
^ Rozál, GPM Hartigan JA (1994). "La prueba MAP para multimodalidad". Revista de clasificación . 11 (1): 5–36. doi :10.1007/BF01201021. S2CID 118500771.
^ Minnotte, MC (1997). "Pruebas no paramétricas de la existencia de modas". Anales de Estadística . 25 (4): 1646–1660. doi : 10.1214/aos/1031594735 .
^ Hartigan, JA; Mohanty, S (1992). "La prueba RUNT para multimodalidad". Revista de clasificación . 9 : 63–70. doi :10.1007/bf02618468. S2CID 121960832.
^ Andrushkiw RI; Klyushin DD; Petunin YI (2008). "Una nueva prueba de unimodalidad". Teoría de procesos estocásticos . 14 (1): 1–6.
^ Hartigan, JA (1988). "La prueba de amplitud de la multimodalidad". En Bock, HH (ed.). Clasificación y métodos relacionados de análisis de datos . Ámsterdam: Holanda Septentrional. págs. 229–236. ISBN 0-444-70404-3.
^ Ringach, Martin Maechler (originalmente de Fortran y S.-plus por Dario; NYU.edu) (5 de diciembre de 2016). "diptest: Estadística de prueba de inmersión de Hartigan para unimodalidad - Corregida" – vía R-Packages.
^ Freeman; Dale (2012). "Evaluación de la bimodalidad para detectar la presencia de un proceso cognitivo dual" (PDF) . Métodos de investigación del comportamiento . 45 (1): 83–97. doi : 10.3758/s13428-012-0225-x . PMID 22806703. S2CID 14500508.
^ Bajgier SM; Aggarwal LK (1991). "Poderes de las pruebas de bondad de ajuste para detectar distribuciones normales mixtas equilibradas". Medición educativa y psicológica . 51 (2): 253–269. doi :10.1177/0013164491512001. S2CID 121113601.
^ Jackson, PR; Tucker, GT; Woods, HF (1989). "Prueba de bimodalidad en distribuciones de frecuencia de datos que sugieren polimorfismos del metabolismo de fármacos: prueba de hipótesis". British Journal of Clinical Pharmacology . 28 (6): 655–662. doi :10.1111/j.1365-2125.1989.tb03558.x. PMC 1380036 . PMID 2611088.
^ Famoye, Felix; Lee, Carl; Eugene, Nicholas. "Distribución beta-normal: propiedades de bimodalidad y aplicación". Reuniones estadísticas conjuntas - Sección de ciencias físicas e ingeniería (SPES) (PDF) . Sociedad Estadounidense de Estadística. págs. 951–956. Archivado desde el original (PDF) el 4 de marzo de 2016.
^ "Copia archivada" (PDF) . Archivado desde el original (PDF) el 2013-11-03 . Consultado el 2013-11-01 .{{cite web}}: CS1 maint: archived copy as title (link)
^ "Página de inicio del clúster". engineering.purdue.edu .
^ Mächler, Martin (25 de agosto de 2016). "nor1mix: modelos de mezclas normales (1-d) (clases y métodos S3)" – vía R-Packages.
^ Young, Derek; Benaglia, Tatiana; Chauveau, Didier; Hunter, David; Elmore, Ryan; Hettmansperger, Thomas; Thomas, Hoben; Xuan, Fengjuan (10 de marzo de 2017). "mixtools: herramientas para analizar modelos de mezcla finita" – vía R-Packages.
^ "discrimARTs" (PDF) . cran.r-project.org . Consultado el 22 de marzo de 2018 .
^ Gruen, Bettina; Leisch, Friedrich; Sarkar, Deepayan; Mortier, Frederic; Picard, Nicolas (28 de abril de 2017). "flexmix: modelado de mezclas flexibles" – a través de R-Packages.
^ Fraley, Chris; Raftery, Adrian E.; Scrucca, Luca; Murphy, Thomas Brendan; Fop, Michael (21 de mayo de 2017). "mclust: modelado de mezcla gaussiana para agrupamiento basado en modelos, clasificación y estimación de densidad" – a través de R-Packages.
^ Ruedin, Didier (2 de abril de 2016). "acuerdo". cran.r-project.org.
^ Macdonald, Peter; Du, con contribuciones de Juan (29 de octubre de 2012). "mixdist: modelos de distribución de mezclas finitas" – vía R-Packages.
^ "Modelos de mezcla gaussiana". scikit-learn.org . Consultado el 30 de noviembre de 2023 .
^ CumFreq, programa gratuito para ajustar distribuciones de probabilidad a un conjunto de datos. En línea: [1]