Distribución marginal

En teoría de probabilidad y estadística , la distribución marginal de un subconjunto de una colección de variables aleatorias es la distribución de probabilidad de las variables contenidas en el subconjunto. Da las probabilidades de varios valores de las variables del subconjunto sin referencia a los valores de las otras variables. Esto contrasta con una distribución condicional , que da probabilidades que dependen de los valores de las otras variables.

Las variables marginales son aquellas variables del subconjunto de variables que se retienen. Estos conceptos son "marginales" porque se pueden encontrar sumando valores en una tabla a lo largo de filas o columnas y escribiendo la suma en los márgenes de la tabla. ^[1] La distribución de las variables marginales (la distribución marginal) se obtiene marginando ( es decir, centrándose en las sumas en el margen) sobre la distribución de las variables que se descartan, y se dice que las variables descartadas han sido marginadas. .

El contexto aquí es que los estudios teóricos que se están llevando a cabo, o el análisis de datos que se está realizando, involucran un conjunto más amplio de variables aleatorias pero que la atención se limita a un número reducido de esas variables. En muchas aplicaciones, un análisis puede comenzar con una colección dada de variables aleatorias, luego extender primero el conjunto definiendo otras nuevas (como la suma de las variables aleatorias originales) y finalmente reducir el número poniendo interés en la distribución marginal de una variable aleatoria. subconjunto (como la suma). Se pueden realizar varios análisis diferentes, cada uno de los cuales trata un subconjunto diferente de variables como distribución marginal.

Definición

Función de masa de probabilidad marginal

Dada una distribución conjunta conocida de dos variables aleatorias discretas , digamos, $X$ e $Y$ , la distribución marginal de cualquiera de las variables ( $X,$ por ejemplo) es la distribución de probabilidad de $X$ cuando no se toman en consideración los valores de $Y.$ Esto se puede calcular sumando la distribución de probabilidad conjunta de todos los valores de $Y.$ Naturalmente, lo contrario también es cierto: la distribución marginal se puede obtener para $Y$ sumando los valores separados de $X.$

{\ Displaystyle p_ {X} (x_ {i}) = \ suma _ {j} p (x_ {i}, y_ {j})}

, y

p_{Y}(y_{j})=\sum _{i}p(x_{i},y_{j})

Una probabilidad marginal siempre se puede escribir como un valor esperado :

p_{X}(x)=\int _{y}p_{X\mid Y}(x\mid y)\,p_{Y}(y)\,\mathrm {d} y=\operatorname {E} _{Y}[p_{X\mid Y}(x\mid y)]\;.

Intuitivamente, la probabilidad marginal de X se calcula examinando la probabilidad condicional de X dado un valor particular de Y y luego promediando esta probabilidad condicional sobre la distribución de todos los valores de Y.

Esto se desprende de la definición del valor esperado (después de aplicar la ley del estadístico inconsciente )

\operatorname {E} _{Y}[f(Y)]=\int _{y}f(y)p_{Y}(y)\,\mathrm {d} y.

Por tanto, la marginación proporciona la regla para la transformación de la distribución de probabilidad de una variable aleatoria Y y otra variable aleatoria $X = g (Y)$ :

p_{X}(x)=\int _ {y}p_{X\mid Y}(x\mid y)\,p_{Y}(y)\,\mathrm {d} y=\int _{y}\delta {\big (}xg(y){\big )}\,p_{Y}(y)\,\mathrm {d} y.

Función de densidad de probabilidad marginal

Dadas dos variables aleatorias continuas X e Y cuya distribución conjunta se conoce, entonces la función de densidad de probabilidad marginal se puede obtener integrando la distribución de probabilidad conjunta , $f$ , sobre Y, y viceversa. Eso es

f_{X}(x)=\int _ {c}^{d}f(x,y)\,dy

f_{Y}(y)=\int _ {a}^{b}f(x,y)\,dx

dónde y . $x\en [a,b]$ $y\en [c,d]$

Función de distribución acumulativa marginal

Es fácil encontrar la función de distribución acumulativa marginal a partir de la función de distribución acumulativa conjunta. Recordar que:

Para variables aleatorias discretas , $F(x,y)=P(X\leq x,Y\leq y)$
Para variables aleatorias continuas , $F(x,y)=\int _ {a}^{x}\int _ {c}^{y}f(x',y')\,dy'dx'$

Si X e Y toman conjuntamente valores en [ a , b ] × [ c , d ] entonces

F_{X}(x)=F(x,d)

F_{Y}(y)=F(b,y)

Si d es ∞, entonces esto se convierte en un límite . Lo mismo para . ${\textstyle F_{X}(x)=\lim _{y\to \infty }F(x,y)}$ $F_{Y}(y)$

Distribución marginal versus distribución condicional

Definición

La probabilidad marginal es la probabilidad de que ocurra un solo evento, independientemente de otros eventos. Una probabilidad condicional , por otro lado, es la probabilidad de que ocurra un evento dado que ya ha ocurrido otro evento específico. Esto significa que el cálculo de una variable depende de otra variable. ^[2]

La distribución condicional de una variable dada otra variable es la distribución conjunta de ambas variables dividida por la distribución marginal de la otra variable. ^[3] Es decir,

Para variables aleatorias discretas , $p_{Y|X}(y|x)=P(Y=y\mid X=x)={\frac {P(X=x,Y=y)}{P_{X}(x) }}$
Para variables aleatorias continuas , $f_{Y|X}(y|x)={\frac {f_{X,Y}(x,y)}{f_{X}(x)}}$

Ejemplo

Supongamos que hay datos de un aula de 200 estudiantes sobre la cantidad de tiempo estudiado ( X ) y el porcentaje de respuestas correctas ( Y ). ^[4] Suponiendo que X e Y son variables aleatorias discretas, la distribución conjunta de X e Y se puede describir enumerando todos los valores posibles de p ( x _i , y _j ), como se muestra en la Tabla 3.

La distribución marginal se puede utilizar para determinar cuántos estudiantes obtuvieron una puntuación de 20 o menos: , es decir, 10 estudiantes o 5%. $p_{Y}(y_{1})=P_{Y}(Y=y_{1})=\sum _{i=1}^{4}P(x_{i},y_{1} )={\frac {2}{200}}+{\frac {8}{200}}={\frac {10}{200}}$

La distribución condicional se puede utilizar para determinar la probabilidad de que un estudiante que estudió 60 minutos o más obtenga una puntuación de 20 o menos: , lo que significa que hay aproximadamente un 11% de probabilidad de obtener una puntuación de 20 después de haber estudiado durante al menos 60 minutos. $p_{Y|X}(y_{1}|x_{4})=P(Y=y_{1}|X=x_{4})={\frac {P(X=x_{4} ,Y=y_{1})}{P(X=x_{4})}}={\frac {8/200}{70/200}}={\frac {8}{70}}={\ fracción {4}{35}}$

Ejemplo del mundo real

Supongamos que se va a calcular la probabilidad de que un peatón sea atropellado por un coche mientras cruza la calle por un paso de peatones, sin prestar atención al semáforo. Sea H una variable aleatoria discreta que toma un valor de {Hit, Not Hit}. Sea L (para semáforo) una variable aleatoria discreta que toma un valor de {Rojo, Amarillo, Verde}.

De manera realista, H dependerá de L. Es decir, P(H = Hit) tomará diferentes valores dependiendo de si L es rojo, amarillo o verde (y lo mismo ocurre con P(H = Not Hit)). Una persona, por ejemplo, tiene muchas más probabilidades de ser atropellada por un coche cuando intenta cruzar mientras las luces del tráfico perpendicular están en verde que si están en rojo. En otras palabras, para cualquier par posible de valores para H y L, se debe considerar la distribución de probabilidad conjunta de H y L para encontrar la probabilidad de que ese par de eventos ocurran juntos si el peatón ignora el estado de la luz.

Sin embargo, al intentar calcular la probabilidad marginal P(H = Hit), lo que se busca es la probabilidad de que H = Hit en la situación en la que se desconoce el valor particular de L y en la que el peatón ignora el estado de la luz. . En general, un peatón puede ser atropellado si las luces están en rojo O si las luces están en amarillo O si las luces están en verde. Entonces, la respuesta para la probabilidad marginal se puede encontrar sumando P(H | L) para todos los valores posibles de L, con cada valor de L ponderado por su probabilidad de ocurrir.

Aquí hay una tabla que muestra las probabilidades condicionales de ser golpeado, dependiendo del estado de las luces. (Tenga en cuenta que las columnas de esta tabla deben sumar 1 porque la probabilidad de ser golpeado o no es 1 independientemente del estado de la luz).

Para encontrar la distribución de probabilidad conjunta, se requieren más datos. Por ejemplo, supongamos que P(L = rojo) = 0,2, P(L = amarillo) = 0,1 y P(L = verde) = 0,7. Multiplicar cada columna de la distribución condicional por la probabilidad de que ocurra esa columna da como resultado la distribución de probabilidad conjunta de H y L, dada en el bloque central de entradas de 2×3. (Tenga en cuenta que las celdas de este bloque de 2 × 3 suman 1).

La probabilidad marginal P(H = Hit) es la suma 0,572 a lo largo de la fila H = Hit de esta tabla de distribución conjunta, ya que esta es la probabilidad de ser golpeado cuando las luces están en rojo O amarillo O verde. De manera similar, la probabilidad marginal de que P(H = No acertado) sea la suma a lo largo de la fila H = No acertado.

Distribuciones multivariadas

Muchas muestras de una distribución normal bivariada. Las distribuciones marginales se muestran en rojo y azul. La distribución marginal de X también se aproxima creando un histograma de las coordenadas X sin considerar las coordenadas Y.

Para distribuciones multivariadas , se aplican fórmulas similares a las anteriores interpretando los símbolos X y/o Y como vectores. En particular, cada suma o integración sería sobre todas las variables excepto las contenidas en X. ^[5]

Eso significa que si X ₁ , X ₂ ,…, X _n son variables aleatorias discretas , entonces la función de masa de probabilidad marginal debería ser

p_{X_{i}}(k)=\sum p(x_{1},x_{2},\dots ,x_{i-1},k,x_{i+1},\dots, x_ {n});

X ₁X ₂X _nvariables aleatorias continuasfunción de densidad de probabilidad

f_{X_{i}}(x_{i})=\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\int _{-\infty }^{\infty }\cdots \int _{-\infty }^{\infty }f(x_{1},x_{2},\dots ,x_{n})dx_{1}dx_{2}\ cdots dx_{i-1}dx_{i+1}\cdots dx_{n}.

Ver también

Referencias

^ Trumpler, Robert J. y Harold F. Weaver (1962). Astronomía estadística . Publicaciones de Dover. págs. 32-33.
^ "Distribuciones de probabilidad marginal y condicional: definición y ejemplos". Estudio.com . Consultado el 16 de noviembre de 2019 .
^ "Examen P [Matemáticas FSU]". www.math.fsu.edu . Consultado el 16 de noviembre de 2019 .
^ Distribuciones marginales y condicionales , consultado el 16 de noviembre de 2019.
^ Una introducción moderna a la probabilidad y la estadística: comprender por qué y cómo . Dekking, Michel, 1946-. Londres: Springer. 2005.ISBN 9781852338961. OCLC 262680588.{{cite book}}: CS1 maint: others (link)

Bibliografía

Everitt, BS; Skrondal, A. (2010). Diccionario de estadística de Cambridge . Prensa de la Universidad de Cambridge .
Dekking, FM; Kraaikamp, C.; Lopuhaä, HP; Meester, LE (2005). Una introducción moderna a la probabilidad y la estadística . Londres: Springer. ISBN 9781852338961.