Modelo probit multivariante

En estadística y econometría , el modelo probit multivariado es una generalización del modelo probit utilizado para estimar conjuntamente varios resultados binarios correlacionados. Por ejemplo, si se cree que las decisiones de enviar al menos un niño a la escuela pública y la de votar a favor de un presupuesto escolar están correlacionadas (ambas decisiones son binarias), entonces el modelo probit multivariado sería apropiado para predecir conjuntamente estas dos opciones sobre una base individual específica. JR Ashford y RR Sowden propusieron inicialmente un enfoque para el análisis probit multivariado. ^[1] Siddhartha Chib y Edward Greenberg ampliaron esta idea y también propusieron métodos de inferencia basados en simulación para el modelo probit multivariado que simplificaron y generalizaron la estimación de parámetros. ^[2]

Ejemplo: probit bivariado

En el modelo probit ordinario, solo hay una variable dependiente binaria y, por lo tanto, solo se utiliza una variable latente . En cambio, en el modelo probit bivariado hay dos variables dependientes binarias y , por lo que hay dos variables latentes: y . Se supone que cada variable observada toma el valor 1 si y solo si su variable latente continua subyacente toma un valor positivo: $Y$ $Y^{*}$ $Y_{1}$ $Y_{2}$ $Y_{1}^{*}$ $Y_{2}^{*}$

Y_{1}={\begin{cases}1&{\text{if }}Y_{1}^{*}>0,\\0&{\text{otherwise}},\end{cases}}

Y_{2}={\begin{cases}1&{\text{if }}Y_{2}^{*}>0,\\0&{\text{otherwise}},\end{cases}}

con

{\begin{cases}Y_{1}^{*}=X_{1}\beta _{1}+\varepsilon _{1}\\Y_{2}^{*}=X_{2}\beta _{2}+\varepsilon _{2}\end{cases}}

{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\end{bmatrix}}\mid X\sim {\mathcal {N}}\left({\begin{bmatrix}0\\0\end{bmatrix}},{\begin{bmatrix}1&\rho \\\rho &1\end{bmatrix}}\right)

El ajuste del modelo probit bivariado implica estimar los valores de y . Para ello, se debe maximizar la probabilidad del modelo . Esta probabilidad es $\beta _{1},\ \beta _{2},$ $\rho$

{\begin{aligned}L(\beta _{1},\beta _{2})={\Big (}\prod &P(Y_{1}=1,Y_{2}=1\mid \beta _{1},\beta _{2})^{Y_{1}Y_{2}}P(Y_{1}=0,Y_{2}=1\mid \beta _{1},\beta _{2})^{(1-Y_{1})Y_{2}}\\[8pt]&{}\qquad P(Y_{1}=1,Y_{2}=0\mid \beta _{1},\beta _{2})^{Y_{1}(1-Y_{2})}P(Y_{1}=0,Y_{2}=0\mid \beta _{1},\beta _{2})^{(1-Y_{1})(1-Y_{2})}{\Big )}\end{aligned}}

Sustituyendo las variables latentes y en las funciones de probabilidad y tomando logaritmos se obtiene $Y_{1}^{*}$ $Y_{2}^{*}$

{\begin{aligned}\sum &{\Big (}Y_{1}Y_{2}\ln P(\varepsilon _{1}>-X_{1}\beta _{1},\varepsilon _{2}>-X_{2}\beta _{2})\\[4pt]&{}\quad {}+(1-Y_{1})Y_{2}\ln P(\varepsilon _{1}<-X_{1}\beta _{1},\varepsilon _{2}>-X_{2}\beta _{2})\\[4pt]&{}\quad {}+Y_{1}(1-Y_{2})\ln P(\varepsilon _{1}>-X_{1}\beta _{1},\varepsilon _{2}<-X_{2}\beta _{2})\\[4pt]&{}\quad {}+(1-Y_{1})(1-Y_{2})\ln P(\varepsilon _{1}<-X_{1}\beta _{1},\varepsilon _{2}<-X_{2}\beta _{2}){\Big )}.\end{aligned}}

Después de reescribir un poco, la función de log-verosimilitud se convierte en:

{\begin{aligned}\sum &{\Big (}Y_{1}Y_{2}\ln \Phi (X_{1}\beta _{1},X_{2}\beta _{2},\rho )\\[4pt]&{}\quad {}+(1-Y_{1})Y_{2}\ln \Phi (-X_{1}\beta _{1},X_{2}\beta _{2},-\rho )\\[4pt]&{}\quad {}+Y_{1}(1-Y_{2})\ln \Phi (X_{1}\beta _{1},-X_{2}\beta _{2},-\rho )\\[4pt]&{}\quad {}+(1-Y_{1})(1-Y_{2})\ln \Phi (-X_{1}\beta _{1},-X_{2}\beta _{2},\rho ){\Big )}.\end{aligned}}

Nótese que es la función de distribución acumulativa de la distribución normal bivariada y en la función de log-verosimilitud se observan variables que son iguales a uno o cero. $\Phi$ $Y_{1}$ $Y_{2}$

Probit multivariante

Para el caso general, donde podemos tomar como elecciones y como individuos u observaciones, la probabilidad de observar una elección es $\mathbf {y_{i}} =(y_{1},...,y_{j}),\ (i=1,...,N)$ $j$ $i$ $\mathbf {y_{i}}$

{\begin{aligned}\Pr(\mathbf {y_{i}} |\mathbf {X_{i}\beta } ,\Sigma )=&\int _{A_{J}}\cdots \int _{A_{1}}f_{N}(\mathbf {y} _{i}^{*}|\mathbf {X_{i}\beta } ,\Sigma )dy_{1}^{*}\dots dy_{J}^{*}\\\Pr(\mathbf {y_{i}} |\mathbf {X_{i}\beta } ,\Sigma )=&\int \mathbb {1} _{y^{*}\in A}f_{N}(\mathbf {y} _{i}^{*}|\mathbf {X_{i}\beta } ,\Sigma )d\mathbf {y} _{i}^{*}\end{aligned}}

Dónde y, $A=A_{1}\times \cdots \times A_{J}$

A_{j}={\begin{cases}(-\infty ,0]&y_{j}=0\\(0,\infty )&y_{j}=1\end{cases}}

La función de log-verosimilitud en este caso sería $\sum _{i=1}^{N}\log \Pr(\mathbf {y_{i}} |\mathbf {X_{i}\beta } ,\Sigma )$

Excepto que, por lo general, no existe una solución en forma cerrada para las integrales en la ecuación de verosimilitud logarítmica. En su lugar, se pueden utilizar métodos de simulación para simular las probabilidades de elección. Los métodos que utilizan el muestreo de importancia incluyen el algoritmo GHK , ^[3] AR (aceptación-rechazo), el método de Stern. También existen enfoques MCMC para este problema, incluidos CRB (método de Chib con Rao-Blackwellización ), CRT (Chib, Ritter, Tanner), ARK (núcleo de aceptación-rechazo) y ASK (núcleo de muestreo adaptativo). ^[4] En Probit-LMM se propone un enfoque variacional que escala a grandes conjuntos de datos. ^[5] $J\leq 2$

Referencias

^ Ashford, JR; Sowden, RR (septiembre de 1970). "Análisis Probit Multivariante". Biometrics . 26 (3): 535–546. doi :10.2307/2529107. JSTOR 2529107. PMID 5480663.
^ Chib, Siddhartha; Greenberg, Edward (junio de 1998). "Análisis de modelos probit multivariados". Biometrika . 85 (2): 347–361. CiteSeerX 10.1.1.198.8541 . doi :10.1093/biomet/85.2.347 – vía Oxford Academic.
^ Hajivassiliou, Vassilis (1994). "Capítulo 40 Métodos de estimación clásicos para modelos LDV utilizando simulación". Manual de econometría . 4 : 2383–2441. doi : 10.1016/S1573-4412(05)80009-1 . ISBN 9780444887665. Número de identificación del sujeto 13232902.
^ Jeliazkov, Ivan (2010). "Perspectivas de MCMC sobre la estimación de verosimilitud simulada". Advances in Econometrics . 26 : 3–39. doi :10.1108/S0731-9053(2010)0000026005. ISBN 978-0-85724-149-8.
^ Mandt, Stephan; Wenzel, Florian; Nakajima, Shinichi; John, Cunningham; Lippert, Christoph; Kloft, Marius (2017). "Modelo lineal mixto probit disperso" (PDF) . Aprendizaje automático . 106 (9–10): 1–22. arXiv : 1507.04777 . doi :10.1007/s10994-017-5652-6. S2CID 11588006.

Lectura adicional

Greene, William H. (2012). "Modelos probit bivariados y multivariados". Análisis econométrico (séptima edición). Prentice-Hall. págs. 778–799. ISBN 978-0-13-139538-1.