stringtranslate.com

Modelo probit

En estadística , un modelo probit es un tipo de regresión donde la variable dependiente puede tomar solo dos valores, por ejemplo, casado o soltero. La palabra es un acrónimo de probabilidad + unidad . [ 1] El propósito del modelo es estimar la probabilidad de que una observación con características particulares caiga en una categoría específica; además, clasificar las observaciones en función de sus probabilidades predichas es un tipo de modelo de clasificación binaria .

Un modelo probit es una especificación popular para un modelo de respuesta binaria . Como tal, trata el mismo conjunto de problemas que la regresión logística utilizando técnicas similares. Cuando se ve en el marco del modelo lineal generalizado , el modelo probit emplea una función de enlace probit . [2] Se estima con mayor frecuencia utilizando el procedimiento de máxima verosimilitud , [3] dicha estimación se denomina regresión probit .

Marco conceptual

Supongamos que una variable de respuesta Y es binaria , es decir, puede tener solo dos resultados posibles que denotaremos como 1 y 0. Por ejemplo, Y puede representar la presencia/ausencia de una determinada condición, el éxito/fracaso de algún dispositivo, responder sí/no en una encuesta, etc. También tenemos un vector de regresores X , que se supone que influyen en el resultado Y. Específicamente, suponemos que el modelo toma la forma

donde P es la probabilidad y es la función de distribución acumulativa ( CDF ) de la distribución normal estándar . Los parámetros β se estiman típicamente por máxima verosimilitud .

Es posible motivar el modelo probit como un modelo de variable latente . Supongamos que existe una variable aleatoria auxiliar

donde ε ~ N (0, 1). Entonces Y puede considerarse como un indicador de si esta variable latente es positiva:

El uso de la distribución normal estándar no causa ninguna pérdida de generalidad en comparación con el uso de una distribución normal con una media y una desviación estándar arbitrarias, porque agregar una cantidad fija a la media se puede compensar restando la misma cantidad de la intersección, y multiplicar la desviación estándar por una cantidad fija se puede compensar multiplicando los pesos por la misma cantidad.

Para ver que los dos modelos son equivalentes, observe que

Estimación del modelo

Estimación de máxima verosimilitud

Supongamos que el conjunto de datos contiene n unidades estadísticas independientes correspondientes al modelo anterior.

Para la observación única, condicional al vector de entradas de esa observación, tenemos:

donde es un vector de entradas y es un vector de coeficientes.

La probabilidad de una sola observación es entonces

De hecho, si , entonces , y si , entonces .

Dado que las observaciones son independientes y están distribuidas de manera idéntica, entonces la probabilidad de toda la muestra, o la probabilidad conjunta , será igual al producto de las probabilidades de las observaciones individuales:

La función de log-verosimilitud conjunta es entonces

El estimador que maximiza esta función será consistente , asintóticamente normal y eficiente siempre que exista y no sea singular. Se puede demostrar que esta función de log-verosimilitud es globalmente cóncava en , y por lo tanto los algoritmos numéricos estándar para optimización convergerán rápidamente al máximo único.

La distribución asintótica para está dada por

dónde

[ cita requerida ]

y es la Función de Densidad de Probabilidad ( PDF ) de la distribución normal estándar.

También están disponibles métodos de máxima verosimilitud semiparamétricos y no paramétricos para modelos de tipo probit y otros modelos relacionados. [4]

Método de chi-cuadrado mínimo de Berkson

Este método se puede aplicar únicamente cuando existen muchas observaciones de la variable de respuesta que tienen el mismo valor del vector de regresores (esta situación puede denominarse "muchas observaciones por celda"). Más específicamente, el modelo se puede formular de la siguiente manera.

Supongamos que entre n observaciones hay solo T valores distintos de los regresores, que pueden denotarse como . Sea el número de observaciones con y el número de tales observaciones con . Suponemos que efectivamente hay "muchas" observaciones por cada "celda": para cada .

Denotar

Entonces, el estimador de chi-cuadrado mínimo de Berkson es un estimador de mínimos cuadrados generalizado en una regresión de con pesos :

Se puede demostrar que este estimador es consistente (cuando n →∞ y T es fijo), asintóticamente normal y eficiente. [ cita requerida ] Su ventaja es la presencia de una fórmula de forma cerrada para el estimador. Sin embargo, solo tiene sentido realizar este análisis cuando no se dispone de observaciones individuales, sino solo de sus recuentos agregados , , y (por ejemplo, en el análisis del comportamiento electoral).

Muestreo de Gibbs

El muestreo de Gibbs de un modelo probit es posible porque los modelos de regresión suelen utilizar distribuciones normales previas sobre los pesos, y esta distribución es conjugada con la distribución normal de los errores (y, por lo tanto, de las variables latentes Y * ). El modelo puede describirse como

A partir de esto, podemos determinar las densidades condicionales completas necesarias:

El resultado se da en el artículo sobre regresión lineal bayesiana , aunque se especifica con una notación diferente.

El único truco está en las dos últimas ecuaciones. La notación es el corchete de Iverson , a veces escrito o similar. Indica que la distribución debe truncarse dentro del rango dado y reescalarse apropiadamente. En este caso particular, surge una distribución normal truncada . El muestreo de esta distribución depende de cuánto se trunca. Si queda una gran fracción de la masa original, el muestreo se puede hacer fácilmente con muestreo de rechazo : simplemente muestree un número de la distribución no truncada y rechácelo si cae fuera de la restricción impuesta por el truncamiento. Sin embargo, si el muestreo solo se realiza de una pequeña fracción de la masa original (por ejemplo, si el muestreo se realiza de una de las colas de la distribución normal, por ejemplo, si es alrededor de 3 o más, y se desea una muestra negativa), esto será ineficiente y se hace necesario recurrir a otros algoritmos de muestreo. El muestreo general de la normal truncada se puede lograr utilizando aproximaciones a la CDF normal y la función probit , y R tiene una función para generar muestras normales truncadas.rtnorm()

Evaluación del modelo

La idoneidad de un modelo binario estimado se puede evaluar contando el número de observaciones verdaderas que son iguales a 1 y el número que es igual a cero, para las cuales el modelo asigna una clasificación predicha correcta al tratar cualquier probabilidad estimada superior a 1/2 (o inferior a 1/2), como una asignación de una predicción de 1 (o de 0). Consulte Regresión logística § Modelo para obtener más detalles.

Rendimiento bajo especificaciones incorrectas

Considere la formulación del modelo de variable latente del modelo probit. Cuando la varianza de condicional sobre no es constante sino que depende de , surge el problema de la heterocedasticidad . Por ejemplo, supongamos que y donde es una variable explicativa positiva continua. Bajo la heterocedasticidad, el estimador probit para es usualmente inconsistente, y la mayoría de las pruebas sobre los coeficientes son inválidas. Más importante aún, el estimador para también se vuelve inconsistente. Para lidiar con este problema, el modelo original necesita ser transformado para ser homocedástico. Por ejemplo, en el mismo ejemplo, puede reescribirse como , donde . Por lo tanto, y ejecutando probit sobre genera un estimador consistente para la probabilidad condicional

Cuando el supuesto de que la distribución es normal no se cumple, surge un problema de especificación de la forma funcional : si el modelo se sigue estimando como un modelo probit, los estimadores de los coeficientes son inconsistentes. Por ejemplo, si sigue una distribución logística en el modelo verdadero, pero el modelo se estima mediante probit, las estimaciones serán generalmente menores que el valor verdadero. Sin embargo, la inconsistencia de las estimaciones de los coeficientes es prácticamente irrelevante porque las estimaciones de los efectos parciales, , serán cercanas a las estimaciones dadas por el modelo logit verdadero. [5]

Para evitar el problema de la especificación incorrecta de la distribución, se puede adoptar un supuesto de distribución general para el término de error, de modo que se puedan incluir muchos tipos diferentes de distribución en el modelo. El costo es un cálculo más pesado y una menor precisión por el aumento del número de parámetros. [6] En la mayoría de los casos prácticos en los que la forma de distribución está mal especificada, los estimadores para los coeficientes son inconsistentes, pero los estimadores para la probabilidad condicional y los efectos parciales siguen siendo muy buenos. [ cita requerida ]

También se pueden adoptar enfoques semiparamétricos o no paramétricos, por ejemplo, a través de métodos de verosimilitud local o de cuasi-verosimilitud no paramétrica, que evitan suposiciones sobre una forma paramétrica para la función de índice y son robustos a la elección de la función de enlace (por ejemplo, probit o logit). [4]

Historia

El modelo probit suele atribuirse a Chester Bliss , que acuñó el término "probit" en 1934, [7] y a John Gaddum (1933), que sistematizó trabajos anteriores. [8] Sin embargo, el modelo básico data de la ley de Weber-Fechner de Gustav Fechner , publicada en Fechner (1860), y fue redescubierto repetidamente hasta la década de 1930; véase Finney (1971, Capítulo 3.6) y Aitchison & Brown (1957, Capítulo 1.2). [8]

Ronald Fisher propuso un método rápido para calcular estimaciones de máxima verosimilitud para el modelo probit como apéndice al trabajo de Bliss en 1935. [9]

Véase también

Referencias

  1. ^ Oxford English Dictionary , 3.ª ed. sv probit (artículo de junio de 2007): Bliss, CI (1934). "El método de los probits". Science . 79 (2037): 38–39. Bibcode :1934Sci....79...38B. doi :10.1126/science.79.2037.38. PMID  17813446. Estas unidades de probabilidad arbitrarias se han denominado "probits".
  2. ^ Agresti, Alan (2015). Fundamentos de modelos lineales y lineales generalizados . Nueva York: Wiley. pp. 183–186. ISBN 978-1-118-73003-4.
  3. ^ Aldrich, John H.; Nelson, Forrest D.; Adler, E. Scott (1984). Modelos lineales de probabilidad, logit y probit. Sage. págs. 48-65. ISBN. 0-8039-2133-0.
  4. ^ ab Park, Byeong U.; Simar, Léopold; Zelenyuk, Valentin (2017). "Estimación no paramétrica de modelos dinámicos de elección discreta para datos de series temporales" (PDF) . Computational Statistics & Data Analysis . 108 : 97–120. doi :10.1016/j.csda.2016.10.024.
  5. ^ Greene, WH (2003), Análisis econométrico, Prentice Hall, Upper Saddle River, Nueva Jersey.
  6. ^ Para más detalles, consulte: Cappé, O., Moulines, E. y Ryden, T. (2005): "Inferencia en modelos ocultos de Markov", Springer-Verlag Nueva York, Capítulo 2.
  7. ^ Bliss, CI (1934). "El método de probits". Science . 79 (2037): 38–39. Bibcode :1934Sci....79...38B. doi :10.1126/science.79.2037.38. PMID  17813446.
  8. ^ desde Cramer 2002, pág. 7.
  9. ^ Fisher, RA (1935). "El caso de cero supervivientes en ensayos probit". Annals of Applied Biology . 22 : 164–165. doi :10.1111/j.1744-7348.1935.tb07713.x. Archivado desde el original el 30 de abril de 2014.

Lectura adicional

Enlaces externos