stringtranslate.com

modelo probit

En estadística , un modelo probit es un tipo de regresión donde la variable dependiente puede tomar solo dos valores, por ejemplo casado o no casado. La palabra es un acrónimo que proviene de probabilidad + un it . [1] El propósito del modelo es estimar la probabilidad de que una observación con características particulares caiga en una de las categorías específicas; además, clasificar las observaciones en función de sus probabilidades predichas es un tipo de modelo de clasificación binaria .

Un modelo probit es una especificación popular para un modelo de respuesta binaria . Como tal, trata el mismo conjunto de problemas que la regresión logística utilizando técnicas similares. Cuando se ve en el marco del modelo lineal generalizado , el modelo probit emplea una función de enlace probit . [2] Generalmente se estima utilizando el procedimiento de máxima verosimilitud , [3] dicha estimación se denomina regresión probit .

Marco conceptual

Supongamos que una variable de respuesta Y es binaria , es decir, solo puede tener dos resultados posibles que denotaremos como 1 y 0. Por ejemplo, Y puede representar la presencia/ausencia de una determinada condición, el éxito/fracaso de algún dispositivo, la respuesta es sí/ no en una encuesta, etc. También tenemos un vector de regresores X , que se supone que influyen en el resultado Y. Específicamente, asumimos que el modelo toma la forma

donde P es la probabilidad y es la función de distribución acumulativa ( CDF ) de la distribución normal estándar . Los parámetros β normalmente se estiman mediante máxima verosimilitud .

Es posible motivar el modelo probit como modelo de variable latente . Supongamos que existe una variable aleatoria auxiliar

donde ε ~ N (0, 1). Entonces Y puede verse como un indicador de si esta variable latente es positiva:

El uso de la distribución normal estándar no causa pérdida de generalidad en comparación con el uso de una distribución normal con una media y una desviación estándar arbitrarias, porque agregar una cantidad fija a la media se puede compensar restando la misma cantidad de la intersección y multiplicando la desviación estándar por una cantidad fija se puede compensar multiplicando los pesos por la misma cantidad.

Para ver que los dos modelos son equivalentes, tenga en cuenta que

Estimación del modelo

Estimación de máxima verosimilitud

Supongamos que el conjunto de datos contiene n unidades estadísticas independientes correspondientes al modelo anterior.

Para la observación única, condicionada al vector de entradas de esa observación, tenemos:

[ se necesita aclaración ]

donde es un vector de entradas y es un vector de coeficientes.

La probabilidad de una sola observación es entonces

De hecho, si , entonces y si , entonces .

Dado que las observaciones son independientes y están distribuidas de manera idéntica, entonces la probabilidad de toda la muestra, o la probabilidad conjunta , será igual al producto de las probabilidades de las observaciones individuales:

La función de probabilidad logarítmica conjunta es, por tanto,

El estimador que maximice esta función será consistente , asintóticamente normal y eficiente siempre que exista y no sea singular. Se puede demostrar que esta función de probabilidad logarítmica es globalmente cóncava en y, por lo tanto, los algoritmos numéricos estándar para la optimización convergerán rápidamente al máximo único.

La distribución asintótica para está dada por

dónde

[ cita necesaria ]

y es la función de densidad de probabilidad ( PDF ) de distribución normal estándar.

También se encuentran disponibles métodos de máxima verosimilitud semiparamétricos y no paramétricos para modelos tipo probit y otros modelos relacionados. [4]

Método chi-cuadrado mínimo de Berkson

Este método se puede aplicar sólo cuando hay muchas observaciones de la variable de respuesta que tienen el mismo valor del vector de regresores (esta situación puede denominarse "muchas observaciones por celda"). Más específicamente, el modelo se puede formular de la siguiente manera.

Supongamos que entre n observaciones solo hay T valores distintos de los regresores, que pueden denotarse como . Sea el número de observaciones con y el número de dichas observaciones con . Suponemos que efectivamente hay "muchas" observaciones por cada "celda": para cada .

Denotar

Entonces, el estimador mínimo de chi-cuadrado de Berkson es un estimador de mínimos cuadrados generalizado en una regresión de con ponderaciones :

Se puede demostrar que este estimador es consistente (ya que n →∞ y T son fijos), asintóticamente normal y eficiente. [ cita necesaria ] Su ventaja es la presencia de una fórmula de forma cerrada para el estimador. Sin embargo, sólo tiene sentido llevar a cabo este análisis cuando no se dispone de observaciones individuales, sólo de sus recuentos agregados , , y (por ejemplo, en el análisis del comportamiento electoral).

muestreo de gibbs

El muestreo de Gibbs de un modelo probit es posible porque los modelos de regresión suelen utilizar distribuciones previas normales sobre las ponderaciones, y esta distribución se conjuga con la distribución normal de los errores (y, por tanto, de las variables latentes Y * ). El modelo se puede describir como

A partir de esto, podemos determinar las densidades condicionales completas necesarias:

El resultado de se da en el artículo sobre regresión lineal bayesiana , aunque se especifica con notación diferente.

El único truco está en las dos últimas ecuaciones. La notación es el corchete de Iverson , a veces escrito o similar. Indica que la distribución debe truncarse dentro del rango dado y reescalarse adecuadamente. En este caso particular surge una distribución normal truncada . El muestreo de esta distribución depende de cuánto se trunca. Si queda una gran fracción de la masa original, el muestreo se puede realizar fácilmente con muestreo de rechazo : simplemente muestree un número de la distribución no truncada y rechácelo si queda fuera de la restricción impuesta por el truncamiento. Sin embargo, si se toma solo una pequeña fracción de la masa original (por ejemplo, si se toma una muestra de una de las colas de la distribución normal, por ejemplo, si es alrededor de 3 o más y se desea una muestra negativa), entonces esto será ineficiente y se hace necesario recurrir a otros algoritmos de muestreo. El muestreo general de la normal truncada se puede lograr utilizando aproximaciones a la CDF normal y la función probit , y R tiene una función para generar muestras normales truncadas.rtnorm()

Evaluación del modelo

La idoneidad de un modelo binario estimado se puede evaluar contando el número de observaciones verdaderas que equivalen a 1 y el número que equivale a cero, para las cuales el modelo asigna una clasificación predicha correcta al tratar cualquier probabilidad estimada superior a 1/2 (o inferior a 1/2). 2), como una asignación de una predicción de 1 (o de 0). Consulte Regresión logística § Modelo para obtener más detalles.

Rendimiento bajo especificación errónea

Considere la formulación del modelo de variable latente del modelo probit. Cuando la varianza del condicional no es constante sino dependiente de , entonces surge el problema de la heterocedasticidad . Por ejemplo, supongamos que y dónde es una variable explicativa positiva continua. Bajo heterocedasticidad, el estimador probit suele ser inconsistente y la mayoría de las pruebas sobre los coeficientes no son válidas. Más importante aún, el estimador de también se vuelve inconsistente. Para solucionar este problema, es necesario transformar el modelo original para que sea homocedástico. Por ejemplo, en el mismo ejemplo, se puede reescribir como , donde . Por lo tanto, ejecutar probit genera un estimador consistente para la probabilidad condicional

Cuando el supuesto de distribución normal no se cumple, surge un problema de especificación errónea de la forma funcional : si el modelo todavía se estima como un modelo probit, los estimadores de los coeficientes son inconsistentes. Por ejemplo, si sigue una distribución logística en el modelo verdadero, pero el modelo se estima mediante probit, las estimaciones serán generalmente menores que el valor real. Sin embargo, la inconsistencia de las estimaciones de los coeficientes es prácticamente irrelevante porque las estimaciones de los efectos parciales, , estarán cercanas a las estimaciones dadas por el modelo logit verdadero. [5]

Para evitar el problema de la especificación errónea de la distribución, se puede adoptar un supuesto de distribución general para el término de error, de modo que se puedan incluir muchos tipos diferentes de distribución en el modelo. El costo es un cálculo más pesado y una menor precisión por el aumento del número de parámetros. [6] En la mayoría de los casos en la práctica donde la forma de distribución está mal especificada, los estimadores de los coeficientes son inconsistentes, pero los estimadores de la probabilidad condicional y los efectos parciales siguen siendo muy buenos. [ cita necesaria ]

También se pueden adoptar enfoques semiparamétricos o no paramétricos, por ejemplo, a través de métodos de verosimilitud local o de cuasiverosimilitud no paramétricos, que evitan supuestos en una forma paramétrica para la función de índice y son robustos a la elección de la función de enlace (por ejemplo, probit o logit). [4]

Historia

El modelo probit suele atribuirse a Chester Bliss , quien acuñó el término "probit" en 1934, [7] y a John Gaddum (1933), quien sistematizó trabajos anteriores. [8] Sin embargo, el modelo básico data de la ley de Weber-Fechner de Gustav Fechner , publicada en Fechner (1860), y fue redescubierta repetidamente hasta la década de 1930; véase Finney (1971, capítulo 3.6) y Aitchison y Brown (1957, capítulo 1.2). [8]

Ronald Fisher propuso un método rápido para calcular estimaciones de máxima verosimilitud para el modelo probit como apéndice al trabajo de Bliss en 1935. [9]

Ver también

Referencias

  1. ^ Diccionario de ingles Oxford , 3ª ed. sv probit (artículo de junio de 2007): Bliss, CI (1934). "El método de los Probits". Ciencia . 79 (2037): 38–39. Código bibliográfico : 1934 Ciencia....79...38B. doi :10.1126/ciencia.79.2037.38. PMID  17813446. Estas unidades de probabilidad arbitrarias se han denominado "probits".
  2. ^ Agresti, Alan (2015). Fundamentos de Modelos Lineales y Lineales Generalizados . Nueva York: Wiley. págs. 183–186. ISBN 978-1-118-73003-4.
  3. ^ Aldrich, John H.; Nelson, Forrest D.; Adler, E.Scott (1984). Modelos de probabilidad lineal, logit y probit. Sabio. págs. 48–65. ISBN 0-8039-2133-0.
  4. ^ ab Park, Byeong U.; Simar, Leopoldo; Zelenyuk, Valentín (2017). "Estimación no paramétrica de modelos dinámicos de elección discreta para datos de series de tiempo" (PDF) . Estadística computacional y análisis de datos . 108 : 97-120. doi :10.1016/j.csda.2016.10.024.
  5. ^ Greene, WH (2003), Análisis econométrico, Prentice Hall, Upper Saddle River, Nueva Jersey.
  6. ^ Para obtener más detalles, consulte: Cappé, O., Moulines, E. y Ryden, T. (2005): "Inference in Hidden Markov Models", Springer-Verlag New York, Capítulo 2.
  7. ^ Bienaventuranza, CI (1934). "El método de los Probits". Ciencia . 79 (2037): 38–39. Código Bib : 1934 Ciencia.... 79... 38B. doi :10.1126/ciencia.79.2037.38. PMID  17813446.
  8. ^ ab Cramer 2002, pág. 7.
  9. ^ Pescador, RA (1935). "El caso de los supervivientes cero en los ensayos Probit". Anales de biología aplicada . 22 : 164–165. doi :10.1111/j.1744-7348.1935.tb07713.x. Archivado desde el original el 30 de abril de 2014.

Otras lecturas

enlaces externos