stringtranslate.com

Modelos de errores en las variables

En estadística , los modelos de errores en las variables o modelos de error de medición son modelos de regresión que tienen en cuenta los errores de medición en las variables independientes . Por el contrario, los modelos de regresión estándar suponen que esos regresores se han medido con exactitud o se han observado sin errores; por lo tanto, esos modelos solo tienen en cuenta los errores en las variables dependientes o respuestas. [ cita requerida ]

Ilustración de la dilución de la regresión (o sesgo de atenuación) por un rango de estimaciones de regresión en modelos de errores en las variables. Dos líneas de regresión (rojas) limitan el rango de posibilidades de regresión lineal. La pendiente suave se obtiene cuando la variable independiente (o predictor) está en el eje x. La pendiente más pronunciada se obtiene cuando la variable independiente está en el eje y. Por convención, con la variable independiente en el eje x, se obtiene la pendiente más suave. Las líneas de referencia verdes son promedios dentro de intervalos arbitrarios a lo largo de cada eje. Nótese que las estimaciones de regresión más pronunciadas de color verde y rojo son más consistentes con errores más pequeños en la variable del eje y.

En el caso de que algunos regresores hayan sido medidos con errores, la estimación basada en el supuesto estándar conduce a estimaciones inconsistentes , lo que significa que las estimaciones de los parámetros no tienden a los valores verdaderos incluso en muestras muy grandes. En el caso de la regresión lineal simple, el efecto es una subestimación del coeficiente, conocida como sesgo de atenuación . En los modelos no lineales, es probable que la dirección del sesgo sea más complicada. [1] [2] [3]

Ejemplo motivador

Consideremos un modelo de regresión lineal simple de la forma

donde denota el regresor verdadero pero no observado . En cambio, observamos este valor con un error:

donde se supone que el error de medición es independiente del valor verdadero . Una aplicación práctica es el experimento de ciencias estándar de la escuela para la Ley de Hooke , en el que se estima la relación entre el peso agregado a un resorte y la cantidad en que se estira el resorte. Si los ′ se regresionan simplemente sobre los ′ (ver regresión lineal simple ), entonces el estimador para el coeficiente de pendiente es

que converge a medida que aumenta el tamaño de la muestra sin límite:

Esto contrasta con el efecto "verdadero" de , estimado utilizando el ,:

Las varianzas no son negativas, de modo que en el límite el estimado es menor que , un efecto que los estadísticos llaman atenuación o dilución de regresión . [4] Por lo tanto, el estimador de mínimos cuadrados "ingenuo" es un estimador inconsistente para . Sin embargo, es un estimador consistente del parámetro requerido para un mejor predictor lineal de dado el observado : en algunas aplicaciones esto puede ser lo que se requiere, en lugar de una estimación del coeficiente de regresión "verdadero" , aunque eso supondría que la varianza de los errores en la estimación y la predicción es idéntica. Esto se desprende directamente del resultado citado inmediatamente arriba, y del hecho de que el coeficiente de regresión que relaciona los ′ con los ′ realmente observados, en una regresión lineal simple, está dado por

Es este coeficiente, en lugar de , el que se requeriría para construir un predictor de basado en un observado que está sujeto a ruido.

Se puede argumentar que casi todos los conjuntos de datos existentes contienen errores de distinta naturaleza y magnitud, por lo que el sesgo de atenuación es extremadamente frecuente (aunque en la regresión multivariante la dirección del sesgo es ambigua [5] ). Jerry Hausman ve esto como una ley de hierro de la econometría : "La magnitud de la estimación suele ser menor que la esperada". [6]

Especificación

Por lo general, los modelos de error de medición se describen utilizando el enfoque de variables latentes . Si es la variable de respuesta y son los valores observados de los regresores, entonces se supone que existen algunas variables latentes y que siguen la relación funcional “verdadera” del modelo , y que las cantidades observadas son sus observaciones ruidosas:

donde es el parámetro del modelo y son aquellos regresores que se supone que están libres de errores (por ejemplo, cuando la regresión lineal contiene una intersección, el regresor que corresponde a la constante ciertamente no tiene "errores de medición"). Dependiendo de la especificación, estos regresores libres de errores pueden o no tratarse por separado; en el último caso, simplemente se supone que las entradas correspondientes en la matriz de varianza de son cero.

Las variables , , son todas observadas , lo que significa que el estadístico posee un conjunto de datos de unidades estadísticas que siguen el proceso de generación de datos descrito anteriormente; sin embargo, las variables latentes , , y no se observan.

Esta especificación no abarca todos los modelos de errores en las variables existentes. Por ejemplo, en algunos de ellos la función puede ser no paramétrica o semiparamétrica. Otros enfoques modelan la relación entre y como distributiva en lugar de funcional, es decir, suponen que condicionalmente en sigue una determinada distribución (normalmente paramétrica).

Terminología y suposiciones

Modelo lineal

Los modelos lineales de errores en las variables se estudiaron primero, probablemente porque los modelos lineales se usaban ampliamente y eran más fáciles que los no lineales. A diferencia de la regresión de mínimos cuadrados (MCO) estándar, extender la regresión de errores en las variables (EiV) del caso simple al caso multivariable no es sencillo, a menos que se traten todas las variables de la misma manera, es decir, suponiendo que la confiabilidad es igual. [10]

Modelo lineal simple

El modelo simple de errores lineales en las variables ya fue presentado en la sección "motivación":

donde todas las variables son escalares . Aquí α y β son los parámetros de interés, mientras que σ ε y σ η —desviaciones estándar de los términos de error— son los parámetros molestos . El regresor "verdadero" x* se trata como una variable aleatoria ( modelo estructural ), independiente del error de medición η ( supuesto clásico ).

Este modelo es identificable en dos casos: (1) o bien el regresor latente x* no se distribuye normalmente , (2) o bien x* tiene una distribución normal, pero ni ε t ni η t son divisibles por una distribución normal. [11] Es decir, los parámetros α , β se pueden estimar de forma consistente a partir del conjunto de datos sin ninguna información adicional, siempre que el regresor latente no sea gaussiano.

Antes de que se estableciera este resultado de identificabilidad, los estadísticos intentaron aplicar la técnica de máxima verosimilitud suponiendo que todas las variables eran normales y luego concluyeron que el modelo no estaba identificado. La solución sugerida fue suponer que algunos de los parámetros del modelo son conocidos o pueden estimarse a partir de una fuente externa. Entre estos métodos de estimación se incluyen [12]

Los métodos de estimación que no presuponen el conocimiento de algunos de los parámetros del modelo incluyen:

Modelo lineal multivariable

El modelo multivariable se parece exactamente al modelo lineal simple, sólo que esta vez β , η t , x t y x* t son vectores 1.

En el caso en que ( ε t , η t ) sea conjuntamente normal, el parámetro β no se identifica si y solo si hay una  matriz de bloques k×k no singular [ a A ], donde a es un vector 1 tal que a′x*  se distribuye normalmente e independientemente de  A′x* . En el caso en que ε t , η t1 ,..., η tk sean mutuamente independientes, el parámetro  β  no se identifica si y solo si además de las condiciones anteriores algunos de los errores se pueden escribir como la suma de dos variables independientes, una de las cuales es normal. [15]

Algunos de los métodos de estimación para modelos lineales multivariables son

Modelos no lineales

Un modelo genérico de error de medición no lineal toma forma

Aquí la función g puede ser paramétrica o no paramétrica. Cuando la función g es paramétrica se escribirá como g ( x *, β ).

En el caso de un regresor x* de valor vectorial general, no se conocen las condiciones de identificación del modelo . Sin embargo, en el caso de un escalar x*, el modelo se identifica a menos que la función g tenga la forma "log-exponencial" [20].

y el regresor latente x* tiene densidad

donde las constantes A , B , C , D , E , F pueden depender de a , b , c , d .

A pesar de este resultado optimista, hasta el momento no existen métodos para estimar modelos no lineales de errores en las variables sin ninguna información extraña. Sin embargo, hay varias técnicas que hacen uso de algunos datos adicionales: ya sean las variables instrumentales o las observaciones repetidas.

Métodos de variables instrumentales

Observaciones repetidas

En este enfoque se dispone de dos (o quizás más) observaciones repetidas del regresor x* . Ambas observaciones contienen sus propios errores de medición, pero se requiere que esos errores sean independientes:

donde x*η 1η 2 . Las variables η 1 , η 2 no necesitan estar distribuidas de manera idéntica (aunque si lo están, la eficiencia del estimador puede mejorarse ligeramente). Con solo estas dos observaciones es posible estimar de manera consistente la función de densidad de x* utilizando la técnica de deconvolución de Kotlarski . [22]

Referencias

  1. ^ Griliches, Zvi; Ringstad, Vidar (1970). "Sesgo por errores en las variables en contextos no lineales". Econometrica . 38 (2): 368–370. doi :10.2307/1913020. JSTOR  1913020.
  2. ^ Chesher, Andrew (1991). "El efecto del error de medición". Biometrika . 78 (3): 451–462. doi :10.1093/biomet/78.3.451. JSTOR  2337015.
  3. ^ Carroll, Raymond J.; Ruppert, David; Stefanski, Leonard A.; Crainiceanu, Ciprian (2006). Error de medición en modelos no lineales: una perspectiva moderna (segunda edición). ISBN 978-1-58488-633-4.
  4. ^ Greene, William H. (2003). Análisis econométrico (5.ª ed.). Nueva Jersey: Prentice Hall. Capítulo 5.6.1. ISBN 978-0-13-066189-0.
  5. ^ Wansbeek, T.; Meijer, E. (2000). "Error de medición y variables latentes". En Baltagi, BH (ed.). Un compañero para la econometría teórica . Blackwell. págs. 162–179. doi :10.1111/b.9781405106764.2003.00013.x. ISBN . 9781405106764.
  6. ^ Hausman, Jerry A. (2001). "Variables mal medidas en el análisis econométrico: problemas desde la derecha y problemas desde la izquierda". Journal of Economic Perspectives . 15 (4): 57–67 [p. 58]. doi : 10.1257/jep.15.4.57 . JSTOR  2696516.
  7. ^ Fuller, Wayne A. (1987). Modelos de error de medición. John Wiley & Sons. pág. 2. ISBN 978-0-471-86187-4.
  8. ^ Hayashi, Fumio (2000). Econometría. Princeton University Press. pp. 7-8. ISBN 978-1400823833.
  9. ^ Koul, Hira; Song, Weixing (2008). "Verificación de modelos de regresión con errores de medición de Berkson". Revista de planificación e inferencia estadística . 138 (6): 1615–1628. doi :10.1016/j.jspi.2007.05.048.
  10. ^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
  11. ^ Reiersøl, Olav (1950). "Identificabilidad de una relación lineal entre variables sujetas a error". Econometrica . 18 (4): 375–389 [p. 383]. doi :10.2307/1907835. JSTOR  1907835.Geary, RC (1942) estableció anteriormente un resultado algo más restrictivo : «Relaciones inherentes entre variables aleatorias». Actas de la Real Academia Irlandesa . 47 : 63–76. JSTOR  20488436.Demostró que bajo el supuesto adicional de que ( ε, η ) son conjuntamente normales, el modelo no se identifica si y solo si x* s son normales.
  12. ^ Fuller, Wayne A. (1987). "Una única variable explicativa". Modelos de error de medición . John Wiley & Sons. págs. 1–99. ISBN 978-0-471-86187-4.
  13. ^ Pal, Manoranjan (1980). "Estimadores de momento consistentes de coeficientes de regresión en presencia de errores en las variables". Journal of Econometrics . 14 (3): 349–364 (pp. 360–361). doi :10.1016/0304-4076(80)90032-9.
  14. ^ Xu, Shaoji (2014-10-02). "Una propiedad de la regresión de media geométrica". The American Statistician . 68 (4): 277–281. doi :10.1080/00031305.2014.962763. ISSN  0003-1305.
  15. ^ Ben-Moshe, Dan (2020). "Identificación de regresiones lineales con errores en todas las variables". Teoría econométrica . 37 (4): 1–31. arXiv : 1404.1473 . doi :10.1017/S0266466620000250. S2CID  225653359.
  16. ^ Dagenais, Marcel G.; Dagenais, Denyse L. (1997). "Estimadores de momento superior para modelos de regresión lineal con errores en las variables". Journal of Econometrics . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . doi :10.1016/0304-4076(95)01789-5. En el artículo anterior, Pal (1980) consideró un caso más simple cuando todos los componentes del vector ( ε , η ) son independientes y están distribuidos simétricamente.
  17. ^ Fuller, Wayne A. (1987). Modelos de error de medición. John Wiley & Sons. pág. 184. ISBN 978-0-471-86187-4.
  18. ^ Erickson, Timothy; Whited, Toni M. (2002). "Estimación GMM de dos pasos del modelo de errores en las variables utilizando momentos de alto orden". Teoría econométrica . 18 (3): 776–799. doi :10.1017/s0266466602183101. JSTOR  3533649. S2CID  14729228.
  19. ^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
  20. ^ Schennach, S .; Hu, Y.; Lewbel, A. (2007). "Identificación no paramétrica del modelo clásico de errores en las variables sin información secundaria". Documento de trabajo .
  21. ^ Newey, Whitney K. (2001). "Estimación flexible de momentos simulados de modelos no lineales de errores en las variables". Revista de Economía y Estadística . 83 (4): 616–627. doi :10.1162/003465301753237704. hdl : 1721.1/63613 . JSTOR  3211757. S2CID  57566922.
  22. ^ Li, Tong; Vuong, Quang (1998). "Estimación no paramétrica del modelo de error de medición utilizando múltiples indicadores". Journal of Multivariate Analysis . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
  23. ^ Li, Tong (2002). "Estimación robusta y consistente de modelos no lineales de errores en las variables". Journal of Econometrics . 110 (1): 1–26. doi :10.1016/S0304-4076(02)00120-3.
  24. ^ Schennach, Susanne M. (2004). "Estimación de modelos no lineales con error de medición". Econometrica . 72 (1): 33–75. doi :10.1111/j.1468-0262.2004.00477.x. JSTOR  3598849.
  25. ^ Schennach, Susanne M. (2004). "Regresión no paramétrica en presencia de error de medición". Teoría econométrica . 20 (6): 1046–1093. doi :10.1017/S0266466604206028. S2CID  123036368.

Lectura adicional

Enlaces externos