stringtranslate.com

Modelos de errores en variables

En estadística , los modelos de errores en variables o modelos de errores de medición son modelos de regresión que tienen en cuenta los errores de medición en las variables independientes . Por el contrario, los modelos de regresión estándar suponen que esos regresores han sido medidos exactamente u observados sin error; como tal, esos modelos sólo tienen en cuenta los errores en las variables dependientes o respuestas. [ cita necesaria ]

Ilustración de la dilución de la regresión (o sesgo de atenuación) mediante un rango de estimaciones de regresión en modelos de errores en variables. Dos líneas de regresión (rojas) delimitan el rango de posibilidades de regresión lineal. La pendiente poco profunda se obtiene cuando la variable independiente (o predictor) está en la abscisa (eje x). La pendiente más pronunciada se obtiene cuando la variable independiente está en la ordenada (eje y). Por convención, con la variable independiente en el eje x, se obtiene la pendiente menor. Las líneas de referencia verdes son promedios dentro de contenedores arbitrarios a lo largo de cada eje. Tenga en cuenta que las estimaciones de regresión verde y roja más pronunciadas son más consistentes con errores más pequeños en la variable del eje y.

En el caso de que algunos regresores se hayan medido con errores, la estimación basada en el supuesto estándar conduce a estimaciones inconsistentes , lo que significa que las estimaciones de los parámetros no tienden a los valores verdaderos incluso en muestras muy grandes. Para la regresión lineal simple, el efecto es una subestimación del coeficiente, conocido como sesgo de atenuación . En los modelos no lineales, es probable que la dirección del sesgo sea más complicada. [1] [2] [3]

Ejemplo motivador

Considere un modelo de regresión lineal simple de la forma

donde denota el regresor verdadero pero no observado . En lugar de eso observamos este valor con un error:

donde se supone que el error de medición es independiente del valor real .

Si los ′s simplemente se regresan sobre los ′s (ver regresión lineal simple ), entonces el estimador del coeficiente de pendiente es

que converge a medida que aumenta el tamaño de la muestra sin límite:

Esto contrasta con el efecto "verdadero" de , estimado utilizando :

Las varianzas no son negativas, de modo que en el límite la estimación es menor que , efecto que los estadísticos llaman atenuación o dilución de regresión . [4] Por lo tanto, el estimador de mínimos cuadrados 'ingenuo' es un estimador inconsistente para . Sin embargo, es un estimador consistente del parámetro requerido para un mejor predictor lineal de lo observado : en algunas aplicaciones esto puede ser lo que se requiere, en lugar de una estimación del coeficiente de regresión "verdadero" , aunque eso supondría que la varianza de los errores en la estimación y predicción son idénticos. Esto se deriva directamente del resultado citado inmediatamente arriba, y del hecho de que el coeficiente de regresión que relaciona los ′s con los ′s realmente observados , en una regresión lineal simple, viene dado por

Es este coeficiente, en lugar de , el que se requeriría para construir un predictor de basado en un objeto observado sujeto a ruido.

Se puede argumentar que casi todos los conjuntos de datos existentes contienen errores de diferente naturaleza y magnitud, por lo que el sesgo de atenuación es extremadamente frecuente (aunque en la regresión multivariada la dirección del sesgo es ambigua [5] ). Jerry Hausman ve esto como una ley de hierro de la econometría : "La magnitud de la estimación suele ser menor de lo esperado". [6]

Especificación

Por lo general, los modelos de error de medición se describen utilizando el enfoque de variables latentes . Si es la variable respuesta y son valores observados de los regresores, entonces se supone que existen algunas variables latentes y que siguen la relación funcional “verdadera” del modelo , y tales que las cantidades observadas son sus observaciones ruidosas:

donde está el parámetro del modelo y son aquellos regresores que se supone que están libres de errores (por ejemplo, cuando la regresión lineal contiene una intersección, el regresor que corresponde a la constante ciertamente no tiene "errores de medición"). Dependiendo de la especificación, estos regresores sin errores pueden tratarse o no por separado; en el último caso simplemente se supone que las entradas correspondientes en la matriz de varianza de 's son cero.

Todas las variables , , son observadas , lo que significa que el estadístico posee un conjunto de datos de unidades estadísticas que siguen el proceso de generación de datos descrito anteriormente; Sin embargo , las variables latentes , , , y no se observan.

Esta especificación no abarca todos los modelos de errores en variables existentes. Por ejemplo, en algunos de ellos la función puede ser no paramétrica o semiparamétrica. Otros enfoques modelan la relación entre y como distribucional en lugar de funcional, es decir, suponen que condicionalmente sigue una determinada distribución (normalmente paramétrica).

Terminología y supuestos

Modelo lineal

Primero se estudiaron los modelos de errores lineales en variables, probablemente porque los modelos lineales se usaron mucho y son más fáciles que los no lineales. A diferencia de la regresión de mínimos cuadrados estándar (OLS), extender los errores en la regresión de variables (EiV) del caso simple al caso multivariable no es sencillo.

modelo lineal simple

El modelo simple de errores lineales en variables ya se presentó en la sección "motivación":

donde todas las variables son escalares . Aquí α y β son los parámetros de interés, mientras que σ ε y σ η (desviaciones estándar de los términos de error) son los parámetros molestos . El regresor "verdadero" x* se trata como una variable aleatoria ( modelo estructural ), independiente del error de medición η ( supuesto clásico ).

Este modelo es identificable en dos casos: (1) o el regresor latente x* no está distribuido normalmente , (2) o x* tiene una distribución normal, pero ni ε t ni η t son divisibles por una distribución normal. [10] Es decir, los parámetros α , β pueden estimarse consistentemente a partir del conjunto de datos sin ninguna información adicional, siempre que el regresor latente no sea gaussiano.

Antes de que se estableciera este resultado de identificabilidad, los estadísticos intentaron aplicar la técnica de máxima verosimilitud asumiendo que todas las variables son normales y luego concluyeron que el modelo no está identificado. La solución sugerida fue suponer que algunos de los parámetros del modelo se conocen o pueden estimarse a partir de una fuente externa. Dichos métodos de estimación incluyen [11]

Los métodos de estimación que no suponen el conocimiento de algunos de los parámetros del modelo, incluyen

Modelo lineal multivariable

El modelo multivariable se ve exactamente igual al modelo lineal simple, solo que esta vez β , η t , x t y x* t son vectores 1.

En el caso en que ( ε t , η t ) sea conjuntamente normal, el parámetro β no se identifica si y sólo si existe una  matriz de bloques k×k no singular [ a A ], donde a es un vector 1 tal que a′x*  se distribuye normalmente e independientemente de  A′x* . En el caso en que ε t , η t1 ,..., η tk son mutuamente independientes, el parámetro  β  no se identifica si y sólo si además de las condiciones anteriores algunos de los errores pueden escribirse como la suma de dos variables independientes uno de los cuales es normal. [14]

Algunos de los métodos de estimación para modelos lineales multivariables son

Modelos no lineales

Toma forma un modelo genérico de error de medición no lineal

Aquí la función g puede ser paramétrica o no paramétrica. Cuando la función g es paramétrica se escribirá como g ( x *, β ).

Para un regresor general x* con valores vectoriales, se desconocen las condiciones para la identificabilidad del modelo. Sin embargo, en el caso del escalar x*, el modelo se identifica a menos que la función g sea de la forma "log-exponencial" [19]

y el regresor latente x* tiene densidad

donde las constantes A , B , C , D , E , F pueden depender de a , b , c , d .

A pesar de este resultado optimista, hasta el momento no existen métodos para estimar modelos de errores en variables no lineales sin ninguna información extraña. Sin embargo, existen varias técnicas que utilizan algunos datos adicionales: ya sea las variables instrumentales u observaciones repetidas.

Métodos de variables instrumentales

Observaciones repetidas

En este enfoque están disponibles dos (o quizás más) observaciones repetidas del regresor x* . Ambas observaciones contienen sus propios errores de medición, sin embargo se requiere que esos errores sean independientes:

donde x*η 1η 2 . No es necesario que las variables η 1 , η 2 estén distribuidas de manera idéntica (aunque si lo están, la eficiencia del estimador puede mejorar ligeramente). Con sólo estas dos observaciones es posible estimar consistentemente la función de densidad de x* usando la técnica de deconvolución de Kotlarski . [21]

Referencias

  1. ^ Griliches, Zvi; Ringstad, Vidar (1970). "Sesgo de errores en las variables en contextos no lineales". Econométrica . 38 (2): 368–370. doi :10.2307/1913020. JSTOR  1913020.
  2. ^ Chesher, Andrés (1991). "El efecto del error de medición". Biometrika . 78 (3): 451–462. doi :10.1093/biomet/78.3.451. JSTOR  2337015.
  3. ^ Carroll, Raymond J.; Ruppert, David; Stefanski, Leonard A.; Crainiceanu, Ciprian (2006). Error de medición en modelos no lineales: una perspectiva moderna (Segunda ed.). ISBN 978-1-58488-633-4.
  4. ^ Greene, William H. (2003). Análisis econométrico (5ª ed.). Nueva Jersey: Prentice Hall. Capítulo 5.6.1. ISBN 978-0-13-066189-0.
  5. ^ Wansbeek, T.; Meijer, E. (2000). "Error de medición y variables latentes". En Baltagi, BH (ed.). Un compañero de la econometría teórica . Blackwell. págs. 162-179. doi :10.1111/b.9781405106764.2003.00013.x. ISBN 9781405106764.
  6. ^ Hausman, Jerry A. (2001). "Variables mal medidas en el análisis econométrico: problemas de derecha y problemas de izquierda". Revista de perspectivas económicas . 15 (4): 57–67 [p. 58]. doi : 10.1257/jep.15.4.57 . JSTOR  2696516.
  7. ^ Fuller, Wayne A. (1987). Modelos de errores de medición. John Wiley e hijos. pag. 2.ISBN 978-0-471-86187-4.
  8. ^ Hayashi, Fumio (2000). Econometría. Prensa de la Universidad de Princeton. págs. 7–8. ISBN 978-1400823833.
  9. ^ Koul, Hira; Canción, Weixing (2008). "Verificación del modelo de regresión con errores de medición de Berkson". Revista de planificación e inferencia estadística . 138 (6): 1615-1628. doi : 10.1016/j.jspi.2007.05.048.
  10. ^ Reiersøl, Olav (1950). "Identificabilidad de una relación lineal entre variables sujetas a error". Econométrica . 18 (4): 375–389 [p. 383]. doi :10.2307/1907835. JSTOR  1907835.Geary, RC (1942) estableció anteriormente un resultado algo más restrictivo . "Relaciones inherentes entre variables aleatorias". Actas de la Real Academia Irlandesa . 47 : 63–76. JSTOR  20488436.Demostró que bajo el supuesto adicional de que ( ε, η ) son conjuntamente normales, el modelo no se identifica si y sólo si x* s son normales.
  11. ^ Fuller, Wayne A. (1987). "Una única variable explicativa". Modelos de errores de medición . John Wiley e hijos. págs. 1–99. ISBN 978-0-471-86187-4.
  12. ^ Pal, Manoranjan (1980). "Estimadores de momentos consistentes de coeficientes de regresión en presencia de errores en variables". Revista de Econometría . 14 (3): 349–364 (págs. 360–361). doi :10.1016/0304-4076(80)90032-9.
  13. ^ Xu, Shaoji (2 de octubre de 2014). "Una propiedad de la regresión media geométrica". El estadístico estadounidense . 68 (4): 277–281. doi :10.1080/00031305.2014.962763. ISSN  0003-1305.
  14. ^ Ben-Moshe, Dan (2020). "Identificación de regresiones lineales con errores en todas las variables". Teoría econométrica . 37 (4): 1–31. arXiv : 1404.1473 . doi :10.1017/S0266466620000250. S2CID  225653359.
  15. ^ Dagenais, Marcel G.; Dagenais, Denyse L. (1997). "Estimadores de momento superior para modelos de regresión lineal con errores en las variables". Revista de Econometría . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . doi :10.1016/0304-4076(95)01789-5. En un artículo anterior, Pal (1980) consideró un caso más simple en el que todos los componentes del vector ( ε , η ) son independientes y están distribuidos simétricamente.
  16. ^ Fuller, Wayne A. (1987). Modelos de errores de medición. John Wiley e hijos. pag. 184.ISBN 978-0-471-86187-4.
  17. ^ Erickson, Timoteo; Blanqueado, Toni M. (2002). "Estimación GMM en dos pasos del modelo de errores en variables utilizando momentos de alto orden". Teoría econométrica . 18 (3): 776–799. doi :10.1017/s0266466602183101. JSTOR  3533649. S2CID  14729228.
  18. ^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
  19. ^ Schennach, S .; Hu, Y.; Lewbel, A. (2007). "Identificación no paramétrica del modelo clásico de errores en variables sin información complementaria". Hoja de trabajo .
  20. ^ Newey, Whitney K. (2001). "Estimación flexible de momentos simulados del modelo de errores en variables no lineales". Revista de Economía y Estadística . 83 (4): 616–627. doi :10.1162/003465301753237704. hdl : 1721.1/63613 . JSTOR  3211757. S2CID  57566922.
  21. ^ Li, Tong; Vuong, Quang (1998). "Estimación no paramétrica del modelo de error de medición mediante múltiples indicadores". Revista de análisis multivariado . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
  22. ^ Li, Tong (2002). "Estimación robusta y consistente de modelos de errores en variables no lineales". Revista de Econometría . 110 (1): 1–26. doi :10.1016/S0304-4076(02)00120-3.
  23. ^ Schennach, Susanne M. (2004). "Estimación de modelos no lineales con error de medida". Econométrica . 72 (1): 33–75. doi :10.1111/j.1468-0262.2004.00477.x. JSTOR  3598849.
  24. ^ Schennach, Susanne M. (2004). "Regresión no paramétrica en presencia de error de medición". Teoría econométrica . 20 (6): 1046–1093. doi :10.1017/S0266466604206028. S2CID  123036368.

Otras lecturas

enlaces externos