Ilustración de la dilución de la regresión (o sesgo de atenuación) mediante un rango de estimaciones de regresión en modelos de errores en variables. Dos líneas de regresión (rojas) delimitan el rango de posibilidades de regresión lineal. La pendiente poco profunda se obtiene cuando la variable independiente (o predictor) está en la abscisa (eje x). La pendiente más pronunciada se obtiene cuando la variable independiente está en la ordenada (eje y). Por convención, con la variable independiente en el eje x, se obtiene la pendiente menor. Las líneas de referencia verdes son promedios dentro de contenedores arbitrarios a lo largo de cada eje. Tenga en cuenta que las estimaciones de regresión verde y roja más pronunciadas son más consistentes con errores más pequeños en la variable del eje y.
En el caso de que algunos regresores se hayan medido con errores, la estimación basada en el supuesto estándar conduce a estimaciones inconsistentes , lo que significa que las estimaciones de los parámetros no tienden a los valores verdaderos incluso en muestras muy grandes. Para la regresión lineal simple, el efecto es una subestimación del coeficiente, conocido como sesgo de atenuación . En los modelos no lineales, es probable que la dirección del sesgo sea más complicada. [1] [2] [3]
Ejemplo motivador
Considere un modelo de regresión lineal simple de la forma
donde denota el regresor verdadero pero no observado . En lugar de eso observamos este valor con un error:
donde se supone que el error de medición es independiente del valor real .
Si los ′s simplemente se regresan sobre los ′s (ver regresión lineal simple ), entonces el estimador del coeficiente de pendiente es
que converge a medida que aumenta el tamaño de la muestra sin límite:
Esto contrasta con el efecto "verdadero" de , estimado utilizando :
Las varianzas no son negativas, de modo que en el límite la estimación es menor que , efecto que los estadísticos llaman atenuación o dilución de regresión . [4] Por lo tanto, el estimador de mínimos cuadrados 'ingenuo' es un estimador inconsistente para . Sin embargo, es un estimador consistente del parámetro requerido para un mejor predictor lineal de lo observado : en algunas aplicaciones esto puede ser lo que se requiere, en lugar de una estimación del coeficiente de regresión "verdadero" , aunque eso supondría que la varianza de los errores en la estimación y predicción son idénticos. Esto se deriva directamente del resultado citado inmediatamente arriba, y del hecho de que el coeficiente de regresión que relaciona los ′s con los ′s realmente observados , en una regresión lineal simple, viene dado por
Es este coeficiente, en lugar de , el que se requeriría para construir un predictor de basado en un objeto observado sujeto a ruido.
Se puede argumentar que casi todos los conjuntos de datos existentes contienen errores de diferente naturaleza y magnitud, por lo que el sesgo de atenuación es extremadamente frecuente (aunque en la regresión multivariada la dirección del sesgo es ambigua [5] ). Jerry Hausman ve esto como una ley de hierro de la econometría : "La magnitud de la estimación suele ser menor de lo esperado". [6]
Especificación
Por lo general, los modelos de error de medición se describen utilizando el enfoque de variables latentes . Si es la variable respuesta y son valores observados de los regresores, entonces se supone que existen algunas variables latentes y que siguen la relación funcional “verdadera” del modelo , y tales que las cantidades observadas son sus observaciones ruidosas:
donde está el parámetro del modelo y son aquellos regresores que se supone que están libres de errores (por ejemplo, cuando la regresión lineal contiene una intersección, el regresor que corresponde a la constante ciertamente no tiene "errores de medición"). Dependiendo de la especificación, estos regresores sin errores pueden tratarse o no por separado; en el último caso simplemente se supone que las entradas correspondientes en la matriz de varianza de 's son cero.
Esta especificación no abarca todos los modelos de errores en variables existentes. Por ejemplo, en algunos de ellos la función puede ser no paramétrica o semiparamétrica. Otros enfoques modelan la relación entre y como distribucional en lugar de funcional, es decir, suponen que condicionalmente sigue una determinada distribución (normalmente paramétrica).
Terminología y supuestos
La variable observada puede denominarse variable manifiesta , indicadora o proxy .
La variable no observada puede denominarse variable latente o verdadera . Puede considerarse como una constante desconocida (en cuyo caso el modelo se denomina modelo funcional ) o como una variable aleatoria (en consecuencia, un modelo estructural ). [7]
La relación entre el error de medición y la variable latente se puede modelar de diferentes formas:
Errores clásicos : los errores son independientes de la variable latente. Esta es la suposición más común, implica que los errores son introducidos por el dispositivo de medición y su magnitud no depende del valor que se está midiendo.
Independencia de la media : los errores son de media cero para cada valor del regresor latente. Este es un supuesto menos restrictivo que el clásico, [8] ya que permite la presencia de heterocedasticidad u otros efectos en los errores de medición.
Errores de Berkson :los errores son independientes delregresor observado x . [9] Esta suposición tiene una aplicabilidad muy limitada. Un ejemplo son los errores de redondeo: por ejemplo, si la edad de una persona* es una variable aleatoria continua , mientras que la edad observadase trunca al siguiente entero más pequeño, entonces el error de truncamiento es aproximadamente independiente de la edad observada . Otra posibilidad es el experimento de diseño fijo: por ejemplo, si un científico decide realizar una medición en un determinado momento predeterminado, digamos en, entonces la medición real puede ocurrir en algún otro valor de(por ejemplo, debido a su tiempo de reacción finito). ) y dicho error de medición será generalmente independiente del valor "observado" del regresor.
Errores de clasificación errónea : caso especial utilizado para los regresores ficticios . Si es un indicador de un determinado evento o condición (como que la persona es hombre/mujer, algún tratamiento médico dado/no, etc.), entonces el error de medición en dicho regresor corresponderá a una clasificación incorrecta similar al tipo I y tipo II. errores en las pruebas estadísticas. En este caso el error puede tomar sólo 3 valores posibles, y su distribución condicional se modela con dos parámetros: , y . La condición necesaria para la identificación es que , es decir, la clasificación errónea no ocurra "con demasiada frecuencia". (Esta idea se puede generalizar a variables discretas con más de dos valores posibles).
Modelo lineal
Primero se estudiaron los modelos de errores lineales en variables, probablemente porque los modelos lineales se usaron mucho y son más fáciles que los no lineales. A diferencia de la regresión de mínimos cuadrados estándar (OLS), extender los errores en la regresión de variables (EiV) del caso simple al caso multivariable no es sencillo.
modelo lineal simple
El modelo simple de errores lineales en variables ya se presentó en la sección "motivación":
donde todas las variables son escalares . Aquí α y β son los parámetros de interés, mientras que σ ε y σ η (desviaciones estándar de los términos de error) son los parámetros molestos . El regresor "verdadero" x* se trata como una variable aleatoria ( modelo estructural ), independiente del error de medición η ( supuesto clásico ).
Este modelo es identificable en dos casos: (1) o el regresor latente x* no está distribuido normalmente , (2) o x* tiene una distribución normal, pero ni ε t ni η t son divisibles por una distribución normal. [10] Es decir, los parámetros α , β pueden estimarse consistentemente a partir del conjunto de datos sin ninguna información adicional, siempre que el regresor latente no sea gaussiano.
Antes de que se estableciera este resultado de identificabilidad, los estadísticos intentaron aplicar la técnica de máxima verosimilitud asumiendo que todas las variables son normales y luego concluyeron que el modelo no está identificado. La solución sugerida fue suponer que algunos de los parámetros del modelo se conocen o pueden estimarse a partir de una fuente externa. Dichos métodos de estimación incluyen [11]
Regresión de Deming : supone que se conoce la relación δ = σ² ε / σ² η . Esto podría ser apropiado, por ejemplo, cuando los errores en y y x son causados por mediciones y se conoce la precisión de los dispositivos o procedimientos de medición. El caso en el que δ = 1 también se conoce como regresión ortogonal .
Regresión con índice de confiabilidad conocido λ = σ² ∗ / ( σ² η + σ² ∗ ), donde σ² ∗ es la varianza del regresor latente. Este enfoque puede ser aplicable, por ejemplo, cuando se dispone de mediciones repetidas de la misma unidad, o cuando el índice de confiabilidad se conoce a partir de un estudio independiente. En este caso, la estimación consistente de la pendiente es igual a la estimación de mínimos cuadrados dividida por λ .
La regresión con σ² η conocida puede ocurrir cuando se conoce la fuente de los errores en x y se puede calcular su varianza. Esto podría incluir errores de redondeo o errores introducidos por el dispositivo de medición. Cuando se conoce σ² η podemos calcular el índice de confiabilidad como λ = ( σ² x − σ² η ) / σ² x y reducir el problema al caso anterior.
Los métodos de estimación que no suponen el conocimiento de algunos de los parámetros del modelo, incluyen
Método de momentos: el estimador GMM basado en los acumuladores conjuntos de variables observables de tercer (o superior) orden . El coeficiente de pendiente se puede estimar a partir de [12]
donde ( n 1 , n 2 ) son tales que K ( n 1 +1, n 2 ) - el acumulado conjunto de ( x , y ) - no es cero. En el caso de que el tercer momento central del regresor latente x* sea distinto de cero, la fórmula se reduce a
Variables instrumentales : una regresión que requiere que ciertas variables de datos adicionales z , llamadas instrumentos , estuvieran disponibles. Estas variables no deben estar correlacionadas con los errores en la ecuación de la variable dependiente (de resultado) ( válida ) y también deben estar correlacionadas ( relevantes ) con los verdaderos regresores x* . Si se pueden encontrar tales variables, entonces el estimador toma la forma
La relación funcional media geométrica. Esto trata a ambas variables como si tuvieran la misma confiabilidad. La pendiente resultante es la media geométrica de la pendiente de mínimos cuadrados ordinaria y la pendiente de mínimos cuadrados inversa, es decir, las dos líneas rojas del diagrama. [13]
Modelo lineal multivariable
El modelo multivariable se ve exactamente igual al modelo lineal simple, solo que esta vez β , η t , x t y x* t son vectores k× 1.
En el caso en que ( ε t , η t ) sea conjuntamente normal, el parámetro β no se identifica si y sólo si existe una matriz de bloques k×k no singular [ a A ], donde a es un vector k× 1 tal que a′x* se distribuye normalmente e independientemente de A′x* . En el caso en que ε t , η t1 ,..., η tk son mutuamente independientes, el parámetro β no se identifica si y sólo si además de las condiciones anteriores algunos de los errores pueden escribirse como la suma de dos variables independientes uno de los cuales es normal. [14]
Algunos de los métodos de estimación para modelos lineales multivariables son
Los mínimos cuadrados totales son una extensión de la regresión de Deming al entorno multivariable. Cuando todos los k +1 componentes del vector ( ε , η ) tienen varianzas iguales y son independientes, esto equivale a ejecutar la regresión ortogonal de y en el vector x , es decir, la regresión que minimiza la suma de las distancias al cuadrado entre puntos ( y t , x t ) y el hiperplano k -dimensional de "mejor ajuste".
El método del estimador de momentos [15] se puede construir con base en las condiciones de momento E[ z t ·( y t − α − β'x t )] = 0, donde el vector (5 k +3)-dimensional de instrumentos z t se define como
donde designa el producto de matrices de Hadamard , y las variables xt , yt han sido desmediadas preliminarmente. Los autores del método sugieren utilizar el estimador IV modificado de Fuller. [dieciséis]
Este método puede ampliarse para utilizar momentos superiores al tercer orden, si es necesario, y para acomodar variables medidas sin error. [17]
El enfoque de variables instrumentales requiere que encontremos variables de datos adicionales z t que sirvan como instrumentos para los regresores mal medidos x t . Este método es el más sencillo desde el punto de vista de la implementación, sin embargo su desventaja es que requiere recopilar datos adicionales, lo que puede resultar costoso o incluso imposible. Cuando se pueden encontrar los instrumentos, el estimador toma la forma estándar.
El enfoque de ajuste imparcial trata todas las variables de la misma manera, suponiendo la misma confiabilidad, y no requiere ninguna distinción entre variables explicativas y de respuesta, ya que la ecuación resultante se puede reorganizar. Es el modelo de error de medición más simple y es una generalización de la relación funcional media geométrica mencionada anteriormente para dos variables. Solo requiere que se calculen las covarianzas y, por lo tanto, se puede estimar utilizando funciones básicas de hoja de cálculo. [18]
Modelos no lineales
Toma forma un modelo genérico de error de medición no lineal
Aquí la función g puede ser paramétrica o no paramétrica. Cuando la función g es paramétrica se escribirá como g ( x *, β ).
Para un regresor general x* con valores vectoriales, se desconocen las condiciones para la identificabilidad del modelo. Sin embargo, en el caso del escalar x*, el modelo se identifica a menos que la función g sea de la forma "log-exponencial" [19]
y el regresor latente x* tiene densidad
donde las constantes A , B , C , D , E , F pueden depender de a , b , c , d .
A pesar de este resultado optimista, hasta el momento no existen métodos para estimar modelos de errores en variables no lineales sin ninguna información extraña. Sin embargo, existen varias técnicas que utilizan algunos datos adicionales: ya sea las variables instrumentales u observaciones repetidas.
Métodos de variables instrumentales
El método de momentos simulados de Newey [20] para modelos paramétricos requiere que haya un conjunto adicional de variables predictoras observadas z t , de modo que el verdadero regresor pueda expresarse como
donde π 0 y σ 0 son matrices constantes (desconocidas), y ζ t ⊥ z t . El coeficiente π 0 se puede estimar utilizando la regresión estándar de mínimos cuadrados de x sobre z . Se desconoce la distribución de ζ t , sin embargo podemos modelarla como perteneciente a una familia paramétrica flexible: la serie de Edgeworth :
Los momentos simulados se pueden calcular utilizando el algoritmo de muestreo de importancia : primero generamos varias variables aleatorias { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } a partir de la distribución normal estándar, luego calculamos los momentos en t -ésima observación como
donde θ = ( β , σ , γ ), A es solo alguna función de las variables instrumentales z y H es un vector de momentos de dos componentes
Con funciones de momento m t se puede aplicar la técnica GMM estándar para estimar el parámetro desconocido θ .
Observaciones repetidas
En este enfoque están disponibles dos (o quizás más) observaciones repetidas del regresor x* . Ambas observaciones contienen sus propios errores de medición, sin embargo se requiere que esos errores sean independientes:
donde x* ⊥ η 1 ⊥ η 2 . No es necesario que las variables η 1 , η 2 estén distribuidas de manera idéntica (aunque si lo están, la eficiencia del estimador puede mejorar ligeramente). Con sólo estas dos observaciones es posible estimar consistentemente la función de densidad de x* usando la técnica de deconvolución de Kotlarski . [21]
Método de densidad condicional de Li para modelos paramétricos. [22] La ecuación de regresión se puede escribir en términos de las variables observables como
donde sería posible calcular la integral si conociéramos la función de densidad condicional ƒ x*|x . Si esta función pudiera conocerse o estimarse, entonces el problema se convierte en una regresión no lineal estándar, que puede estimarse, por ejemplo, utilizando el método NLLS . Suponiendo por simplicidad que η 1 , η 2 están distribuidas idénticamente, esta densidad condicional se puede calcular como
donde con un ligero abuso de notación x j denota el j -ésimo componente de un vector. Todas las densidades en esta fórmula se pueden estimar usando la inversión de las funciones características empíricas . En particular,
Para invertir estas funciones características se debe aplicar la transformada inversa de Fourier, con un parámetro de recorte C necesario para garantizar la estabilidad numérica. Por ejemplo:
Estimador de Schennach para un modelo paramétrico lineal en parámetros, no lineal en variables. [23] Este es un modelo de la forma
donde w t representa variables medidas sin errores. El regresor x* aquí es escalar (el método también se puede extender al caso del vector x* ). Si no fuera por los errores de medición, este habría sido un modelo lineal estándar con el estimador
dónde
Resulta que todos los valores esperados en esta fórmula se pueden estimar utilizando el mismo truco de deconvolución. En particular, para un observable genérico w t (que podría ser 1, w 1 t ,…, w ℓ t o y t ) y alguna función h (que podría representar cualquier g j o g i g j ) tenemos
El estimador resultante es consistente y asintóticamente normal.
Estimador de Schennach para un modelo no paramétrico. [24] El estimador estándar de Nadaraya-Watson para un modelo no paramétrico toma forma
para una elección adecuada del núcleo K y el ancho de banda h . Ambas expectativas aquí se pueden estimar utilizando la misma técnica que en el método anterior.
Referencias
^ Griliches, Zvi; Ringstad, Vidar (1970). "Sesgo de errores en las variables en contextos no lineales". Econométrica . 38 (2): 368–370. doi :10.2307/1913020. JSTOR 1913020.
^ Chesher, Andrés (1991). "El efecto del error de medición". Biometrika . 78 (3): 451–462. doi :10.1093/biomet/78.3.451. JSTOR 2337015.
^ Carroll, Raymond J.; Ruppert, David; Stefanski, Leonard A.; Crainiceanu, Ciprian (2006). Error de medición en modelos no lineales: una perspectiva moderna (Segunda ed.). ISBN978-1-58488-633-4.
^ Greene, William H. (2003). Análisis econométrico (5ª ed.). Nueva Jersey: Prentice Hall. Capítulo 5.6.1. ISBN978-0-13-066189-0.
^ Wansbeek, T.; Meijer, E. (2000). "Error de medición y variables latentes". En Baltagi, BH (ed.). Un compañero de la econometría teórica . Blackwell. págs. 162-179. doi :10.1111/b.9781405106764.2003.00013.x. ISBN9781405106764.
^ Hausman, Jerry A. (2001). "Variables mal medidas en el análisis econométrico: problemas de derecha y problemas de izquierda". Revista de perspectivas económicas . 15 (4): 57–67 [p. 58]. doi : 10.1257/jep.15.4.57 . JSTOR 2696516.
^ Fuller, Wayne A. (1987). Modelos de errores de medición. John Wiley e hijos. pag. 2.ISBN978-0-471-86187-4.
^ Hayashi, Fumio (2000). Econometría. Prensa de la Universidad de Princeton. págs. 7–8. ISBN978-1400823833.
^ Koul, Hira; Canción, Weixing (2008). "Verificación del modelo de regresión con errores de medición de Berkson". Revista de planificación e inferencia estadística . 138 (6): 1615-1628. doi : 10.1016/j.jspi.2007.05.048.
^ Reiersøl, Olav (1950). "Identificabilidad de una relación lineal entre variables sujetas a error". Econométrica . 18 (4): 375–389 [p. 383]. doi :10.2307/1907835. JSTOR 1907835.Geary, RC (1942) estableció anteriormente un resultado algo más restrictivo . "Relaciones inherentes entre variables aleatorias". Actas de la Real Academia Irlandesa . 47 : 63–76. JSTOR 20488436.Demostró que bajo el supuesto adicional de que ( ε, η ) son conjuntamente normales, el modelo no se identifica si y sólo si x* s son normales.
^ Fuller, Wayne A. (1987). "Una única variable explicativa". Modelos de errores de medición . John Wiley e hijos. págs. 1–99. ISBN978-0-471-86187-4.
^ Pal, Manoranjan (1980). "Estimadores de momentos consistentes de coeficientes de regresión en presencia de errores en variables". Revista de Econometría . 14 (3): 349–364 (págs. 360–361). doi :10.1016/0304-4076(80)90032-9.
^ Xu, Shaoji (2 de octubre de 2014). "Una propiedad de la regresión media geométrica". El estadístico estadounidense . 68 (4): 277–281. doi :10.1080/00031305.2014.962763. ISSN 0003-1305.
^ Ben-Moshe, Dan (2020). "Identificación de regresiones lineales con errores en todas las variables". Teoría econométrica . 37 (4): 1–31. arXiv : 1404.1473 . doi :10.1017/S0266466620000250. S2CID 225653359.
^ Dagenais, Marcel G.; Dagenais, Denyse L. (1997). "Estimadores de momento superior para modelos de regresión lineal con errores en las variables". Revista de Econometría . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . doi :10.1016/0304-4076(95)01789-5. En un artículo anterior, Pal (1980) consideró un caso más simple en el que todos los componentes del vector ( ε , η ) son independientes y están distribuidos simétricamente.
^ Fuller, Wayne A. (1987). Modelos de errores de medición. John Wiley e hijos. pag. 184.ISBN978-0-471-86187-4.
^ Erickson, Timoteo; Blanqueado, Toni M. (2002). "Estimación GMM en dos pasos del modelo de errores en variables utilizando momentos de alto orden". Teoría econométrica . 18 (3): 776–799. doi :10.1017/s0266466602183101. JSTOR 3533649. S2CID 14729228.
^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
^ Schennach, S .; Hu, Y.; Lewbel, A. (2007). "Identificación no paramétrica del modelo clásico de errores en variables sin información complementaria". Hoja de trabajo .
^ Newey, Whitney K. (2001). "Estimación flexible de momentos simulados del modelo de errores en variables no lineales". Revista de Economía y Estadística . 83 (4): 616–627. doi :10.1162/003465301753237704. hdl : 1721.1/63613 . JSTOR 3211757. S2CID 57566922.
^ Li, Tong; Vuong, Quang (1998). "Estimación no paramétrica del modelo de error de medición mediante múltiples indicadores". Revista de análisis multivariado . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
^ Li, Tong (2002). "Estimación robusta y consistente de modelos de errores en variables no lineales". Revista de Econometría . 110 (1): 1–26. doi :10.1016/S0304-4076(02)00120-3.
^ Schennach, Susanne M. (2004). "Estimación de modelos no lineales con error de medida". Econométrica . 72 (1): 33–75. doi :10.1111/j.1468-0262.2004.00477.x. JSTOR 3598849.
^ Schennach, Susanne M. (2004). "Regresión no paramétrica en presencia de error de medición". Teoría econométrica . 20 (6): 1046–1093. doi :10.1017/S0266466604206028. S2CID 123036368.
Otras lecturas
Dougherty, Christopher (2011). "Regresores estocásticos y errores de medición". Introducción a la econometría (Cuarta ed.). Prensa de la Universidad de Oxford. págs. 300–330. ISBN 978-0-19-956708-9.
Kmenta, enero (1986). "Estimación con datos deficientes". Elementos de econometría (Segunda ed.). Nueva York: Macmillan. págs. 346–391. ISBN 978-0-02-365070-3.
Schennach, Susanne (2013). "Error de medición en modelos no lineales: una revisión". En Acemoglu, Daron; Arellano, Manuel; Dekel, Eddie (eds.). Avances en Economía y Econometría . Prensa de la Universidad de Cambridge. págs. 296–337. doi :10.1017/CBO9781139060035.009. hdl :10419/79526. ISBN 9781107017214.
enlaces externos
Una descripción histórica de la regresión lineal con errores en ambas variables, JW Gillard 2006
Conferencia sobre econometría (tema: Regresores estocásticos y error de medición) en YouTube por Mark Thoma .