En el caso de que algunos regresores hayan sido medidos con errores, la estimación basada en el supuesto estándar conduce a estimaciones inconsistentes , lo que significa que las estimaciones de los parámetros no tienden a los valores verdaderos incluso en muestras muy grandes. En el caso de la regresión lineal simple, el efecto es una subestimación del coeficiente, conocida como sesgo de atenuación . En los modelos no lineales, es probable que la dirección del sesgo sea más complicada. [1] [2] [3]
Ejemplo motivador
Consideremos un modelo de regresión lineal simple de la forma
donde denota el regresor verdadero pero no observado . En cambio, observamos este valor con un error:
donde se supone que el error de medición es independiente del valor verdadero . Una aplicación práctica es el experimento de ciencias estándar de la escuela para la Ley de Hooke , en el que se estima la relación entre el peso agregado a un resorte y la cantidad en que se estira el resorte.
Si los ′ se regresionan simplemente sobre los ′ (ver regresión lineal simple ), entonces el estimador para el coeficiente de pendiente es
que converge a medida que aumenta el tamaño de la muestra sin límite:
Esto contrasta con el efecto "verdadero" de , estimado utilizando el ,:
Las varianzas no son negativas, de modo que en el límite el estimado es menor que , un efecto que los estadísticos llaman atenuación o dilución de regresión . [4] Por lo tanto, el estimador de mínimos cuadrados "ingenuo" es un estimador inconsistente para . Sin embargo, es un estimador consistente del parámetro requerido para un mejor predictor lineal de dado el observado : en algunas aplicaciones esto puede ser lo que se requiere, en lugar de una estimación del coeficiente de regresión "verdadero" , aunque eso supondría que la varianza de los errores en la estimación y la predicción es idéntica. Esto se desprende directamente del resultado citado inmediatamente arriba, y del hecho de que el coeficiente de regresión que relaciona los ′ con los ′ realmente observados, en una regresión lineal simple, está dado por
Es este coeficiente, en lugar de , el que se requeriría para construir un predictor de basado en un observado que está sujeto a ruido.
Se puede argumentar que casi todos los conjuntos de datos existentes contienen errores de distinta naturaleza y magnitud, por lo que el sesgo de atenuación es extremadamente frecuente (aunque en la regresión multivariante la dirección del sesgo es ambigua [5] ). Jerry Hausman ve esto como una ley de hierro de la econometría : "La magnitud de la estimación suele ser menor que la esperada". [6]
Especificación
Por lo general, los modelos de error de medición se describen utilizando el enfoque de variables latentes . Si es la variable de respuesta y son los valores observados de los regresores, entonces se supone que existen algunas variables latentes y que siguen la relación funcional “verdadera” del modelo , y que las cantidades observadas son sus observaciones ruidosas:
donde es el parámetro del modelo y son aquellos regresores que se supone que están libres de errores (por ejemplo, cuando la regresión lineal contiene una intersección, el regresor que corresponde a la constante ciertamente no tiene "errores de medición"). Dependiendo de la especificación, estos regresores libres de errores pueden o no tratarse por separado; en el último caso, simplemente se supone que las entradas correspondientes en la matriz de varianza de son cero.
Esta especificación no abarca todos los modelos de errores en las variables existentes. Por ejemplo, en algunos de ellos la función puede ser no paramétrica o semiparamétrica. Otros enfoques modelan la relación entre y como distributiva en lugar de funcional, es decir, suponen que condicionalmente en sigue una determinada distribución (normalmente paramétrica).
Terminología y suposiciones
La variable observada puede denominarse variable manifiesta , indicadora o proxy .
La variable no observada puede denominarse variable latente o verdadera . Puede considerarse una constante desconocida (en cuyo caso el modelo se denomina modelo funcional ) o una variable aleatoria (en consecuencia, un modelo estructural ). [7]
La relación entre el error de medición y la variable latente se puede modelar de diferentes maneras:
Errores clásicos : los errores son independientes de la variable latente. Este es el supuesto más común, implica que los errores son introducidos por el dispositivo de medición y su magnitud no depende del valor medido.
Independencia de la media : los errores son de media cero para cada valor del regresor latente. Este es un supuesto menos restrictivo que el clásico, [8] ya que permite la presencia de heterocedasticidad u otros efectos en los errores de medición.
Errores de Berkson :los errores son independientes delregresor observado x . [9] Esta suposición tiene una aplicabilidad muy limitada. Un ejemplo son los errores de redondeo: por ejemplo, si la edad de una persona* es una variable aleatoria continua , mientras que la edad observada se trunca al siguiente entero más pequeño, entonces el error de truncamiento es aproximadamente independiente de la edad observada . Otra posibilidad es con el experimento de diseño fijo: por ejemplo, si un científico decide hacer una medición en un cierto momento predeterminado de tiempo, digamos en, entonces la medición real puede ocurrir en algún otro valor de(por ejemplo, debido a su tiempo de reacción finito) y dicho error de medición será generalmente independiente del valor "observado" del regresor.
Errores de clasificación errónea : caso especial utilizado para los regresores ficticios . Si es un indicador de un determinado evento o condición (como que la persona es hombre/mujer, se le administra/no se le administra algún tratamiento médico, etc.), entonces el error de medición en dicho regresor corresponderá a la clasificación incorrecta, similar a los errores de tipo I y tipo II en las pruebas estadísticas. En este caso, el error puede tomar solo 3 valores posibles, y su distribución condicional a se modela con dos parámetros: , y . La condición necesaria para la identificación es que , es decir, la clasificación errónea no debería ocurrir "con demasiada frecuencia". (Esta idea se puede generalizar a variables discretas con más de dos valores posibles).
Modelo lineal
Los modelos lineales de errores en las variables se estudiaron primero, probablemente porque los modelos lineales se usaban ampliamente y eran más fáciles que los no lineales. A diferencia de la regresión de mínimos cuadrados (MCO) estándar, extender la regresión de errores en las variables (EiV) del caso simple al caso multivariable no es sencillo, a menos que se traten todas las variables de la misma manera, es decir, suponiendo que la confiabilidad es igual. [10]
Modelo lineal simple
El modelo simple de errores lineales en las variables ya fue presentado en la sección "motivación":
donde todas las variables son escalares . Aquí α y β son los parámetros de interés, mientras que σ ε y σ η —desviaciones estándar de los términos de error— son los parámetros molestos . El regresor "verdadero" x* se trata como una variable aleatoria ( modelo estructural ), independiente del error de medición η ( supuesto clásico ).
Este modelo es identificable en dos casos: (1) o bien el regresor latente x* no se distribuye normalmente , (2) o bien x* tiene una distribución normal, pero ni ε t ni η t son divisibles por una distribución normal. [11] Es decir, los parámetros α , β se pueden estimar de forma consistente a partir del conjunto de datos sin ninguna información adicional, siempre que el regresor latente no sea gaussiano.
Antes de que se estableciera este resultado de identificabilidad, los estadísticos intentaron aplicar la técnica de máxima verosimilitud suponiendo que todas las variables eran normales y luego concluyeron que el modelo no estaba identificado. La solución sugerida fue suponer que algunos de los parámetros del modelo son conocidos o pueden estimarse a partir de una fuente externa. Entre estos métodos de estimación se incluyen [12]
Regresión de Deming : supone que se conoce la relación δ = σ² ε / σ² η . Esto podría ser apropiado, por ejemplo, cuando los errores en y y x son causados por mediciones y se conoce la precisión de los dispositivos o procedimientos de medición. El caso en el que δ = 1 también se conoce como regresión ortogonal .
Regresión con un índice de fiabilidad conocido λ = σ² ∗ / ( σ² η + σ² ∗ ), donde σ² ∗ es la varianza del regresor latente. Este enfoque puede ser aplicable, por ejemplo, cuando se dispone de mediciones repetidas de la misma unidad o cuando el índice de fiabilidad se conoce a partir de un estudio independiente. En este caso, la estimación consistente de la pendiente es igual a la estimación de mínimos cuadrados dividida por λ .
La regresión con σ² η conocido puede ocurrir cuando se conoce la fuente de los errores en x' s y se puede calcular su varianza. Esto podría incluir errores de redondeo o errores introducidos por el dispositivo de medición. Cuando se conoce σ² η podemos calcular la razón de confiabilidad como λ = ( σ² x − σ² η ) / σ² x y reducir el problema al caso anterior.
Los métodos de estimación que no presuponen el conocimiento de algunos de los parámetros del modelo incluyen:
Método de momentos: estimador GMM basado en los cumulantes conjuntos de tercer orden (o superior) de las variables observables. El coeficiente de pendiente se puede estimar a partir de [13]
donde ( n 1 , n 2 ) son tales que K ( n 1 +1, n 2 ) — el cumulante conjunto de ( x , y ) — no es cero. En el caso en que el tercer momento central del regresor latente x* no sea cero, la fórmula se reduce a
Variables instrumentales : una regresión que requiere que se disponga de determinadas variables de datos adicionales z , llamadas instrumentos . Estas variables no deben estar correlacionadas con los errores de la ecuación de la variable dependiente (resultado) ( válidas ) y también deben estar correlacionadas ( relevantes ) con los regresores verdaderos x* . Si se pueden encontrar dichas variables, el estimador toma la forma
Relación funcional de media geométrica. Trata a ambas variables como si tuvieran la misma fiabilidad. La pendiente resultante es la media geométrica de la pendiente de mínimos cuadrados ordinarios y la pendiente de mínimos cuadrados inversos, es decir, las dos líneas rojas del diagrama. [14]
Modelo lineal multivariable
El modelo multivariable se parece exactamente al modelo lineal simple, sólo que esta vez β , η t , x t y x* t son vectores k× 1.
En el caso en que ( ε t , η t ) sea conjuntamente normal, el parámetro β no se identifica si y solo si hay una matriz de bloques k×k no singular [ a A ], donde a es un vector k× 1 tal que a′x* se distribuye normalmente e independientemente de A′x* . En el caso en que ε t , η t1 ,..., η tk sean mutuamente independientes, el parámetro β no se identifica si y solo si además de las condiciones anteriores algunos de los errores se pueden escribir como la suma de dos variables independientes, una de las cuales es normal. [15]
Algunos de los métodos de estimación para modelos lineales multivariables son
Los mínimos cuadrados totales son una extensión de la regresión de Deming al entorno multivariable. Cuando todos los componentes k +1 del vector ( ε , η ) tienen varianzas iguales y son independientes, esto es equivalente a ejecutar la regresión ortogonal de y sobre el vector x , es decir, la regresión que minimiza la suma de las distancias al cuadrado entre los puntos ( y t , x t ) y el hiperplano k -dimensional de "mejor ajuste".
El método del estimador de momentos [16] se puede construir con base en las condiciones de momento E[ z t ·( y t − α − β'x t )] = 0, donde el vector (5 k +3)-dimensional de instrumentos z t se define como
donde designa el producto Hadamard de matrices, y las variables x t , y t han sido preliminarmente des-mediadas. Los autores del método sugieren utilizar el estimador IV modificado de Fuller. [17]
Este método se puede ampliar para utilizar momentos superiores al tercer orden, si es necesario, y para acomodar variables medidas sin error. [18]
El método de variables instrumentales requiere que encontremos variables de datos adicionales z t que sirvan como instrumentos para los regresores mal medidos x t . Este método es el más simple desde el punto de vista de la implementación, sin embargo, su desventaja es que requiere recopilar datos adicionales, lo que puede ser costoso o incluso imposible. Cuando se pueden encontrar los instrumentos, el estimador adopta la forma estándar.
El enfoque de ajuste imparcial trata todas las variables de la misma manera al suponer la misma confiabilidad y no requiere ninguna distinción entre variables explicativas y de respuesta, ya que la ecuación resultante se puede reorganizar. Es el modelo de error de medición más simple y es una generalización de la relación funcional de la media geométrica mencionada anteriormente para dos variables. Solo requiere que se calculen las covarianzas, por lo que se puede estimar utilizando funciones básicas de una hoja de cálculo. [19]
Modelos no lineales
Un modelo genérico de error de medición no lineal toma forma
Aquí la función g puede ser paramétrica o no paramétrica. Cuando la función g es paramétrica se escribirá como g ( x *, β ).
En el caso de un regresor general x* con valores vectoriales , no se conocen las condiciones de identificación del modelo . Sin embargo, en el caso de un escalar x*, el modelo se identifica a menos que la función g tenga la forma "log-exponencial" [20].
y el regresor latente x* tiene densidad
donde las constantes A , B , C , D , E , F pueden depender de a , b , c , d .
A pesar de este resultado optimista, hasta el momento no existen métodos para estimar modelos no lineales de errores en las variables sin ninguna información extraña. Sin embargo, hay varias técnicas que hacen uso de algunos datos adicionales: ya sean las variables instrumentales o las observaciones repetidas.
Métodos de variables instrumentales
El método de momentos simulados de Newey [21] para modelos paramétricos requiere que haya un conjunto adicional de variables predictoras observadas z t , de modo que el regresor verdadero pueda expresarse como
donde π 0 y σ 0 son matrices constantes (desconocidas) y ζ t ⊥ z t . El coeficiente π 0 se puede estimar utilizando la regresión de mínimos cuadrados estándar de x sobre z . La distribución de ζ t es desconocida, sin embargo podemos modelarla como perteneciente a una familia paramétrica flexible: la serie de Edgeworth :
Los momentos simulados se pueden calcular utilizando el algoritmo de muestreo de importancia : primero generamos varias variables aleatorias { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } a partir de la distribución normal estándar, luego calculamos los momentos en la t -ésima observación como
donde θ = ( β , σ , γ ), A es simplemente una función de las variables instrumentales z , y H es un vector de momentos de dos componentes
Con funciones de momento m t se puede aplicar la técnica GMM estándar para estimar el parámetro desconocido θ .
Observaciones repetidas
En este enfoque se dispone de dos (o quizás más) observaciones repetidas del regresor x* . Ambas observaciones contienen sus propios errores de medición, pero se requiere que esos errores sean independientes:
donde x* ⊥ η 1 ⊥ η 2 . Las variables η 1 , η 2 no necesitan estar distribuidas de forma idéntica (aunque si lo están la eficiencia del estimador puede mejorarse ligeramente). Con solo estas dos observaciones es posible estimar de forma consistente la función de densidad de x* utilizando la técnica de deconvolución de Kotlarski . [22]
Método de densidad condicional de Li para modelos paramétricos. [23] La ecuación de regresión se puede escribir en términos de las variables observables como
donde sería posible calcular la integral si conociéramos la función de densidad condicional ƒ x*|x . Si esta función pudiera conocerse o estimarse, entonces el problema se convierte en una regresión no lineal estándar, que puede estimarse, por ejemplo, utilizando el método NLLS . Suponiendo, para simplificar, que η 1 , η 2 se distribuyen de manera idéntica, esta densidad condicional puede calcularse como
donde con un ligero abuso de notación x j denota el componente j -ésimo de un vector. Todas las densidades en esta fórmula se pueden estimar utilizando la inversión de las funciones características empíricas . En particular,
Para invertir estas funciones características es necesario aplicar la transformada inversa de Fourier, con un parámetro de ajuste C necesario para asegurar la estabilidad numérica. Por ejemplo:
Estimador de Schennach para un modelo paramétrico lineal en parámetros y no lineal en variables. [24] Este es un modelo de la forma
donde w t representa variables medidas sin errores. El regresor x* aquí es escalar (el método puede extenderse también al caso del vector x* ).
Si no fuera por los errores de medición, este habría sido un modelo lineal estándar con el estimador
dónde
Resulta que todos los valores esperados en esta fórmula son estimables utilizando el mismo truco de deconvolución. En particular, para un observable genérico w t (que podría ser 1, w 1 t , …, w ℓ t o y t ) y alguna función h (que podría representar cualquier g j o g i g j ) tenemos
para una elección adecuada del núcleo K y del ancho de banda h . Ambas expectativas pueden estimarse aquí utilizando la misma técnica que en el método anterior.
Referencias
^ Griliches, Zvi; Ringstad, Vidar (1970). "Sesgo por errores en las variables en contextos no lineales". Econometrica . 38 (2): 368–370. doi :10.2307/1913020. JSTOR 1913020.
^ Chesher, Andrew (1991). "El efecto del error de medición". Biometrika . 78 (3): 451–462. doi :10.1093/biomet/78.3.451. JSTOR 2337015.
^ Carroll, Raymond J.; Ruppert, David; Stefanski, Leonard A.; Crainiceanu, Ciprian (2006). Error de medición en modelos no lineales: una perspectiva moderna (segunda edición). ISBN978-1-58488-633-4.
^ Greene, William H. (2003). Análisis econométrico (5.ª ed.). Nueva Jersey: Prentice Hall. Capítulo 5.6.1. ISBN978-0-13-066189-0.
^ Wansbeek, T.; Meijer, E. (2000). "Error de medición y variables latentes". En Baltagi, BH (ed.). Un compañero para la econometría teórica . Blackwell. págs. 162–179. doi :10.1111/b.9781405106764.2003.00013.x. ISBN .9781405106764.
^ Hausman, Jerry A. (2001). "Variables mal medidas en el análisis econométrico: problemas desde la derecha y problemas desde la izquierda". Journal of Economic Perspectives . 15 (4): 57–67 [p. 58]. doi : 10.1257/jep.15.4.57 . JSTOR 2696516.
^ Fuller, Wayne A. (1987). Modelos de error de medición. John Wiley & Sons. pág. 2. ISBN978-0-471-86187-4.
^ Koul, Hira; Song, Weixing (2008). "Verificación de modelos de regresión con errores de medición de Berkson". Revista de planificación e inferencia estadística . 138 (6): 1615–1628. doi :10.1016/j.jspi.2007.05.048.
^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
^ Reiersøl, Olav (1950). "Identificabilidad de una relación lineal entre variables sujetas a error". Econometrica . 18 (4): 375–389 [p. 383]. doi :10.2307/1907835. JSTOR 1907835.Geary, RC (1942) estableció anteriormente un resultado algo más restrictivo : «Relaciones inherentes entre variables aleatorias». Actas de la Real Academia Irlandesa . 47 : 63–76. JSTOR 20488436.Demostró que bajo el supuesto adicional de que ( ε, η ) son conjuntamente normales, el modelo no se identifica si y solo si x* s son normales.
^ Fuller, Wayne A. (1987). "Una única variable explicativa". Modelos de error de medición . John Wiley & Sons. págs. 1–99. ISBN978-0-471-86187-4.
^ Pal, Manoranjan (1980). "Estimadores de momento consistentes de coeficientes de regresión en presencia de errores en las variables". Journal of Econometrics . 14 (3): 349–364 (pp. 360–361). doi :10.1016/0304-4076(80)90032-9.
^ Xu, Shaoji (2014-10-02). "Una propiedad de la regresión de media geométrica". The American Statistician . 68 (4): 277–281. doi :10.1080/00031305.2014.962763. ISSN 0003-1305.
^ Ben-Moshe, Dan (2020). "Identificación de regresiones lineales con errores en todas las variables". Teoría econométrica . 37 (4): 1–31. arXiv : 1404.1473 . doi :10.1017/S0266466620000250. S2CID 225653359.
^ Dagenais, Marcel G.; Dagenais, Denyse L. (1997). "Estimadores de momento superior para modelos de regresión lineal con errores en las variables". Journal of Econometrics . 76 (1–2): 193–221. CiteSeerX 10.1.1.669.8286 . doi :10.1016/0304-4076(95)01789-5. En el artículo anterior, Pal (1980) consideró un caso más simple cuando todos los componentes del vector ( ε , η ) son independientes y están distribuidos simétricamente.
^ Fuller, Wayne A. (1987). Modelos de error de medición. John Wiley & Sons. pág. 184. ISBN978-0-471-86187-4.
^ Erickson, Timothy; Whited, Toni M. (2002). "Estimación GMM de dos pasos del modelo de errores en las variables utilizando momentos de alto orden". Teoría econométrica . 18 (3): 776–799. doi :10.1017/s0266466602183101. JSTOR 3533649. S2CID 14729228.
^ Tofallis, C. (2023). Ajuste imparcial de una ecuación a los datos. Matemáticas, 11(18), 3957. https://ssrn.com/abstract=4556739 https://doi.org/10.3390/math11183957
^ Schennach, S .; Hu, Y.; Lewbel, A. (2007). "Identificación no paramétrica del modelo clásico de errores en las variables sin información secundaria". Documento de trabajo .
^ Newey, Whitney K. (2001). "Estimación flexible de momentos simulados de modelos no lineales de errores en las variables". Revista de Economía y Estadística . 83 (4): 616–627. doi :10.1162/003465301753237704. hdl : 1721.1/63613 . JSTOR 3211757. S2CID 57566922.
^ Li, Tong; Vuong, Quang (1998). "Estimación no paramétrica del modelo de error de medición utilizando múltiples indicadores". Journal of Multivariate Analysis . 65 (2): 139–165. doi : 10.1006/jmva.1998.1741 .
^ Li, Tong (2002). "Estimación robusta y consistente de modelos no lineales de errores en las variables". Journal of Econometrics . 110 (1): 1–26. doi :10.1016/S0304-4076(02)00120-3.
^ Schennach, Susanne M. (2004). "Estimación de modelos no lineales con error de medición". Econometrica . 72 (1): 33–75. doi :10.1111/j.1468-0262.2004.00477.x. JSTOR 3598849.
^ Schennach, Susanne M. (2004). "Regresión no paramétrica en presencia de error de medición". Teoría econométrica . 20 (6): 1046–1093. doi :10.1017/S0266466604206028. S2CID 123036368.
Lectura adicional
Dougherty, Christopher (2011). "Regresores estocásticos y errores de medición". Introducción a la econometría (cuarta edición). Oxford University Press. pp. 300–330. ISBN 978-0-19-956708-9.
Kmenta, Jan (1986). "Estimación con datos deficientes". Elements of Econometrics (segunda edición). Nueva York: Macmillan. pp. 346–391. ISBN 978-0-02-365070-3.
Schennach, Susanne (2013). "Error de medición en modelos no lineales: una revisión". En Acemoglu, Daron; Arellano, Manuel; Dekel, Eddie (eds.). Avances en economía y econometría . Cambridge University Press. págs. 296–337. doi :10.1017/CBO9781139060035.009. hdl :10419/79526. ISBN .9781107017214.
Enlaces externos
Una visión histórica de la regresión lineal con errores en ambas variables, JW Gillard 2006
Conferencia sobre econometría (tema: Regresores estocásticos y error de medición) en YouTube por Mark Thoma .