La variabilidad estadística, el error de medición o el ruido aleatorio en la variable y causan incertidumbre en la pendiente estimada, pero no sesgo: en promedio, el procedimiento calcula la pendiente correcta.
Sin embargo, la variabilidad, el error de medición o el ruido aleatorio en la variable x provocan un sesgo en la pendiente estimada (así como imprecisión).
Cuanto mayor sea la varianza en la medición de x, más se acercará la pendiente estimada a cero en lugar de al valor verdadero.
Puede parecer contraintuitivo que el ruido en la variable de predicción x induzca un sesgo, pero que el ruido en la variable de resultado y no lo haga.
[2] Se puede corregir mediante mínimos cuadrados totales[3] y modelos de errores en variables en general.
Por ejemplo, en un estudio médico los pacientes se reclutan como muestra de una población, y sus características, como la presión arterial, pueden considerarse surgidas de una muestra aleatoria.
Bajo ciertos supuestos (normalmente, supuestos de distribución normal) existe una relación conocida entre la pendiente real y la pendiente estimada esperada.
[4] El término relación de dilución por regresión, aunque no todos los autores lo definen de la misma manera, se utiliza para este enfoque general, en el que se ajusta la regresión lineal habitual y, a continuación, se aplica una corrección.
[5] Fuller (1987) es una de las referencias estándar para evaluar y corregir la dilución por regresión.
El caso de múltiples variables predictoras sujetas a variabilidad (posiblemente correlacionadas) ha sido bien estudiado para la regresión lineal y para algunos modelos de regresión no lineal.
[6][9] Otros modelos no lineales, como los modelos de riesgos proporcionales para el análisis de supervivencia, sólo se han considerado con un único predictor sujeto a variabilidad.
[11] En medición y estadística, el procedimiento también se denomina desatenuación de la correlación.
son los errores de medición asociados a las estimaciones
La corrección por atenuación indica cuál sería la correlación estimada si se pudieran medir X′ e Y′ con total fiabilidad.
se consideran medidas imperfectas de variables subyacentes
En la inferencia estadística basada en coeficientes de regresión es necesaria una corrección por dilución regresiva.
Sin embargo, en las aplicaciones de modelización predictiva, la corrección no es necesaria ni apropiada.
Sea y la variable de resultado, x la verdadera variable predictiva y w una observación aproximada de x. Frost y Thompson sugieren, por ejemplo, que x puede ser la verdadera tensión arterial a largo plazo de un paciente y w puede ser la tensión arterial observada en una visita clínica concreta.
Los métodos estándar pueden ajustar una regresión de y sobre w sin sesgo.
Sólo hay sesgo si luego utilizamos la regresión de y sobre w como una aproximación a la regresión de y sobre x.
En el ejemplo, suponiendo que las mediciones de la presión arterial son igualmente variables en futuros pacientes, nuestra recta de regresión de y sobre w (presión arterial observada) ofrece predicciones no sesgadas.
Un ejemplo de circunstancia en la que se desea la corrección es la predicción del cambio.
Supongamos que se conoce el cambio en x bajo una nueva circunstancia: para estimar el cambio probable en una variable de resultado y, se necesita la pendiente de la regresión de y en x, no y en w. Esto surge en epidemiología.
Para continuar con el ejemplo en el que x denota la presión arterial, quizás un gran ensayo clínico ha proporcionado una estimación del cambio en la presión arterial bajo un nuevo tratamiento; entonces el posible efecto sobre y, bajo el nuevo tratamiento, debería estimarse a partir de la pendiente en la regresión de y sobre x.
Por ejemplo, si el conjunto de datos actual incluye la presión arterial medida con mayor precisión de lo que es habitual en la práctica clínica.
Un ejemplo concreto de esto surgió al desarrollar una ecuación de regresión basada en un ensayo clínico, en el que la presión arterial era la media de seis mediciones, para utilizarla en la práctica clínica, donde la presión arterial suele ser una única medición.
[14] Todos estos resultados pueden demostrarse matemáticamente, en el caso de la regresión lineal simple suponiendo distribuciones normales en todas partes (el marco de Frost & Thompson).
Se ha debatido que una corrección mal ejecutada de la dilución por regresión, en particular cuando se realiza sin comprobar los supuestos subyacentes, puede hacer más daño a una estimación que la ausencia de corrección.
[15] La dilución regresiva fue mencionada por primera vez, con el nombre de atenuación, por Spearman (1904).
[16] Quienes busquen un tratamiento matemático legible pueden empezar por Frost y Thompson (2000).