Regresión de Deming

En estadística , la regresión de Deming , llamada así por W. Edwards Deming , es un modelo de errores en las variables que intenta encontrar la línea de mejor ajuste para un conjunto de datos bidimensionales. Se diferencia de la regresión lineal simple en que tiene en cuenta los errores en las observaciones tanto en el eje x como en el eje y . Es un caso especial de mínimos cuadrados totales , que permite cualquier número de predictores y una estructura de error más complicada.

La regresión de Deming es equivalente a la estimación de máxima verosimilitud de un modelo de errores en las variables en el que se supone que los errores de las dos variables son independientes y se distribuyen normalmente , y se conoce la relación de sus varianzas, denotada δ . ^[1] En la práctica, esta relación se puede estimar a partir de fuentes de datos relacionadas; sin embargo, el procedimiento de regresión no tiene en cuenta los posibles errores al estimar esta relación.

La regresión de Deming es apenas un poco más difícil de calcular que la regresión lineal simple . La mayoría de los paquetes de software estadístico utilizados en química clínica ofrecen la regresión de Deming.

El modelo fue introducido originalmente por Adcock (1878) que consideró el caso δ = 1, y luego de manera más general por Kummell (1879) con δ arbitrario . Sin embargo, sus ideas pasaron desapercibidas durante más de 50 años, hasta que fueron retomadas por Koopmans (1936) y luego propagadas aún más por Deming (1943). Este último libro se hizo tan popular en la química clínica y campos relacionados que el método incluso fue denominado regresión de Deming en esos campos. ^[2]

Especificación

Supongamos que los datos disponibles ( y _i , x _i ) son observaciones medidas de los valores "verdaderos" ( y _i * , x _i * ), que se encuentran en la línea de regresión:

{\begin{aligned}y_{i}&=y_{i}^{*}+\varepsilon _{i},\\x_{i}&=x_{i}^{*}+\eta _{i},\end{aligned}}

donde los errores ε y η son independientes y se supone que se conoce la relación de sus varianzas:

\delta ={\frac {\sigma _{\varepsilon }^{2}}{\sigma _{\eta }^{2}}}.

En la práctica, las varianzas de los parámetros y a menudo son desconocidas, lo que complica la estimación de . Tenga en cuenta que cuando el método de medición para y es el mismo, es probable que estas varianzas sean iguales, por lo que para este caso. ${\estilo de visualización x}$ ${\estilo de visualización y}$ ${\estilo de visualización \delta}$ ${\estilo de visualización x}$ ${\estilo de visualización y}$ $\delta = 1$

Buscamos encontrar la línea de “mejor ajuste”

y^{*}=\beta _ {0}+\beta _ {1}x^{*},

de manera que se minimice la suma ponderada de los residuos cuadrados del modelo: ^[3]

SSR=\sum _{i=1}^{n}{\bigg (}{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}+{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}{\bigg )}={\frac {1}{\sigma _{\epsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{1}^{*},\ldots ,x_{n}^{*}}SSR

Véase Jensen (2007) para una derivación completa.

Solución

La solución se puede expresar en términos de los momentos muestrales de segundo grado. Es decir, primero calculamos las siguientes cantidades (todas las sumas van de i = 1 a n ):

{\begin{aligned}{\overline {x}}&={\tfrac {1}{n}}\sum x_{i}&{\overline {y}}&={\tfrac {1}{n}}\sum y_{i},\\s_{xx}&={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})^{2}&&={\overline {x^{2}}}-{\overline {x}}^{2},\\s_{xy}&={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})(y_{i}-{\overline {y}})&&={\overline {xy}}-{\overline {x}}\,{\overline {y}},\\s_{yy}&={\tfrac {1}{n}}\sum (y_{i}-{\overline {y}})^{2}&&={\overline {y^{2}}}-{\overline {y}}^{2}.\end{aligned}}\,

Finalmente, las estimaciones de mínimos cuadrados de los parámetros del modelo serán ^[4]

{\begin{aligned}&{\hat {\beta }}_{1}={\frac {s_{yy}-\delta s_{xx}+{\sqrt {(s_{yy}-\delta s_{xx})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}},\\&{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}},\\&{\hat {x}}_{i}^{*}=x_{i}+{\frac {{\hat {\beta }}_{1}}{{\hat {\beta }}_{1}^{2}+\delta }}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}).\end{aligned}}

Regresión ortogonal

Para el caso de varianzas de error iguales, es decir, cuando , la regresión de Deming se convierte en regresión ortogonal : minimiza la suma de las distancias perpendiculares al cuadrado de los puntos de datos a la línea de regresión . En este caso, denote cada observación como un punto en el plano complejo (es decir, el punto donde es la unidad imaginaria ). Denote como la suma de las diferencias al cuadrado de los puntos de datos desde el centroide (también denotado en coordenadas complejas), que es el punto cuyas ubicaciones horizontal y vertical son los promedios de las de los puntos de datos. Entonces: ^[5] $\delta =1$ $z_{j}=x_{j}+iy_{j}$ $(x_{j},y_{j})$ $i$ $S=\sum {(z_{j}-{\overline {z}})^{2}}$ ${\overline {z}}={\tfrac {1}{n}}\sum z_{j}$

Si , entonces cada línea que pasa por el centroide es una línea de mejor ajuste ortogonal. $S=0$
Si , la línea de regresión ortogonal pasa por el centroide y es paralela al vector desde el origen hasta . $S\neq 0$ ${\sqrt {S}}$

Coolidge proporcionó una representación trigonométrica de la línea de regresión ortogonal en 1913. ^[6]

Solicitud

En el caso de tres puntos no colineales en el plano, el triángulo con estos puntos como sus vértices tiene una única elipse de Steiner que es tangente a los lados del triángulo en sus puntos medios. El eje mayor de esta elipse cae sobre la línea de regresión ortogonal para los tres vértices. ^{[7] La cuantificación del}ruido celular intrínseco de una célula biológica se puede cuantificar al aplicar la regresión de Deming al comportamiento observado de un circuito biológico sintético de dos reporteros . ^[8]

Cuando se les pide a los humanos que dibujen una regresión lineal en un diagrama de dispersión adivinando, sus respuestas están más cerca de la regresión ortogonal que de la regresión de mínimos cuadrados ordinaria. ^[9]

Regresión de York

La regresión de York extiende la regresión de Deming al permitir errores correlacionados en x e y. ^[10]

Véase también

Referencias

Notas

^ Pardillo 1993.
^ Cornbleet y Gochman 1979.
^ Fuller 1987, cap. 1.3.3.
^ Glaister 2001.
^ Minda y Phelps 2008, Teorema 2.3.
^ Coolidge 1913.
^ Minda y Phelps 2008, Corolario 2.4.
^ Cuarto 2020.
^ Ciccione, Lorenzo; Dehaene, Stanislas (agosto de 2021). "¿Pueden los humanos realizar una regresión mental en un gráfico? Precisión y sesgo en la percepción de los diagramas de dispersión". Psicología cognitiva . 128 : 101406. doi :10.1016/j.cogpsych.2021.101406.
^ York, D., Evensen, NM, Martınez, ML y Delgado, JDB: Ecuaciones unificadas para la pendiente, la intersección y los errores estándar de la mejor línea recta, Am. J. Phys., 72, 367–375, https://doi.org/10.1119/1.1632486, 2004.

Bibliografía

Adcock, RJ (1878). "Un problema de mínimos cuadrados". The Analyst . 5 (2): 53–54. doi : 10.2307/2635758 . JSTOR 2635758 .
Coolidge, JL (1913). "Dos aplicaciones geométricas de las matemáticas de mínimos cuadrados". The American Mathematical Monthly . 20 (6): 187–190. doi :10.2307/2973072. JSTOR 2973072.
Cornbleet, PJ; Gochman, N. (1979). "Coeficientes de regresión de mínimos cuadrados incorrectos". Química clínica . 25 (3): 432–438. doi : 10.1093/clinchem/25.3.432 . PMID 262186.
Deming, WE (1943). Ajuste estadístico de datos . Wiley, NY (edición de Dover Publications, 1985). ISBN 0-486-64685-8.
Fuller, Wayne A. (1987). Modelos de error de medición . John Wiley & Sons, Inc. ISBN 0-471-86187-1.
Glaister, P. (2001). "Mínimos cuadrados revisitados". The Mathematical Gazette . 85 : 104–107. doi :10.2307/3620485. JSTOR 3620485. S2CID 125949467.
Jensen, Anders Christian (2007). "Regresión de Deming, paquete MethComp" (PDF) . Gentofte, Dinamarca: Centro de Diabetes Steno.
Koopmans, TC (1936). Análisis de regresión lineal de series temporales económicas . DeErven F. Bohn, Haarlem, Países Bajos.
Kummell, CH (1879). "Reducción de ecuaciones de observación que contienen más de una cantidad observada". The Analyst . 6 (4): 97–105. doi : 10.2307/2635646 . JSTOR 2635646 .
Linnet, K. (1993). "Evaluación de procedimientos de regresión para estudios de comparación de métodos". Química clínica . 39 (3): 424–432. doi : 10.1093/clinchem/39.3.424 . PMID 8448852.
Minda, D. ; Phelps, S. (2008). "Triángulos, elipses y polinomios cúbicos". American Mathematical Monthly . 115 (8): 679–689. doi :10.1080/00029890.2008.11920581. MR 2456092. S2CID 15049234.
Quarton, TG (2020). "Desacoplamiento del ruido de expresión génica a lo largo del dogma central utilizando líneas celulares humanas modificadas genéticamente". Nucleic Acids Research . 48 (16): 9406–9413. doi : 10.1093/nar/gkaa668 . PMC 7498316 . PMID 32810265.