regresión de deming

En estadística , la regresión de Deming , llamada así en honor a W. Edwards Deming , es un modelo de errores en variables que intenta encontrar la línea de mejor ajuste para un conjunto de datos bidimensionales. Se diferencia de la regresión lineal simple en que tiene en cuenta los errores en las observaciones tanto en el eje x como en el eje y . Es un caso especial de mínimos cuadrados totales , que permite cualquier número de predictores y una estructura de error más complicada.

La regresión de Deming es equivalente a la estimación de máxima verosimilitud de un modelo de errores en variables en el que se supone que los errores de las dos variables son independientes y están distribuidos normalmente , y se conoce la relación de sus varianzas, denotada como δ . ^[1] En la práctica, esta relación podría estimarse a partir de fuentes de datos relacionadas; sin embargo, el procedimiento de regresión no tiene en cuenta posibles errores al estimar esta relación.

La regresión de Deming es sólo ligeramente más difícil de calcular que la regresión lineal simple . La mayoría de los paquetes de software estadístico utilizados en química clínica ofrecen regresión de Deming.

El modelo fue introducido originalmente por Adcock (1878), quien consideró el caso δ = 1, y luego, de manera más general, por Kummell (1879) con δ arbitrario . Sin embargo, sus ideas pasaron desapercibidas durante más de 50 años, hasta que fueron revividas por Koopmans (1936) y luego propagadas aún más por Deming (1943). Este último libro se hizo tan popular en la química clínica y campos relacionados que el método incluso fue denominado regresión de Deming en esos campos. ^[2]

Especificación

Supongamos que los datos disponibles ( y _i , x _i ) son observaciones medidas de los valores "verdaderos" ( y _i * , x _i * ), que se encuentran en la línea de regresión:

{\begin{aligned}y_{i}&=y_{i}^{*}+\varepsilon _{i},\\x_{i}&=x_{i}^{*}+\eta _{i},\end{alineado}}

donde los errores ε y η son independientes y se supone que se conoce la relación de sus varianzas:

\delta ={\frac {\sigma _{\varepsilon }^{2}}{\sigma _{\eta }^{2}}}.

En la práctica, las varianzas de los parámetros y a menudo se desconocen, lo que complica la estimación de . Tenga en cuenta que cuando el método de medición para y es el mismo, es probable que estas variaciones sean iguales, en este caso. $x$ $y$ ${\displaystyle\delta}$ $x$ $y$ $\delta =1$

Buscamos encontrar la línea de “mejor ajuste”

y^{*}=\beta _ {0}+\beta _ {1}x^{*},

tal que se minimice la suma ponderada de los residuos cuadrados del modelo: ^[3]

SSR=\sum _{i=1}^{n}{\bigg (}{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}+{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}{\bigg )}={\frac {1}{\sigma _{\epsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{1}^{*},\ldots ,x_{n}^{*}}SSR

Véase Jensen (2007) para una derivación completa.

Solución

La solución se puede expresar en términos de momentos muestrales de segundo grado. Es decir, primero calculamos las siguientes cantidades (todas las sumas van desde i = 1 hasta n ):

{\begin{aligned}{\overline {x}}&={\tfrac {1}{n}}\sum x_{i}&{\overline {y}}&={\tfrac {1}{n}}\sum y_{i},\\s_{xx}&={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})^{2}&&={\overline {x^{2}}}-{\overline {x}}^{2},\\s_{xy}&={\tfrac {1}{n}}\sum (x_{i}-{\overline {x}})(y_{i}-{\overline {y}})&&={\overline {xy}}-{\overline {x}}\,{\overline {y}},\\s_{yy}&={\tfrac {1}{n}}\sum (y_{i}-{\overline {y}})^{2}&&={\overline {y^{2}}}-{\overline {y}}^{2}.\end{aligned}}\,

Finalmente, las estimaciones de mínimos cuadrados de los parámetros del modelo serán ^[4]

{\begin{aligned}&{\hat {\beta }}_{1}={\frac {s_{yy}-\delta s_{xx}+{\sqrt {(s_{yy}-\delta s_{xx})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}},\\&{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}},\\&{\hat {x}}_{i}^{*}=x_{i}+{\frac {{\hat {\beta }}_{1}}{{\hat {\beta }}_{1}^{2}+\delta }}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}).\end{aligned}}

regresión ortogonal

Para el caso de varianzas de error iguales, es decir, cuando , la regresión de Deming se convierte en regresión ortogonal : minimiza la suma de las distancias perpendiculares al cuadrado desde los puntos de datos hasta la línea de regresión . En este caso, denota cada observación como un punto en el plano complejo (es decir, el punto donde está la unidad imaginaria ). Denota como la suma de las diferencias al cuadrado de los puntos de datos del centroide (también denotado en coordenadas complejas), que es el punto cuyas ubicaciones horizontal y vertical son los promedios de las de los puntos de datos. Entonces: ^[5] $\delta =1$ $z_{j}=x_{j}+iy_{j}$ $(x_{j},y_{j})$ $i$ $S=\sum {(z_{j}-{\overline {z}})^{2}}$ ${\overline {z}}={\tfrac {1}{n}}\sum z_{j}$

Si , entonces cada línea que pasa por el centroide es una línea de mejor ajuste ortogonal. $S=0$
Si , la recta de regresión ortogonal pasa por el centroide y es paralela al vector desde el origen hasta . $S\neq 0$ ${\sqrt {S}}$

Coolidge dio una representación trigonométrica de la línea de regresión ortogonal en 1913. ^[6]

Solicitud

En el caso de tres puntos no colineales en el plano, el triángulo con estos puntos como vértices tiene una inelipse de Steiner única que es tangente a los lados del triángulo en sus puntos medios. El eje mayor de esta elipse cae sobre la línea de regresión ortogonal de los tres vértices. ^{[7] La cuantificación del}ruido celular intrínseco de una célula biológica se puede cuantificar aplicando la regresión de Deming al comportamiento observado de un circuito biológico sintético de dos reporteros . ^[8]

Cuando se pide a los humanos que dibujen una regresión lineal en un diagrama de dispersión adivinando, sus respuestas se acercan más a la regresión ortogonal que a la regresión de mínimos cuadrados ordinaria. ^[9]

regresión de york

La regresión de York amplía la regresión de Deming al permitir errores correlacionados en xey. ^[10]

Ver también

Referencias

Notas

^ Pardillo 1993.
^ Cornbleet y Gochman 1979.
^ Fuller 1987, cap. 1.3.3.
^ Glaister 2001.
^ Minda y Phelps 2008, Teorema 2.3.
^ Coolidge 1913.
^ Minda y Phelps 2008, Corolario 2.4.
^ Cuarto 2020.
^ Ciccione, Lorenzo; Dehaene, Stanislas (agosto de 2021). "¿Pueden los humanos realizar una regresión mental en un gráfico? Precisión y sesgo en la percepción de los diagramas de dispersión". Psicología cognitiva . 128 : 101406. doi : 10.1016/j.cogpsych.2021.101406.
^ York, D., Evensen, NM, Martınez, ML y Delgado, JDB: Ecuaciones unificadas para la pendiente, la intercepción y los errores estándar de la mejor línea recta, Am. J. Phys., 72, 367–375, https://doi.org/10.1119/1.1632486, 2004.

Bibliografía

Adcock, RJ (1878). "Un problema de mínimos cuadrados". El Analista . 5 (2): 53–54. doi : 10.2307/2635758 . JSTOR 2635758 .
Coolidge, JL (1913). "Dos aplicaciones geométricas de la matemática de mínimos cuadrados". El Mensual Matemático Estadounidense . 20 (6): 187–190. doi :10.2307/2973072. JSTOR 2973072.
Cornbleet, PJ; Gochman, N. (1979). "Coeficientes de regresión de mínimos cuadrados incorrectos". Química Clínica . 25 (3): 432–438. doi : 10.1093/clinchem/25.3.432 . PMID 262186.
Deming, NOSOTROS (1943). Ajuste estadístico de datos . Wiley, Nueva York (edición de Dover Publications, 1985). ISBN 0-486-64685-8.
Más completo, Wayne A. (1987). Modelos de error de medición . John Wiley & Sons, Inc. ISBN 0-471-86187-1.
Glaister, P. (2001). "Revisión de mínimos cuadrados". La Gaceta Matemática . 85 : 104-107. doi :10.2307/3620485. JSTOR 3620485. S2CID 125949467.
Jensen, Anders Christian (2007). "Regresión de Deming, paquete MethComp" (PDF) . Gentofte, Dinamarca: Centro de Diabetes Steno.
Koopmans, TC (1936). Análisis de regresión lineal de series de tiempo económicas . DeErven F. Bohn, Haarlem, Países Bajos.
Kummell, CH (1879). "Reducción de ecuaciones de observación que contienen más de una cantidad observada". El Analista . 6 (4): 97-105. doi : 10.2307/2635646 . JSTOR 2635646 .
Linnet, K. (1993). "Evaluación de procedimientos de regresión para estudios de comparación de métodos". Química Clínica . 39 (3): 424–432. doi : 10.1093/clinchem/39.3.424 . PMID 8448852.
Minda, D .; Phelps, S. (2008). "Triángulos, elipses y polinomios cúbicos". Mensual Matemático Estadounidense . 115 (8): 679–689. doi :10.1080/00029890.2008.11920581. SEÑOR 2456092. S2CID 15049234.
Quarton, TG (2020). "Desacoplar el ruido de la expresión genética a lo largo del dogma central utilizando líneas celulares humanas diseñadas con genoma". Investigación de ácidos nucleicos . 48 (16): 9406–9413. doi : 10.1093/nar/gkaa668 . PMC 7498316 . PMID 32810265.