stringtranslate.com

Regresión segmentada

La regresión segmentada , también conocida como regresión por partes o regresión de barras quebradas , es un método de análisis de regresión en el que la variable independiente se divide en intervalos y se ajusta un segmento de línea separado a cada intervalo. El análisis de regresión segmentada también se puede realizar en datos multivariados mediante la división de las distintas variables independientes. La regresión segmentada es útil cuando las variables independientes, agrupadas en diferentes grupos, exhiben diferentes relaciones entre las variables en estas regiones. Los límites entre los segmentos son puntos de ruptura .

La regresión lineal segmentada es una regresión segmentada mediante la cual las relaciones en los intervalos se obtienen mediante regresión lineal .

Regresión lineal segmentada, dos segmentos

1.ª extremidad horizontal
1ª extremidad inclinada hacia arriba
1ª extremidad inclinada hacia abajo

La regresión lineal segmentada con dos segmentos separados por un punto de corte puede ser útil para cuantificar un cambio abrupto de la función de respuesta (Yr) de un factor influyente variable ( x ). El punto de corte puede interpretarse como un valor crítico , seguro o umbral más allá o por debajo del cual se producen efectos (no) deseados. El punto de corte puede ser importante en la toma de decisiones [1]

Las figuras ilustran algunos de los resultados y tipos de regresión obtenibles.

Un análisis de regresión segmentada se basa en la presencia de un conjunto de datos ( y, x ), en el que y es la variable dependiente y x la variable independiente .

El método de mínimos cuadrados aplicado por separado a cada segmento, mediante el cual las dos líneas de regresión se ajustan al conjunto de datos lo más cerca posible mientras se minimiza la suma de cuadrados de las diferencias (SSD) entre los valores observados ( y ) y calculados (Yr) de la variable dependiente, da como resultado las dos ecuaciones siguientes:

dónde:

Yr es el valor esperado (predicho) de y para un cierto valor de x ;
A 1 y A 2 son coeficientes de regresión (que indican la pendiente de los segmentos de línea);
K 1 y K 2 son constantes de regresión (que indican la intersección en el eje y ).

Los datos pueden mostrar muchos tipos o tendencias, [2] véanse las figuras.

El método también produce dos coeficientes de correlación (R):

y

dónde:

es el SSD minimizado por segmento

y

Y a1 e Y a2 son los valores promedio de y en los respectivos segmentos.

En la determinación de la tendencia más adecuada, se deben realizar pruebas estadísticas para garantizar que dicha tendencia sea confiable (significativa).

Cuando no se puede detectar ningún punto de interrupción significativo, se debe recurrir a una regresión sin punto de interrupción.

Ejemplo

Regresión lineal segmentada, tipo 3b

Para la figura azul de la derecha que da la relación entre el rendimiento de mostaza (Yr = Ym, t/ha) y la salinidad del suelo ( x = Ss, expresada como conductividad eléctrica de la solución del suelo CE en dS/m) se encuentra que: [3]

BP = 4,93, A 1 = 0, K 1 = 1,74, A 2 = −0,129, K 2 = 2,38, R 1 2 = 0,0035 (insignificante), R 2 2 = 0,395 (significativo) y:

lo que indica que las salinidades del suelo < 4,93 dS/m son seguras y las salinidades del suelo > 4,93 dS/m reducen el rendimiento a 0,129 t/ha por unidad de aumento de la salinidad del suelo.

La figura también muestra los intervalos de confianza y la incertidumbre según se detalla a continuación.

Procedimientos de prueba

Ejemplo de serie temporal, tipo 5
Ejemplo de tabla ANOVA: en este caso la introducción de un punto de ruptura es altamente significativa.

Las siguientes pruebas estadísticas se utilizan para determinar el tipo de tendencia:

  1. significación del punto de quiebre (BP) expresando BP como una función de los coeficientes de regresión A 1 y A 2 y las medias Y 1 e Y 2 de los datos y y las medias X 1 y X 2 de los datos x (izquierda y derecha de BP), utilizando las leyes de propagación de errores en adiciones y multiplicaciones para calcular el error estándar (SE) de BP y aplicando la prueba t de Student
  2. Significancia de A 1 y A 2 aplicando la distribución t de Student y el error estándar SE de A 1 y A 2
  3. significancia de la diferencia de A 1 y A 2 aplicando la distribución t de Student utilizando el EE de su diferencia.
  4. significancia de la diferencia de Y 1 e Y 2 aplicando la distribución t de Student utilizando el EE de su diferencia.
  5. Un enfoque estadístico más formal para comprobar la existencia de un punto de quiebre es mediante la prueba de pseudopuntuación, que no requiere la estimación de la línea segmentada. [4]

Además, se utiliza el coeficiente de correlación de todos los datos (Ra), el coeficiente de determinación o coeficiente de explicación, los intervalos de confianza de las funciones de regresión y el análisis ANOVA . [5]

El coeficiente de determinación para todos los datos (Cd), que debe maximizarse en las condiciones establecidas por las pruebas de significancia, se obtiene a partir de:

donde Yr es el valor esperado (predicho) de y según las ecuaciones de regresión anteriores y Ya es el promedio de todos los valores de y .

El coeficiente de Cd varía entre 0 (ninguna explicación) y 1 (explicación completa, coincidencia perfecta).
En una regresión lineal pura, no segmentada, los valores de Cd y Ra 2 son iguales. En una regresión segmentada, Cd debe ser significativamente mayor que Ra 2 para justificar la segmentación.

El valor óptimo del punto de ruptura se puede encontrar de manera que el coeficiente Cd sea máximo .

Rango sin efecto

Ilustración de un rango de X=0 a X=7,85 sobre el cual no hay efecto.

La regresión segmentada se utiliza a menudo para detectar en qué rango una variable explicativa (X) no tiene efecto sobre la variable dependiente (Y), mientras que más allá del alcance hay una respuesta clara, ya sea positiva o negativa. El alcance de ningún efecto puede encontrarse en la parte inicial del dominio X o, por el contrario, en su última parte. Para el análisis de "ningún efecto", la aplicación del método de mínimos cuadrados para el análisis de regresión segmentada [6] puede no ser la técnica más apropiada porque el objetivo es más bien encontrar el tramo más largo en el que se puede considerar que la relación YX posee pendiente cero mientras que más allá del alcance la pendiente es significativamente diferente de cero pero el conocimiento sobre el mejor valor de esta pendiente no es material. El método para encontrar el rango de ningún efecto es la regresión parcial progresiva [7] sobre el rango, extendiendo el rango con pequeños pasos hasta que el coeficiente de regresión se vuelve significativamente diferente de cero.

En la siguiente figura, el punto de quiebre se encuentra en X=7,9, mientras que para los mismos datos (véase la figura azul anterior para el rendimiento de mostaza), el método de mínimos cuadrados arroja un punto de quiebre solo en X=4,9. El último valor es menor, pero el ajuste de los datos más allá del punto de quiebre es mejor. Por lo tanto, dependerá del propósito del análisis qué método se debe emplear.

Véase también

Referencias

  1. ^ Análisis de frecuencia y regresión . Capítulo 6 en: HPRitzema (ed., 1994), Principios y aplicaciones del drenaje , Publ. 16, págs. 175-224, Instituto Internacional para la Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. ISBN  90-70754-33-9 . Descarga gratuita desde la página web [1], con el número 20, o directamente como PDF: [2]
  2. ^ Investigación sobre drenaje en campos de agricultores: análisis de datos . Parte del proyecto "Oro líquido" del Instituto Internacional para la Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. Descargar como PDF: [3]
  3. ^ RJOosterbaan, DPSharma, KNSingh y KVGKRao, 1990, Producción de cultivos y salinidad del suelo: evaluación de datos de campo de la India mediante regresión lineal segmentada . En: Actas del Simposio sobre drenaje de tierras para el control de la salinidad en regiones áridas y semiáridas, 25 de febrero al 2 de marzo de 1990, El Cairo, Egipto, vol. 3, sesión V, pág. 373 - 383.
  4. ^ Muggeo, VMR (2016). "Prueba con un parámetro de molestia presente solo bajo la alternativa: un enfoque basado en puntajes con aplicación al modelado segmentado" (PDF) . Revista de computación estadística y simulación . 86 (15): 3059–3067. doi :10.1080/00949655.2016.1149855. S2CID  124914264.
  5. ^ Significación estadística de la regresión lineal segmentada con punto de corte mediante análisis de varianza y pruebas F. Descargar desde [4] en el n.° 13, o directamente como PDF: [5]
  6. ^ Análisis de regresión segmentada, Instituto Internacional de Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. Descarga gratuita desde la página web [6]
  7. ^ Análisis de regresión parcial, Instituto Internacional de Recuperación y Mejora de Tierras (ILRI), Wageningen, Países Bajos. Descarga gratuita desde la página web [7]