stringtranslate.com

Estimación de tendencia lineal

La estimación de tendencia lineal es una técnica estadística que se utiliza para analizar patrones de datos . Los patrones de datos , o tendencias, se producen cuando la información recopilada tiende a aumentar o disminuir con el tiempo o se ve influida por cambios en un factor externo. La estimación de tendencia lineal crea esencialmente una línea recta en un gráfico de datos que modela la dirección general en la que se dirigen los datos .

Ajuste de una tendencia: mínimos cuadrados

Dado un conjunto de datos , existe una variedad de funciones que se pueden elegir para ajustar los datos. La función más simple es una línea recta con la variable dependiente (normalmente los datos medidos) en el eje vertical y la variable independiente (a menudo el tiempo) en el eje horizontal.

El ajuste por mínimos cuadrados es un método común para ajustar una línea recta a través de los datos. Este método minimiza la suma de los errores al cuadrado en la serie de datos . Dado un conjunto de puntos en el tiempo y valores de datos observados para esos puntos en el tiempo, se eligen valores de y para minimizar la suma de los errores al cuadrado.

.

Esta fórmula calcula primero la diferencia entre los datos observados y la estimación , la diferencia en cada punto de datos se eleva al cuadrado y luego se suman, lo que da como resultado la medición de error de "suma de cuadrados". Los valores de y derivados de los datos parametrizan el estimador lineal simple . El término "tendencia" se refiere a la pendiente en el estimador de mínimos cuadrados.

Los datos como tendencia y ruido

Para analizar una serie (temporal) de datos, se puede suponer que se puede representar como tendencia más ruido:

donde y son constantes desconocidas y los son errores distribuidos aleatoriamente . Si se puede rechazar la hipótesis nula de que los errores no son estacionarios , entonces la serie no estacionaria se llama estacionaria en tendencia . El método de mínimos cuadrados supone que los errores se distribuyen independientemente con una distribución normal. Si este no es el caso, las pruebas de hipótesis sobre los parámetros desconocidos pueden ser inexactas . Es más simple si todos los tienen la misma distribución, pero si no es así (si algunos tienen una varianza más alta , lo que significa que esos puntos de datos son efectivamente menos seguros), esto se puede tener en cuenta durante el ajuste de mínimos cuadrados ponderando cada punto por la inversa de la varianza de ese punto.

Comúnmente, cuando sólo existe una única serie de tiempo para analizar, la varianza de la s se estima ajustando una tendencia para obtener los valores de los parámetros estimados y permitiendo así los valores predichos.

que debe restarse de los datos ( eliminando así la tendencia de los datos), dejando los residuos como datos eliminando la tendencia y estimando la varianza de los a partir de los residuos — esta es a menudo la única forma de estimar la varianza de los .

Una vez que se conoce el "ruido" de la serie, se puede evaluar la significancia de la tendencia haciendo la hipótesis nula de que la tendencia, , no es diferente de 0. A partir de la discusión anterior de las tendencias en datos aleatorios con varianza conocida , se espera la distribución de las tendencias calculadas a partir de datos aleatorios (sin tendencia). Si la tendencia estimada, , es mayor que el valor crítico para un cierto nivel de significancia , entonces la tendencia estimada se considera significativamente diferente de cero en ese nivel de significancia, y se rechaza la hipótesis nula de una tendencia subyacente cero.

El uso de una línea de tendencia lineal ha sido objeto de críticas, lo que ha llevado a la búsqueda de enfoques alternativos para evitar su uso en la estimación de modelos. Uno de los enfoques alternativos implica pruebas de raíz unitaria y la técnica de cointegración en estudios econométricos.

El coeficiente estimado asociado a una variable de tendencia lineal como el tiempo se interpreta como una medida del impacto de una serie de factores desconocidos o conocidos pero inmensurables sobre la variable dependiente a lo largo de una unidad de tiempo. En sentido estricto, esta interpretación es aplicable únicamente al marco temporal de la estimación. Fuera de este marco temporal, no se puede determinar cómo se comportan estos factores inmensurables tanto cualitativa como cuantitativamente.

Los resultados de las investigaciones realizadas por matemáticos, estadísticos, econometristas y economistas se han publicado en respuesta a esas preguntas. Por ejemplo, en Cameron (2005) se ofrecen notas detalladas sobre el significado de las tendencias temporales lineales en el modelo de regresión; [1] Granger, Engle y muchos otros econometristas han escrito sobre estacionariedad, pruebas de raíz unitaria, cointegración y cuestiones relacionadas (se puede encontrar un resumen de algunos de los trabajos en esta área en un documento informativo [2] de la Real Academia Sueca de Ciencias (2003)); y Ho-Trieu y Tucker (1990) han escrito sobre tendencias temporales logarítmicas con resultados que indican que las tendencias temporales lineales son casos especiales de ciclos .

Series temporales ruidosas

Es más difícil ver una tendencia en una serie temporal ruidosa. Por ejemplo, si la serie verdadera es 0, 1, 2, 3, todas más un "ruido" independiente distribuido normalmente e con una desviación estándar E , y se proporciona una serie de muestra de longitud 50, entonces, si E = 0,1, la tendencia será obvia; si E = 100, la tendencia probablemente será visible; pero si E = 10000, la tendencia quedará sepultada en el ruido.       

Consideremos un ejemplo concreto, como el registro de temperatura superficial global de los últimos 140 años presentado por el IPCC . [3] La variación interanual es de aproximadamente 0,2  °C, y la tendencia es de aproximadamente 0,6  °C a lo largo de 140 años, con límites de confianza del 95% de 0,2  °C (por coincidencia, aproximadamente el mismo valor que la variación interanual). Por lo tanto, la tendencia es estadísticamente diferente de 0. Sin embargo, como se señaló en otra parte, [4] esta serie temporal no se ajusta a los supuestos necesarios para que los mínimos cuadrados sean válidos.

Bondad de ajuste (a-cuadrado) y tendencia

Ilustración del efecto del filtrado en r 2 . Negro = datos sin filtrar; rojo = datos promediados cada 10 puntos; azul = datos promediados cada 100 puntos. Todos tienen la misma tendencia, pero un mayor filtrado conduce a un r 2 más alto de la línea de tendencia ajustada.

El proceso de ajuste por mínimos cuadrados produce un valor, r-cuadrado ( r 2 ), que es 1 menos la relación entre la varianza de los residuos y la varianza de la variable dependiente. Indica qué fracción de la varianza de los datos se explica por la línea de tendencia ajustada. No se relaciona con la significancia estadística de la línea de tendencia (ver gráfico); la significancia estadística de la tendencia está determinada por su estadística t . A menudo, filtrar una serie aumenta r ​​2 mientras que hace poca diferencia en la tendencia ajustada.

Modelos avanzados

Hasta ahora, se ha supuesto que los datos consisten en la tendencia más el ruido, y que el ruido en cada punto de datos son variables aleatorias independientes e idénticamente distribuidas con una distribución normal. Los datos reales (por ejemplo, los datos climáticos) pueden no cumplir estos criterios. Esto es importante, ya que hace una enorme diferencia en la facilidad con la que se pueden analizar las estadísticas para extraer la máxima información de las series de datos. Si hay otros efectos no lineales que tienen una correlación con la variable independiente (como las influencias cíclicas), el uso de la estimación de mínimos cuadrados de la tendencia no es válido. Además, cuando las variaciones son significativamente mayores que la tendencia lineal resultante, la elección de los puntos de inicio y final puede cambiar significativamente el resultado. Es decir, el modelo está matemáticamente mal especificado . Las inferencias estadísticas (pruebas de presencia de una tendencia, intervalos de confianza para la tendencia, etc.) no son válidas a menos que se tengan en cuenta adecuadamente las desviaciones de los supuestos estándar, por ejemplo, de la siguiente manera:

En R , la tendencia lineal de los datos se puede estimar utilizando la función 'tslm' del paquete 'forecast'.

Tendencias en los datos clínicos

Los estudios médicos y biomédicos a menudo buscan determinar un vínculo entre conjuntos de datos, como una métrica clínica o científica en tres enfermedades diferentes. Pero los datos también pueden estar vinculados en el tiempo (como el cambio en el efecto de un fármaco desde el inicio, al mes 1, al mes 2), o por un factor externo que puede o no ser determinado por el investigador y/o su sujeto (como ningún dolor, dolor leve, dolor moderado o dolor severo). En estos casos, uno esperaría que la estadística de prueba de efecto (por ejemplo, influencia de una estatina en los niveles de colesterol , un analgésico en el grado de dolor o dosis crecientes de diferentes concentraciones de un fármaco en un índice medible, es decir, un efecto dosis-respuesta) cambie en orden directo a medida que se desarrolla el efecto. Supongamos que el nivel medio de colesterol antes y después de la prescripción de una estatina cae de 5,6 mmol/L al inicio a 3,4 mmol/L al mes y a 3,7 mmol/L a los dos meses. Si se cuenta con la potencia suficiente, un ANOVA (análisis de varianza) probablemente encontraría una caída significativa al mes y a los dos meses, pero la caída no es lineal. Además, puede ser necesaria una prueba post-hoc. Una prueba alternativa puede ser un ANOVA de medidas repetidas (de dos vías) o una prueba de Friedman , dependiendo de la naturaleza de los datos. Sin embargo, debido a que los grupos están ordenados, un ANOVA estándar no es apropiado. Si el colesterol cae de 5,4 a 4,1 a 3,7, hay una clara tendencia lineal. El mismo principio puede aplicarse a los efectos de la frecuencia de alelos/genotipos , donde podría argumentarse que un polimorfismo de un solo nucleótido en los nucleótidos XX, XY, YY son de hecho una tendencia de ninguna Y, una Y y luego dos Y. [3]

Las matemáticas de la estimación de tendencia lineal son una variante del ANOVA estándar, que proporciona información diferente y sería la prueba más adecuada si los investigadores plantean la hipótesis de un efecto de tendencia en su estadística de prueba. Un ejemplo son los niveles de tripsina sérica en seis grupos de sujetos ordenados por década de edad (10-19 años hasta 60-69 años). Los niveles de tripsina (ng/mL) aumentan en una tendencia lineal directa de 128, 152, 194, 207, 215, 218 (datos de Altman). No es sorprendente que un ANOVA "estándar" dé p  < 0,0001, mientras que la estimación de tendencia lineal da p  = 0,00006. Por cierto, se podría argumentar razonablemente que, como la edad es un índice natural de variable continua, no debería categorizarse en décadas, y se busca un efecto de la edad y la tripsina sérica por correlación (suponiendo que los datos brutos estén disponibles). Otro ejemplo es el de una sustancia medida en cuatro puntos temporales en diferentes grupos:

Se trata de una tendencia clara. El ANOVA arroja un valor de p  = 0,091, porque la varianza general supera las medias, mientras que la estimación de la tendencia lineal arroja un valor de p  = 0,012. Sin embargo, si los datos se hubieran recopilado en cuatro puntos temporales de los mismos individuos, la estimación de la tendencia lineal no sería adecuada y se habría aplicado un ANOVA de dos vías (medidas repetidas).

Véase también

Notas

  1. ^ "Hacer que la regresión sea más útil II: variables ficticias y tendencias" (PDF) . Consultado el 17 de junio de 2012 .
  2. ^ "La Real Academia Sueca de Ciencias" (PDF) . 8 de octubre de 2003. Consultado el 17 de junio de 2012 .
  3. ^ ab «IPCC Third Assessment Report – Climate Change 2001 – Complete online version» (Tercer informe de evaluación del IPCC: cambio climático 2001: versiones completas en línea). Archivado desde el original el 20 de noviembre de 2009. Consultado el 17 de junio de 2012 .
  4. ^ ab Pronóstico: principios y práctica. 20 de septiembre de 2014. Consultado el 17 de mayo de 2015 .

Referencias