stringtranslate.com

Estimación de tendencia lineal

La estimación de tendencias lineales es una técnica estadística que se utiliza para analizar patrones de datos . Los patrones o tendencias de datos ocurren cuando la información recopilada tiende a aumentar o disminuir con el tiempo, o está influenciada por cambios en un factor externo. La estimación de tendencia lineal esencialmente crea una línea recta en un gráfico de datos que modela la dirección general hacia la que se dirigen los datos .

Adaptación de una tendencia: mínimos cuadrados

Dado un conjunto de datos , hay una variedad de funciones que se pueden elegir para el ajuste. La función más simple es una línea recta con la variable dependiente (normalmente los datos medidos) en el eje vertical y la variable independiente (a menudo el tiempo) en el eje horizontal.

El ajuste de mínimos cuadrados es un método común para ajustar una línea recta a través de los datos. Este método minimiza la suma de los errores al cuadrado en la serie de datos . Dado un conjunto de puntos en el tiempo y valores de datos observados para esos puntos en el tiempo, los valores de y se eligen para minimizar la suma de los errores al cuadrado.

.

Esta fórmula calcula la diferencia entre los datos observados y la estimación . La diferencia en cada punto de datos se eleva al cuadrado y luego se suma, dando la medida del error de "suma de cuadrados". Los valores de y derivados de los datos parametrizan el estimador lineal simple . El término "tendencia" se refiere a la pendiente en el estimador de mínimos cuadrados.

Los datos como tendencia y ruido

Para analizar una serie (temporal) de datos, se puede suponer que se puede representar como tendencia más ruido:

donde y son constantes desconocidas y los son errores distribuidos aleatoriamente . Si se puede rechazar la hipótesis nula de que los errores no son estacionarios , entonces la serie no estacionaria se llama tendencia-estacionaria . El método de mínimos cuadrados supone que los errores se distribuyen independientemente con una distribución normal. Si este no es el caso, las pruebas de hipótesis sobre los parámetros desconocidos pueden ser inexactas. Es más simple si todos tienen la misma distribución, pero si no (si algunos tienen una varianza más alta , lo que significa que esos puntos de datos son efectivamente menos seguros), entonces esto se puede tener en cuenta durante el ajuste de mínimos cuadrados ponderando cada uno. punto por la inversa de la varianza de ese punto.

Por lo general, cuando solo existe una única serie temporal para analizar, la varianza de las s se estima ajustando una tendencia para obtener los valores de los parámetros estimados y permitiendo así que se apliquen los valores predichos.

restar de los datos ( eliminando así la tendencia de los datos), dejando los residuos como datos sin tendencia y estimando la varianza de los 's a partir de los residuos; esta es a menudo la única forma de estimar la varianza de los 's.

Una vez que se conoce el "ruido" de la serie, se puede evaluar la importancia de la tendencia haciendo la hipótesis nula de que la tendencia, , no es diferente de 0. De la discusión anterior sobre las tendencias en datos aleatorios con varianza conocida , la distribución de tendencias calculadas es de esperarse a partir de datos aleatorios (sin tendencias). Si la tendencia estimada, , es mayor que el valor crítico para un cierto nivel de significancia , entonces la tendencia estimada se considera significativamente diferente de cero en ese nivel de significancia y se rechaza la hipótesis nula de una tendencia subyacente cero.

El uso de una línea de tendencia lineal ha sido objeto de críticas, lo que ha llevado a la búsqueda de enfoques alternativos para evitar su uso en la estimación de modelos. Uno de los enfoques alternativos implica pruebas de raíz unitaria y la técnica de cointegración en estudios econométricos.

El coeficiente estimado asociado con una variable de tendencia lineal como el tiempo se interpreta como una medida del impacto de una serie de factores desconocidos o conocidos pero inconmensurables sobre la variable dependiente durante una unidad de tiempo. Estrictamente hablando, esta interpretación es aplicable únicamente al período de tiempo de estimación. Fuera de este marco temporal, no se puede determinar cómo se comportan tanto cualitativa como cuantitativamente estos factores inconmensurables.

En respuesta a esas preguntas se han publicado resultados de investigaciones realizadas por matemáticos, estadísticos, econometristas y economistas. Por ejemplo, en Cameron (2005) se dan notas detalladas sobre el significado de las tendencias temporales lineales en el modelo de regresión; [1] Granger, Engle y muchos otros econometristas han escrito sobre estacionariedad, pruebas de raíz unitaria, cointegración y cuestiones relacionadas (un resumen de algunos de los trabajos en esta área se puede encontrar en un documento informativo [2] del Real Academia Sueca de Ciencias (2003)); y Ho-Trieu y Tucker (1990) han escrito sobre tendencias temporales logarítmicas y sus resultados indican que las tendencias temporales lineales son casos especiales de ciclos .

Serie temporal ruidosa

Es más difícil ver una tendencia en una serie temporal ruidosa. Por ejemplo, si la serie verdadera es 0, 1, 2, 3, todo más algún "ruido" e independiente distribuido normalmente de desviación estándar E , y se da una serie de muestra de longitud 50, entonces si E = 0,1, la tendencia será ser obvio; si E = 100, la tendencia probablemente será visible; pero si E = 10000, la tendencia quedará enterrada en el ruido.       

Consideremos un ejemplo concreto, como el récord de temperatura superficial global de los últimos 140 años presentado por el IPCC . [3] La variación interanual es de aproximadamente 0,2  °C y la tendencia es de aproximadamente 0,6  °C durante 140 años, con límites de confianza del 95% de 0,2  °C (por coincidencia, aproximadamente el mismo valor que la variación interanual). Por lo tanto, la tendencia es estadísticamente diferente de 0. Sin embargo, como se señaló en otra parte, [4] esta serie de tiempo no se ajusta a los supuestos necesarios para que los mínimos cuadrados sean válidos.

Bondad de ajuste (r-al cuadrado) y tendencia

Ilustración del efecto del filtrado en r 2 . Negro = datos sin filtrar; rojo = datos promediados cada 10 puntos; azul = datos promediados cada 100 puntos. Todos tienen la misma tendencia, pero un mayor filtrado conduce a un r 2 más alto de la línea de tendencia ajustada.

El proceso de ajuste de mínimos cuadrados produce un valor, r cuadrado ( r 2 ), que es 1 menos la relación entre la varianza de los residuos y la varianza de la variable dependiente. Dice qué fracción de la varianza de los datos se explica por la línea de tendencia ajustada. No se relaciona con la significancia estadística de la línea de tendencia (ver gráfico); la significación estadística de la tendencia está determinada por su estadístico t . A menudo, filtrar una serie aumenta r ​​2 sin hacer mucha diferencia en la tendencia ajustada.

Modelos avanzados

Hasta ahora, se ha supuesto que los datos constan de la tendencia más el ruido, siendo el ruido en cada punto de datos variables aleatorias independientes y distribuidas idénticamente con una distribución normal. Es posible que los datos reales (por ejemplo, los datos climáticos) no cumplan estos criterios. Esto es importante, ya que marca una enorme diferencia en la facilidad con la que se pueden analizar las estadísticas para extraer la máxima información de la serie de datos. Si hay otros efectos no lineales que tienen una correlación con la variable independiente (como influencias cíclicas), el uso de la estimación de mínimos cuadrados de la tendencia no es válido. Además, cuando las variaciones son significativamente mayores que la tendencia en línea recta resultante, la elección de los puntos inicial y final puede cambiar significativamente el resultado. Es decir, el modelo está matemáticamente mal especificado . Las inferencias estadísticas (pruebas de presencia de una tendencia, intervalos de confianza para la tendencia, etc.) no son válidas a menos que las desviaciones de los supuestos estándar se tengan en cuenta adecuadamente, por ejemplo, de la siguiente manera:

En R , la tendencia lineal de los datos se puede estimar utilizando la función 'tslm' del paquete 'forecast'.

Tendencias en los datos clínicos

Los estudios médicos y biomédicos a menudo buscan determinar un vínculo entre conjuntos de datos, como una métrica clínica o científica, en tres enfermedades diferentes. Pero los datos también pueden estar vinculados en el tiempo (como el cambio en el efecto de un medicamento desde el inicio, al mes 1, al mes 2), o por un factor externo que puede o no ser determinado por el investigador y/o su sujeto. (como ausencia de dolor, dolor leve, dolor moderado o dolor intenso). En estos casos, uno esperaría que la estadística de la prueba del efecto (p. ej., influencia de una estatina en los niveles de colesterol , un analgésico en el grado de dolor o dosis crecientes de diferentes concentraciones de un fármaco) en un índice medible, es decir, una relación dosis-respuesta. efecto) para cambiar en orden directo a medida que se desarrolla el efecto. Supongamos que el nivel medio de colesterol antes y después de la prescripción de una estatina cae de 5,6 mmol/L al inicio a 3,4 mmol/L al mes y a 3,7 mmol/L a los dos meses. Con suficiente poder, un ANOVA (análisis de varianza) probablemente encontraría una caída significativa al mes y a los dos meses, pero la caída no es lineal. Además, es posible que se requiera una prueba post hoc. Una prueba alternativa puede ser un ANOVA de medidas repetidas (bidireccional) o una prueba de Friedman , según la naturaleza de los datos. Sin embargo, debido a que los grupos están ordenados, un ANOVA estándar no es apropiado. Si el colesterol baja de 5,4 a 4,1 y 3,7, se produce una clara tendencia lineal. El mismo principio se puede aplicar a los efectos de la frecuencia de alelos/genotipos , donde se podría argumentar que un polimorfismo de un solo nucleótido en los nucleótidos XX, XY, YY es de hecho una tendencia de ninguna Y, una Y y luego dos Y. [3]

Las matemáticas de la estimación de tendencias lineales son una variante del ANOVA estándar, que brinda información diferente y serían la prueba más apropiada si los investigadores plantean la hipótesis de un efecto de tendencia en su estadística de prueba. Un ejemplo son los niveles de tripsina sérica en seis grupos de sujetos ordenados por década de edad (de 10 a 19 años hasta 60 a 69 años). Los niveles de tripsina (ng/mL) aumentan en una tendencia lineal directa de 128, 152, 194, 207, 215, 218 (datos de Altman). Como era de esperar, un ANOVA "estándar" da p  < 0,0001, mientras que la estimación de tendencia lineal da p  = 0,00006. Por cierto, se podría argumentar razonablemente que, como la edad es un índice natural continuamente variable, no debe clasificarse en décadas, y se busca un efecto de la edad y la tripsina sérica mediante correlación (suponiendo que los datos brutos estén disponibles). Otro ejemplo es el de una sustancia medida en cuatro momentos temporales en diferentes grupos:

Esta es una tendencia clara. ANOVA da p  = 0,091, porque la varianza general excede las medias, mientras que la estimación de tendencia lineal da p  = 0,012. Sin embargo, si los datos se hubieran recopilado en cuatro puntos temporales en los mismos individuos, la estimación de la tendencia lineal sería inapropiada y se habría aplicado un ANOVA bidireccional (medidas repetidas).

Ver también

Notas

  1. ^ "Hacer que la regresión sea más útil II: maniquíes y tendencias" (PDF) . Consultado el 17 de junio de 2012 .
  2. ^ "La Real Academia Sueca de Ciencias" (PDF) . 8 de octubre de 2003 . Consultado el 17 de junio de 2012 .
  3. ^ ab "Tercer informe de evaluación del IPCC - Cambio climático 2001 - Versiones completas en línea". Archivado desde el original el 20 de noviembre de 2009 . Consultado el 17 de junio de 2012 .
  4. ^ ab Previsión: principios y práctica. 20 de septiembre de 2014 . Consultado el 17 de mayo de 2015 .

Referencias