stringtranslate.com

Estimación de tendencia lineal

La estimación de tendencias lineales es una técnica estadística que se utiliza para analizar patrones de datos. Cuando una serie de mediciones de un proceso se trata como una secuencia o serie de tiempo , la estimación de tendencias se puede utilizar para hacer y justificar afirmaciones sobre tendencias en los datos relacionando las mediciones con los momentos en que ocurrieron. Este modelo luego se puede utilizar para describir el comportamiento de los datos observados.

En particular, es útil determinar si las mediciones muestran una tendencia creciente o decreciente que se distingue estadísticamente del comportamiento aleatorio . Los ejemplos incluyen: determinar la tendencia de las temperaturas medias diarias en un lugar determinado desde el invierno hasta el verano; y determinar la tendencia de una serie de temperaturas globales durante los últimos 100 años. En este último caso, las cuestiones de homogeneidad son importantes (por ejemplo, saber si la serie es igualmente confiable en toda su extensión).

Adaptación de una tendencia: mínimos cuadrados

Dado un conjunto de datos y el deseo de producir algún tipo de modelo de esos datos, existe una variedad de funciones que se pueden elegir para el ajuste. Si no existe una comprensión previa de los datos, entonces la función más simple es una línea recta con los valores de los datos en el eje y y el tiempo ( t = 1, 2, 3, ...) en el eje x.

El ajuste de mínimos cuadrados es un método común para ajustar una línea recta a través de los datos. Este método minimiza la suma de los errores al cuadrado en la serie de datos y .

Dado un conjunto de puntos en el tiempo y valores de datos observados para esos puntos en el tiempo, los valores de y se eligen para minimizar la suma de los errores al cuadrado.

Los valores de y derivados de los datos parametrizan el estimador lineal simple . El término "tendencia" se refiere a la pendiente en el estimador de mínimos cuadrados.

Tendencias en datos aleatorios

Los valores sombreados en rojo son superiores al 99% del resto; azul, 95%; verde, 90%. En este caso, los valores V analizados en el texto para una confianza (unilateral) del 95% son 0,2.

Si se analiza una serie que se sabe que es aleatoria (caídas de dados justas o números pseudoaleatorios generados por computadora) y se ajusta una línea de tendencia a través de los datos, las posibilidades de una tendencia estimada exactamente cero son insignificantes. Pero se esperaría que la tendencia fuera pequeña. Si se genera una serie individual de observaciones a partir de simulaciones que emplean una varianza dada de ruido que iguala la varianza observada de nuestra serie de datos de interés y una longitud determinada (digamos, 100 puntos), un gran número de tales series simuladas (digamos, Se pueden generar 100.000 series). Estas 100.000 series pueden luego analizarse individualmente para calcular las tendencias estimadas en cada serie, y estos resultados establecen una distribución de las tendencias estimadas que se esperan de dichos datos aleatorios (consulte el diagrama). Tal distribución será normal según el teorema del límite central excepto en casos patológicos . Ahora se puede seleccionar un nivel de certeza estadística, S ; lo típico es un nivel de confianza del 95%; El 99% sería más estricto, el 90% más flexible, y se puede formular la siguiente pregunta: ¿cuál es el valor límite de la tendencia V que daría como resultado que el S % de las tendencias esté entre − V y +V ?

El procedimiento anterior puede sustituirse por una prueba de permutación . Para generar valores de tendencia límite V y −V, el conjunto de 100.000 series generadas se puede reemplazar por 100.000 series construidas mezclando aleatoriamente las series de datos observadas. Dado que una serie construida de este tipo no tendría tendencias, se puede utilizar de manera similar a los datos simulados.

La distribución de tendencias se calculó mediante simulación en la discusión anterior. En casos simples, como el ruido aleatorio distribuido normalmente, la distribución de tendencias se puede calcular exactamente sin simulación.

El rango (−V, V) se puede utilizar para decidir si es poco probable que una tendencia estimada a partir de los datos reales provenga de una serie de datos que realmente tiene una tendencia cero. Si el valor estimado del parámetro de regresión se encuentra fuera de este rango, tal resultado podría haber ocurrido en presencia de una tendencia cero verdadera sólo, por ejemplo, una vez de cada veinte si se utilizó el valor de confianza S=95%. En este caso, se puede decir que, con el grado de certeza S, rechazamos la hipótesis nula de que la verdadera tendencia subyacente es cero.

Sin embargo, tenga en cuenta que sea cual sea el valor de S elegido, entonces se declarará (falsamente, por construcción) que una fracción dada, 1 − S, de una serie verdaderamente aleatoria tiene una tendencia significativa. Por el contrario, una determinada fracción de series que tienen una tendencia distinta de cero no se declarará que tiene tendencia.

Datos como tendencia más ruido

Para analizar una serie (temporal) de datos, se puede suponer que se puede representar como tendencia más ruido:

donde y son constantes desconocidas y los son errores distribuidos aleatoriamente . Si se puede rechazar la hipótesis nula de que los errores no son estacionarios , entonces la serie no estacionaria { y t } se llama tendencia estacionaria . El método de mínimos cuadrados supone que los errores se distribuyen independientemente con una distribución normal. Si este no es el caso, las pruebas de hipótesis sobre los parámetros desconocidos a y b pueden ser inexactas. Es más simple si todos tienen la misma distribución, pero si no (si algunos tienen una varianza más alta , lo que significa que esos puntos de datos son efectivamente menos seguros), esto se puede tener en cuenta durante el ajuste de mínimos cuadrados, ponderando cada punto. por la inversa de la varianza de ese punto.

En la mayoría de los casos, cuando sólo existe una serie de tiempo para analizar, la varianza de s se estima ajustando una tendencia para obtener los valores de los parámetros estimados y permitiendo así que los valores predichos

restar de los datos ( eliminando así la tendencia de los datos) y dejar los residuos como datos sin tendencia , y estimar la varianza de los 's a partir de los residuos; esta es a menudo la única forma de estimar la varianza de los 's.

Una vez que se conoce el "ruido" de la serie, se puede evaluar la importancia de la tendencia haciendo la hipótesis nula de que la tendencia, , no es diferente de 0. De la discusión anterior sobre las tendencias en datos aleatorios con varianza conocida , la distribución de tendencias calculadas es de esperarse a partir de datos aleatorios (sin tendencias). Si la tendencia estimada, , es mayor que el valor crítico para un cierto nivel de significancia , entonces la tendencia estimada se considera significativamente diferente de cero en ese nivel de significancia y se rechaza la hipótesis nula de tendencia subyacente cero.

El uso de una línea de tendencia lineal ha sido objeto de críticas, lo que ha llevado a la búsqueda de enfoques alternativos para evitar su uso en la estimación de modelos. Uno de los enfoques alternativos implica pruebas de raíz unitaria y la técnica de cointegración en estudios econométricos.

El coeficiente estimado asociado con una variable de tendencia lineal como el tiempo se interpreta como una medida del impacto de una serie de factores desconocidos o conocidos pero inconmensurables sobre la variable dependiente durante una unidad de tiempo. Estrictamente hablando, esta interpretación es aplicable únicamente al período de tiempo de estimación. Fuera de este marco temporal, no se puede determinar cómo se comportan tanto cualitativa como cuantitativamente estos factores inconmensurables. Además, la linealidad de la tendencia temporal plantea muchas preguntas:

1. ¿Por qué debería ser lineal?

2. Si la tendencia no es lineal, ¿bajo qué condiciones su inclusión influye en la magnitud y en la significancia estadística de las estimaciones de otros parámetros del modelo?

3. La inclusión de una tendencia temporal lineal en un modelo excluye, por supuesto, la presencia de fluctuaciones en las tendencias de la variable dependiente a lo largo del tiempo; ¿Es esto necesariamente válido en un contexto particular?

4. Y, ¿existe una relación espuria en el modelo porque una variable causal subyacente tiene en sí misma una tendencia temporal?

En respuesta a esas preguntas se han publicado resultados de investigaciones de matemáticos, estadísticos, econometristas y economistas. Por ejemplo, en Cameron (2005) se dan notas detalladas sobre el significado de las tendencias temporales lineales en el modelo de regresión; [1] Granger, Engle y muchos otros econometristas han escrito sobre estacionariedad, pruebas de raíz unitaria, cointegración y cuestiones relacionadas (un resumen de algunos de los trabajos en esta área se puede encontrar en un documento informativo [2] de la Royal Swedish Academy of Sciences (2003) y Ho-Trieu y Tucker (1990) han escrito sobre tendencias temporales logarítmicas y sus resultados indican que las tendencias temporales lineales son casos especiales de ciclos .

Ejemplo: series temporales ruidosas

Es más difícil ver una tendencia en una serie temporal ruidosa. Por ejemplo, si la serie verdadera es 0, 1, 2, 3, todo más algún "ruido" e independiente distribuido normalmente de desviación estándar  E , y se da una serie de muestra de longitud 50, entonces si E  = 0,1 la tendencia será obvia. ; si E  = 100 la tendencia probablemente será visible; pero si E  = 10000 la tendencia quedará enterrada en el ruido.

Consideremos un ejemplo concreto, como el récord de temperatura de la superficie global de los últimos 140 años presentado por el IPCC : [3] entonces la variación interanual es de aproximadamente 0,2 °C y la tendencia de aproximadamente 0,6 °C durante 140 años, con un 95% de confianza. límites de 0,2 °C (casualmente, aproximadamente el mismo valor que la variación interanual). Por lo tanto, la tendencia es estadísticamente diferente de 0. Sin embargo, como se señaló en otra parte [ cita necesaria ] esta serie de tiempo no se ajusta a los supuestos necesarios para que los mínimos cuadrados sean válidos.

Bondad de ajuste ( r -cuadrado) y tendencia

Ilustración del efecto del filtrado en r 2 . Negro = datos sin filtrar; rojo = datos promediados cada 10 puntos; azul = datos promediados cada 100 puntos. Todos tienen la misma tendencia, pero un mayor filtrado conduce a un r 2 más alto de la línea de tendencia ajustada.

El proceso de ajuste de mínimos cuadrados produce un valor – r cuadrado ( r 2 ) – que es 1 menos la relación entre la varianza de los residuos y la varianza de la variable dependiente. Dice qué fracción de la varianza de los datos se explica por la línea de tendencia ajustada. No se relaciona con la significación estadística de la línea de tendencia (ver gráfico); La significación estadística de la tendencia está determinada por su estadístico t . A menudo, filtrar una serie aumenta r ​​2 sin hacer mucha diferencia en la tendencia ajustada.

Modelos avanzados

Hasta ahora se ha supuesto que los datos consisten en la tendencia más el ruido, siendo el ruido en cada punto de datos variables aleatorias independientes e idénticamente distribuidas y con una distribución normal. Es posible que los datos reales (por ejemplo, datos climáticos) no cumplan estos criterios. Esto es importante, ya que marca una enorme diferencia en la facilidad con la que se pueden analizar las estadísticas para extraer la máxima información de la serie de datos. Si hay otros efectos no lineales que tienen una correlación con la variable independiente (como influencias cíclicas), el uso de la estimación de mínimos cuadrados de la tendencia no es válido. Además, cuando las variaciones son significativamente mayores que la tendencia en línea recta resultante, la elección de los puntos inicial y final puede cambiar significativamente el resultado. Es decir, el modelo está matemáticamente mal especificado . Las inferencias estadísticas (pruebas de presencia de tendencia, intervalos de confianza para la tendencia, etc.) no son válidas a menos que se tengan en cuenta adecuadamente las desviaciones de los supuestos estándar, por ejemplo de la siguiente manera:

En R , la tendencia lineal de los datos se puede estimar utilizando la función 'tslm' del paquete 'forecast'.

Tendencias en los datos clínicos

Los estudios médicos y biomédicos a menudo buscan determinar un vínculo en conjuntos de datos, como (como se indicó anteriormente) tres enfermedades diferentes. Pero los datos también pueden estar vinculados en el tiempo (como el cambio en el efecto de un medicamento desde el inicio, al mes 1, al mes 2), o por un factor externo que puede o no ser determinado por el investigador y/o su sujeto. (como ausencia de dolor, dolor leve, dolor moderado, dolor intenso). En estos casos, uno esperaría que la estadística de la prueba del efecto (por ejemplo, influencia de una estatina en los niveles de colesterol , un analgésico en el grado de dolor o dosis crecientes de un fármaco en un índice mensurable) cambiara en orden directo a medida que se desarrolla el efecto. Supongamos que el nivel medio de colesterol antes y después de la prescripción de una estatina cae de 5,6 mmol/L al inicio del estudio a 3,4 mmol/L al mes y a 3,7 mmol/L a los dos meses. Con suficiente poder, un ANOVA (análisis de varianza) probablemente encontraría una caída significativa al mes y a los dos meses, pero la caída no es lineal. Además, es posible que se requiera una prueba post hoc. Una prueba alternativa puede ser ANOVA de medidas repetidas (bidireccional) o prueba de Friedman , según la naturaleza de los datos. Sin embargo, debido a que los grupos están ordenados, un ANOVA estándar no es apropiado. Si el colesterol baja de 5,4 a 4,1 y 3,7, se produce una clara tendencia lineal. El mismo principio se puede aplicar a los efectos de la frecuencia de alelos/genotipos , donde se podría argumentar que los SNP en los nucleótidos XX, XY, YY son de hecho una tendencia de ausencia de Y, una Y y luego dos Y.

Las matemáticas de la estimación de tendencias lineales son una variante del ANOVA estándar, que brinda información diferente y serían la prueba más apropiada si los investigadores plantean la hipótesis de un efecto de tendencia en su estadística de prueba. Un ejemplo son los niveles de tripsina sérica en seis grupos de sujetos ordenados por década de edad (10 a 19 años hasta 60 a 69 años). Los niveles de tripsina (ng/mL) aumentan en una tendencia lineal directa de 128, 152, 194, 207, 215, 218. Como era de esperar, un ANOVA "estándar" da p  < 0,0001, mientras que la estimación de tendencia lineal da p  = 0,00006. Por cierto, se podría argumentar razonablemente que, dado que la edad es un índice natural continuamente variable, no debería clasificarse en décadas, sino que se debe buscar un efecto de la edad y la tripsina sérica mediante correlación (suponiendo que los datos brutos estén disponibles). Otro ejemplo es el de una sustancia medida en cuatro momentos temporales en diferentes grupos:

Esta es una tendencia clara. ANOVA da p  = 0,091, porque la varianza general excede las medias, mientras que la estimación de tendencia lineal da p  = 0,012. Sin embargo, si los datos se hubieran recopilado en cuatro puntos temporales en los mismos individuos, la estimación de la tendencia lineal sería inapropiada y se aplicaría un ANOVA bidireccional (medidas repetidas).

Ver también

Notas

  1. ^ "Hacer que la regresión sea más útil II: maniquíes y tendencias" (PDF) . Consultado el 17 de junio de 2012 .
  2. ^ "La Real Academia Sueca de Ciencias" (PDF) . 8 de octubre de 2003 . Consultado el 17 de junio de 2012 .
  3. ^ "Tercer informe de evaluación del IPCC - Cambio climático 2001 - Versiones completas en línea". Archivado desde el original el 20 de noviembre de 2009 . Consultado el 17 de junio de 2012 .
  4. ^ Previsión: principios y práctica. 20 de septiembre de 2014 . Consultado el 17 de mayo de 2015 .

Referencias