stringtranslate.com

Desviación cuadrática media

La desviación cuadrática media ( RMSD ) o el error cuadrático medio ( RMSE ) es una de dos medidas estrechamente relacionadas y de uso frecuente de las diferencias entre los valores verdaderos o predichos, por un lado, y los valores observados, o un estimador , por otro . el otro.

RMSD de una muestra

El RMSD de una muestra es la media cuadrática de las diferencias entre los valores observados y los predichos. Estas desviaciones se denominan residuales cuando los cálculos se realizan sobre la muestra de datos que se utilizó para la estimación (y, por lo tanto, siempre hacen referencia a una estimación) y se denominan errores (o errores de predicción) cuando se calculan fuera de la muestra (también conocido como en la muestra). conjunto completo, que hace referencia a un valor real en lugar de una estimación). El RMSD sirve para agregar las magnitudes de los errores en las predicciones de varios puntos de datos en una única medida de poder predictivo. RMSD es una medida de precisión para comparar errores de pronóstico de diferentes modelos para un conjunto de datos en particular y no entre conjuntos de datos, ya que depende de la escala. [1]

RMSD siempre es no negativo y un valor de 0 (casi nunca se logra en la práctica) indicaría un ajuste perfecto a los datos. En general, un RMSD más bajo es mejor que uno más alto. Sin embargo, las comparaciones entre diferentes tipos de datos no serían válidas porque la medida depende de la escala de las cifras utilizadas.

RMSD es la raíz cuadrada del promedio de errores al cuadrado. El efecto de cada error sobre RMSD es proporcional al tamaño del error al cuadrado; por tanto, los errores más grandes tienen un efecto desproporcionadamente grande sobre la RMSD. En consecuencia, RMSD es sensible a los valores atípicos . [2] [3]

Fórmulas

Estimador

El RMSD de un estimador con respecto a un parámetro estimado se define como la raíz cuadrada del error cuadrático medio :

Para un estimador insesgado , el RMSD es la raíz cuadrada de la varianza , conocida como desviación estándar .

Muestras

Si X 1 , ..., X n es una muestra de una población con valor medio verdadero , entonces el RMSD de la muestra es

.

El RMSD de los valores predichos para los tiempos t de la variable dependiente de una regresión con variables observadas durante T veces, se calcula para T predicciones diferentes como la raíz cuadrada de la media de los cuadrados de las desviaciones:

(Para regresiones sobre datos transversales , el subíndice t se reemplaza por i y T se reemplaza por n ).

En algunas disciplinas, el RMSD se utiliza para comparar diferencias entre dos cosas que pueden variar y ninguna de las cuales se acepta como "estándar". Por ejemplo, al medir la diferencia promedio entre dos series de tiempo y , la fórmula se convierte en

Normalización

La normalización del RMSD facilita la comparación entre conjuntos de datos o modelos con diferentes escalas. Aunque no existe un medio consistente de normalización en la literatura, las opciones comunes son la media o el rango (definido como el valor máximo menos el valor mínimo) de los datos medidos: [4]

o .

Este valor se conoce comúnmente como desviación o error de la raíz cuadrática media normalizada (NRMSD o NRMSE) y, a menudo, se expresa como un porcentaje, donde los valores más bajos indican menos varianza residual. Esto también se llama coeficiente de variación o porcentaje RMS . En muchos casos, especialmente en el caso de muestras más pequeñas, es probable que el rango muestral se vea afectado por el tamaño de la muestra, lo que dificultaría las comparaciones.

Otro método posible para hacer del RMSD una medida de comparación más útil es dividir el RMSD por el rango intercuartil (IQR). Al dividir el RMSD por el IQR, el valor normalizado se vuelve menos sensible para valores extremos en la variable objetivo.

dónde

con y donde CDF −1 es la función cuantil .

Al normalizar por el valor medio de las mediciones, se puede utilizar el término coeficiente de variación del RMSD, CV(RMSD) para evitar ambigüedades. [5] Esto es análogo al coeficiente de variación con el RMSD tomando el lugar de la desviación estándar .

Error absoluto medio

Algunos investigadores [ ¿quién? ] han recomendado [ ¿dónde? ] el uso del error absoluto medio (MAE) en lugar de la desviación cuadrática media. MAE posee ventajas en interpretabilidad sobre RMSD. MAE es el promedio de los valores absolutos de los errores. MAE es fundamentalmente más fácil de entender que la raíz cuadrada del promedio de errores al cuadrado. Además, cada error influye en MAE en proporción directa al valor absoluto del error, lo que no ocurre con RMSD. [2]

Aplicaciones

Ver también

Referencias

  1. ^ Hyndman, Rob J.; Koehler, Anne B. (2006). "Otra mirada a las medidas de precisión de las previsiones". Revista internacional de previsión . 22 (4): 679–688. CiteSeerX  10.1.1.154.9771 . doi : 10.1016/j.ijforecast.2006.03.001. S2CID  15947215.
  2. ^ ab Poncio, Robert; Thontteh, Olufunmilayo; Chen, Hao (2008). «Componentes de información para comparación de resolución múltiple entre mapas que comparten una variable real» (PDF) . Estadísticas Ecológicas Ambientales . 15 (2): 111-142. Código Bib : 2008EnvES..15..111P. doi :10.1007/s10651-007-0043-y. S2CID  21427573.
  3. ^ Willmott, Cort; Matsuura, Kenji (2006). "Sobre el uso de medidas de error dimensionadas para evaluar el desempeño de interpoladores espaciales". Revista Internacional de Ciencia de la Información Geográfica . 20 (1): 89-102. Código Bib : 2006IJGIS..20...89W. doi : 10.1080/13658810500286976. S2CID  15407960.
  4. ^ "Wiki del Programa de investigación de ensenadas costeras (CIRP): estadísticas" . Consultado el 4 de febrero de 2015 .
  5. ^ "Preguntas frecuentes: ¿Cuál es el coeficiente de variación?" . Consultado el 19 de febrero de 2019 .
  6. ^ Armstrong, J. Scott; Colpy, Fred (1992). "Medidas de error para generalizar sobre métodos de pronóstico: comparaciones empíricas" (PDF) . Revista internacional de previsión . 8 (1): 69–80. CiteSeerX 10.1.1.423.508 . doi :10.1016/0169-2070(92)90008-w. S2CID  11034360. 
  7. ^ Anderson, diputado; Woessner, WW (1992). Modelado aplicado de aguas subterráneas: simulación de flujo y transporte advectivo (2ª ed.). Prensa académica.
  8. ^ Modelo de red neuronal de conjunto
  9. ^ ANSI/BPI-2400-S-2012: Práctica estándar para la calificación estandarizada de predicciones de ahorro de energía para toda la casa mediante calibración al historial de uso de energía
  10. ^ https://kalman-filter.com/root-mean-square-error