stringtranslate.com

Función de pérdida

En optimización matemática y teoría de la decisión , una función de pérdida o función de costo (a veces también llamada función de error) [1] es una función que asigna un evento o valores de una o más variables a un número real que representa intuitivamente algún "costo" asociado con el evento. Un problema de optimización busca minimizar una función de pérdida. Una función objetivo es una función de pérdida o su opuesta (en dominios específicos, denominada función de recompensa , función de beneficio , función de utilidad , función de aptitud , etc.), en cuyo caso debe maximizarse. La función de pérdida podría incluir términos de varios niveles de la jerarquía.

En estadística, normalmente se utiliza una función de pérdida para la estimación de parámetros , y el evento en cuestión es alguna función de la diferencia entre los valores estimados y verdaderos para una instancia de datos. El concepto, tan antiguo como Laplace , fue reintroducido en la estadística por Abraham Wald a mediados del siglo XX. [2] En el contexto de la economía , por ejemplo, esto suele ser un costo económico o un arrepentimiento . En clasificación , es la penalización por una clasificación incorrecta de un ejemplo. En ciencia actuarial , se utiliza en el contexto de los seguros para modelar los beneficios pagados sobre las primas, particularmente desde los trabajos de Harald Cramér en la década de 1920. [3] En control óptimo , la pérdida es la penalización por no alcanzar un valor deseado. En la gestión de riesgos financieros , la función se asigna a una pérdida monetaria.

Comparación de funciones de pérdida comunes utilizadas para la regresión

Ejemplo

Arrepentirse

Leonard J. Savage argumentó que utilizando métodos no bayesianos como el minimax , la función de pérdida debería basarse en la idea de arrepentimiento , es decir, la pérdida asociada a una decisión debería ser la diferencia entre las consecuencias de la mejor decisión que se podría haber tomado. si se hubieran conocido las circunstancias subyacentes y la decisión que de hecho se tomó antes de que se conocieran.

Función de pérdida cuadrática

El uso de una función de pérdida cuadrática es común, por ejemplo cuando se utilizan técnicas de mínimos cuadrados . A menudo es más manejable matemáticamente que otras funciones de pérdida debido a las propiedades de las varianzas , además de ser simétrica: un error por encima del objetivo causa la misma pérdida que la misma magnitud de error por debajo del objetivo. Si el objetivo es t , entonces una función de pérdida cuadrática es

para alguna constante C ; el valor de la constante no influye en la decisión y se puede ignorar estableciéndolo en 1. Esto también se conoce como pérdida por error al cuadrado ( SEL ). [1]

Muchas estadísticas comunes , incluidas las pruebas t , los modelos de regresión , el diseño de experimentos y mucho más, utilizan métodos de mínimos cuadrados aplicados mediante la teoría de regresión lineal , que se basa en la función de pérdida cuadrática.

La función de pérdida cuadrática también se utiliza en problemas de control óptimo lineal-cuadrático . En estos problemas, incluso en ausencia de incertidumbre, puede que no sea posible alcanzar los valores deseados de todas las variables objetivo. A menudo, la pérdida se expresa en forma cuadrática en las desviaciones de las variables de interés de sus valores deseados; este enfoque es manejable porque da como resultado condiciones lineales de primer orden . En el contexto del control estocástico , se utiliza el valor esperado de la forma cuadrática. La pérdida cuadrática asigna más importancia a los valores atípicos que a los datos verdaderos debido a su naturaleza cuadrada, por lo que se utilizan alternativas como las pérdidas de Huber , Log-Cosh y SMAE cuando los datos tienen muchos valores atípicos grandes.

Efecto de utilizar diferentes funciones de pérdida, cuando los datos tienen valores atípicos.

función de pérdida 0-1

En estadística y teoría de la decisión , una función de pérdida de uso frecuente es la función de pérdida 0-1.

usando la notación entre corchetes de Iverson , es decir, se evalúa como 1 cuando y 0 en caso contrario.

Función de pérdida de dos parámetros

Especialmente en el comercio, donde hay un rango entre cualquier precio es correcto, este rango se llama diferencial, y el valor "correcto" puede estar entre la oferta y la demanda, incluidos ellos, y la demanda (precio de venta) es mayor que la oferta. es el siguiente:

donde es la función de pérdida de dos parámetros (o de rango), es el parámetro de valor alto, es el parámetro de valor bajo y es el valor desconocido.

Por ejemplo, si la oferta es 1,20 y la demanda es 1,26, las ofertas pueden tener cualquier valor entre estos dos, incluidos ellos (es decir, 1,20, 1,21, 1,22, 1,23, 1,24, 1,25 y 1,26).

Esto también se puede aplicar fácilmente a cualquier tipo de medición. También se correlaciona con la función cuadrática por .

Esta función no está publicada.

Construcción de funciones objetivas y de pérdida.

En muchas aplicaciones, las funciones objetivo, incluidas las funciones de pérdida como caso particular, están determinadas por la formulación del problema. En otras situaciones, la preferencia de quien toma las decisiones debe ser provocada y representada por una función escalar (llamada también función de utilidad ) en una forma adecuada para la optimización: el problema que Ragnar Frisch destacó en su conferencia del Premio Nobel. [4] Los métodos existentes para construir funciones objetivas se recogen en las actas de dos conferencias dedicadas. [5] [6] En particular, Andranik Tangian demostró que las funciones objetivo más utilizables (cuadráticas y aditivas) están determinadas por unos pocos puntos de indiferencia. Usó esta propiedad en los modelos para construir estas funciones objetivas a partir de datos ordinales o cardinales que se obtuvieron mediante entrevistas asistidas por computadora con tomadores de decisiones. [7] [8] Entre otras cosas, construyó funciones objetivas para distribuir de manera óptima los presupuestos para 16 universidades de Westfalia [9] y los subsidios europeos para igualar las tasas de desempleo entre 271 regiones alemanas. [10]

Pérdida esperada

En algunos contextos, el valor de la función de pérdida en sí es una cantidad aleatoria porque depende del resultado de una variable aleatoria X.

Estadísticas

Tanto la teoría estadística frecuentista como la bayesiana implican tomar una decisión basada en el valor esperado de la función de pérdida; sin embargo, esta cantidad se define de manera diferente según los dos paradigmas.

Pérdida esperada por el frecuentador

Primero definimos la pérdida esperada en el contexto frecuentista. Se obtiene tomando el valor esperado con respecto a la distribución de probabilidad , P θ , de los datos observados, X. Esto también se conoce como función de riesgo [11] [12] [13] [14] de la regla de decisión δ y el parámetro θ . Aquí la regla de decisión depende del resultado de X. La función de riesgo viene dada por:

Aquí, θ es un estado de naturaleza fijo pero posiblemente desconocido, X es un vector de observaciones estocásticamente extraído de una población , es la expectativa sobre todos los valores poblacionales de X , dP θ es una medida de probabilidad sobre el espacio de eventos de X (parametrizado por  θ ) y la integral se evalúa sobre todo el apoyo de  X .

Riesgo Bayes

En un enfoque bayesiano, la expectativa se calcula utilizando la distribución previa π * del parámetro  θ :

donde m(x) se conoce como la probabilidad predictiva en la que θ se ha "integrado", π * (θ | x) es la distribución posterior y se ha cambiado el orden de integración. Entonces se debe elegir la acción a * que minimice esta pérdida esperada, lo que se conoce como Riesgo Bayes [12] . En la última ecuación, el integrando dentro de dx se conoce como Riesgo Posterior , y minimizarlo con respecto a la decisión a también minimiza el Riesgo Bayes general. Esta decisión óptima, un * , se conoce como regla (decisión) de Bayes : minimiza la pérdida promedio en todos los estados posibles de la naturaleza $\theta$, en todos los resultados de datos posibles (ponderados por probabilidad). Una ventaja del enfoque bayesiano es que sólo es necesario elegir la acción óptima según los datos reales observados para obtener una óptima uniformemente, mientras que elegir la regla de decisión óptima frecuentista real en función de todas las observaciones posibles es un problema mucho más difícil. . Sin embargo, es igualmente importante que la regla de Bayes refleje la consideración de los resultados de las pérdidas en diferentes estados de la naturaleza, θ.

Ejemplos en estadística

Elección económica bajo incertidumbre

En economía, la toma de decisiones en condiciones de incertidumbre a menudo se modela utilizando la función de utilidad de von Neumann-Morgenstern de la variable de interés incierta, como la riqueza al final del período. Como el valor de esta variable es incierto, también lo es el valor de la función de utilidad; es el valor esperado de utilidad el que se maximiza.

Reglas de decisión

Una regla de decisión toma una decisión utilizando un criterio de optimización. Algunos criterios comúnmente utilizados son:

Seleccionar una función de pérdida

Una buena práctica estadística requiere seleccionar un estimador consistente con la variación real aceptable experimentada en el contexto de un problema aplicado en particular. Por lo tanto, en el uso aplicado de funciones de pérdida, seleccionar qué método estadístico usar para modelar un problema aplicado depende de conocer las pérdidas que se experimentarán si se equivoca en las circunstancias particulares del problema. [15]

Un ejemplo común implica estimar la " ubicación ". Bajo supuestos estadísticos típicos, la media o promedio es la estadística para estimar la ubicación que minimiza la pérdida esperada experimentada bajo la función de pérdida de error al cuadrado , mientras que la mediana es el estimador que minimiza la pérdida esperada experimentada bajo la función de pérdida de diferencia absoluta. Aún así, estimadores diferentes serían óptimos en otras circunstancias menos comunes.

En economía, cuando un agente es neutral al riesgo , la función objetivo se expresa simplemente como el valor esperado de una cantidad monetaria, como la ganancia, el ingreso o la riqueza al final del período. Para los agentes reacios o amantes del riesgo , la pérdida se mide como el negativo de una función de utilidad , y la función objetivo a optimizar es el valor esperado de la utilidad.

Son posibles otras medidas de costes, por ejemplo, la mortalidad o la morbilidad en el campo de la salud pública o la ingeniería de seguridad .

Para la mayoría de los algoritmos de optimización , es deseable tener una función de pérdida que sea globalmente continua y diferenciable .

Dos funciones de pérdida muy utilizadas son la pérdida al cuadrado , y la pérdida absoluta . Sin embargo, la pérdida absoluta tiene la desventaja de que no es diferenciable en . La pérdida al cuadrado tiene la desventaja de que tiende a estar dominada por valores atípicos : cuando se suma un conjunto de 's (como en ), la suma final tiende a ser el resultado de unos pocos valores a particularmente grandes , en lugar de un expresión del valor promedio de a .

La elección de una función de pérdida no es arbitraria. Es muy restrictiva y, en ocasiones, la función de pérdida puede caracterizarse por sus propiedades deseables. [16] Entre los principios de elección se encuentran, por ejemplo, el requisito de integridad de la clase de estadística simétrica en el caso de observaciones iid , el principio de información completa y algunos otros.

W. Edwards Deming y Nassim Nicholas Taleb sostienen que la realidad empírica, no las buenas propiedades matemáticas, debería ser la única base para seleccionar funciones de pérdida, y las pérdidas reales a menudo no son matemáticamente buenas y no son diferenciables, continuas, simétricas, etc. Por ejemplo, una persona que llega antes del cierre de la puerta del avión aún puede tomar el avión, pero una persona que llega después no puede, una discontinuidad y asimetría que hace que llegar un poco tarde sea mucho más costoso que llegar un poco temprano. En la dosificación de medicamentos, el costo de una cantidad muy pequeña puede ser una falta de eficacia, mientras que el costo de una cantidad excesiva puede ser una toxicidad tolerable, otro ejemplo de asimetría. El tráfico, las tuberías, las vigas, las ecologías, los climas, etc. pueden tolerar un aumento de carga o estrés con pocos cambios perceptibles hasta cierto punto, y luego retroceden o se rompen catastróficamente. Estas situaciones, sostienen Deming y Taleb, son comunes en los problemas de la vida real, quizás más comunes que los clásicos casos diferenciales suaves, continuos y simétricos. [17]

Ver también

Referencias

  1. ^ ab Hastie, Trevor; Tibshirani, Robert ; Friedman, Jerome H. (2001). Los elementos del aprendizaje estadístico. Saltador. pag. 18.ISBN _ 0-387-95284-5.
  2. ^ Wald, A. (1950). Funciones de decisión estadística. Wiley.
  3. ^ Cramér, H. (1930). Sobre la teoría matemática del riesgo . {{cite book}}: |work=ignorado ( ayuda )
  4. ^ Frisch, Ragnar (1969). "De la teoría utópica a las aplicaciones prácticas: el caso de la econometría". La conferencia del premio Nobel . Consultado el 15 de febrero de 2021 .
  5. ^ Tangiano, Andranik; Gruber, Josef (1997). Construcción de funciones objetivo con valores escalares. Actas de la Tercera Conferencia Internacional sobre Modelos de Decisión Econométrica: Construcción de funciones objetivas con valores escalares, Universidad de Hagen, celebrada en Katholische Akademie Schwerte del 5 al 8 de septiembre de 1995 . Apuntes de conferencias sobre economía y sistemas matemáticos. vol. 453. Berlín: Springer. doi :10.1007/978-3-642-48773-6. ISBN 978-3-540-63061-6.
  6. ^ Tangiano, Andranik; Gruber, Josef (2002). Construcción y aplicación de funciones objetivas. Actas de la Cuarta Conferencia Internacional sobre Modelos de Decisión Econométrica que construyen y aplican funciones objetivas, Universidad de Hagen, celebrada en Haus Nordhelle, del 28 al 31 de agosto de 2000 . Apuntes de conferencias sobre economía y sistemas matemáticos. vol. 510. Berlín: Springer. doi :10.1007/978-3-642-56038-5. ISBN 978-3-540-42669-1.
  7. ^ Tangiano, Andranik (2002). "Construcción de una función objetivo cuadrática cuasi cóncava a partir de una entrevista a una persona que toma decisiones". Revista europea de investigación operativa . 141 (3): 608–640. doi :10.1016/S0377-2217(01)00185-0. S2CID  39623350.
  8. ^ Tangiano, Andranik (2004). "Un modelo para la construcción ordinal de funciones objetivo aditivas". Revista europea de investigación operativa . 159 (2): 476–512. doi :10.1016/S0377-2217(03)00413-2. S2CID  31019036.
  9. ^ Tangiano, Andranik (2004). "Redistribución de los presupuestos universitarios respecto al status quo". Revista europea de investigación operativa . 157 (2): 409–428. doi :10.1016/S0377-2217(03)00271-6.
  10. ^ Tangiano, Andranik (2008). "Optimización multicriterio de la política de empleo regional: un análisis de simulación para Alemania". Revista de Desarrollo Urbano y Regional . 20 (2): 103–122. doi :10.1111/j.1467-940X.2008.00144.x.
  11. ^ Nikulin, MS (2001) [1994], "Riesgo de un procedimiento estadístico", Enciclopedia de Matemáticas , EMS Press
  12. ^ Berger, James O. (1985). Teoría de la decisión estadística y análisis bayesiano (2ª ed.). Nueva York: Springer-Verlag. Código Bib : 1985sdtb.book.....B. ISBN 978-0-387-96098-2. SEÑOR  0804611.
  13. ^ DeGroot, Morris (2004) [1970]. Decisiones estadísticas óptimas . Biblioteca de clásicos de Wiley. ISBN 978-0-471-68029-1. SEÑOR  2288194.
  14. ^ Robert, Christian P. (2007). La elección bayesiana . Textos de Springer en estadística (2ª ed.). Nueva York: Springer. doi :10.1007/0-387-71599-1. ISBN 978-0-387-95231-4. SEÑOR  1835885.
  15. ^ Pfanzagl, J. (1994). Teoría estadística paramétrica . Berlín: Walter de Gruyter. ISBN 978-3-11-013863-4.
  16. ^ En el capítulo 2 del libro Klebanov, B. se proporciona información detallada sobre los principios matemáticos de la elección de la función de pérdida; Rachev, Svetlozat T.; Fabozzi, Frank J. (2009). Modelos robustos y no robustos en estadística . Nueva York: Nova Scientific Publishers, Inc.(y referencias allí).
  17. ^ Deming, W. Edwards (2000). Fuera de la Crisis . La prensa del MIT. ISBN 9780262541152.

Otras lecturas