En optimización matemática y teoría de decisiones , una función de pérdida o función de costo (a veces también llamada función de error) [1] es una función que asigna un evento o valores de una o más variables a un número real que representa intuitivamente algún "costo" asociado con el evento. Un problema de optimización busca minimizar una función de pérdida. Una función objetivo es una función de pérdida o su opuesta (en dominios específicos, llamada de diversas formas función de recompensa , función de ganancia , función de utilidad , función de aptitud , etc.), en cuyo caso se debe maximizar. La función de pérdida podría incluir términos de varios niveles de la jerarquía.
En estadística, normalmente se utiliza una función de pérdida para la estimación de parámetros , y el evento en cuestión es alguna función de la diferencia entre los valores estimados y verdaderos para una instancia de datos. El concepto, tan antiguo como Laplace , fue reintroducido en estadística por Abraham Wald a mediados del siglo XX. [2] En el contexto de la economía , por ejemplo, esto suele ser el costo económico o el arrepentimiento . En la clasificación , es la penalización por una clasificación incorrecta de un ejemplo. En la ciencia actuarial , se utiliza en un contexto de seguros para modelar los beneficios pagados sobre las primas, particularmente desde los trabajos de Harald Cramér en la década de 1920. [3] En el control óptimo , la pérdida es la penalización por no lograr un valor deseado. En la gestión del riesgo financiero , la función se asigna a una pérdida monetaria.
Leonard J. Savage argumentó que utilizando métodos no bayesianos como el minimax , la función de pérdida debería basarse en la idea del arrepentimiento , es decir, la pérdida asociada a una decisión debería ser la diferencia entre las consecuencias de la mejor decisión que podría haberse tomado si se hubieran conocido las circunstancias subyacentes y la decisión que de hecho se tomó antes de que se conocieran.
El uso de una función de pérdida cuadrática es común, por ejemplo, cuando se utilizan técnicas de mínimos cuadrados . A menudo es más manejable matemáticamente que otras funciones de pérdida debido a las propiedades de las varianzas , además de ser simétrica: un error por encima del objetivo causa la misma pérdida que la misma magnitud de error por debajo del objetivo. Si el objetivo es t , entonces una función de pérdida cuadrática es
para alguna constante C ; el valor de la constante no hace ninguna diferencia en una decisión y se puede ignorar estableciéndolo igual a 1. Esto también se conoce como pérdida de error al cuadrado ( SEL ). [1]
Muchas estadísticas comunes , incluidas las pruebas t , los modelos de regresión , el diseño de experimentos y mucho más, utilizan métodos de mínimos cuadrados aplicados mediante la teoría de regresión lineal , que se basa en la función de pérdida cuadrática.
La función de pérdida cuadrática también se utiliza en problemas de control óptimo lineal-cuadrático . En estos problemas, incluso en ausencia de incertidumbre, puede que no sea posible lograr los valores deseados de todas las variables objetivo. A menudo, la pérdida se expresa como una forma cuadrática en las desviaciones de las variables de interés de sus valores deseados; este enfoque es manejable porque da como resultado condiciones lineales de primer orden . En el contexto del control estocástico , se utiliza el valor esperado de la forma cuadrática. La pérdida cuadrática asigna más importancia a los valores atípicos que a los datos verdaderos debido a su naturaleza cuadrada, por lo que se utilizan alternativas como las pérdidas de Huber , Log-Cosh y SMAE cuando los datos tienen muchos valores atípicos grandes.
En estadística y teoría de decisiones , una función de pérdida utilizada con frecuencia es la función de pérdida 0-1.
utilizando la notación de corchetes de Iverson , es decir, se evalúa como 1 cuando y como 0 en caso contrario.
En muchas aplicaciones, las funciones objetivo, incluidas las funciones de pérdida como un caso particular, están determinadas por la formulación del problema. En otras situaciones, la preferencia del decisor debe obtenerse y representarse mediante una función escalar (también llamada función de utilidad ) en una forma adecuada para la optimización, el problema que Ragnar Frisch destacó en su discurso del Premio Nobel. [4] Los métodos existentes para construir funciones objetivo se recogen en las actas de dos conferencias dedicadas a ello. [5] [6] En particular, Andranik Tangian demostró que las funciones objetivo más utilizables (cuadráticas y aditivas) están determinadas por unos pocos puntos de indiferencia. Utilizó esta propiedad en los modelos para construir estas funciones objetivo a partir de datos ordinales o cardinales que se obtuvieron mediante entrevistas asistidas por ordenador con decisores. [7] [8] Entre otras cosas, construyó funciones objetivo para distribuir de forma óptima los presupuestos de 16 universidades de Westfalia [9] y los subsidios europeos para igualar las tasas de desempleo entre 271 regiones alemanas. [10]
En algunos contextos, el valor de la función de pérdida en sí es una cantidad aleatoria porque depende del resultado de una variable aleatoria X.
Tanto la teoría estadística frecuentista como la bayesiana implican tomar una decisión basada en el valor esperado de la función de pérdida; sin embargo, esta cantidad se define de manera diferente en los dos paradigmas.
Primero definimos la pérdida esperada en el contexto frecuentista. Se obtiene tomando el valor esperado con respecto a la distribución de probabilidad , P θ , de los datos observados, X . Esto también se conoce como la función de riesgo [11] [12] [13] [14] de la regla de decisión δ y el parámetro θ . Aquí la regla de decisión depende del resultado de X . La función de riesgo está dada por:
Aquí, θ es un estado de la naturaleza fijo pero posiblemente desconocido, X es un vector de observaciones extraídas estocásticamente de una población , es la expectativa sobre todos los valores de población de X , dP θ es una medida de probabilidad sobre el espacio de eventos de X ( parametrizado por θ ) y la integral se evalúa sobre todo el soporte de X.
En un enfoque bayesiano, la expectativa se calcula utilizando la distribución previa π * del parámetro θ :
donde m(x) se conoce como la probabilidad predictiva en la que θ se ha "integrado", π * (θ | x) es la distribución posterior y se ha cambiado el orden de integración. Entonces se debe elegir la acción a * que minimiza esta pérdida esperada, a la que se hace referencia como Riesgo de Bayes [12] . En la última ecuación, el integrando dentro de dx se conoce como Riesgo posterior y minimizarlo con respecto a la decisión a también minimiza el Riesgo de Bayes general. Esta decisión óptima, a * se conoce como la Regla (decisión) de Bayes : minimiza la pérdida promedio sobre todos los estados de naturaleza posibles θ, sobre todos los resultados de datos posibles (ponderados por probabilidad). Una ventaja del enfoque bayesiano es que solo se necesita elegir la acción óptima bajo los datos observados reales para obtener una uniformemente óptima, mientras que elegir la regla de decisión óptima frecuentista real como una función de todas las observaciones posibles, es un problema mucho más difícil. Sin embargo, de igual importancia es que la regla de Bayes refleja la consideración de los resultados de pérdidas en diferentes estados de la naturaleza, θ.
En economía, la toma de decisiones en condiciones de incertidumbre suele modelarse utilizando la función de utilidad de von Neumann-Morgenstern de la variable incierta de interés, como la riqueza al final del período. Como el valor de esta variable es incierto, también lo es el valor de la función de utilidad; lo que se maximiza es el valor esperado de la utilidad.
Una regla de decisión permite tomar una decisión utilizando un criterio de optimalidad. Algunos criterios que se utilizan habitualmente son:
Una buena práctica estadística exige seleccionar un estimador coherente con la variación aceptable real que se experimenta en el contexto de un problema aplicado en particular. Por lo tanto, en el uso aplicado de funciones de pérdida, la selección del método estadístico que se utilizará para modelar un problema aplicado depende de conocer las pérdidas que se experimentarán por equivocarse en las circunstancias particulares del problema. [15]
Un ejemplo común es la estimación de la " ubicación ". Según supuestos estadísticos típicos, la media o el promedio es la estadística para estimar la ubicación que minimiza la pérdida esperada experimentada según la función de pérdida de error cuadrático , mientras que la mediana es el estimador que minimiza la pérdida esperada experimentada según la función de pérdida de diferencia absoluta. Aun así, otros estimadores serían óptimos en otras circunstancias menos comunes.
En economía, cuando un agente es neutral al riesgo , la función objetivo se expresa simplemente como el valor esperado de una cantidad monetaria, como una ganancia, un ingreso o una riqueza al final del período. Para los agentes que son reacios al riesgo o que lo aman , la pérdida se mide como el negativo de una función de utilidad , y la función objetivo que se debe optimizar es el valor esperado de la utilidad.
Son posibles otras medidas de costos, por ejemplo la mortalidad o la morbilidad en el campo de la salud pública o la ingeniería de seguridad .
Para la mayoría de los algoritmos de optimización , es deseable tener una función de pérdida que sea globalmente continua y diferenciable .
Dos funciones de pérdida muy utilizadas son la pérdida al cuadrado , , y la pérdida absoluta , . Sin embargo, la pérdida absoluta tiene la desventaja de que no es diferenciable en . La pérdida al cuadrado tiene la desventaja de que tiene la tendencia a estar dominada por valores atípicos : cuando se suma sobre un conjunto de (como en ), la suma final tiende a ser el resultado de unos pocos valores a particularmente grandes , en lugar de una expresión del valor a promedio .
La elección de una función de pérdida no es arbitraria. Es muy restrictiva y, a veces, la función de pérdida puede caracterizarse por sus propiedades deseables. [16] Entre los principios de elección se encuentran, por ejemplo, el requisito de completitud de la clase de estadísticas simétricas en el caso de observaciones iid , el principio de información completa y algunos otros.
W. Edwards Deming y Nassim Nicholas Taleb sostienen que la realidad empírica, no las buenas propiedades matemáticas, debería ser la única base para seleccionar funciones de pérdida, y las pérdidas reales a menudo no son buenas desde el punto de vista matemático y no son diferenciables, continuas, simétricas, etc. Por ejemplo, una persona que llega antes del cierre de la puerta de un avión puede alcanzarlo, pero una persona que llega después no puede, una discontinuidad y asimetría que hace que llegar un poco tarde sea mucho más costoso que llegar un poco antes. En la dosificación de fármacos, el costo de una cantidad insuficiente de fármaco puede ser la falta de eficacia, mientras que el costo de una cantidad excesiva puede ser una toxicidad tolerable, otro ejemplo de asimetría. El tráfico, las tuberías, las vigas, las ecologías, los climas, etc. pueden tolerar una mayor carga o estrés con pocos cambios perceptibles hasta cierto punto, para luego atascarse o romperse catastróficamente. Estas situaciones, sostienen Deming y Taleb, son comunes en los problemas de la vida real, tal vez más comunes que los casos clásicos de diferenciales suaves, continuos y simétricos. [17]