El índice de Gittins es una medida de la recompensa que se puede lograr a través de un proceso estocástico dado con ciertas propiedades, a saber: el proceso tiene un estado de terminación final y evoluciona con una opción, en cada estado intermedio, de terminación. Al terminar en un estado dado, la recompensa lograda es la suma de las recompensas probabilísticas esperadas asociadas con cada estado desde el estado de terminación real hasta el estado terminal final, ambos incluidos. El índice es un escalar real .
Para ilustrar la teoría podemos tomar dos ejemplos de un sector en desarrollo, como es el de las tecnologías de generación de electricidad: la energía eólica y la energía de las olas. Si se nos presentan las dos tecnologías cuando se proponen como ideas, no podemos decir cuál será mejor a largo plazo, ya que todavía no tenemos datos en los que basar nuestros juicios. [1] Sería fácil decir que la energía de las olas sería demasiado problemática de desarrollar, ya que parece más fácil instalar muchas turbinas eólicas que fabricar los largos generadores flotantes, remolcarlos hasta el mar y tender los cables necesarios.
Si tuviéramos que tomar una decisión en ese momento inicial del desarrollo, podríamos estar condenando a que una tecnología se dejara de lado y que la otra se desarrollara y se pusiera en funcionamiento. Si desarrollamos ambas tecnologías, podríamos tomar una decisión sobre cada una comparando el progreso de cada tecnología en un intervalo de tiempo determinado, por ejemplo, cada tres meses. Las decisiones que tomemos sobre la inversión en la siguiente etapa se basarían en esos resultados. [1]
En un artículo de 1979 llamado Bandit Processes and Dynamic Allocation Indices ( Procesos de bandido e índices de asignación dinámica) , John C. Gittins sugiere una solución para problemas como este. Toma las dos funciones básicas de un " problema de programación " y un problema de " máquina tragamonedas de varios brazos " [2] y muestra cómo se pueden resolver estos problemas utilizando índices de asignación dinámica . Primero toma el "problema de programación" y lo reduce a una máquina que tiene que realizar trabajos y tiene un período de tiempo establecido, cada hora o día, por ejemplo, para terminar cada trabajo. A la máquina se le da un valor de recompensa, en función de terminar o no dentro del período de tiempo, y se calcula un valor de probabilidad de si terminará o no para cada trabajo. El problema es "decidir qué trabajo procesar a continuación en cada etapa para maximizar la recompensa total esperada". [1] Luego pasa al "problema de la máquina tragamonedas de varios brazos", donde a cada tirón de una palanca de una " máquina tragamonedas de un brazo " se le asigna una función de recompensa para un tirón exitoso y una recompensa cero para un tirón fallido. La secuencia de éxitos forma un proceso de Bernoulli y tiene una probabilidad de éxito desconocida. Hay múltiples "bandidos" y la distribución de tirones exitosos se calcula y es diferente para cada máquina. Gittins afirma que el problema aquí es "decidir qué brazo tirar a continuación en cada etapa de modo de maximizar la recompensa total esperada de una secuencia infinita de tirones". [1]
Gittins dice que "Ambos problemas descritos anteriormente implican una secuencia de decisiones, cada una de las cuales se basa en más información que sus predecesoras, y ambos problemas pueden abordarse mediante índices de asignación dinámica". [2]
En matemáticas aplicadas, el "índice de Gittins" es un valor escalar real asociado al estado de un proceso estocástico con una función de recompensa y con una probabilidad de terminación. Es una medida de la recompensa que puede alcanzar el proceso que evoluciona a partir de ese estado, bajo la probabilidad de que se termine en el futuro. La "política de índice" inducida por el índice de Gittins, que consiste en elegir en cada momento el proceso estocástico con el índice de Gittins más alto en ese momento, es la solución de algunos problemas de parada como el de asignación dinámica, donde un decisor tiene que maximizar la recompensa total distribuyendo una cantidad limitada de esfuerzo a un número de proyectos en competencia, cada uno de los cuales devuelve una recompensa estocástica. Si los proyectos son independientes entre sí y solo puede evolucionar un proyecto a la vez, el problema se llama bandido multiarmado (un tipo de problemas de programación estocástica ) y la política del índice de Gittins es óptima. Si pueden desarrollarse varios proyectos, el problema se denomina Restless Bandit y la política de índice de Gittins es una heurística conocida pero no existe una solución óptima en general. De hecho, en general este problema es NP-completo y se acepta generalmente que no se puede encontrar una solución factible.
Las preguntas sobre las políticas óptimas de interrupción en el contexto de los ensayos clínicos han estado abiertas desde la década de 1940 y en la década de 1960 algunos autores analizaron modelos simples que conducían a políticas de índice óptimas, [3] pero fue solo en la década de 1970 que Gittins y sus colaboradores demostraron en un marco markoviano que la solución óptima del caso general es una política de índice cuyo "índice de asignación dinámica" es computable en principio para cada estado de cada proyecto como una función de la dinámica de ese proyecto individual. [2] [4] En paralelo a Gittins, Martin Weitzman estableció el mismo resultado en la literatura económica. [5]
Poco después del artículo seminal de Gittins, Peter Whittle [6] demostró que el índice emerge como un multiplicador de Lagrange a partir de una formulación de programación dinámica del problema llamado proceso de retiro y conjeturó que el mismo índice sería una buena heurística en una configuración más general llamada Restless bandit . La cuestión de cómo calcular realmente el índice para cadenas de Markov fue abordada por primera vez por Varaiya y sus colaboradores [7] con un algoritmo que calcula los índices desde el más grande primero hasta el más pequeño y por Chen y Katehakis [8] quienes demostraron que el LP estándar podría usarse para calcular el índice de un estado sin requerir su cálculo para todos los estados con valores de índice más altos. LCM Kallenberg [9] proporcionó una implementación de LP paramétrica para calcular los índices para todos los estados de una cadena de Markov. Además, Katehakis y Veinott [10] demostraron que el índice es la recompensa esperada de un proceso de decisión de Markov construido sobre la cadena de Markov y conocido como Reinicio en Estado y puede calcularse exactamente resolviendo ese problema con el algoritmo de iteración de políticas , o aproximadamente con el algoritmo de iteración de valores . Este enfoque también tiene la ventaja de calcular el índice para un estado específico sin tener que calcular todos los índices mayores y es válido bajo condiciones de espacio de estados más generales. Un algoritmo más rápido para el cálculo de todos los índices fue obtenido en 2004 por Sonin [11] como consecuencia de su algoritmo de eliminación para la detención óptima de una cadena de Markov. En este algoritmo, la probabilidad de terminación del proceso puede depender del estado actual en lugar de ser un factor fijo. Un algoritmo más rápido fue propuesto en 2007 por Niño-Mora [12] explotando la estructura de un simplex paramétrico para reducir el esfuerzo computacional de los pasos pivote y logrando así la misma complejidad que el algoritmo de eliminación gaussiana . Cowan, W. y Katehakis (2014), [13] ofrecen una solución al problema, con procesos de recompensa en el espacio de estados potencialmente no markovianos e incontables, bajo marcos en los que, o bien los factores de descuento pueden ser no uniformes y variar con el tiempo, o bien los períodos de activación de cada bandido pueden no ser fijos o uniformes, sujetos en cambio a una duración de activación posiblemente estocástica antes de que se permita un cambio a un bandido diferente. La solución se basa en índices generalizados de reinicio en el estado.
La definición clásica de Gittins et al. es:
donde es un proceso estocástico, es la utilidad (también llamada recompensa) asociada al estado discreto , es la probabilidad de que el proceso estocástico no termine, y es el operador de expectativa condicional dado c :
siendo el dominio de X .
La formulación de programación dinámica en términos del proceso de jubilación, dada por Whittle, es:
¿Dónde está la función de valor?
con la misma notación que la anterior. Se cumple que
Si se trata de una cadena de Markov con recompensas, la interpretación de Katehakis y Veinott (1987) asocia a cada estado la acción de reiniciar desde un estado arbitrario , construyendo así un proceso de decisión de Markov .
El índice Gittins de ese estado es la recompensa total más alta que se puede lograr si uno siempre puede elegir continuar o reiniciar desde ese estado .
donde indica una política sobre . Se cumple que
Si la probabilidad de supervivencia depende del estado , una generalización introducida por Sonin [11] (2008) define el índice de Gittins como la recompensa total máxima descontada por probabilidad de terminación.
dónde
Si se reemplaza por en las definiciones de , y , entonces se cumple que
Esta observación lleva a Sonin [11] a concluir que y no es el "verdadero significado" del índice de Gittins.
En la teoría de colas, el índice de Gittins se utiliza para determinar la programación óptima de trabajos, por ejemplo, en una cola M/G/1. El tiempo medio de finalización de los trabajos bajo una programación de índice de Gittins se puede determinar utilizando el enfoque SOAP. [14] Nótese que la dinámica de la cola es intrínsecamente markoviana, y la estocasticidad se debe a los procesos de llegada y servicio. Esto contrasta con la mayoría de los trabajos en la literatura de aprendizaje, donde la estocasticidad se explica explícitamente a través de un término de ruido.
Si bien los índices Gittins convencionales inducen una política para optimizar la acumulación de una recompensa, un problema común consiste en optimizar la proporción de recompensas acumuladas. Por ejemplo, este es un caso en el que los sistemas buscan maximizar el ancho de banda, que consiste en datos a lo largo del tiempo, o minimizar el consumo de energía, que consiste en energía a lo largo del tiempo.
Esta clase de problemas es diferente de la optimización de un proceso de recompensa semi-Markov, porque este último podría seleccionar estados con un tiempo de permanencia desproporcionado solo para acumular una recompensa mayor. En cambio, corresponde a la clase de problema de optimización de recompensa de Markov lineal-fraccional.
Sin embargo, un aspecto perjudicial de tales optimizaciones de proporción es que, una vez que la proporción alcanzada en algún estado es alta, la optimización puede seleccionar estados que conducen a una proporción baja porque tienen una alta probabilidad de terminación, de modo que es probable que el proceso termine antes de que la proporción caiga significativamente. Una configuración de problemas para evitar tales terminaciones tempranas consiste en definir la optimización como la maximización de la proporción futura observada por cada estado. Se conjetura que existe una indexación para este problema, que se puede calcular como una variación simple de los algoritmos existentes de reinicio en el estado o de eliminación de estados y que se evalúa que funciona bien en la práctica. [15]
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite conference}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite book}}
: CS1 maint: multiple names: authors list (link)