stringtranslate.com

Modelo de recompensa de Markov

En teoría de la probabilidad , un modelo de recompensa de Markov o un proceso de recompensa de Markov es un proceso estocástico que extiende una cadena de Markov o una cadena de Markov de tiempo continuo agregando una tasa de recompensa a cada estado. Una variable adicional registra la recompensa acumulada hasta el momento actual. [1] Las características de interés en el modelo incluyen la recompensa esperada en un momento dado y el tiempo esperado para acumular una recompensa dada. [2] El modelo aparece en el libro de Ronald A. Howard . [3] Los modelos a menudo se estudian en el contexto de los procesos de decisión de Markov donde una estrategia de decisión puede afectar las recompensas recibidas.

La herramienta Verificador de modelos de recompensa de Markov se puede utilizar para calcular numéricamente las propiedades transitorias y estacionarias de los modelos de recompensa de Markov.

Cadena de Markov de tiempo continuo

La recompensa acumulada en un tiempo t se puede calcular numéricamente en el dominio del tiempo o evaluando el sistema hiperbólico lineal de ecuaciones que describen la recompensa acumulada utilizando métodos de transformación o métodos de diferencias finitas. [4]

Véase también

Referencias

  1. ^ Begain, K.; Bolch, G.; Herold, H. (2001). "Antecedentes teóricos". Modelado práctico del rendimiento . pp. 9. doi :10.1007/978-1-4615-1387-2_2. ISBN 978-1-4613-5528-1.
  2. ^ Li, QL (2010). "Procesos de recompensa de Markov". Computación constructiva en modelos estocásticos con aplicaciones . pp. 526–573. doi :10.1007/978-3-642-11492-2_10. ISBN 978-3-642-11491-5.
  3. ^ Howard, RA (1971). Sistemas probabilísticos dinámicos, vol. II: Semi-Markov y procesos de decisión . Nueva York: Wiley. ISBN 0471416657.
  4. ^ Reibman, A.; Smith, R.; Trivedi, K. (1989). "Análisis transitorio del modelo de recompensa de Markov y Markov: una descripción general de los enfoques numéricos" (PDF) . Revista Europea de Investigación Operativa . 40 (2): 257. doi :10.1016/0377-2217(89)90335-4.