En teoría de la probabilidad , un modelo de recompensa de Markov o un proceso de recompensa de Markov es un proceso estocástico que extiende una cadena de Markov o una cadena de Markov de tiempo continuo agregando una tasa de recompensa a cada estado. Una variable adicional registra la recompensa acumulada hasta el momento actual. [1] Las características de interés en el modelo incluyen la recompensa esperada en un momento dado y el tiempo esperado para acumular una recompensa dada. [2] El modelo aparece en el libro de Ronald A. Howard . [3] Los modelos a menudo se estudian en el contexto de los procesos de decisión de Markov donde una estrategia de decisión puede afectar las recompensas recibidas.
La herramienta Verificador de modelos de recompensa de Markov se puede utilizar para calcular numéricamente las propiedades transitorias y estacionarias de los modelos de recompensa de Markov.
La recompensa acumulada en un tiempo t se puede calcular numéricamente en el dominio del tiempo o evaluando el sistema hiperbólico lineal de ecuaciones que describen la recompensa acumulada utilizando métodos de transformación o métodos de diferencias finitas. [4]