stringtranslate.com

Selección basada en recompensas

La selección basada en recompensas es una técnica utilizada en algoritmos evolutivos para seleccionar soluciones potencialmente útiles para la recombinación. La probabilidad de ser seleccionado para un individuo es proporcional a la recompensa acumulada obtenida por el individuo. La recompensa acumulada se puede calcular como una suma de la recompensa individual y la recompensa heredada de los padres.

Descripción

La selección basada en recompensas se puede utilizar dentro del marco de Multi-armed Bandit para la optimización de múltiples objetivos para obtener una mejor aproximación del frente de Pareto . [1]

El recién nacido y sus padres reciben una recompensa si fue seleccionado para la nueva población ; de lo contrario, la recompensa es cero. Existen varias definiciones de recompensa posibles:

La selección basada en recompensas puede identificar rápidamente las direcciones de búsqueda más fructíferas al maximizar la recompensa acumulada de los individuos.

Véase también

Referencias

  1. ^ Loshchilov, I.; M. Schoenauer; M. Sebag (2011). "No todos los padres son iguales para MO-CMA-ES" (PDF) . Optimización multicriterio evolutiva 2011 (EMO 2011) . Springer Verlag, LNCS 6576. pp. 31–45. Archivado desde el original (PDF) el 4 de junio de 2012.
  2. ^ Deb, K.; Pratap, A.; Agarwal, S.; Meyarivan, T. (2002). "Un algoritmo genético multiobjetivo rápido y elitista: NSGA-II". IEEE Transactions on Evolutionary Computation . 6 (2): 182–197. CiteSeerX 10.1.1.17.7771 . doi :10.1109/4235.996017.