stringtranslate.com

Promedio de conjunto (aprendizaje automático)

En el aprendizaje automático , en particular en la creación de redes neuronales artificiales , el promedio de conjuntos es el proceso de crear múltiples modelos y combinarlos para producir un resultado deseado, en lugar de crear un solo modelo. Con frecuencia, un conjunto de modelos funciona mejor que cualquier modelo individual, porque los diversos errores de los modelos se "promedian".

Descripción general

El promedio de conjunto es uno de los tipos más simples de máquinas de comité . Junto con el boosting , es uno de los dos tipos principales de máquinas de comité estáticas. [1] A diferencia del diseño de red estándar en el que se generan muchas redes pero solo se conserva una, el promedio de conjunto mantiene las redes menos satisfactorias, pero con menos peso. [2] La teoría del promedio de conjunto se basa en dos propiedades de las redes neuronales artificiales: [3]

  1. En cualquier red, el sesgo se puede reducir a costa de una mayor varianza.
  2. En un grupo de redes, la varianza se puede reducir sin costo alguno para el sesgo.

El promedio de conjunto crea un grupo de redes, cada una con un sesgo bajo y una varianza alta, y luego las combina para formar una nueva red con un sesgo (con suerte) bajo y una varianza baja. Por lo tanto, es una solución al dilema sesgo-varianza . [4] La idea de combinar expertos se remonta a Pierre-Simon Laplace . [5]

Método

La teoría mencionada anteriormente ofrece una estrategia obvia: crear un conjunto de expertos con bajo sesgo y alta varianza, y luego promediarlos. En general, esto significa crear un conjunto de expertos con parámetros variables; con frecuencia, estos son los pesos sinápticos iniciales, aunque también se pueden variar otros factores (como la tasa de aprendizaje, el impulso, etc.). Algunos autores recomiendan no variar la disminución de los pesos ni detenerlos antes de tiempo. [3] Por lo tanto, los pasos son:

  1. Generar N expertos, cada uno con sus propios valores iniciales. (Los valores iniciales suelen elegirse aleatoriamente a partir de una distribución).
  2. Capacitar a cada experto por separado.
  3. Combine los expertos y promedie sus valores.

Como alternativa, se puede utilizar el conocimiento del dominio para generar varias clases de expertos. Se capacita a un experto de cada clase y luego se combinan.

Una versión más compleja del promedio de conjunto considera el resultado final no como un mero promedio de todos los expertos, sino como una suma ponderada. Si cada experto es , entonces el resultado general puede definirse como:

donde es un conjunto de pesos. El problema de optimización de encontrar alfa se resuelve fácilmente a través de redes neuronales, por lo que se puede entrenar una "metarred" donde cada "neurona" es de hecho una red neuronal completa, y los pesos sinápticos de la red final son el peso aplicado a cada experto. Esto se conoce como una combinación lineal de expertos . [2]

Se puede observar que la mayoría de las formas de redes neuronales son un subconjunto de una combinación lineal: la red neuronal estándar (donde solo se utiliza un experto) es simplemente una combinación lineal con todos y uno . Un promedio bruto es donde todos son iguales a un valor constante, es decir, uno sobre el número total de expertos. [2]

Un método de promediado de conjunto más reciente es el aprendizaje de correlación negativa, [6] propuesto por Y. Liu y X. Yao. Ahora, este método ha sido ampliamente utilizado en la computación evolutiva .

Beneficios

Véase también

Referencias

  1. ^ abc Haykin, Simon. Redes neuronales: una base integral. 2.ª ed. Upper Saddle River, Nueva Jersey: Prentice Hall, 1999.
  2. ^ abcd Hashem, S. "Combinaciones lineales óptimas de redes neuronales". Neural Networks 10, no. 4 (1997): 599–614.
  3. ^ ab Naftaly, U., N. Intrator y D. Horn. "Promedio óptimo de conjuntos de redes neuronales". Network: Computation in Neural Systems 8, no. 3 (1997): 283–296.
  4. ^ Geman, S., E. Bienenstock y R. Doursat. "Redes neuronales y el dilema sesgo/varianza". Neural computation 4, no. 1 (1992): 1–58.
  5. ^ Clemen, RT "Combinando pronósticos: una revisión y bibliografía comentada". International Journal of Forecasting 5, no. 4 (1989): 559–583.
  6. ^ Y. Liu y X. Yao, Aprendizaje conjunto mediante redes neuronales de correlación negativa, volumen 12, número 10, diciembre de 1999, págs. 1399-1404. doi :10.1016/S0893-6080(99)00073-8
  7. ^ Pearlmutter, BA y R. Rosenfeld. "Complejidad y generalización de Chaitin-Kolmogorov en redes neuronales". En Actas de la conferencia de 1990 sobre avances en sistemas de procesamiento de información neuronal 3, 931. Morgan Kaufmann Publishers Inc., 1990.

Lectura adicional