Promedio de conjunto (aprendizaje automático)

En el aprendizaje automático , en particular en la creación de redes neuronales artificiales , el promedio de conjuntos es el proceso de crear múltiples modelos y combinarlos para producir un resultado deseado, en lugar de crear un solo modelo. Con frecuencia, un conjunto de modelos funciona mejor que cualquier modelo individual, porque los diversos errores de los modelos se "promedian".

Descripción general

El promedio de conjunto es uno de los tipos más simples de máquinas de comité . Junto con el boosting , es uno de los dos tipos principales de máquinas de comité estáticas. ^[1] A diferencia del diseño de red estándar en el que se generan muchas redes pero solo se conserva una, el promedio de conjunto mantiene las redes menos satisfactorias, pero con menos peso. ^[2] La teoría del promedio de conjunto se basa en dos propiedades de las redes neuronales artificiales: ^[3]

En cualquier red, el sesgo se puede reducir a costa de una mayor varianza.
En un grupo de redes, la varianza se puede reducir sin costo alguno para el sesgo.

El promedio de conjunto crea un grupo de redes, cada una con un sesgo bajo y una varianza alta, y luego las combina para formar una nueva red con un sesgo (con suerte) bajo y una varianza baja. Por lo tanto, es una solución al dilema sesgo-varianza . ^[4] La idea de combinar expertos se remonta a Pierre-Simon Laplace . ^[5]

Método

La teoría mencionada anteriormente ofrece una estrategia obvia: crear un conjunto de expertos con bajo sesgo y alta varianza, y luego promediarlos. En general, esto significa crear un conjunto de expertos con parámetros variables; con frecuencia, estos son los pesos sinápticos iniciales, aunque también se pueden variar otros factores (como la tasa de aprendizaje, el impulso, etc.). Algunos autores recomiendan no variar la disminución de los pesos ni detenerlos antes de tiempo. ^[3] Por lo tanto, los pasos son:

Generar N expertos, cada uno con sus propios valores iniciales. (Los valores iniciales suelen elegirse aleatoriamente a partir de una distribución).
Capacitar a cada experto por separado.
Combine los expertos y promedie sus valores.

Como alternativa, se puede utilizar el conocimiento del dominio para generar varias clases de expertos. Se capacita a un experto de cada clase y luego se combinan.

Una versión más compleja del promedio de conjunto considera el resultado final no como un mero promedio de todos los expertos, sino como una suma ponderada. Si cada experto es , entonces el resultado general puede definirse como: $y_{i}$ ${\tilde {y}}$

{\tilde {y}}(\mathbf {x} ;\mathbf {\alpha } )=\sum _{j=1}^{p}\alpha _{j}y_{j}(\mathbf {x} )

donde es un conjunto de pesos. El problema de optimización de encontrar alfa se resuelve fácilmente a través de redes neuronales, por lo que se puede entrenar una "metarred" donde cada "neurona" es de hecho una red neuronal completa, y los pesos sinápticos de la red final son el peso aplicado a cada experto. Esto se conoce como una combinación lineal de expertos . ^[2] $\mathbf {\alpha }$

Se puede observar que la mayoría de las formas de redes neuronales son un subconjunto de una combinación lineal: la red neuronal estándar (donde solo se utiliza un experto) es simplemente una combinación lineal con todos y uno . Un promedio bruto es donde todos son iguales a un valor constante, es decir, uno sobre el número total de expertos. ^[2] $\alpha _{j}=0$ $\alpha _{k}=1$ $\alpha _{j}$

Un método de promediado de conjunto más reciente es el aprendizaje de correlación negativa, ^[6] propuesto por Y. Liu y X. Yao. Ahora, este método ha sido ampliamente utilizado en la computación evolutiva .

Beneficios

El comité resultante es casi siempre menos complejo que una sola red que lograría el mismo nivel de rendimiento ^[7].
El comité resultante se puede entrenar más fácilmente con conjuntos de entrada más pequeños ^[1]
El comité resultante a menudo tiene un rendimiento mejorado en comparación con cualquier red individual ^[2].
El riesgo de sobreajuste se reduce, ya que hay menos parámetros (pesos) que deben configurarse ^[1]

Véase también

Aprendizaje en conjunto

Referencias

^ abc Haykin, Simon. Redes neuronales: una base integral. 2.ª ed. Upper Saddle River, Nueva Jersey: Prentice Hall, 1999.
^ abcd Hashem, S. "Combinaciones lineales óptimas de redes neuronales". Neural Networks 10, no. 4 (1997): 599–614.
^ ab Naftaly, U., N. Intrator y D. Horn. "Promedio óptimo de conjuntos de redes neuronales". Network: Computation in Neural Systems 8, no. 3 (1997): 283–296.
^ Geman, S., E. Bienenstock y R. Doursat. "Redes neuronales y el dilema sesgo/varianza". Neural computation 4, no. 1 (1992): 1–58.
^ Clemen, RT "Combinando pronósticos: una revisión y bibliografía comentada". International Journal of Forecasting 5, no. 4 (1989): 559–583.
^ Y. Liu y X. Yao, Aprendizaje conjunto mediante redes neuronales de correlación negativa, volumen 12, número 10, diciembre de 1999, págs. 1399-1404. doi :10.1016/S0893-6080(99)00073-8
^ Pearlmutter, BA y R. Rosenfeld. "Complejidad y generalización de Chaitin-Kolmogorov en redes neuronales". En Actas de la conferencia de 1990 sobre avances en sistemas de procesamiento de información neuronal 3, 931. Morgan Kaufmann Publishers Inc., 1990.

Lectura adicional

Perrone, MP (1993), Mejora de la estimación de regresión: métodos de promediado para la reducción de la varianza con extensiones a la optimización general de medidas convexas
Wolpert, DH (1992), "Generalización apilada", Neural Networks , 5 (2): 241–259, CiteSeerX 10.1.1.133.8090 , doi :10.1016/S0893-6080(05)80023-1
Hashem, S. (1997), "Combinaciones lineales óptimas de redes neuronales", Neural Networks , 10 (4): 599–614, doi :10.1016/S0893-6080(96)00098-6, PMID 12662858
Hashem, S. y B. Schmeiser (1993), "Aproximación de una función y sus derivadas utilizando combinaciones lineales óptimas de MSE de redes neuronales de avance entrenadas", Actas de la Conferencia conjunta sobre redes neuronales , 87 : 617–620