Las máquinas de aprendizaje extremo son redes neuronales prealimentadas o feedforward para clasificación, regresión, agrupación, aproximación dispersa, compresión y aprendizaje de características con una sola capa o varias capas de nodos ocultos, en las que es necesario ajustar los parámetros de los nodos ocultos (no sólo los pesos que conectan las entradas con los nodos ocultos).
Estos nodos ocultos pueden asignarse aleatoriamente y no actualizarse nunca (es decir, son proyecciones aleatorias pero con transformaciones no lineales), o pueden heredarse de sus antecesores sin modificarse.
Guang-Bin Huang dio el nombre de "máquina de aprendizaje extremo" (ELM, por sus siglas en inglés) a este tipo de modelos y propuso originalmente redes con cualquier tipo de nodos ocultos no lineales y continuos a trozos, incluidas neuronas biológicas y distintos tipos de funciones matemáticas básicas.
[1] [2] La idea de las redes neuronales artificiales se remonta a Frank Rosenblatt, que no sólo publicó un perceptrón de una sola capa en 1958,[3] sino que también introdujo un perceptrón multicapa con 3 capas: una capa de entrada, una capa oculta con pesos aleatorios que no aprendían y una capa de salida que aprendía.
[4][5] Según algunos investigadores, estos modelos son capaces de producir un buen rendimiento de generalización y aprender miles de veces más rápido que las redes entrenadas mediante retropropagación.
[1][7][8] Entre 2001 y 2010, la investigación sobre ELM se centró principalmente en el marco de aprendizaje unificado para redes neuronales de una capa oculta (SLFN) "generalizadas", incluyendo, entre otras, redes sigmoidales, redes RBF, redes umbral,[9] redes trigonométricas, sistemas de inferencia difusa, series de Fourier,[10][11] transformada laplaciana, redes wavelet, etc.[12] Un logro significativo conseguido en esos años es demostrar con éxito las capacidades universales de aproximación y clasificación de ELM en teoría.
PCA y NMF pueden considerarse como casos especiales en los que se utilizan nodos ocultos lineales en ELM.
Además, desde 2011, se han realizado importantes estudios biológicos que apoyan ciertas teorías de ELM.
[22][23][24] En 2017, Google Scholar Blog publicó una lista de "Classic Papers: Artículos que han resistido el paso del tiempo".
son los parámetros del nodo oculto i-ésimo.
es el peso de salida del nodo oculto
En términos generales, ELM es un tipo de redes neuronales de regularización pero con mapeos de capa oculta no sintonizados (formados por nodos ocultos aleatorios, kernels u otras implementaciones), su función objetivo es:
pueden utilizarse y dar lugar a diferentes algoritmos de aprendizaje para la regresión, la clasificación, la codificación dispersa, la compresión, el aprendizaje de características y la agrupación.
[17][18][29] Un nodo oculto en ELM es un elemento computacional, que no necesita ser considerado como una neurona clásica.
En particular, Guang-Bin Huang y su equipo dedicaron casi siete años (2001-2008) a demostrar rigurosamente la capacidad de aproximación universal del ELM.
[10][13][14] En teoría, cualquier función continua a trozos no constante puede utilizarse como función de activación en los nodos ocultos del ELM, no es necesario que dicha función de activación sea diferencial.
, entonces los parámetros del nodo oculto pueden generarse aleatoriamente según cualquier probabilidad de distribución continua, y
se cumple con probabilidad uno con las ponderaciones de salida adecuadas
Dada cualquier función continua a trozos no constante como función de activación en los SLFN, si el ajuste de los parámetros de los nodos ocultos puede hacer que los SLFN se aproximen a cualquier función objetivo
, entonces SLFNs con mapeo aleatorio de la capa oculta
puede separar regiones disjuntas arbitrarias de cualquier forma.
Una amplia gama de funciones no lineales continuas a trozos
puede utilizarse en neuronas ocultas de ELM, por ejemplo: Función sigmoidea:
Este problema concreto se ha abordado mediante varias técnicas diferentes.
Un enfoque consiste en reducir la dependencia de la entrada aleatoria.
[32][33] que se derivan del conocimiento previo sobre la tarea específica.
Hay dos quejas principales de la comunidad académica con respecto a este trabajo, la primera es sobre "reinventar e ignorar ideas anteriores", la segunda es sobre "nombrar y popularizar incorrectamente", como se muestra en algunos debates en 2008 y 2015.
[34] En particular, se señaló en una carta[35] al editor de IEEE Transactions on Neural Networks que la idea de utilizar una capa oculta conectada a las entradas mediante pesos aleatorios no entrenados ya se había sugerido en los artículos originales sobre redes RNA a finales de la década de 1980; Guang-Bin Huang respondió señalando sutiles diferencias.
[36] En un artículo de 2015,[1] Huang respondió a las quejas sobre su invención del nombre ELM para métodos ya existentes, quejándose de "comentarios muy negativos y poco útiles sobre ELM de manera ni académica ni profesional debido a diversas razones e intenciones" y un "ataque anónimo irresponsable que pretende destruir el ambiente de investigación en armonía", argumentando que su trabajo "proporciona una plataforma de aprendizaje unificadora" para varios tipos de redes neuronales,[1] incluyendo ELM estructurado jerárquico.
[29] En 2015, Huang también dio una refutación formal a lo que consideró como "maligno y ataque"[37] Investigaciones recientes sustituyen los pesos aleatorios por pesos aleatorios restringidos.