Tipos de redes neuronales artificiales

Existen muchos tipos de redes neuronales artificiales ( ANN ).

Las redes neuronales artificiales son modelos computacionales inspirados en las redes neuronales biológicas y se utilizan para aproximar funciones que generalmente son desconocidas. En particular, se inspiran en el comportamiento de las neuronas y las señales eléctricas que transmiten entre la entrada (como de los ojos o las terminaciones nerviosas de la mano), el procesamiento y la salida del cerebro (como la reacción a la luz, el tacto o el calor). La forma en que las neuronas se comunican semánticamente es un área de investigación en curso. ^[1]^[2]^[3]^[4] La mayoría de las redes neuronales artificiales solo tienen cierta semejanza con sus contrapartes biológicas más complejas, pero son muy efectivas en sus tareas previstas (por ejemplo, clasificación o segmentación).

Algunas redes neuronales artificiales son sistemas adaptativos y se utilizan, por ejemplo, para modelar poblaciones y entornos que cambian constantemente.

Las redes neuronales pueden estar basadas en hardware (las neuronas están representadas por componentes físicos) o en software (modelos de computadora) y pueden utilizar una variedad de topologías y algoritmos de aprendizaje.

Retroalimentación hacia adelante

La red neuronal de propagación hacia adelante fue el primer tipo de red y el más simple. En esta red, la información se mueve solo desde la capa de entrada directamente a través de cualquier capa oculta hasta la capa de salida sin ciclos/bucles. Las redes de propagación hacia adelante se pueden construir con varios tipos de unidades, como las neuronas binarias McCulloch-Pitts , la más simple de las cuales es el perceptrón . Las neuronas continuas, frecuentemente con activación sigmoidea , se utilizan en el contexto de la retropropagación .

Método grupal de manejo de datos

El método de manejo de datos en grupo (GMDH) ^[5] ofrece una optimización de modelos estructurales y paramétricos totalmente automática. Las funciones de activación de nodos son polinomios de Kolmogorov-Gabor que permiten adiciones y multiplicaciones. Utiliza un perceptrón multicapa profundo con ocho capas. ^[6] Es una red de aprendizaje supervisado que crece capa por capa, donde cada capa se entrena mediante análisis de regresión . Los elementos inútiles se detectan utilizando un conjunto de validación y se podan mediante regularización . El tamaño y la profundidad de la red resultante dependen de la tarea. ^[7]

Codificador automático

Un autocodificador, autoasociador o red Diabolo ^[8]^{: 19} es similar al perceptrón multicapa (MLP): con una capa de entrada, una capa de salida y una o más capas ocultas que las conectan. Sin embargo, la capa de salida tiene el mismo número de unidades que la capa de entrada. Su propósito es reconstruir sus propias entradas (en lugar de emitir un valor objetivo). Por lo tanto, los autocodificadores son modelos de aprendizaje no supervisado . Un autocodificador se utiliza para el aprendizaje no supervisado de codificaciones eficientes , ^[9]^[10] típicamente con el propósito de reducción de dimensionalidad y para aprender modelos generativos de datos. ^[11]^[12]

Probabilístico

Una red neuronal probabilística (PNN) es una red neuronal de propagación hacia adelante de cuatro capas. Las capas son Entrada, patrón oculto/suma y salida. En el algoritmo PNN, la función de distribución de probabilidad (PDF) principal de cada clase se aproxima mediante una ventana de Parzen y una función no paramétrica. Luego, utilizando la PDF de cada clase, se estima la probabilidad de clase de una nueva entrada y se emplea la regla de Bayes para asignarla a la clase con la probabilidad posterior más alta. ^[13] Se derivó de la red bayesiana ^[14] y un algoritmo estadístico llamado análisis discriminante Kernel Fisher . ^[15] Se utiliza para la clasificación y el reconocimiento de patrones.

Retardo de tiempo

Una red neuronal con retardo temporal (TDNN) es una arquitectura de retroalimentación para datos secuenciales que reconoce características independientemente de la posición de la secuencia. Para lograr la invariancia del desplazamiento temporal, se agregan retardos a la entrada para que se analicen juntos varios puntos de datos (puntos en el tiempo).

Suele formar parte de un sistema de reconocimiento de patrones más amplio. Se ha implementado utilizando una red de perceptrones cuyos pesos de conexión se entrenaron con retropropagación (aprendizaje supervisado). ^[16]

Convolucional

Una red neuronal convolucional (CNN, o ConvNet o invariante de desplazamiento o invariante espacial) es una clase de red profunda, compuesta por una o más capas convolucionales con capas completamente conectadas (que coinciden con las de las ANN típicas) en la parte superior. ^[17]^[18] Utiliza pesos vinculados y capas de agrupación . En particular, agrupación máxima. ^[19] A menudo se estructura a través de la arquitectura convolucional de Fukushima. ^[20] Son variaciones de perceptrones multicapa que utilizan un preprocesamiento mínimo . ^[21] Esta arquitectura permite que las CNN aprovechen la estructura 2D de los datos de entrada.

Su patrón de conectividad unitaria se inspira en la organización de la corteza visual . Las unidades responden a estímulos en una región restringida del espacio conocida como campo receptivo . Los campos receptivos se superponen parcialmente, cubriendo todo el campo visual . La respuesta unitaria se puede aproximar matemáticamente mediante una operación de convolución . ^[22]

Las CNN son adecuadas para procesar datos visuales y otros datos bidimensionales. ^[23]^[24] Han mostrado resultados superiores tanto en aplicaciones de imágenes como de voz. Se pueden entrenar con retropropagación estándar. Las CNN son más fáciles de entrenar que otras redes neuronales regulares, profundas y de propagación hacia adelante y tienen muchos menos parámetros para estimar. ^[25]

Las redes neuronales en cápsula (CapsNet) agregan estructuras llamadas cápsulas a una CNN y reutilizan la salida de varias cápsulas para formar representaciones más estables (con respecto a varias perturbaciones). ^[26]

Ejemplos de aplicaciones en visión artificial incluyen DeepDream ^[27] y navegación robótica . ^[28] Tienen amplias aplicaciones en reconocimiento de imágenes y videos , sistemas de recomendación ^[29] y procesamiento de lenguaje natural . ^[30]

Red de apilamiento profundo

Una red de apilamiento profundo (DSN) ^[31] (red convexa profunda) se basa en una jerarquía de bloques de módulos de red neuronal simplificados. Fue introducida en 2011 por Deng y Yu. ^[32] Formula el aprendizaje como un problema de optimización convexa con una solución de forma cerrada , enfatizando la similitud del mecanismo con la generalización apilada . ^[33] Cada bloque DSN es un módulo simple que es fácil de entrenar por sí mismo de manera supervisada sin retropropagación para todos los bloques. ^[8]

Cada bloque consta de un perceptrón multicapa simplificado (MLP) con una sola capa oculta. La capa oculta h tiene unidades sigmoideas logísticas y la capa de salida tiene unidades lineales. Las conexiones entre estas capas están representadas por la matriz de pesos U; las conexiones de entrada a capa oculta tienen la matriz de pesos W. Los vectores de destino t forman las columnas de la matriz T y los vectores de datos de entrada x forman las columnas de la matriz X. La matriz de unidades ocultas es . Los módulos se entrenan en orden, por lo que los pesos de la capa inferior W se conocen en cada etapa. La función realiza la operación sigmoidea logística elemento por elemento . Cada bloque estima la misma clase de etiqueta final y y su estimación se concatena con la entrada original X para formar la entrada expandida para el siguiente bloque. Por lo tanto, la entrada del primer bloque contiene solo los datos originales, mientras que la entrada de los bloques posteriores agrega la salida de los bloques anteriores. Luego, aprender la matriz de pesos de la capa superior U dados otros pesos en la red se puede formular como un problema de optimización convexa: ${\boldsymbol {H}}=\sigma ({\boldsymbol {W}}^{T}{\boldsymbol {X}})$

\min _{U^{T}}f=\|{\boldsymbol {U}}^{T}{\boldsymbol {H}}-{\boldsymbol {T}}\|_{F}^{2},

que tiene una solución de forma cerrada. ^[31]

A diferencia de otras arquitecturas profundas, como las DBN , el objetivo no es descubrir la representación de características transformadas . La estructura de la jerarquía de este tipo de arquitectura hace que el aprendizaje paralelo sea sencillo, como un problema de optimización en modo por lotes. En tareas puramente discriminativas , las DSN superan a las DBN convencionales.

Redes de apilamiento profundo de tensores

Esta arquitectura es una extensión de DSN. Ofrece dos mejoras importantes: utiliza información de orden superior de las estadísticas de covarianza y transforma el problema no convexo de una capa inferior en un subproblema convexo de una capa superior. ^[34] Las TDSN utilizan estadísticas de covarianza en un mapeo bilineal de cada uno de dos conjuntos distintos de unidades ocultas en la misma capa a predicciones, a través de un tensor de tercer orden .

Si bien la paralelización y la escalabilidad no se consideran seriamente en las DNN convencionales , ^[35]^[36]^[37] todo el aprendizaje para DSN y TDSN se realiza en modo por lotes, para permitir la paralelización. ^[32]^[31] La paralelización permite escalar el diseño a arquitecturas y conjuntos de datos más grandes (más profundos).

La arquitectura básica es adecuada para diversas tareas como clasificación y regresión .

Retroalimentación regulatoria

Las redes de retroalimentación reguladora comenzaron como un modelo para explicar los fenómenos cerebrales que se encuentran durante el reconocimiento, como la explosión en toda la red y la dificultad con la similitud que se encuentra universalmente en el reconocimiento sensorial. Se crea un mecanismo para realizar la optimización durante el reconocimiento utilizando conexiones de retroalimentación inhibitoria con las mismas entradas que las activan. Esto reduce los requisitos durante el aprendizaje y permite que el aprendizaje y la actualización sean más fáciles sin dejar de poder realizar un reconocimiento complejo.

Una red de retroalimentación reguladora realiza inferencias utilizando retroalimentación negativa . ^[38] La retroalimentación se utiliza para encontrar la activación óptima de las unidades. Es más similar a un método no paramétrico , pero se diferencia del vecino más cercano K en que emula matemáticamente las redes de retroalimentación.

Función de base radial

Las funciones de base radial son funciones que tienen un criterio de distancia con respecto a un centro. Las funciones de base radial se han aplicado como reemplazo de la característica de transferencia de capa oculta sigmoidea en perceptrones multicapa. Las redes RBF tienen dos capas: en la primera, la entrada se asigna a cada RBF en la capa "oculta". La RBF elegida suele ser gaussiana. En los problemas de regresión, la capa de salida es una combinación lineal de valores de capa oculta que representan la salida media prevista. La interpretación de este valor de capa de salida es la misma que la de un modelo de regresión en estadística. En los problemas de clasificación, la capa de salida suele ser una función sigmoidea de una combinación lineal de valores de capa oculta, que representa una probabilidad posterior. El rendimiento en ambos casos suele mejorarse mediante técnicas de contracción , conocidas como regresión de cresta en estadística clásica. Esto corresponde a una creencia previa en valores de parámetros pequeños (y, por lo tanto, funciones de salida suaves) en un marco bayesiano .

Las redes RBF tienen la ventaja de evitar los mínimos locales de la misma manera que los perceptrones multicapa. Esto se debe a que los únicos parámetros que se ajustan en el proceso de aprendizaje son el mapeo lineal de la capa oculta a la capa de salida. La linealidad asegura que la superficie de error sea cuadrática y, por lo tanto, tenga un único mínimo que se pueda encontrar fácilmente. En los problemas de regresión, esto se puede encontrar en una operación matricial. En los problemas de clasificación, la no linealidad fija introducida por la función de salida sigmoidea se maneja de manera más eficiente utilizando mínimos cuadrados reponderados iterativamente .

Las redes RBF tienen la desventaja de requerir una buena cobertura del espacio de entrada mediante funciones de base radiales. Los centros RBF se determinan con referencia a la distribución de los datos de entrada, pero sin referencia a la tarea de predicción. Como resultado, los recursos de representación pueden desperdiciarse en áreas del espacio de entrada que son irrelevantes para la tarea. Una solución común es asociar cada punto de datos con su propio centro, aunque esto puede expandir el sistema lineal a resolver en la capa final y requiere técnicas de contracción para evitar el sobreajuste .

La asociación de cada dato de entrada con una función de base de referencia (RBF) conduce naturalmente a métodos de núcleo como las máquinas de vectores de soporte (SVM) y los procesos gaussianos (la función de base de referencia es la función de núcleo ). Los tres enfoques utilizan una función de núcleo no lineal para proyectar los datos de entrada en un espacio donde el problema de aprendizaje se puede resolver utilizando un modelo lineal. Al igual que los procesos gaussianos, y a diferencia de las SVM, las redes RBF se entrenan típicamente en un marco de máxima verosimilitud maximizando la probabilidad (minimizando el error). Las SVM evitan el sobreajuste maximizando en su lugar un margen . Las SVM superan a las redes RBF en la mayoría de las aplicaciones de clasificación. En aplicaciones de regresión pueden ser competitivas cuando la dimensionalidad del espacio de entrada es relativamente pequeña.

Cómo funcionan las redes RBF

Las redes neuronales RBF son conceptualmente similares a los modelos de K-vecinos más cercanos (k-NN). La idea básica es que entradas similares producen salidas similares.

Supongamos que cada caso de un conjunto de entrenamiento tiene dos variables predictoras, x e y, y que la variable objetivo tiene dos categorías, positiva y negativa. Dado un nuevo caso con valores predictores x=6, y=5,1, ¿cómo se calcula la variable objetivo?

La clasificación del vecino más cercano realizada para este ejemplo depende de cuántos puntos vecinos se consideren. Si se utiliza la clasificación 1-NN y el punto más cercano es negativo, entonces el nuevo punto debe clasificarse como negativo. Alternativamente, si se utiliza la clasificación 9-NN y se consideran los 9 puntos más cercanos, entonces el efecto de los 8 puntos positivos circundantes puede superar al 9.º punto (negativo) más cercano.

Una red RBF posiciona las neuronas en el espacio descrito por las variables predictoras (x, y en este ejemplo). Este espacio tiene tantas dimensiones como variables predictoras. La distancia euclidiana se calcula desde el nuevo punto hasta el centro de cada neurona, y se aplica una función de base radial (RBF, también llamada función kernel) a la distancia para calcular el peso (influencia) de cada neurona. La función de base radial se llama así porque la distancia del radio es el argumento de la función.

Peso = RBF( distancia )

Función de base radial

El valor del nuevo punto se obtiene sumando los valores de salida de las funciones RBF multiplicados por los pesos calculados para cada neurona.

La función de base radial de una neurona tiene un centro y un radio (también llamado dispersión). El radio puede ser diferente para cada neurona y, en las redes RBF generadas por DTREG, el radio puede ser diferente en cada dimensión.

A mayor dispersión, las neuronas situadas a distancia de un punto tienen mayor influencia.

Arquitectura

Las redes RBF tienen tres capas:

Capa de entrada: aparece una neurona en la capa de entrada por cada variable predictora. En el caso de las variables categóricas , se utilizan N-1 neuronas, donde N es el número de categorías. Las neuronas de entrada estandarizan los rangos de valores restando la mediana y dividiendo por el rango intercuartil . Luego, las neuronas de entrada envían los valores a cada una de las neuronas de la capa oculta.
Capa oculta: esta capa tiene una cantidad variable de neuronas (determinada por el proceso de entrenamiento). Cada neurona consta de una función de base radial centrada en un punto con tantas dimensiones como variables predictoras. La dispersión (radio) de la función RBF puede ser diferente para cada dimensión. Los centros y las dispersiones se determinan mediante el entrenamiento. Cuando se presenta el vector x de valores de entrada de la capa de entrada, una neurona oculta calcula la distancia euclidiana del caso de prueba desde el punto central de la neurona y luego aplica la función kernel RBF a esta distancia utilizando los valores de dispersión. El valor resultante se pasa a la capa de suma.
Capa de suma: el valor que sale de una neurona en la capa oculta se multiplica por un peso asociado con la neurona y se suma a los valores ponderados de otras neuronas. Esta suma se convierte en el resultado. Para los problemas de clasificación, se produce un resultado (con un conjunto separado de pesos y una unidad de suma) para cada categoría objetivo. El valor de salida para una categoría es la probabilidad de que el caso que se está evaluando tenga esa categoría.

Capacitación

Los siguientes parámetros están determinados por el proceso de entrenamiento:

El número de neuronas en la capa oculta
Las coordenadas del centro de cada función RBF de capa oculta
El radio (extensión) de cada función RBF en cada dimensión
Los pesos aplicados a las salidas de la función RBF a medida que pasan a la capa de suma

Se han utilizado varios métodos para entrenar redes RBF. Un enfoque utiliza primero la agrupación en K-medias para encontrar los centros de los clústeres que luego se utilizan como centros para las funciones RBF. Sin embargo, la agrupación en K-medias requiere un gran esfuerzo computacional y, a menudo, no genera la cantidad óptima de centros. Otro enfoque consiste en utilizar un subconjunto aleatorio de los puntos de entrenamiento como centros.

DTREG utiliza un algoritmo de entrenamiento que utiliza un enfoque evolutivo para determinar los puntos centrales y las distribuciones óptimas para cada neurona. Determina cuándo dejar de agregar neuronas a la red monitoreando el error estimado de dejar una fuera (LOO) y finalizando cuando el error LOO comienza a aumentar debido al sobreajuste.

El cálculo de los pesos óptimos entre las neuronas de la capa oculta y la capa de suma se realiza mediante regresión de cresta. Un procedimiento iterativo calcula el parámetro Lambda de regularización óptimo que minimiza el error de validación cruzada generalizada (GCV).

Red neuronal de regresión general

Una GRNN es una red neuronal de memoria asociativa similar a la red neuronal probabilística , pero se utiliza para regresión y aproximación en lugar de clasificación.

Red de creencias profundas

Una red de creencias profundas (DBN) es un modelo generativo probabilístico compuesto por múltiples capas ocultas. Puede considerarse una composición de módulos de aprendizaje simples. ^[39]

Una red neuronal profunda (DBN) se puede utilizar para entrenar previamente de forma generativa una red neuronal profunda (DNN) utilizando los pesos aprendidos de la DBN como pesos iniciales de la DNN. Varios algoritmos discriminativos pueden ajustar estos pesos. Esto es particularmente útil cuando los datos de entrenamiento son limitados, porque los pesos mal inicializados pueden dificultar significativamente el aprendizaje. Estos pesos entrenados previamente terminan en una región del espacio de pesos que está más cerca de los pesos óptimos que las opciones aleatorias. Esto permite tanto un mejor modelado como una convergencia final más rápida. ^[40]

Red neuronal recurrente

Las redes neuronales recurrentes (RNN) propagan datos hacia adelante, pero también hacia atrás, desde etapas de procesamiento posteriores a etapas anteriores. Las RNN se pueden utilizar como procesadores de secuencias generales.

Completamente recurrente

Esta arquitectura se desarrolló en la década de 1980. Su red crea una conexión dirigida entre cada par de unidades. Cada una tiene una activación (salida) de valor real (más que cero o uno) que varía con el tiempo. Cada conexión tiene un peso de valor real modificable. Algunos de los nodos se denominan nodos etiquetados, otros nodos de salida y el resto nodos ocultos.

Para el aprendizaje supervisado en entornos de tiempo discreto, las secuencias de entrenamiento de vectores de entrada de valor real se convierten en secuencias de activaciones de los nodos de entrada, un vector de entrada a la vez. En cada paso de tiempo, cada unidad que no es de entrada calcula su activación actual como una función no lineal de la suma ponderada de las activaciones de todas las unidades de las que recibe conexiones. El sistema puede activar explícitamente (independientemente de las señales entrantes) algunas unidades de salida en ciertos pasos de tiempo. Por ejemplo, si la secuencia de entrada es una señal de voz correspondiente a un dígito hablado, la salida de destino final al final de la secuencia puede ser una etiqueta que clasifique el dígito. Para cada secuencia, su error es la suma de las desviaciones de todas las activaciones calculadas por la red a partir de las señales de destino correspondientes. Para un conjunto de entrenamiento de numerosas secuencias, el error total es la suma de los errores de todas las secuencias individuales.

Para minimizar el error total, se puede utilizar el descenso de gradiente para cambiar cada peso en proporción a su derivada con respecto al error, siempre que las funciones de activación no lineales sean diferenciables . El método estándar se llama " retropropagación a través del tiempo " o BPTT, una generalización de la retropropagación para redes de propagación hacia adelante. ^[41]^[42] Una variante en línea más costosa computacionalmente se llama " aprendizaje recurrente en tiempo real " o RTRL. ^[43]^[44] A diferencia de BPTT, este algoritmo es local en el tiempo pero no local en el espacio . ^[45]^[46] Existe un híbrido en línea entre BPTT y RTRL con complejidad intermedia, ^[47]^[48] con variantes para tiempo continuo. ^[49] Un problema importante con el descenso de gradiente para arquitecturas RNN estándar es que los gradientes de error desaparecen exponencialmente rápidamente con el tamaño del desfase temporal entre eventos importantes. ^[50]^[51] La arquitectura de memoria a corto plazo larga supera estos problemas. ^[52]

En los entornos de aprendizaje por refuerzo , ningún profesor proporciona señales objetivo. En su lugar, se utiliza ocasionalmente una función de aptitud , una función de recompensa o una función de utilidad para evaluar el rendimiento, que influye en su flujo de entrada a través de unidades de salida conectadas a actuadores que afectan al entorno. A menudo se utilizan variantes de computación evolutiva para optimizar la matriz de ponderaciones.

Campo de saltos

La red de Hopfield (al igual que otras redes similares basadas en atractores) es de interés histórico, aunque no es una red neuronal recurrente general, ya que no está diseñada para procesar secuencias de patrones. En cambio, requiere entradas estacionarias. Es una red neuronal recurrente en la que todas las conexiones son simétricas, lo que garantiza su convergencia. Si las conexiones se entrenan mediante el aprendizaje hebbiano, la red de Hopfield puede funcionar como una memoria robusta direccionable por contenido , resistente a la alteración de las conexiones.

Máquina de Boltzmann

La máquina de Boltzmann puede considerarse como una red de Hopfield ruidosa. Es una de las primeras redes neuronales que demuestra el aprendizaje de variables latentes (unidades ocultas). Al principio, la simulación del aprendizaje automático de Boltzmann era lenta, pero el algoritmo de divergencia contrastiva acelera el entrenamiento de las máquinas de Boltzmann y los productos de expertos .

Mapa autoorganizativo

El mapa autoorganizado (SOM) utiliza aprendizaje no supervisado . Un conjunto de neuronas aprende a mapear puntos en un espacio de entrada a coordenadas en un espacio de salida. El espacio de entrada puede tener dimensiones y topología diferentes a las del espacio de salida, y el SOM intenta preservarlas.

Aprendiendo cuantificación vectorial

La cuantificación vectorial de aprendizaje (LVQ) puede interpretarse como una arquitectura de red neuronal. Los representantes prototípicos de las clases se parametrizan, junto con una medida de distancia adecuada, en un esquema de clasificación basado en la distancia.

Recurrente simple

Las redes recurrentes simples tienen tres capas, con la adición de un conjunto de "unidades de contexto" en la capa de entrada. Estas unidades se conectan desde la capa oculta o la capa de salida con un peso fijo de uno. ^[53] En cada paso de tiempo, la entrada se propaga de manera estándar hacia adelante y luego se aplica una regla de aprendizaje similar a la retropropagación (sin realizar un descenso de gradiente ). Las conexiones hacia atrás fijas dejan una copia de los valores anteriores de las unidades ocultas en las unidades de contexto (ya que se propagan sobre las conexiones antes de que se aplique la regla de aprendizaje).

Computación de reservorios

La computación de yacimientos es un marco computacional que puede considerarse una extensión de las redes neuronales . ^[54] Normalmente, se introduce una señal de entrada en un sistema dinámico fijo (aleatorio) llamado yacimiento , cuya dinámica asigna la entrada a una dimensión superior. Se entrena un mecanismo de lectura para asignar el yacimiento a la salida deseada. El entrenamiento se realiza solo en la etapa de lectura. Las máquinas de estado líquido ^[55] son un tipo de computación de yacimientos. ^[56]

Estado de eco

La red de estado de eco (ESN) emplea una capa oculta aleatoria escasamente conectada. Los pesos de las neuronas de salida son la única parte de la red que se entrena. Las ESN son buenas para reproducir ciertas series temporales . ^[57]

Memoria a corto plazo y larga duración

La memoria de corto plazo a largo plazo (LSTM) ^[52] evita el problema del gradiente de desaparición . Funciona incluso con grandes retrasos entre las entradas y puede manejar señales que mezclan componentes de baja y alta frecuencia. La RNN LSTM superó a otras RNN y otros métodos de aprendizaje de secuencias como HMM en aplicaciones como el aprendizaje de idiomas ^[58] y el reconocimiento de escritura a mano conectada. ^[59]

Bidireccional

Las RNN bidireccionales, o BRNN, utilizan una secuencia finita para predecir o etiquetar cada elemento de una secuencia basándose tanto en el contexto pasado como en el futuro del elemento. ^[60] Esto se hace sumando las salidas de dos RNN: una que procesa la secuencia de izquierda a derecha, la otra de derecha a izquierda. Las salidas combinadas son las predicciones de las señales objetivo proporcionadas por el profesor. Esta técnica resultó ser especialmente útil cuando se combinó con LSTM. ^[61]

Jerárquico

La RNN jerárquica conecta elementos de diversas maneras para descomponer el comportamiento jerárquico en subprogramas útiles. ^[62]^[63]

Estocástico

Un distrito de redes neuronales convencionales, red neuronal artificial estocástica utilizada como aproximación a funciones aleatorias.

Escala genética

Una RNN (a menudo una LSTM) en la que una serie se descompone en una serie de escalas, donde cada escala informa la longitud primaria entre dos puntos consecutivos. Una escala de primer orden consta de una RNN normal, una de segundo orden consta de todos los puntos separados por dos índices, y así sucesivamente. La RNN de orden N conecta el primer y el último nodo. Los resultados de todas las distintas escalas se tratan como un Comité de Máquinas y las puntuaciones asociadas se utilizan genéticamente para la siguiente iteración.

Modular

Los estudios biológicos han demostrado que el cerebro humano funciona como una colección de pequeñas redes. Esta constatación dio origen al concepto de redes neuronales modulares , en las que varias redes pequeñas cooperan o compiten para resolver problemas.

Comité de máquinas

Un comité de máquinas (CoM) es una colección de diferentes redes neuronales que juntas "votan" sobre un ejemplo determinado. Esto generalmente da un resultado mucho mejor que las redes individuales. Debido a que las redes neuronales sufren de mínimos locales, comenzar con la misma arquitectura y entrenamiento pero usar pesos iniciales aleatoriamente diferentes a menudo da resultados muy diferentes. ^{[ cita requerida ]} Un CoM tiende a estabilizar el resultado.

El CoM es similar al método general de empaquetado de aprendizaje automático , excepto que la variedad necesaria de máquinas en el comité se obtiene mediante entrenamiento a partir de diferentes pesos iniciales en lugar de entrenamiento en diferentes subconjuntos seleccionados aleatoriamente de los datos de entrenamiento.

De asociación

La red neuronal asociativa (ASNN) es una extensión del comité de máquinas que combina múltiples redes neuronales de propagación hacia adelante y la técnica de los k vecinos más cercanos. Utiliza la correlación entre las respuestas del conjunto como una medida de la distancia entre los casos analizados para la kNN. Esto corrige el sesgo del conjunto de redes neuronales. Una red neuronal asociativa tiene una memoria que puede coincidir con el conjunto de entrenamiento. Si se encuentran nuevos datos disponibles, la red mejora instantáneamente su capacidad predictiva y proporciona una aproximación de datos (autoaprendizaje) sin necesidad de volver a entrenar. Otra característica importante de la ASNN es la posibilidad de interpretar los resultados de la red neuronal mediante el análisis de las correlaciones entre los casos de datos en el espacio de los modelos. ^[64]

Físico

Una red neuronal física incluye material de resistencia ajustable eléctricamente para simular sinapsis artificiales. Algunos ejemplos incluyen la red neuronal basada en memristores ADALINE . ^[65] Una red neuronal óptica es una implementación física de una red neuronal artificial con componentes ópticos .

Dinámica

A diferencia de las redes neuronales estáticas, las redes neuronales dinámicas adaptan su estructura y/o parámetros a la entrada durante la inferencia ^[66] mostrando un comportamiento dependiente del tiempo, como fenómenos transitorios y efectos de retardo. Las redes neuronales dinámicas en las que los parámetros pueden cambiar con el tiempo están relacionadas con la arquitectura de pesos rápidos (1987), ^[67] donde una red neuronal genera los pesos de otra red neuronal.

En cascada

La correlación en cascada es una arquitectura y un algoritmo de aprendizaje supervisado . En lugar de simplemente ajustar los pesos en una red de topología fija, ^[68] la correlación en cascada comienza con una red mínima, luego entrena automáticamente y agrega nuevas unidades ocultas una por una, creando una estructura de múltiples capas. Una vez que se ha agregado una nueva unidad oculta a la red, sus pesos del lado de entrada se congelan. Esta unidad luego se convierte en un detector de características permanente en la red, disponible para producir salidas o para crear otros detectores de características más complejos. La arquitectura de correlación en cascada tiene varias ventajas: aprende rápidamente, determina su propio tamaño y topología, conserva las estructuras que ha construido incluso si el conjunto de entrenamiento cambia y no requiere retropropagación .

Neuro-difuso

Una red neurodifusa es un sistema de inferencia difuso en el cuerpo de una red neuronal artificial. Según el tipo de FIS, varias capas simulan los procesos involucrados en una inferencia difusa, como la fuzzificación , la inferencia, la agregación y la defuzzificación . Incorporar un FIS en una estructura general de una ANN tiene el beneficio de usar los métodos de entrenamiento de ANN disponibles para encontrar los parámetros de un sistema difuso.

Producción de patrones compositivos

Las redes productoras de patrones compositivos (CPPN, por sus siglas en inglés) son una variación de las redes neuronales artificiales que difieren en su conjunto de funciones de activación y en cómo se aplican. Si bien las redes neuronales artificiales típicas a menudo contienen solo funciones sigmoideas (y, a veces, funciones gaussianas ), las CPPN pueden incluir ambos tipos de funciones y muchas otras. Además, a diferencia de las redes neuronales artificiales típicas, las CPPN se aplican en todo el espacio de posibles entradas para que puedan representar una imagen completa. Dado que son composiciones de funciones, las CPPN en efecto codifican imágenes a una resolución infinita y se pueden muestrear para una pantalla particular a cualquier resolución que sea óptima.

Redes de memoria

Las redes de memoria ^[69]^[70] incorporan una memoria de largo plazo . Se puede leer y escribir en la memoria de largo plazo con el objetivo de usarla para hacer predicciones. Estos modelos se han aplicado en el contexto de la respuesta a preguntas (QA), donde la memoria de largo plazo actúa efectivamente como una base de conocimiento (dinámica) y el resultado es una respuesta textual. ^[71]

En la memoria distribuida dispersa o memoria temporal jerárquica , los patrones codificados por redes neuronales se utilizan como direcciones para la memoria direccionable por contenido , y las "neuronas" sirven esencialmente como codificadores y decodificadores de direcciones . Sin embargo, los primeros controladores de dichas memorias no eran diferenciables. ^[72]

Memoria asociativa de un solo disparo

Este tipo de red puede agregar nuevos patrones sin volver a entrenar. Se realiza mediante la creación de una estructura de memoria específica, que asigna cada nuevo patrón a un plano ortogonal utilizando matrices jerárquicas conectadas de manera adyacente. ^[73] La red ofrece reconocimiento de patrones en tiempo real y alta escalabilidad; esto requiere procesamiento paralelo y, por lo tanto, es más adecuada para plataformas como redes de sensores inalámbricos , computación en cuadrícula y GPGPU .

Memoria temporal jerárquica

La memoria temporal jerárquica (HTM) modela algunas de las propiedades estructurales y algorítmicas del neocórtex . La HTM es un modelo biomimético basado en la teoría de predicción de la memoria . La HTM es un método para descubrir e inferir las causas de alto nivel de los patrones y secuencias de entrada observados, construyendo así un modelo cada vez más complejo del mundo.

HTM combina ideas existentes para imitar el neocórtex con un diseño simple que proporciona muchas capacidades. HTM combina y extiende enfoques utilizados en redes bayesianas , algoritmos de agrupamiento espacial y temporal, mientras utiliza una jerarquía de nodos en forma de árbol que es común en las redes neuronales .

Memoria asociativa holográfica

La memoria asociativa holográfica (HAM) es un sistema de estímulo-respuesta asociativo, analógico y basado en la correlación. La información se asigna a la orientación de fase de los números complejos. La memoria es eficaz para tareas de memoria asociativa , generalización y reconocimiento de patrones con atención variable. La localización de búsqueda dinámica es fundamental para la memoria biológica. En la percepción visual, los humanos se centran en objetos específicos en un patrón. Los humanos pueden cambiar el foco de un objeto a otro sin aprender. La HAM puede imitar esta capacidad creando representaciones explícitas del foco. Utiliza una representación bimodal del patrón y un espacio de estados de peso esférico complejo similar a un holograma. Las HAM son útiles para la realización óptica porque los cálculos hiperesféricos subyacentes se pueden implementar con computación óptica. ^[74]

Estructuras de memoria diferenciables relacionadas con LSTM

Además de la memoria a corto plazo (MLCP), otros enfoques también añadieron la memoria diferenciable a las funciones recurrentes. Por ejemplo:

Acciones push y pop diferenciables para redes de memoria alternativa llamadas máquinas de pila neuronal ^[75]^[76]
Redes de memoria donde el almacenamiento diferenciable externo de la red de control está en los pesos rápidos de otra red ^[77]
Puertas de olvido LSTM ^[78]
RNN autorreferenciales con unidades de salida especiales para abordar y manipular rápidamente los pesos propios de la RNN de manera diferenciable (almacenamiento interno) ^[79]^[80]
Aprendiendo a transducir con memoria ilimitada ^[81]

Máquinas de Turing neuronales

Las máquinas de Turing neuronales (MTN) ^[82] acoplan redes de MTN a recursos de memoria externos, con los que pueden interactuar mediante procesos de atención. El sistema combinado es análogo a una máquina de Turing , pero es diferenciable de extremo a extremo, lo que permite entrenarlo de manera eficiente mediante descenso de gradiente . Los resultados preliminares demuestran que las máquinas de Turing neuronales pueden inferir algoritmos simples, como copia, clasificación y recuperación asociativa, a partir de ejemplos de entrada y salida.

Las computadoras neuronales diferenciables (DNC) son una extensión de la NTM. Superaron a las máquinas de Turing neuronales, los sistemas de memoria de corto plazo y de largo plazo y las redes de memoria en tareas de procesamiento de secuencias. ^[83]^[84]^[85]^[86]^[87]

Hashing semántico

Los enfoques que representan experiencias previas directamente y usan una experiencia similar para formar un modelo local a menudo se denominan métodos de vecino más cercano o de k vecinos más cercanos . ^[88] El aprendizaje profundo es útil en el hash semántico ^[89] donde un modelo gráfico profundo de los vectores de recuento de palabras ^[90] obtenidos de un gran conjunto de documentos. ^{[ aclaración necesaria ]} Los documentos se asignan a direcciones de memoria de tal manera que los documentos semánticamente similares se ubican en direcciones cercanas. Luego, los documentos similares a un documento de consulta se pueden encontrar accediendo a todas las direcciones que difieren solo en unos pocos bits de la dirección del documento de consulta. A diferencia de la memoria distribuida dispersa que opera en direcciones de 1000 bits, el hash semántico funciona en direcciones de 32 o 64 bits que se encuentran en una arquitectura de computadora convencional.

Redes de punteros

Las redes neuronales profundas se pueden mejorar potencialmente mediante la profundización y la reducción de parámetros, manteniendo al mismo tiempo la capacidad de entrenamiento. Si bien el entrenamiento de redes neuronales extremadamente profundas (por ejemplo, 1 millón de capas) puede no ser práctico, las arquitecturas similares a las de la CPU , como las redes de punteros ^[91] y las máquinas neuronales de acceso aleatorio ^[92] superan esta limitación mediante el uso de memoria de acceso aleatorio externa y otros componentes que normalmente pertenecen a una arquitectura de computadora , como registros , ALU y punteros . Dichos sistemas operan en vectores de distribución de probabilidad almacenados en celdas de memoria y registros. Por lo tanto, el modelo es completamente diferenciable y se entrena de extremo a extremo. La característica clave de estos modelos es que su profundidad, el tamaño de su memoria a corto plazo y la cantidad de parámetros se pueden alterar de forma independiente.

Híbridos

Redes codificadoras-decodificadoras

Los sistemas de codificación y decodificación se basan en redes neuronales que asignan una entrada altamente estructurada a una salida altamente estructurada. El enfoque surgió en el contexto de la traducción automática , ^[93]^[94]^[95] donde la entrada y la salida son oraciones escritas en dos idiomas naturales. En ese trabajo, se utilizó una RNN o CNN LSTM como codificador para resumir una oración fuente, y el resumen se decodificó utilizando un modelo de lenguaje RNN condicional para producir la traducción. ^[96] Estos sistemas comparten bloques de construcción: RNN y CNN con compuertas y mecanismos de atención entrenados.

Otros tipos

Entrenado instantáneamente

Las redes neuronales entrenadas instantáneamente (ITNN) se inspiraron en el fenómeno del aprendizaje a corto plazo que parece ocurrir instantáneamente. En estas redes, los pesos de las capas ocultas y de salida se asignan directamente a partir de los datos vectoriales de entrenamiento. Por lo general, funcionan con datos binarios, pero existen versiones para datos continuos que requieren un pequeño procesamiento adicional.

Clavos

Las redes neuronales de picos (SNN) consideran explícitamente la sincronización de las entradas. La entrada y la salida de la red suelen representarse como una serie de picos ( función delta o formas más complejas). Las SNN pueden procesar información en el dominio del tiempo (señales que varían con el tiempo). A menudo se implementan como redes recurrentes. Las SNN también son una forma de computadora de pulsos . ^[97]

Las redes neuronales con retrasos en la conducción axonal presentan policronización y, por lo tanto, podrían tener una capacidad de memoria muy grande. ^[98]

Las SNN y las correlaciones temporales de los conjuntos neuronales en dichas redes se han utilizado para modelar la separación entre figura y fondo y la vinculación de regiones en el sistema visual.

Espacial

Las redes neuronales espaciales (SNN) constituyen una supercategoría de redes neuronales personalizadas (NN) para representar y predecir fenómenos geográficos. Generalmente mejoran tanto la precisión estadística como la confiabilidad de las NN a-espaciales/clásicas siempre que manejan conjuntos de datos geoespaciales , y también de los otros modelos espaciales (estadísticos) (por ejemplo, modelos de regresión espacial) siempre que las variables de los conjuntos de datos geoespaciales representen relaciones no lineales . ^[99]^[100]^[101] Ejemplos de SNN son las redes neuronales espaciales OSFA, SVANN y GWNN.

Neocognitrón

El neocognitrón es una red jerárquica de múltiples capas que se modeló a partir de la corteza visual . Utiliza múltiples tipos de unidades (originalmente dos, llamadas células simples y complejas ) como un modelo en cascada para su uso en tareas de reconocimiento de patrones. ^[102]^[103]^[104] Las características locales son extraídas por células S cuya deformación es tolerada por células C. Las características locales en la entrada se integran gradualmente y se clasifican en capas superiores. ^[105] Entre los diversos tipos de neocognitrón ^[106] hay sistemas que pueden detectar múltiples patrones en la misma entrada mediante el uso de retropropagación para lograr atención selectiva . ^[107] Se ha utilizado para tareas de reconocimiento de patrones y redes neuronales convolucionales inspiradas . ^[108]

Modelos compuestos jerárquicos profundos

Los modelos compuestos jerárquicos profundos componen redes profundas con modelos bayesianos no paramétricos . Las características se pueden aprender utilizando arquitecturas profundas como DBN , ^[109] máquinas de Boltzmann profundas (DBM), ^[110] codificadores automáticos profundos, ^[111] variantes convolucionales, ^[112]^[113] ssRBM , ^[114] redes de codificación profunda, ^[115] DBN con aprendizaje de características dispersas, ^[116] RNN , ^[117] DBN condicionales, ^[118] autocodificadores de eliminación de ruido . ^[119] Esto proporciona una mejor representación, lo que permite un aprendizaje más rápido y una clasificación más precisa con datos de alta dimensión. Sin embargo, estas arquitecturas son deficientes en el aprendizaje de clases nuevas con pocos ejemplos, porque todas las unidades de red están involucradas en la representación de la entrada (arepresentación distribuida ) y deben ajustarse en conjunto (altogrado de libertad). Limitar el grado de libertad reduce la cantidad de parámetros a aprender, lo que facilita el aprendizaje de nuevas clases a partir de unos pocos ejemplos.Los modelos bayesianos jerárquicos (HB) permiten aprender a partir de unos pocos ejemplos, por ejemplo^[120]^[121]^[122]^[123]^[124]paravisión por computadora,estadísticayciencia cognitiva.

Las arquitecturas HD compuestas tienen como objetivo integrar características tanto de las redes HB como de las redes profundas. La arquitectura HDP-DBM compuesta es un proceso Dirichlet jerárquico (HDP) como modelo jerárquico, que incorpora la arquitectura DBM. Es un modelo generativo completo , generalizado a partir de conceptos abstractos que fluyen a través de las capas del modelo, que es capaz de sintetizar nuevos ejemplos en clases novedosas que parecen "razonablemente" naturales. Todos los niveles se aprenden conjuntamente maximizando una puntuación de probabilidad logarítmica conjunta . ^[125]

En un DBM con tres capas ocultas, la probabilidad de una entrada visible " $ν$ " es:

p({\boldsymbol {\nu }},\psi )={\frac {1}{Z}}\suma _{h}\exp \left(\suma _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{1}+\suma _{j\ell }W_{j\ell }^{(2)}h_{j}^{1}h_{\ell }^{2}+\suma _{\ell m}W_{\ell m}^{(3)}h_{\ell }^{2}h_{m}^{3}\right),

donde es el conjunto de unidades ocultas, y son los parámetros del modelo, que representan términos de interacción simétrica visible-oculto y oculto-oculto. ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ $\psi =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\ }$

Un modelo DBM aprendido es un modelo no dirigido que define la distribución conjunta . Una forma de expresar lo aprendido es el modelo condicional y un término previo . $P(\nu ,h^{1},h^{2},h^{3})$ $P(\nu ,h^{1},h^{2}\mid h^{3})$ $Estilo de visualización P(h^{3})}$

Aquí se representa un modelo DBM condicional, que puede verse como un DBM de dos capas pero con términos de sesgo dados por los estados de : $P(\nu ,h^{1},h^{2}\mid h^{3})$ $estilo de visualización h^{3}}$

P(\nu ,h^{1},h^{2}\mid h^{3})={\frac {1}{Z(\psi ,h^{3})}}\exp \left(\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{1}+\sum _{j\ell }W_{j\ell }^{(2)}h_{j}^{1}h_{\ell }^{2}+\sum _{\ell m}W_{\ell m}^{(3)}h_{\ell }^{2}h_{m}^{3}\right).

Redes de codificación predictiva profunda

Una red de codificación predictiva profunda (DPCN) es un esquema de codificación predictiva que utiliza información de arriba hacia abajo para ajustar empíricamente los valores previos necesarios para un procedimiento de inferencia de abajo hacia arriba por medio de un modelo generativo profundo conectado localmente . Esto funciona extrayendo características dispersas de observaciones que varían en el tiempo utilizando un modelo dinámico lineal. Luego, se utiliza una estrategia de agrupamiento para aprender representaciones de características invariantes. Estas unidades se componen para formar una arquitectura profunda y se entrenan mediante un aprendizaje no supervisado por capas voraz . Las capas constituyen una especie de cadena de Markov de modo que los estados en cualquier capa dependen solo de las capas anteriores y posteriores.

Las DPCN predicen la representación de la capa, utilizando un enfoque de arriba hacia abajo utilizando la información de la capa superior y las dependencias temporales de estados anteriores. ^[126]

Las DPCN se pueden ampliar para formar una red convolucional . ^[126]

Máquina de núcleo multicapa

Las máquinas de núcleo multicapa (MKM) son una forma de aprender funciones altamente no lineales mediante la aplicación iterativa de núcleos débilmente no lineales. Utilizan el análisis de componentes principales del núcleo (KPCA), ^[127] como método para el paso de preentrenamiento no supervisado y codicioso por capas del aprendizaje profundo. ^[128]

La capa aprende la representación de la capa anterior , extrayendo el componente principal (PC) de la salida de la capa de proyección en el dominio de características inducido por el núcleo. Para reducir la dimensionalidad de la representación actualizada en cada capa, una estrategia supervisada selecciona las mejores características informativas entre las características extraídas por KPCA. El proceso es: $\ell +1$ $\ell$ $estilo de visualización n_ {l}}$ ${\estilo de visualización l}$

clasificar las características según su información mutua con las etiquetas de clase; $n_{\ell}$
para diferentes valores de K y , calcular la tasa de error de clasificación de un clasificador de K vecinos más cercanos (K-NN) utilizando solo las características más informativas en un conjunto de validación ; $m_{\ell}\en \{1,\ldots ,n_{\ell}\}$ $Estilo de visualización m_ {l}}$
El valor con el que el clasificador ha alcanzado la tasa de error más baja determina el número de características a conservar. $m_{\ell}$

El método KPCA para los MKM presenta algunas desventajas.

Se desarrolló una forma más sencilla de utilizar máquinas de núcleo para el aprendizaje profundo para la comprensión del lenguaje hablado. ^[129] La idea principal es utilizar una máquina de núcleo para aproximarse a una red neuronal superficial con un número infinito de unidades ocultas, y luego utilizar una red de apilamiento profundo para unir la salida de la máquina de núcleo y la entrada sin procesar para construir el siguiente nivel superior de la máquina de núcleo. El número de niveles en la red convexa profunda es un hiperparámetro del sistema general, que se determinará mediante validación cruzada .

Véase también

Referencias

^ Universidad del Sur de California (16 de junio de 2004). "Materias grises: nuevas pistas sobre cómo las neuronas procesan la información". ScienceDaily .Cita: "... "Es sorprendente que después de cien años de investigación en neurociencia moderna, aún no conozcamos las funciones básicas de procesamiento de información de una neurona", dijo Bartlett Mel..."
^ Instituto de Ciencias Weizmann. (2 de abril de 2007). "Es sólo un juego de azar: la teoría líder de la percepción puesta en tela de juicio". ScienceDaily .Cita: "...Desde los años 1980, muchos neurocientíficos creyeron que poseían la clave para finalmente comenzar a comprender el funcionamiento del cerebro. Pero hemos proporcionado evidencia sólida que sugiere que el cerebro puede no codificar información utilizando patrones precisos de actividad".
^ Universidad de California – Los Ángeles (14 de diciembre de 2004). "Un neurocientífico de la UCLA obtiene información sobre el cerebro humano a partir del estudio de un caracol marino". ScienceDaily .Cita: "..."Nuestro trabajo implica que los mecanismos cerebrales para formar este tipo de asociaciones podrían ser extremadamente similares en caracoles y organismos superiores... No comprendemos completamente ni siquiera tipos de aprendizaje muy simples en estos animales."..."
^ Universidad de Yale (13 de abril de 2006). "El cerebro se comunica en modo analógico y digital simultáneamente". ScienceDaily .Cita: "... McCormick afirmó que las futuras investigaciones y modelos de funcionamiento neuronal en el cerebro deberán tener en cuenta la naturaleza mixta analógica-digital de la comunicación. Sólo con una comprensión profunda de este modo mixto de transmisión de señales se logrará una comprensión verdaderamente profunda del cerebro y sus trastornos, afirmó..."
^ Ivakhnenko, Alexey Grigorevich (1968). "El método de grupo de procesamiento de datos: un rival del método de aproximación estocástica" . Control automático soviético . 13 (3): 43–55.
^ Ivakhnenko, AG (1971). "Teoría polinómica de sistemas complejos". IEEE Transactions on Systems, Man, and Cybernetics . 1 (4): 364–378. doi :10.1109/TSMC.1971.4308320. S2CID 17606980.
^ Kondo, T.; Ueno, J. (2008). "Red neuronal multicapa de tipo GMDH que autoselecciona la arquitectura óptima de la red neuronal y su aplicación al reconocimiento de imágenes médicas tridimensionales de vasos sanguíneos". Revista internacional de informática, información y control innovadores . 4 (1): 175–187.
^ ab Bengio, Y. (15 de noviembre de 2009). "Arquitecturas profundas de aprendizaje para IA" (PDF) . Fundamentos y tendencias en aprendizaje automático . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006. ISSN 1935-8237. S2CID 207178999.
^ Liou, Cheng-Yuan (2008). "Modelado de la percepción de palabras utilizando la red Elman" (PDF) . Neurocomputing . 71 (16–18): 3150–3157. doi :10.1016/j.neucom.2008.04.030.
^ Liou, Cheng-Yuan (2014). "Autocodificador de palabras". Neurocomputing . 139 : 84–96. doi :10.1016/j.neucom.2013.09.055.
^ Diederik P. Kingma; Bien, Max (2013). "Bayes variacionales de codificación automática". arXiv : 1312.6114 [estad.ML].
^ Boesen, A.; Larsen, L.; Sonderby, SK (2015). "Generación de rostros con Torch".
^ "Red neuronal probabilística competitiva (Descarga en PDF disponible)". ResearchGate . Consultado el 16 de marzo de 2017 .
^ "Redes neuronales probabilísticas". Archivado desde el original el 18 de diciembre de 2010. Consultado el 22 de marzo de 2012 .
^ Cheung, Vincent; Cannons, Kevin (10 de junio de 2002). "Introducción a las redes neuronales probabilísticas" (PDF) . Grupo de inferencia estadística y probabilística . Archivado desde el original (PDF) el 31 de enero de 2012 . Consultado el 22 de marzo de 2012 .
^ "Fundamentos de TDNN". Archivado desde el original el 22 de marzo de 2017. Consultado el 18 de junio de 2017 ., un capítulo del manual en línea de SNNS
^ Zhang, Wei (1990). "Modelo de procesamiento distribuido paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Óptica Aplicada . 29 (32): 4790–7. Bibcode :1990ApOpt..29.4790Z. doi :10.1364/ao.29.004790. PMID 20577468.
^ Zhang, Wei (1988). "Red neuronal de reconocimiento de patrones invariante al cambio y su arquitectura óptica". Actas de la Conferencia Anual de la Sociedad Japonesa de Física Aplicada .
^ Weng, J.; Ahuja, N.; Huang, TS (mayo de 1993). Aprendizaje de reconocimiento y segmentación de objetos 3-D a partir de imágenes 2-D (PDF) . 4.ª Conferencia Internacional sobre Visión por Computador. Berlín, Alemania. pp. 121–128.
^ Fukushima, K. (1980). "Neocognitrón: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones no afectado por el cambio de posición". Biol. Cybern . 36 (4): 193–202. doi :10.1007/bf00344251. PMID 7370364. S2CID 206775608.
^ LeCun, Yann. «LeNet-5, redes neuronales convolucionales» . Consultado el 16 de noviembre de 2013 .
^ "Redes neuronales convolucionales (LeNet) – Documentación de DeepLearning 0.1". DeepLearning 0.1 . LISA Lab. Archivado desde el original el 28 de diciembre de 2017 . Consultado el 31 de agosto de 2013 .
^ LeCun, et al. (1989). "Retropropagación aplicada al reconocimiento de códigos postales escritos a mano". Neural Computation . 1 (4): 541–551. doi :10.1162/neco.1989.1.4.541.
^ LeCun, Yann (2016). "Diapositivas sobre aprendizaje profundo en línea".
^ "Tutorial sobre aprendizaje profundo y aprendizaje de características no supervisado". ufldl.stanford.edu .
^ Hinton, Geoffrey E.; Krizhevsky, Alex; Wang, Sida D. (2011), "Transformación de codificadores automáticos", Redes neuronales artificiales y aprendizaje automático – ICANN 2011 , Lecture Notes in Computer Science, vol. 6791, Springer, págs. 44–51, CiteSeerX 10.1.1.220.5099 , doi :10.1007/978-3-642-21735-7_6, ISBN 9783642217340, S2CID6138085
^ Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott E.; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2015). "Profundizando con las convoluciones". Conferencia IEEE sobre Visión artificial y reconocimiento de patrones, CVPR 2015, Boston, MA, EE. UU., 7 al 12 de junio de 2015. IEEE Computer Society. págs. 1–9. arXiv : 1409.4842 . doi :10.1109/CVPR.2015.7298594. ISBN. 978-1-4673-6964-0.
^ Ran, Lingyan; Zhang, Yanning; Zhang, Qilin; Yang, Tao (12 de junio de 2017). "Navegación robótica basada en redes neuronales convolucionales utilizando imágenes esféricas no calibradas" (PDF) . Sensores . 17 (6): 1341. Bibcode :2017Senso..17.1341R. doi : 10.3390/s17061341 . ISSN 1424-8220. PMC 5492478 . PMID 28604624.
^ van den Oord, Aarón; Dieleman, Sander; Schrauwen, Benjamín (1 de enero de 2013). Burges, CJC; Bottou, L.; Bien, M.; Ghahramani, Z.; Weinberger, KQ (eds.). Recomendación musical profunda basada en contenido (PDF) . Asociados Curran. págs. 2643–2651.
^ Collobert, Ronan; Weston, Jason (1 de enero de 2008). "Una arquitectura unificada para el procesamiento del lenguaje natural". Actas de la 25.ª conferencia internacional sobre aprendizaje automático - ICML '08 . Nueva York, NY, EE. UU.: ACM. págs. 160–167. doi :10.1145/1390156.1390177. ISBN 978-1-60558-205-4. Número de identificación del sujeto 2617020.
^ abc Deng, Li; Yu, Dong; Platt, John (2012). "Apilamiento escalable y aprendizaje para construir arquitecturas profundas" (PDF) . Conferencia internacional IEEE de 2012 sobre acústica, habla y procesamiento de señales (ICASSP) . pp. 2133–2136. doi :10.1109/ICASSP.2012.6288333. ISBN . 978-1-4673-0046-9. Número de identificación del sujeto 16171497.
^ ab Deng, Li; Yu, Dong (2011). "Red convexa profunda: una arquitectura escalable para la clasificación de patrones de habla" (PDF) . Actas de Interspeech : 2285–2288. doi :10.21437/Interspeech.2011-607. S2CID 36439.
^ David, Wolpert (1992). "Generalización apilada". Redes neuronales . 5 (2): 241–259. CiteSeerX 10.1.1.133.8090 . doi :10.1016/S0893-6080(05)80023-1.
^ Hutchinson, Brian; Deng, Li; Yu, Dong (2012). "Redes de apilamiento profundo de tensores". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 1–15 (8): 1944–1957. doi :10.1109/tpami.2012.268. PMID 23267198. S2CID 344385.
^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). "Reducción de la dimensionalidad de los datos con redes neuronales". Science . 313 (5786): 504–507. Bibcode :2006Sci...313..504H. doi :10.1126/science.1127647. PMID 16873662. S2CID 1658773.
^ Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). "Redes neuronales profundas preentrenadas dependientes del contexto para el reconocimiento de voz de vocabulario amplio". Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 20 (1): 30–42. CiteSeerX 10.1.1.227.8990 . doi :10.1109/tasl.2011.2134090. S2CID 14862572.
^ Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). "Modelado acústico mediante redes de creencias profundas". Transacciones IEEE sobre procesamiento de audio, habla y lenguaje . 20 (1): 14–22. CiteSeerX 10.1.1.338.2670 . doi :10.1109/tasl.2011.2109382. S2CID 9530137.
^ Achler, T.; Omar, C.; Amir, E. (2008). Perder peso: más con menos . Conferencia conjunta internacional sobre redes neuronales.
^ Hinton, GE (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Bibcode :2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). "Una evaluación empírica de arquitecturas profundas en problemas con muchos factores de variación". Actas de la 24.ª conferencia internacional sobre aprendizaje automático . ICML '07. Nueva York, NY, EE. UU.: ACM. pp. 473–480. CiteSeerX 10.1.1.77.3242 . doi :10.1145/1273496.1273556. ISBN . 9781595937933.S2CID14805281 .
^ Werbos, PJ (1988). "Generalización de la retropropagación con aplicación a un modelo de mercado de gas recurrente". Redes neuronales . 1 (4): 339–356. doi :10.1016/0893-6080(88)90007-x.
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. Aprendizaje de representaciones internas mediante propagación de errores (informe). S2CID 62245742.
^ Robinson, AJ; Fallside, F. (1987). Red de propagación dinámica de errores impulsada por servicios públicos. Informe técnico CUED/F-INFENG/TR.1 (PDF) (Informe). Departamento de Ingeniería de la Universidad de Cambridge.
^ Williams, RJ; Zipser, D. (1994). "Algoritmos de aprendizaje basados en gradientes para redes recurrentes y su complejidad computacional" (PDF) . Retropropagación: teoría, arquitecturas y aplicaciones . Hillsdale, NJ: Erlbaum. S2CID 14792754.
^ Schmidhuber, J. (1989). "Un algoritmo de aprendizaje local para redes dinámicas de avance y recurrentes". Connection Science . 1 (4): 403–412. doi :10.1080/09540098908915650. S2CID 18721007.
^ Principe, JC; Euliano, NR; Lefebvre, WC Sistemas neuronales y adaptativos: fundamentos a través de la simulación .
^ Schmidhuber, J. (1992). "Un algoritmo de aprendizaje de complejidad temporal O(n3) con almacenamiento de tamaño fijo para redes de ejecución continua y totalmente recurrentes". Neural Computation . 4 (2): 243–248. doi :10.1162/neco.1992.4.2.243. S2CID 11761172.
^ Williams, RJ (1989). Complejidad de algoritmos de cálculo de gradiente exacto para redes neuronales recurrentes. Informe técnico Informe técnico NU-CCS-89-27 (Informe). Boston: Northeastern University, Facultad de Ciencias de la Computación.
^ Pearlmutter, BA (1989). "Aprendizaje de trayectorias espaciales de estados en redes neuronales recurrentes" (PDF) . Neural Computation . 1 (2): 263–269. doi :10.1162/neco.1989.1.2.263. S2CID 16813485.
^ Hochreiter, S. (1991). Untersuchungen zu dynamischen neuronalen Netzen (tesis de diploma) (en alemán). Múnich: Instituto f. Informática, Universidad Técnica.
^ Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo" (PDF) . En Kremer, SC; Kolen, JF (eds.). Una guía de campo para redes neuronales recurrentes dinámicas . IEEE Press.
^ ab Hochreiter, S.; Schmidhuber, J. (1997). "Memoria a corto y largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
^ Cruse, Holk. Redes neuronales como sistemas cibernéticos (PDF) (2.ª edición revisada).
^ Schrauwen, Benjamín; Verstraeten, David; Campenhout, Jan Van (2007). Una descripción general de la computación de yacimientos: teoría, aplicaciones e implementaciones . Simposio Europeo sobre Redes Neuronales Artificiales ESANN. págs. 471–482.
^ Mass, Wolfgang; Nachtschlaeger, T.; Markram, H. (2002). "Computación en tiempo real sin estados estables: un nuevo marco para la computación neuronal basada en perturbaciones". Computación neuronal . 14 (11): 2531–2560. doi :10.1162/089976602760407955. PMID 12433288. S2CID 1045112.
^ Jaeger, Herbert (2007). "Red de estados de eco". Scholarpedia . 2 (9): 2330. Bibcode :2007SchpJ...2.2330J. doi : 10.4249/scholarpedia.2330 .
^ Jaeger, H.; Harnessing (2004). "Predicción de sistemas caóticos y ahorro de energía en comunicaciones inalámbricas". Science . 304 (5667): 78–80. Bibcode :2004Sci...304...78J. CiteSeerX 10.1.1.719.2301 . doi :10.1126/science.1091277. PMID 15064413. S2CID 2184251.
^ Gers, FA; Schmidhuber, J. (2001). "Las redes recurrentes LSTM aprenden lenguajes simples, independientes del contexto y sensibles al contexto". IEEE Transactions on Neural Networks . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID 18249962.
^ Graves, A.; Schmidhuber, J. (2009). Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales (PDF) . Avances en sistemas de procesamiento de información neuronal 22, NIPS'22. Vancouver: MIT Press. págs. 545–552.
^ Schuster, Mike; Paliwal, Kuldip K. (1997). "Redes neuronales recurrentes bidireccionales". IEEE Transactions on Signal Processing . 45 (11): 2673–2681. Bibcode :1997ITSP...45.2673S. CiteSeerX 10.1.1.331.9441 . doi :10.1109/78.650093. S2CID 18375389.
^ Graves, A.; Schmidhuber, J. (2005). "Clasificación de fonemas por marco con LSTM bidireccional y otras arquitecturas de redes neuronales". Redes neuronales . 18 (5–6): 602–610. CiteSeerX 10.1.1.331.5800 . doi :10.1016/j.neunet.2005.06.042. PMID 16112549. S2CID 1856462.
^ Schmidhuber, J. (1992). "Aprendizaje de secuencias complejas y extendidas utilizando el principio de compresión histórica". Neural Computation . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID 18271205.
^ "Representación dinámica de primitivas de movimiento en una red neuronal recurrente evolucionada" (PDF) . Archivado desde el original (PDF) el 2011-07-18 . Consultado el 2010-07-12 .
^ "Red neuronal asociativa". www.vcclab.org . Consultado el 17 de junio de 2017 .
^ Anderson, James A.; Rosenfeld, Edward (2000). Talking Nets: Una historia oral de las redes neuronales. MIT Press. ISBN 9780262511117.
^ Y. Han, G. Huang, S. Song, L. Yang, H. Wang y Y. Wang, "Redes neuronales dinámicas: un estudio", en IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 44, n.º 11, págs. 7436-7456, 1 de noviembre de 2022, doi: 10.1109/TPAMI.2021.3117837.
^ Hinton, Geoffrey E.; Plaut, David C. (1987). "Uso de pesos rápidos para desenfocar viejos recuerdos". Actas de la Reunión Anual de la Sociedad de Ciencias Cognitivas . 9 .
^ Fahlman, Scott E.; Lebiere, Christian (29 de agosto de 1991). "The Cascade-Correlation Learning Architecture" (PDF) . Universidad Carnegie Mellon . Archivado desde el original (PDF) el 3 de mayo de 2013 . Consultado el 4 de octubre de 2014 .
^ Schmidhuber, Juergen (2014). "Redes de memoria". arXiv : 1410.3916 [cs.AI].
^ Schmidhuber, Juergen (2015). "Redes de memoria de extremo a extremo". arXiv : 1503.08895 [cs.NE].
^ Schmidhuber, Juergen (2015). "Respuesta a preguntas simples a gran escala con redes de memoria". arXiv : 1506.02075 [cs.LG].
^ Hinton, Geoffrey E. (1984). "Representaciones distribuidas". Archivado desde el original el 2 de mayo de 2016.
^ Nasution, BB; Khan, AI (febrero de 2008). "Un esquema de neuronas gráficas jerárquicas para el reconocimiento de patrones en tiempo real". IEEE Transactions on Neural Networks . 19 (2): 212–229. doi :10.1109/TNN.2007.905857. PMID 18269954. S2CID 17573325.
^ Sutherland, John G. (1 de enero de 1990). "Un modelo holográfico de memoria, aprendizaje y expresión". Revista Internacional de Sistemas Neuronales . 01 (3): 259–267. doi :10.1142/S0129065790000163.
^ Das, S.; Giles, CL; Sun, GZ (1992). Aprendizaje de gramáticas libres de contexto: limitaciones de una red neuronal recurrente con una memoria de pila externa . 14.ª Conferencia Anual de Cog. Sci. Soc., pág. 79.
^ Mozer, MC; Das, S. (1993). "Un manipulador de símbolos conexionista que descubre la estructura de lenguajes libres de contexto". Advances in Neural Information Processing Systems . 5 : 863–870. Archivado desde el original el 2019-12-06 . Consultado el 2019-08-25 .
^ Schmidhuber, J. (1992). "Aprender a controlar las memorias de peso rápido: una alternativa a las redes recurrentes". Neural Computation . 4 (1): 131–139. doi :10.1162/neco.1992.4.1.131. S2CID 16683347.
^ Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Aprendizaje de tiempos precisos con redes recurrentes LSTM" (PDF) . JMLR . 3 : 115–143.
^ Jürgen Schmidhuber (1993). "Una red introspectiva que puede aprender a ejecutar su propio algoritmo de cambio de peso". Actas de la Conferencia Internacional sobre Redes Neuronales Artificiales, Brighton. IEE. págs. 191–195.^{[ enlace muerto permanente ]}
^ Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). "Aprender a aprender mediante el descenso de gradiente". ICANN . 2130 : 87–94. CiteSeerX 10.1.1.5.323 .
^ Schmidhuber, Juergen (2015). "Aprendiendo a transducir con memoria ilimitada". arXiv : 1506.02516 [cs.NE].
^ Schmidhuber, Juergen (2014). "Máquinas de Turing neuronales". arXiv : 1410.5401 [cs.NE].
^ Burgess, Matt. "La inteligencia artificial de DeepMind aprendió a viajar en el metro de Londres usando razonamiento y memoria similares a los humanos". WIRED UK . Consultado el 19 de octubre de 2016 .
^ "La inteligencia artificial DeepMind 'aprende' a navegar por el metro de Londres". PCMAG . Consultado el 19 de octubre de 2016 .
^ Mannes, John (13 de octubre de 2016). «La computadora neuronal diferenciable de DeepMind te ayuda a navegar en el metro con su memoria». TechCrunch . Consultado el 19 de octubre de 2016 .
^ Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (12 de octubre de 2016). "Computación híbrida utilizando una red neuronal con memoria externa dinámica". Nature . 538 (7626): 471–476. Bibcode :2016Natur.538..471G. doi :10.1038/nature20101. ISSN 1476-4687. PMID 27732574. S2CID 205251479.
^ "Computadoras neuronales diferenciables | DeepMind". DeepMind . 12 de octubre de 2016 . Consultado el 19 de octubre de 2016 .
^ Atkeson, Christopher G.; Schaal, Stefan (1995). "Redes neuronales basadas en memoria para el aprendizaje de robots". Neurocomputing . 9 (3): 243–269. doi :10.1016/0925-2312(95)00033-6.
^ Salakhutdinov, Ruslan; Hinton, Geoffrey (2009). "Hash semántico" (PDF) . Revista internacional de razonamiento aproximado . 50 (7): 969–978. doi :10.1016/j.ijar.2008.11.006.
^ Le, Quoc V.; Mikolov, Tomas (2014). "Representaciones distribuidas de oraciones y documentos". arXiv : 1405.4053 [cs.CL].
^ Schmidhuber, Juergen (2015). "Redes de punteros". arXiv : 1506.03134 [stat.ML].
^ Schmidhuber, Juergen (2015). "Máquinas de acceso aleatorio neuronal". arXiv : 1511.06392 [cs.LG].
^ Kalchbrenner, N.; Blunsom, P. (2013). Modelos de traducción continua recurrente. EMNLP'2013. págs. 1700–1709.
^ Sutskever, I.; Vinyals, O.; Le, QV (2014). "Aprendizaje secuencia a secuencia con redes neuronales" (PDF) . Vigésimo octava Conferencia sobre sistemas de procesamiento de información neuronal . arXiv : 1409.3215 .
^ Schmidhuber, Juergen (2014). "Aprendizaje de representaciones de frases mediante el codificador-decodificador RNN para traducción automática estadística". arXiv : 1406.1078 [cs.CL].
^ Schmidhuber, Juergen; Courville, Aaron; Bengio, Yoshua (2015). "Descripción de contenido multimedia mediante redes de codificadores y decodificadores basados en la atención". IEEE Transactions on Multimedia . 17 (11): 1875–1886. arXiv : 1507.01053 . Bibcode :2015arXiv150701053C. doi :10.1109/TMM.2015.2477044. S2CID 1179542.
^ Gerstner; Kistler. "Modelos de neuronas en pico: neuronas individuales, poblaciones, plasticidad". icwww.epfl.ch . Archivado desde el original el 2017-06-04 . Consultado el 2017-06-18 .Libro de texto disponible en línea de forma gratuita
^ Izhikevich EM (febrero de 2006). "Policronización: computación con picos". Computación neuronal . 18 (2): 245–82. doi :10.1162/089976606775093882. PMID 16378515. S2CID 14253998.
^ Morer I, Cardillo A, Díaz-Guilera A, Prignano L, Lozano S (2020). "Comparación de redes espaciales: un enfoque de talla única basado en la eficiencia". Physical Review . 101 (4): 042301. Bibcode :2020PhRvE.101d2301M. doi :10.1103/PhysRevE.101.042301. hdl : 2445/161417 . PMID 32422764. S2CID 49564277.
^ Gupta J, Molnar C, Xie Y, Knight J, Shekhar S (2021). "Redes neuronales profundas que tienen en cuenta la variabilidad espacial (SVANN): un enfoque general". ACM Transactions on Intelligent Systems and Technology . 12 (6): 1–21. doi :10.1145/3466688. S2CID 244786699.
^ Hagenauer J, Helbich M (2022). "Una red neuronal artificial ponderada geográficamente". Revista Internacional de Ciencias de la Información Geográfica . 36 (2): 215–235. Código Bibliográfico :2022IJGIS..36..215H. doi : 10.1080/13658816.2021.1871618 . S2CID 233883395.
^ David H. Hubel y Torsten N. Wiesel (2005). Cerebro y percepción visual: la historia de una colaboración de 25 años. Oxford University Press. p. 106. ISBN 978-0-19-517618-6.
^ Hubel, DH; Wiesel, TN (octubre de 1959). "Campos receptivos de neuronas individuales en la corteza estriada del gato". J. Physiol . 148 (3): 574–91. doi :10.1113/jphysiol.1959.sp006308. PMC 1363130 . PMID 14403679.
^ Fukushima 1987, pág. 83.
^ Fukushima 1987, pág. 84.
^ Fukushima 2007.
^ Fukushima 1987, págs. 81, 85.
^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Aprendizaje profundo" (PDF) . Nature . 521 (7553): 436–444. Bibcode :2015Natur.521..436L. doi :10.1038/nature14539. PMID 26017442. S2CID 3074096.
^ Hinton, GE ; Osindero, S.; Teh, Y. (2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Neural Computation . 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541 . doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
^ Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). "Aprendizaje eficiente de las máquinas profundas de Boltzmann" (PDF) . 3 : 448–455. Archivado desde el original (PDF) el 2015-11-06 . Consultado el 2019-08-25 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). "Explorando estrategias para entrenar redes neuronales profundas". The Journal of Machine Learning Research . 10 : 1–40.
^ Coates, Adam; Carpenter, Blake (2011). "Detección de texto y reconocimiento de caracteres en imágenes de escenas con aprendizaje de características no supervisado" (PDF) : 440–445. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Lee, Honglak; Grosse, Roger (2009). "Redes de creencias profundas convolucionales para el aprendizaje escalable no supervisado de representaciones jerárquicas". Actas de la 26.ª Conferencia internacional anual sobre aprendizaje automático . pp. 609–616. CiteSeerX 10.1.1.149.6800 . doi :10.1145/1553374.1553453. ISBN . 9781605585161.S2CID12008458 .
^ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Modelos no supervisados de imágenes mediante RBM de tipo Spike-and-Slab" (PDF) . Actas de la 28.ª Conferencia Internacional sobre Aprendizaje Automático . Vol. 10. págs. 1–8. Archivado desde el original (PDF) el 2016-03-04 . Consultado el 2019-08-25 .
^ Lin, Yuanqing; Zhang, Tong; Zhu, Shenghuo; Yu, Kai (2010). "Red de codificación profunda". Avances en los sistemas de procesamiento de información neuronal 23 (NIPS 2010) . vol. 23, págs. 1 a 9.
^ Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). "Sparse Feature Learning for Deep Belief Networks" (PDF) . Avances en sistemas de procesamiento de información neuronal . 23 : 1–8. Archivado desde el original (PDF) el 2016-03-04 . Consultado el 2019-08-25 .
^ Socher, Richard; Lin, Clif (2011). «Análisis de escenas naturales y lenguaje natural con redes neuronales recursivas» (PDF) . Actas de la 26.ª Conferencia internacional sobre aprendizaje automático . Archivado desde el original (PDF) el 4 de marzo de 2016. Consultado el 25 de agosto de 2019 .
^ Taylor, Graham; Hinton, Geoffrey (2006). "Modelado del movimiento humano mediante variables latentes binarias" (PDF) . Avances en sistemas de procesamiento de información neuronal . Archivado desde el original (PDF) el 2016-03-04 . Consultado el 2019-08-25 .
^ Vincent, Pascal; Larochelle, Hugo (2008). "Extracción y composición de características robustas con autocodificadores de reducción de ruido". Actas de la 25.ª conferencia internacional sobre aprendizaje automático - ICML '08 . págs. 1096–1103. CiteSeerX 10.1.1.298.4083 . doi :10.1145/1390156.1390294. ISBN . 9781605582054. Número de identificación del sujeto 207168299.
^ Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). "Aprendizaje de hipótesis adicionales con modelos bayesianos jerárquicos". Ciencias del desarrollo . 10 (3): 307–21. CiteSeerX 10.1.1.141.5560 . doi :10.1111/j.1467-7687.2007.00585.x. PMID 17444972.
^ Xu, Fei; Tenenbaum, Joshua (2007). "Aprendizaje de palabras como inferencia bayesiana". Psychol. Rev . 114 (2): 245–72. CiteSeerX 10.1.1.57.9649 . doi :10.1037/0033-295X.114.2.245. PMID 17500627.
^ Chen, Bo; Polatkan, Gungor (2011). "El proceso beta jerárquico para el análisis factorial convolucional y el aprendizaje profundo" (PDF) . Actas de la 28.ª Conferencia internacional sobre aprendizaje automático . Omnipress. págs. 361–368. ISBN. 978-1-4503-0619-5.
^ Fei-Fei, Li; Fergus, Rob (2006). "Aprendizaje de categorías de objetos en un solo paso". IEEE Transactions on Pattern Analysis and Machine Intelligence . 28 (4): 594–611. CiteSeerX 10.1.1.110.9024 . doi :10.1109/TPAMI.2006.79. PMID 16566508. S2CID 6953475.
^ Rodríguez, Abel; Dunson, David (2008). "El proceso Dirichlet anidado". Revista de la Asociación Estadounidense de Estadística . 103 (483): 1131–1154. CiteSeerX 10.1.1.70.9873 . doi :10.1198/016214508000000553. S2CID 13462201.
^ Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). "Aprendizaje con modelos jerárquicos profundos". IEEE Transactions on Pattern Analysis and Machine Intelligence . 35 (8): 1958–71. CiteSeerX 10.1.1.372.909 . doi :10.1109/TPAMI.2012.269. PMID 23787346. S2CID 4508400.
^ ab Chalasani, Rakesh; Principe, Jose (2013). "Redes de codificación predictiva profunda". arXiv : 1301.3541 [cs.LG].
^ Scholkopf, B; Smola, Alexander (1998). "Análisis de componentes no lineales como un problema de valores propios del núcleo". Neural Computation . 44 (5): 1299–1319. CiteSeerX 10.1.1.53.8911 . doi :10.1162/089976698300017467. S2CID 6674407.
^ Cho, Youngmin (2012). "Métodos de kernel para aprendizaje profundo" (PDF) : 1–9. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Deng, Li; Tur, Gokhan; He, Xiaodong; Hakkani-Tür, Dilek (1 de diciembre de 2012). "Uso de redes convexas profundas de núcleo y aprendizaje de extremo a extremo para la comprensión del lenguaje hablado". Microsoft Research .

Bibliografía

Fukushima, Kunihiko (1987). "Un modelo de red neuronal jerárquica para la atención selectiva". En Eckmiller, R.; Von der Malsburg, C. (eds.). Computadoras neuronales . Springer-Verlag. págs. 81–90.
Fukushima, Kunihiko (2007). "Neocognitron". Scholarpedia . 2 (1): 1717. Bibcode :2007SchpJ...2.1717F. doi : 10.4249/scholarpedia.1717 .