codificador automático

Un codificador automático es un tipo de red neuronal artificial que se utiliza para aprender codificaciones eficientes de datos sin etiquetar ( aprendizaje no supervisado ). ^[1]^[2] Un codificador automático aprende dos funciones: una función de codificación que transforma los datos de entrada y una función de decodificación que recrea los datos de entrada a partir de la representación codificada. El codificador automático aprende una representación (codificación) eficiente para un conjunto de datos, generalmente para la reducción de dimensionalidad .

Existen variantes que tienen como objetivo obligar a las representaciones aprendidas a asumir propiedades útiles. ^[3] Algunos ejemplos son los codificadores automáticos regularizados ( Sparse , Denoising y Contractive ), que son eficaces en el aprendizaje de representaciones para tareas de clasificación posteriores , ^[4] y los codificadores automáticos variacionales , con aplicaciones como modelos generativos . ^[5] Los codificadores automáticos se aplican a muchos problemas, incluido el reconocimiento facial , ^[6] detección de características, ^[7] detección de anomalías y adquisición del significado de palabras. ^[8]^[9] Los codificadores automáticos también son modelos generativos que pueden generar aleatoriamente nuevos datos que son similares a los datos de entrada (datos de entrenamiento). ^[7]

Principios matemáticos

Definición

Un codificador automático está definido por los siguientes componentes:

Dos conjuntos: el espacio de mensajes decodificados ; el espacio de los mensajes codificados . Casi siempre, ambos y son espacios euclidianos, es decir, para algunos . ${\mathcal {X}}$ ${\mathcal {Z}}$ ${\mathcal {X}}$ ${\mathcal {Z}}$ ${\mathcal {X}}=\mathbb {R} ^{m},{\mathcal {Z}}=\mathbb {R} ^{n}$ $m,n$

Dos familias de funciones parametrizadas: la familia de codificadores , parametrizada por ; la familia de decodificadores , parametrizada por . $E_{\phi }:{\mathcal {X}}\rightarrow {\mathcal {Z}}$ $\phi$ $D_{\theta }:{\mathcal {Z}}\rightarrow {\mathcal {X}}$ $\theta$

Para any , normalmente escribimos y nos referimos a él como código, variable latente , representación latente, vector latente, etc. Por el contrario, para any , normalmente escribimos y nos referimos a él como mensaje (decodificado). $x\in {\mathcal {X}}$ $z=E_{\phi }(x)$ $z\in {\mathcal {Z}}$ $x'=D_{\theta }(z)$

Habitualmente, tanto el codificador como el decodificador se definen como perceptrones multicapa . Por ejemplo, un codificador MLP de una capa es: $E_{\phi }$

E_{\phi }(\mathbf {x} )=\sigma (Wx+b)

donde es una función de activación de elementos , como una función sigmoidea o una unidad lineal rectificada , es una matriz llamada "peso" y es un vector llamado "sesgo". $\sigma$ $W$ $b$

Entrenando un codificador automático

Un codificador automático, por sí solo, es simplemente una tupla de dos funciones. Para juzgar su calidad , necesitamos una tarea . Una tarea se define mediante una distribución de probabilidad de referencia sobre y una función de "calidad de reconstrucción" , tal que mide en qué medida difiere de . $\mu _{ref}$ ${\mathcal {X}}$ $d:{\mathcal {X}}\times {\mathcal {X}}\to [0,\infty ]$ $d(x,x')$ $x'$ $x$

Con eso, podemos definir la función de pérdida para el codificador automático como

L(\theta ,\phi ):=\mathbb {\mathbb {E} } _{x\sim \mu _{ref}}[d(x,D_{\theta }(E_{\phi }(x)))]

óptimodescenso de gradiente

(\mu _{ref},d)

\arg \min _{\theta ,\phi }L(\theta ,\phi )

En la mayoría de las situaciones, la distribución de referencia es simplemente la distribución empírica dada por un conjunto de datos , de modo que $\{x_{1},...,x_{N}\}\subset {\mathcal {X}}$

\mu _{ref}={\frac {1}{N}}\sum _{i=1}^{N}\delta _{x_{i}}

donde y es la medida de Dirac y la función de calidad es solo la pérdida L2: es la norma euclidiana. Entonces el problema de buscar el codificador automático óptimo es solo una optimización de mínimos cuadrados : $\delta _{x_{i}}$ $d(x,x')=\|x-x'\|_{2}^{2}$ $\|\cdot \|_{2}$

\min _{\theta ,\phi }L(\theta ,\phi ),{\text{where }}L(\theta ,\phi )={\frac {1}{N}}\sum _{i=1}^{N}\|x_{i}-D_{\theta }(E_{\phi }(x_{i}))\|_{2}^{2}

Interpretación

Un codificador automático tiene dos partes principales: un codificador que asigna el mensaje a un código y un decodificador que reconstruye el mensaje a partir del código. Un codificador automático óptimo realizaría una reconstrucción lo más cercana posible a la perfección, con "cerca de perfecta" definida por la función de calidad de reconstrucción . $d$

La forma más sencilla de realizar la tarea de copia a la perfección sería duplicar la señal. Para suprimir este comportamiento, el espacio de código suele tener menos dimensiones que el espacio de mensajes . ${\mathcal {Z}}$ ${\mathcal {X}}$

Un codificador automático de este tipo se denomina subcompleto . Puede interpretarse como comprimir el mensaje, o reducir su dimensionalidad . ^[1]^[10]

En el límite de un codificador automático incompleto ideal, se utiliza cada código posible en el espacio de código para codificar un mensaje que realmente aparece en la distribución , y el decodificador también es perfecto: . Este codificador automático ideal se puede utilizar para generar mensajes indistinguibles de los mensajes reales, alimentando su decodificador con código arbitrario y obteniendo cuál es el mensaje que realmente aparece en la distribución . $z$ $x$ $\mu _{ref}$ $D_{\theta }(E_{\phi }(x))=x$ $z$ $D_{\theta }(z)$ $\mu _{ref}$

Si el espacio de código tiene una dimensión mayor ( sobrecompleto ) o igual que el espacio del mensaje , o las unidades ocultas tienen suficiente capacidad, un codificador automático puede aprender la función de identidad y volverse inútil. Sin embargo, los resultados experimentales encontraron que los codificadores automáticos demasiado completos aún podrían aprender funciones útiles . ^[11] ${\mathcal {Z}}$ ${\mathcal {X}}$

En el entorno ideal, la dimensión del código y la capacidad del modelo podrían establecerse en función de la complejidad de la distribución de datos que se va a modelar. Una forma estándar de hacerlo es agregar modificaciones al codificador automático básico, que se detallan a continuación. ^[3]

Historia

Kramer propuso por primera vez el codificador automático como una generalización no lineal del análisis de componentes principales (PCA). ^[1] El codificador automático también ha sido llamado autoasociador, ^[12] o red Diabolo. ^[13]^[11] Sus primeras aplicaciones datan de principios de la década de 1990. ^[3]^[14]^[15] Su aplicación más tradicional era la reducción de dimensionalidad o aprendizaje de características , pero el concepto se volvió ampliamente utilizado para aprender modelos generativos de datos. ^[16]^{[17] Algunas de las}IA más poderosas de la década de 2010 involucraron codificadores automáticos apilados dentro de redes neuronales profundas . ^[18]

Variaciones

Codificadores automáticos regularizados

Existen varias técnicas para evitar que los codificadores automáticos aprendan la función de identidad y mejorar su capacidad para capturar información importante y aprender representaciones más ricas.

Codificador automático disperso (SAE)

Inspirados en la hipótesis de la codificación dispersa en neurociencia, los codificadores automáticos dispersos son variantes de los codificadores automáticos, de modo que los códigos de los mensajes tienden a ser códigos dispersos , es decir, cercanos a cero en la mayoría de las entradas. Los codificadores automáticos dispersos pueden incluir más (en lugar de menos) unidades ocultas que entradas, pero solo una pequeña cantidad de unidades ocultas pueden estar activas al mismo tiempo. ^[18] Fomentar la escasez mejora el rendimiento en las tareas de clasificación. ^[19] $E_{\phi }(x)$ $E_{\phi }(x)$

Hay dos formas principales de imponer la escasez. Una forma es simplemente limitar a cero todas las activaciones del código latente, excepto las de mayor k. Este es el codificador automático k-sparse . ^[20]

El codificador automático k-sparse inserta la siguiente "función k-sparse" en la capa latente de un codificador automático estándar:

f_{k}(x_{1},...,x_{n})=(x_{1}b_{1},...,x_{n}b_{n})

b_{i}=1

|x_{i}|

La propagación hacia atrás es simple: establezca el gradiente en 0 para las entradas y mantenga el gradiente para las entradas. Esta es esencialmente una función ReLU generalizada . ^[20] $f_{k}$ $b_{i}=0$ $b_{i}=1$

La otra forma es una versión relajada del codificador automático k-sparse. En lugar de forzar la escasez, agregamos una pérdida de regularización de escasez y luego optimizamos para

\min _{\theta ,\phi }L(\theta ,\phi )+\lambda L_{sparsity}(\theta ,\phi )

^[21]

\lambda >0

Deje que la arquitectura del codificador automático tenga capas. Para definir una pérdida de regularización de escasez, necesitamos una escasez "deseada" para cada capa, un peso para cuánto aplicar cada escasez y una función para medir en qué medida difieren dos escasez. $K$ ${\hat {\rho }}_{k}$ $w_{k}$ $s:[0,1]\times [0,1]\to [0,\infty ]$

Para cada entrada , sea la escasez real de activación en cada capa $x$ $k$

\rho _{k}(x)={\frac {1}{n}}\sum _{i=1}^{n}a_{k,i}(x)

a_{k,i}(x)

i

k

x

La pérdida de escasez al ingresar una capa es , y la pérdida de regularización de escasez para todo el codificador automático es la suma ponderada esperada de las pérdidas de escasez: $x$ $s({\hat {\rho }}_{k},\rho _{k}(x))$

L_{sparsity}(\theta ,\phi )=\mathbb {\mathbb {E} } _{x\sim \mu _{X}}\left[\sum _{k\in 1:K}w_{k}s({\hat {\rho }}_{k},\rho _{k}(x))\right]

divergencia de Kullback-Leibler (KL)^[19]^[21]^[22]^[23]

s

s(\rho ,{\hat {\rho }})=KL(\rho ||{\hat {\rho }})=\rho \log {\frac {\rho }{\hat {\rho }}}+(1-\rho )\log {\frac {1-\rho }{1-{\hat {\rho }}}}

o la pérdida L1, como , o la pérdida L2, como . $s(\rho ,{\hat {\rho }})=|\rho -{\hat {\rho }}|$ $s(\rho ,{\hat {\rho }})=|\rho -{\hat {\rho }}|^{2}$

Alternativamente, la pérdida de regularización de la escasez se puede definir sin hacer referencia a ninguna "escasez deseada", sino simplemente forzar tanta escasez como sea posible. En este caso, se puede definir la pérdida de regularización de escasez como

L_{sparsity}(\theta ,\phi )=\mathbb {\mathbb {E} } _{x\sim \mu _{X}}\left[\sum _{k\in 1:K}w_{k}\|h_{k}\|\right]

h_{k}

k

\|\cdot \|

Codificador automático de eliminación de ruido (DAE)

Los codificadores automáticos de eliminación de ruido (DAE) intentan lograr una buena representación cambiando el criterio de reconstrucción . ^[3]^[4]

Un DAE, originalmente llamado "red autoasociativa robusta", ^[2] se entrena corrompiendo intencionalmente las entradas de un codificador automático estándar durante el entrenamiento. Un proceso de ruido se define mediante una distribución de probabilidad sobre funciones . Es decir, la función toma un mensaje y lo corrompe a una versión ruidosa . La función se selecciona aleatoriamente, con una distribución de probabilidad . $\mu _{T}$ $T:{\mathcal {X}}\to {\mathcal {X}}$ $T$ $x\in {\mathcal {X}}$ $T(x)$ $T$ $\mu _{T}$

Dada una tarea , el problema de entrenar un DAE es el problema de optimización: $(\mu _{ref},d)$

\min _{\theta ,\phi }L(\theta ,\phi )=\mathbb {\mathbb {E} } _{x\sim \mu _{X},T\sim \mu _{T}}[d(x,(D_{\theta }\circ E_{\phi }\circ T)(x))]

Por lo general, el proceso de ruido se aplica sólo durante el entrenamiento y las pruebas, no durante el uso posterior. $T$

El uso de DAE depende de dos supuestos:

Existen representaciones de los mensajes que son relativamente estables y robustas para el tipo de ruido que probablemente encontremos;
Dichas representaciones capturan estructuras en la distribución de entrada que son útiles para nuestros propósitos. ^[4]

Ejemplos de procesos de ruido incluyen:

ruido gaussiano isotrópico aditivo ,
ruido de enmascaramiento (una fracción de la entrada se elige aleatoriamente y se establece en 0)
ruido de sal y pimienta (una fracción de la entrada se elige aleatoriamente y se establece aleatoriamente en su valor mínimo o máximo). ^[4]

Autocodificador contractivo (CAE)

Un codificador automático contractivo agrega la pérdida de regularización contractiva a la pérdida del codificador automático estándar:

\min _{\theta ,\phi }L(\theta ,\phi )+\lambda L_{contractive}(\theta ,\phi )

norma de Frobenius matriz jacobiana

\lambda >0

L_{contractive}(\theta ,\phi )=\mathbb {E} _{x\sim \mu _{ref}}\|\nabla _{x}E_{\phi }(x)\|_{F}^{2}

L_{contractive}

\|E_{\phi }(x+\delta x)-E_{\phi }(x)\|_{2}\leq \|\nabla _{x}E_{\phi }(x)\|_{F}\|\delta x\|_{2}

x\in {\mathcal {X}}

\delta x

\|\nabla _{x}E_{\phi }(x)\|_{F}^{2}

El DAE puede entenderse como un límite infinitesimal del CAE: en el límite del pequeño ruido de entrada gaussiano, los DAE hacen que la función de reconstrucción resista perturbaciones de entrada pequeñas pero de tamaño finito, mientras que los CAE hacen que las características extraídas resistan perturbaciones de entrada infinitesimales.

Autocodificador de longitud mínima de descripción

^[24]

codificador automático de hormigón

El codificador automático de hormigón está diseñado para la selección de funciones discretas. ^[25] Un codificador automático concreto obliga al espacio latente a consistir únicamente en un número de características especificadas por el usuario. El codificador automático concreto utiliza una relajación continua de la distribución categórica para permitir que los gradientes pasen a través de la capa del selector de características, lo que hace posible usar la retropropagación estándar para aprender un subconjunto óptimo de características de entrada que minimicen la pérdida de reconstrucción.

Codificador automático variacional (VAE)

Los autocodificadores variacionales (VAE) pertenecen a las familias de métodos bayesianos variacionales . A pesar de las similitudes arquitectónicas con los codificadores automáticos básicos, los VAE son arquitecturas con objetivos diferentes y con una formulación matemática completamente diferente. El espacio latente en este caso está compuesto por una mezcla de distribuciones en lugar de un vector fijo.

Dado un conjunto de datos de entrada caracterizado por una función de probabilidad desconocida y un vector de codificación latente multivariante , el objetivo es modelar los datos como una distribución , definida como el conjunto de parámetros de la red para que . $x$ $P(x)$ $z$ $p_{\theta }(x)$ $\theta$ $p_{\theta }(x)=\int _{z}p_{\theta }(x,z)dz$

Ventajas de la profundidad

Los codificadores automáticos suelen entrenarse con un codificador y un decodificador de una sola capa, pero el uso de codificadores y decodificadores de muchas capas (profundos) ofrece muchas ventajas. ^[3]

La profundidad puede reducir exponencialmente el costo computacional de representar algunas funciones.
La profundidad puede disminuir exponencialmente la cantidad de datos de entrenamiento necesarios para aprender algunas funciones.
Experimentalmente, los codificadores automáticos profundos producen una mejor compresión en comparación con los codificadores automáticos lineales o superficiales. ^[10]

Capacitación

Geoffrey Hinton desarrolló la técnica de red de creencias profundas para entrenar codificadores automáticos profundos de muchas capas. Su método implica tratar cada conjunto vecino de dos capas como una máquina de Boltzmann restringida para que el entrenamiento previo se aproxime a una buena solución y luego usar la retropropagación para ajustar los resultados. ^[10]

Los investigadores han debatido si el entrenamiento conjunto (es decir, entrenar toda la arquitectura junto con un único objetivo de reconstrucción global para optimizar) sería mejor para los codificadores automáticos profundos. ^[26] Un estudio de 2015 demostró que el entrenamiento conjunto aprende mejores modelos de datos junto con características más representativas para la clasificación en comparación con el método por capas. ^[26] Sin embargo, sus experimentos demostraron que el éxito de la formación conjunta depende en gran medida de las estrategias de regularización adoptadas. ^[26]^[27]

Aplicaciones

Las dos aplicaciones principales de los codificadores automáticos son la reducción de dimensionalidad y la recuperación de información, ^[3] pero se han aplicado variaciones modernas a otras tareas.

Reducción de dimensionalidad

La reducción de dimensionalidad fue una de las primeras aplicaciones de aprendizaje profundo . ^[3]

Para el estudio de Hinton de 2006, ^[10] entrenó previamente un codificador automático multicapa con una pila de RBM y luego usó sus pesos para inicializar un codificador automático profundo con capas ocultas gradualmente más pequeñas hasta alcanzar un cuello de botella de 30 neuronas. Las 30 dimensiones resultantes del código produjeron un error de reconstrucción más pequeño en comparación con los primeros 30 componentes de un análisis de componentes principales (PCA) y aprendieron una representación que era cualitativamente más fácil de interpretar, separando claramente los grupos de datos. ^[3]^[10]

Representar dimensiones puede mejorar el rendimiento en tareas como la clasificación. ^[3] De hecho, el sello distintivo de la reducción de dimensionalidad es colocar ejemplos semánticamente relacionados uno cerca del otro. ^[29]

Análisis de componentes principales

Reconstrucción de imágenes de 28x28 píxeles mediante un Autoencoder con un tamaño de código de dos (capa oculta de dos unidades) y reconstrucción a partir de los dos primeros Componentes Principales de PCA. Las imágenes provienen del conjunto de datos Fashion MNIST. ^[28]

Si se utilizan activaciones lineales, o solo una única capa oculta sigmoidea, entonces la solución óptima para un codificador automático está fuertemente relacionada con el análisis de componentes principales (PCA). ^[30]^[31] Los pesos de un codificador automático con una única capa oculta de tamaño (donde es menor que el tamaño de la entrada) abarcan el mismo subespacio vectorial que el que abarcan los primeros componentes principales y la salida del codificador automático. es una proyección ortogonal sobre este subespacio. Los pesos del codificador automático no son iguales a los componentes principales y generalmente no son ortogonales; sin embargo, los componentes principales se pueden recuperar a partir de ellos mediante la descomposición de valores singulares . ^[32] $p$ $p$ $p$

Sin embargo, el potencial de los codificadores automáticos reside en su no linealidad, lo que permite que el modelo aprenda generalizaciones más poderosas en comparación con PCA y reconstruya la entrada con una pérdida de información significativamente menor. ^[10]

Recuperación de información y optimización de motores de búsqueda.

La recuperación de información se beneficia particularmente de la reducción de la dimensionalidad, ya que la búsqueda puede volverse más eficiente en ciertos tipos de espacios de baja dimensión. De hecho, los codificadores automáticos se aplicaron al hash semántico, propuesto por Salakhutdinov y Hinton en 2007. ^[29] Al entrenar el algoritmo para producir un código binario de baja dimensión, todas las entradas de la base de datos podrían almacenarse en una tabla hash que asigna vectores de código binario a las entradas. Luego, esta tabla admitiría la recuperación de información al devolver todas las entradas con el mismo código binario que la consulta, o entradas ligeramente menos similares al invertir algunos bits de la codificación de la consulta.

La arquitectura codificador-decodificador, utilizada a menudo en el procesamiento del lenguaje natural y en las redes neuronales, se puede aplicar científicamente en el campo del SEO (optimización de motores de búsqueda) de varias maneras:

Procesamiento de texto : al utilizar un codificador automático, es posible comprimir el texto de las páginas web en una representación vectorial más compacta. Esto puede ayudar a reducir los tiempos de carga de la página y mejorar la indexación por parte de los motores de búsqueda.
Reducción de ruido : los codificadores automáticos se pueden utilizar para eliminar el ruido de los datos textuales de las páginas web. Esto puede conducir a una mejor comprensión del contenido por parte de los motores de búsqueda, mejorando así la clasificación en las páginas de resultados de los motores de búsqueda.
Generación de metaetiquetas y fragmentos : los codificadores automáticos se pueden entrenar para generar automáticamente metaetiquetas, fragmentos y descripciones para páginas web utilizando el contenido de la página. Esto puede optimizar la presentación en los resultados de búsqueda, aumentando la tasa de clics (CTR).
Agrupación de contenido : con un codificador automático, las páginas web con contenido similar se pueden agrupar automáticamente. Esto puede ayudar a organizar el sitio web de manera lógica y mejorar la navegación, lo que potencialmente afectará positivamente la experiencia del usuario y la clasificación en los motores de búsqueda.
Generación de contenido relacionado : se puede emplear un codificador automático para generar contenido relacionado con lo que ya está presente en el sitio. Esto puede mejorar el atractivo del sitio web para los motores de búsqueda y proporcionar a los usuarios información adicional relevante.
Detección de palabras clave : los codificadores automáticos se pueden entrenar para identificar palabras clave y conceptos importantes dentro del contenido de las páginas web. Esto puede ayudar a optimizar el uso de palabras clave para una mejor indexación.
Búsqueda semántica : mediante el uso de técnicas de codificación automática, se pueden crear modelos de representación semántica de contenido. Estos modelos se pueden utilizar para mejorar la comprensión de los motores de búsqueda sobre los temas tratados en las páginas web.

En esencia, la arquitectura codificador-decodificador o codificadores automáticos se puede aprovechar en SEO para optimizar el contenido de la página web, mejorar su indexación y aumentar su atractivo tanto para los motores de búsqueda como para los usuarios.

Detección de anomalías

Otra aplicación de los codificadores automáticos es la detección de anomalías . ^[2]^[33]^[34]^[35]^[36]^[37] Al aprender a replicar las características más destacadas en los datos de entrenamiento bajo algunas de las restricciones descritas anteriormente, se alienta al modelo a aprender a reproducir con precisión las características más frecuentes. características observadas. Ante anomalías, el modelo debería empeorar su rendimiento de reconstrucción. En la mayoría de los casos, sólo se utilizan datos con instancias normales para entrenar el codificador automático; en otros, la frecuencia de anomalías es pequeña en comparación con el conjunto de observaciones, por lo que su contribución a la representación aprendida podría ignorarse. Después del entrenamiento, el codificador automático reconstruirá con precisión los datos "normales", pero no podrá hacerlo con datos anómalos desconocidos. ^[35] El error de reconstrucción (el error entre los datos originales y su reconstrucción de baja dimensión) se utiliza como puntuación de anomalía para detectar anomalías. ^[35]

Sin embargo, la literatura reciente ha demostrado que ciertos modelos de codificación automática pueden, de manera contraria a la intuición, ser muy buenos para reconstruir ejemplos anómalos y, en consecuencia, no pueden realizar una detección de anomalías de manera confiable. ^[38]^[39]

Procesamiento de imágenes

Las características de los codificadores automáticos son útiles en el procesamiento de imágenes.

Un ejemplo se puede encontrar en la compresión de imágenes con pérdida , donde los codificadores automáticos superaron a otros enfoques y demostraron ser competitivos frente a JPEG 2000 . ^[40]^[41]

Otra aplicación útil de los codificadores automáticos en el preprocesamiento de imágenes es la eliminación de ruido de imágenes . ^[42]^[43]^[44]

Los codificadores automáticos encontraron uso en contextos más exigentes, como imágenes médicas , donde se han utilizado para eliminar ruido de imágenes ^[45] , así como para superresolución . ^[46]^[47] En el diagnóstico asistido por imágenes, se han aplicado experimentos con codificadores automáticos para la detección del cáncer de mama ^[48] y para modelar la relación entre el deterioro cognitivo de la enfermedad de Alzheimer y las características latentes de un codificador automático entrenado con resonancia magnética . ^[49]

Descubrimiento de medicamento

En 2019, las moléculas generadas con autocodificadores variacionales se validaron experimentalmente en ratones. ^[50]^[51]

Predicción de popularidad

Recientemente, un marco de codificador automático apilado produjo resultados prometedores en la predicción de la popularidad de las publicaciones en las redes sociales, ^[52] , lo cual es útil para las estrategias de publicidad en línea.

Máquina traductora

Los codificadores automáticos se han aplicado a la traducción automática , que generalmente se conoce como traducción automática neuronal (NMT). ^[53]^[54] A diferencia de los codificadores automáticos tradicionales, la salida no coincide con la entrada: está en otro idioma. En NMT, los textos se tratan como secuencias que se codificarán en el procedimiento de aprendizaje, mientras que en el lado del decodificador se generan secuencias en el idioma o idiomas de destino. Los codificadores automáticos específicos del idioma incorporan funciones lingüísticas adicionales en el proceso de aprendizaje, como funciones de descomposición del chino. ^[55] La traducción automática rara vez se realiza con codificadores automáticos, debido a la disponibilidad de redes de transformadores más efectivas .

Ver también

Referencias

^ abc Kramer, Mark A. (1991). "Análisis de componentes principales no lineal mediante redes neuronales autoasociativas" (PDF) . Revista AIChE . 37 (2): 233–243. doi :10.1002/aic.690370209.
^ abc Kramer, MA (1 de abril de 1992). "Redes neuronales autoasociativas". Informática e Ingeniería Química . Aplicaciones de redes neutras en ingeniería química. 16 (4): 313–328. doi :10.1016/0098-1354(92)80051-A. ISSN 0098-1354.
^ abcdefghi Buen compañero, Ian; Bengio, Yoshua; Courville, Aarón (2016). Aprendizaje profundo. Prensa del MIT. ISBN 978-0262035613.
^ abcd Vicente, Pascal; Larochelle, Hugo (2010). "Codificadores automáticos de eliminación de ruido apilados: aprendizaje de representaciones útiles en una red profunda con un criterio de eliminación de ruido local". Revista de investigación sobre aprendizaje automático . 11 : 3371–3408.
^ Bien, Max; Kingma, Diederik P. (2019). "Introducción a los codificadores automáticos variacionales". Fundamentos y tendencias en aprendizaje automático . 12 (4): 307–392. arXiv : 1906.02691 . Código Bib : 2019arXiv190602691K. doi :10.1561/2200000056. S2CID 174802445.
^ Hinton GE, Krizhevsky A, Wang SD. Transformación de codificadores automáticos. En Conferencia internacional sobre redes neuronales artificiales, 14 de junio de 2011 (págs. 44-51). Springer, Berlín, Heidelberg.
^ ab Géron, Aurélien (2019). Aprendizaje automático práctico con Scikit-Learn, Keras y TensorFlow . Canadá: O'Reilly Media, Inc. págs. 739–740.
^ Liou, Cheng-Yuan; Huang, Jau-Chi; Yang, Wen-Chie (2008). "Modelado de la percepción de palabras utilizando la red Elman". Neurocomputación . 71 (16–18): 3150. doi :10.1016/j.neucom.2008.04.030.
^ Liou, Cheng-Yuan; Cheng, Wei-Chen; Liou, Jiun-Wei; Liou, Daw Ran (2014). "Codificador automático de palabras". Neurocomputación . 139 : 84–96. doi :10.1016/j.neucom.2013.09.055.
^ abcdef Hinton, GE; Salakhutdinov, RR (28 de julio de 2006). "Reducir la dimensionalidad de los datos con redes neuronales". Ciencia . 313 (5786): 504–507. Código Bib : 2006 Ciencia... 313.. 504H. doi : 10.1126/ciencia.1127647. PMID 16873662. S2CID 1658773.
^ ab Bengio, Y. (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y tendencias en aprendizaje automático . 2 (8): 1795–7. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006. PMID 23946944. S2CID 207178999.
^ Japkowicz, Nathalie ; Hanson, Stephen José; Gluck, Mark A. (1 de marzo de 2000). "La autoasociación no lineal no es equivalente a PCA". Computación neuronal . 12 (3): 531–545. doi :10.1162/089976600300015691. ISSN 0899-7667. PMID 10769321. S2CID 18490972.
^ Schwenk, Holger; Bengio, Yoshua (1997). "Métodos de entrenamiento para el impulso adaptativo de redes neuronales". Avances en los sistemas de procesamiento de información neuronal . Prensa del MIT. 10 .
^ Schmidhuber, Jürgen (enero de 2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Hinton, GE y Zemel, RS (1994). Autocodificadores, longitud mínima de descripción y energía libre de Helmholtz. En Avances en sistemas de procesamiento de información neuronal 6 (págs. 3-10).
^ Diederik P. Kingma; Bien, Max (2013). "Bayes variacionales de codificación automática". arXiv : 1312.6114 [estad.ML].
^ Generando caras con antorcha, Boesen A., Larsen L. y Sonderby SK, 2015 torch.ch/blog/2015/11/13/gan.html
^ ab Domingos, Pedro (2015). "4". El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje definitiva rehará nuestro mundo . Libros básicos. Subsección "Más profundamente en el cerebro". ISBN 978-046506192-1.
^ ab Frey, Brendan; Makhzani, Alireza (19 de diciembre de 2013). "Codificadores automáticos k-Sparse". arXiv : 1312.5663 . Código Bib : 2013arXiv1312.5663M. {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ ab Makhzani, Alireza; Frey, Brendan (2013). "Codificadores automáticos K-Sparse". arXiv : 1312.5663 [cs.LG].
^ ab Ng, A. (2011). Codificador automático escaso. CS294A Apuntes de conferencias , 72 (2011), 1-19.
^ Nair, Vinod; Hinton, Geoffrey E. (2009). "Reconocimiento de objetos 3D con redes de creencias profundas". Actas de la 22ª Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural . NIPS'09. Estados Unidos: Curran Associates Inc.: 1339–1347. ISBN 9781615679119.
^ Zeng, Nianyin; Zhang, Hong; Canción, Baoye; Liu, Weibo; Li, Yurong; Dobaie, Abdullah M. (17 de enero de 2018). "Reconocimiento de expresiones faciales mediante el aprendizaje de codificadores automáticos dispersos y profundos". Neurocomputación . 273 : 643–649. doi :10.1016/j.neucom.2017.08.043. ISSN 0925-2312.
^ Hinton, Geoffrey E; Zemel, Richard (1993). "Autocodificadores, longitud mínima de descripción y energía libre de Helmholtz". Avances en los sistemas de procesamiento de información neuronal . Morgan-Kaufmann. 6 .
^ Abid, Abubakar; Balin, Muhammad Fatih; Zou, James (27 de enero de 2019). "Autocodificadores de hormigón para la selección y reconstrucción de características diferenciables". arXiv : 1901.09346 [cs.LG].
^ abc Zhou, Yingbo; Arpit, devansh; Nwogu, Ifeoma; Govindaraju, Venu (2014). "¿Es mejor la formación conjunta para codificadores automáticos profundos?". arXiv : 1405.1380 [estad.ML].
^ R. Salakhutdinov y GE Hinton, “Máquinas Deep Boltzmann”, en AISTATS, 2009, págs.
^ ab "MNIST de moda". GitHub . 2019-07-12.
^ ab Salakhutdinov, Ruslan; Hinton, Geoffrey (1 de julio de 2009). "Hashing semántico". Revista internacional de razonamiento aproximado . Sección Especial de Modelos Gráficos y Recuperación de Información. 50 (7): 969–978. doi : 10.1016/j.ijar.2008.11.006 . ISSN 0888-613X.
^ Bourlard, H.; Kamp, Y. (1988). "Autoasociación por perceptrones multicapa y descomposición de valores singulares". Cibernética biológica . 59 (4–5): 291–294. doi :10.1007/BF00332918. PMID 3196773. S2CID 206775335.
^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (2014). "Redes neuronales de codificador automático profundo para predicciones de anotaciones de ontología genética". Actas de la V Conferencia ACM sobre Bioinformática, Biología Computacional e Informática de la Salud - BCB '14. pag. 533. doi : 10.1145/2649387.2649442. hdl :11311/964622. ISBN 9781450328944. S2CID 207217210.
^ Plaut, E (2018). "De los subespacios principales a los componentes principales con codificadores automáticos lineales". arXiv : 1804.10253 [estad.ML].
^ Morales-Forero, A.; Bassetto, S. (diciembre de 2019). "Estudio de caso: una metodología semisupervisada para la detección y diagnóstico de anomalías". Conferencia Internacional IEEE 2019 sobre Ingeniería Industrial y Gestión de Ingeniería (IEEM) . Macao, Macao: IEEE. págs. 1031-1037. doi :10.1109/IEEM44572.2019.8978509. ISBN 978-1-7281-3804-6. S2CID 211027131.
^ Sakurada, Mayu; Yairi, Takehisa (diciembre de 2014). "Detección de anomalías mediante codificadores automáticos con reducción de dimensionalidad no lineal". Actas del segundo taller de MLSDA 2014 sobre aprendizaje automático para análisis de datos sensoriales . Gold Coast, Australia QLD, Australia: ACM Press. págs. 4-11. doi :10.1145/2689746.2689747. ISBN 978-1-4503-3159-3. S2CID 14613395.
^ a b C An, J. y Cho, S. (2015). Detección de anomalías basada en codificador automático variacional mediante probabilidad de reconstrucción. Conferencia especial sobre IE , 2 , 1-18.
^ Zhou, Chong; Paffenroth, Randy C. (4 de agosto de 2017). "Detección de anomalías con codificadores automáticos profundos y robustos". Actas de la 23ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . ACM. págs. 665–674. doi :10.1145/3097983.3098052. ISBN 978-1-4503-4887-4. S2CID 207557733.
^ Ribeiro, Manasés; Lazzaretti, André Eugenio; Lopes, Heitor Silvério (2018). "Un estudio de codificadores automáticos convolucionales profundos para la detección de anomalías en vídeos". Letras de reconocimiento de patrones . 105 : 13-22. Código Bib : 2018PaReL.105...13R. doi :10.1016/j.patrec.2017.07.016.
^ Nalisnick, Eric; Matsukawa, Akihiro; Teh, sí, por qué; Gorur, Dilan; Lakshminarayanan, Balaji (24 de febrero de 2019). "¿Los modelos generativos profundos saben lo que no saben?". arXiv : 1810.09136 [estad.ML].
^ Xiao, Zhisheng; Yan, Qing; Amit, Yali (2020). "Probabilidad de arrepentimiento: una puntuación de detección fuera de distribución para el codificador automático variacional". Avances en los sistemas de procesamiento de información neuronal . 33 . arXiv : 2003.02977 .
^ Teis, Lucas; Shi, Wenzhe; Cunningham, Andrés; Huszár, Ferenc (2017). "Compresión de imágenes con pérdida con codificadores automáticos de compresión". arXiv : 1703.00395 [estad.ML].
^ Balle, J; Laparra, V; Simoncelli, EP (abril de 2017). "Compresión de imágenes optimizada de un extremo a otro". Conferencia Internacional sobre Representaciones del Aprendizaje . arXiv : 1611.01704 .
^ Cho, K. (2013, febrero). La dispersión simple mejora los codificadores automáticos de eliminación de ruido dispersos al eliminar el ruido de imágenes muy corruptas. En Conferencia internacional sobre aprendizaje automático (págs. 432-440).
^ Cho, Kyunghyun (2013). "Máquinas Boltzmann y codificadores automáticos de eliminación de ruido para eliminar ruido de imágenes". arXiv : 1301.3468 [estad.ML].
^ Buades, A.; Col, B.; Morel, JM (2005). "Una revisión de los algoritmos de eliminación de ruido de imágenes, con uno nuevo". Modelado y simulación multiescala . 4 (2): 490–530. doi :10.1137/040616024. S2CID 218466166.
^ Gondara, Lovedeep (diciembre de 2016). "Eliminación de ruido de imágenes médicas mediante codificadores automáticos de eliminación de ruido convolucionales". 2016 IEEE 16ª Conferencia Internacional sobre Talleres de Minería de Datos (ICDMW) . Barcelona, España: IEEE. págs. 241–246. arXiv : 1608.04667 . Código Bib : 2016arXiv160804667G. doi :10.1109/ICDMW.2016.0041. ISBN 9781509059102. S2CID 14354973.
^ Zeng, Kun; Yu, Jun; Wang, Ruxin; Li, Cuihua; Tao, Dacheng (enero de 2017). "Codificador automático profundo acoplado para superresolución de imagen única". Transacciones IEEE sobre cibernética . 47 (1): 27–37. doi :10.1109/TCYB.2015.2501373. ISSN 2168-2267. PMID 26625442. S2CID 20787612.
^ Tzu-Hsi, canción; Sánchez, Víctor; Hesham, EIDaly; Nasir M., Rajpoot (2017). "Autocodificador profundo híbrido con curvatura gaussiana para la detección de varios tipos de células en imágenes de biopsia de trépano de médula ósea". 2017 IEEE 14º Simposio Internacional sobre Imágenes Biomédicas (ISBI 2017) . págs. 1040-1043. doi :10.1109/ISBI.2017.7950694. ISBN 978-1-5090-1172-8. S2CID 7433130.
^ Xu, junio; Xiang, Lei; Liu, Qingshan; Gilmore, Hannah; Wu, Jianzhong; Tang, Jinghai; Madabhushi, Anant (enero de 2016). "Autocodificador disperso apilado (SSAE) para la detección de núcleos en imágenes de histopatología del cáncer de mama". Transacciones IEEE sobre imágenes médicas . 35 (1): 119-130. doi :10.1109/TMI.2015.2458702. PMC 4729702 . PMID 26208307.
^ Martínez-Murcia, Francisco J.; Ortiz, Andrés; Gorriz, Juan M.; Ramírez, Javier; Castillo-Barnes, Diego (2020). "Estudiar la estructura múltiple de la enfermedad de Alzheimer: un enfoque de aprendizaje profundo que utiliza codificadores automáticos convolucionales". Revista IEEE de Informática Biomédica y de Salud . 24 (1): 17–26. doi : 10.1109/JBHI.2019.2914970 . PMID 31217131. S2CID 195187846.
^ Zhavoronkov, Alex (2019). "El aprendizaje profundo permite la identificación rápida de potentes inhibidores de la quinasa DDR1". Biotecnología de la Naturaleza . 37 (9): 1038-1040. doi :10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
^ Gregorio, barbero. "Una molécula diseñada por IA exhibe cualidades 'similares a las de una droga'". Cableado .
^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). "Predecir la popularidad de las publicaciones de Instagram para una revista de estilo de vida mediante el aprendizaje profundo". 2017 2da Conferencia Internacional IEEE sobre Sistemas de Comunicación, Computación y Aplicaciones de TI (CSCITA) . págs. 174-177. doi :10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID 35350962.
^ Cho, Kyunghyun; Bart van Merrienboer; Bahdanau, Dzmitry; Bengio, Yoshua (2014). "Sobre las propiedades de la traducción automática neuronal: enfoques codificador-decodificador". arXiv : 1409.1259 [cs.CL].
^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc V. (2014). "Aprendizaje secuencia a secuencial con redes neuronales". arXiv : 1409.3215 [cs.CL].
^ Han, Lifeng; Kuang, Shaohui (2018). "Incorporación de radicales chinos en la traducción automática neuronal: más profundo que el nivel de caracteres". arXiv : 1805.01565 [cs.CL].