stringtranslate.com

Aprendizaje de funciones

Diagrama del paradigma de aprendizaje de características en el aprendizaje automático para su aplicación a tareas posteriores, que se pueden aplicar a datos sin procesar, como imágenes o texto, o a un conjunto inicial de características de los datos. El aprendizaje de funciones tiene como objetivo dar como resultado un entrenamiento más rápido o un mejor rendimiento en configuraciones de tareas específicas que si los datos se ingresaran directamente. [1]

En el aprendizaje automático , el aprendizaje de características o aprendizaje de representaciones [2] es un conjunto de técnicas que permiten a un sistema descubrir automáticamente las representaciones necesarias para la detección o clasificación de características a partir de datos sin procesar. Esto reemplaza la ingeniería de funciones manual y permite que una máquina aprenda las funciones y las utilice para realizar una tarea específica.

El aprendizaje de características está motivado por el hecho de que las tareas de aprendizaje automático, como la clasificación, a menudo requieren entradas que sean matemática y computacionalmente convenientes de procesar. Sin embargo, los datos del mundo real, como imágenes, vídeos y datos de sensores, no han cedido ante los intentos de definir algorítmicamente características específicas. Una alternativa es descubrir dichas características o representaciones mediante un examen, sin depender de algoritmos explícitos.

El aprendizaje de funciones puede ser supervisado, no supervisado o autosupervisado.

supervisado

El aprendizaje de funciones supervisado consiste en aprender funciones a partir de datos etiquetados. La etiqueta de datos permite al sistema calcular un término de error, el grado en que el sistema no produce la etiqueta, que luego puede usarse como retroalimentación para corregir el proceso de aprendizaje (reducir/minimizar el error). Los enfoques incluyen:

Aprendizaje supervisado del diccionario

El aprendizaje de diccionarios desarrolla un conjunto (diccionario) de elementos representativos a partir de los datos de entrada, de modo que cada punto de datos pueda representarse como una suma ponderada de los elementos representativos. Los elementos del diccionario y los pesos se pueden encontrar minimizando el error de representación promedio (sobre los datos de entrada), junto con la regularización L1 en los pesos para permitir la escasez (es decir, la representación de cada punto de datos tiene solo unos pocos pesos distintos de cero).

El aprendizaje de diccionario supervisado explota tanto la estructura subyacente a los datos de entrada como las etiquetas para optimizar los elementos del diccionario. Por ejemplo, esta técnica de aprendizaje de diccionario supervisado [12] aplica el aprendizaje de diccionario en problemas de clasificación optimizando conjuntamente los elementos del diccionario, los pesos para representar puntos de datos y los parámetros del clasificador en función de los datos de entrada. En particular, se formula un problema de minimización, donde la función objetivo consiste en el error de clasificación, el error de representación, una regularización L1 en los pesos representativos para cada punto de datos (para permitir una representación escasa de los datos) y una regularización L2 en los parámetros. del clasificador.

Redes neuronales

Las redes neuronales son una familia de algoritmos de aprendizaje que utilizan una "red" que consta de múltiples capas de nodos interconectados. Está inspirado en el sistema nervioso animal, donde los nodos se ven como neuronas y los bordes como sinapsis. Cada borde tiene un peso asociado y la red define reglas computacionales para pasar datos de entrada desde la capa de entrada de la red a la capa de salida. Una función de red asociada con una red neuronal caracteriza la relación entre las capas de entrada y salida, que está parametrizada por los pesos. Con funciones de red definidas adecuadamente, se pueden realizar diversas tareas de aprendizaje minimizando una función de costo sobre la función de red (pesos).

Las redes neuronales multicapa se pueden utilizar para realizar aprendizaje de características, ya que aprenden una representación de su entrada en las capas ocultas que posteriormente se utiliza para la clasificación o regresión en la capa de salida. La arquitectura de red más popular de este tipo son las redes siamesas .

sin supervisión

El aprendizaje de funciones no supervisado consiste en aprender funciones a partir de datos sin etiquetar. El objetivo del aprendizaje de características no supervisado es a menudo descubrir características de baja dimensión que capturen alguna estructura subyacente a los datos de entrada de alta dimensión. Cuando el aprendizaje de funciones se realiza de forma no supervisada, permite una forma de aprendizaje semisupervisado en el que las funciones aprendidas de un conjunto de datos sin etiquetar se emplean luego para mejorar el rendimiento en un entorno supervisado con datos etiquetados. [13] [14] A continuación se presentan varios enfoques.

K -significa agrupamiento

La agrupación de K -medias es un enfoque para la cuantificación de vectores. En particular, dado un conjunto de n vectores, la agrupación de k -medias los agrupa en k grupos (es decir, subconjuntos) de tal manera que cada vector pertenece al grupo con la media más cercana. El problema es computacionalmente NP-difícil , aunquese han desarrollado algoritmos codiciosos subóptimos.

La agrupación de K-medias se puede utilizar para agrupar un conjunto de entradas sin etiquetar en k grupos y luego usar los centroides de estos grupos para producir características. Estas características se pueden producir de varias maneras. La más simple es agregar k características binarias a cada muestra, donde cada característica j tiene un valor uno si y solo el j -ésimo centroide aprendido por k -means es el más cercano a la muestra bajo consideración. [6] También es posible utilizar las distancias a los grupos como características, tal vez después de transformarlas a través de una función de base radial (una técnica que se ha utilizado para entrenar redes RBF [15] ). Coates y Ng señalan que ciertas variantes de k -means se comportan de manera similar a los algoritmos de codificación dispersa . [dieciséis]

En una evaluación comparativa de métodos de aprendizaje de características no supervisados, Coates, Lee y Ng descubrieron que la agrupación de k -medias con una transformación apropiada supera a los codificadores automáticos y RBM inventados más recientemente en una tarea de clasificación de imágenes. [6] K -means también mejora el rendimiento en el dominio de PNL , específicamente para el reconocimiento de entidades nombradas ; [17] allí compite con la agrupación de Brown , así como con las representaciones de palabras distribuidas (también conocidas como incrustaciones de palabras neuronales). [14]

Análisis de componentes principales

El análisis de componentes principales (PCA) se utiliza a menudo para la reducción de dimensiones. Dado un conjunto sin etiquetar de n vectores de datos de entrada, PCA genera p (que es mucho más pequeño que la dimensión de los datos de entrada) vectores singulares derechos correspondientes a los p valores singulares más grandes de la matriz de datos, donde la k- ésima fila de la matriz de datos es el k -ésimo vector de datos de entrada desplazado por la media muestral de la entrada (es decir, restando la media muestral del vector de datos). De manera equivalente, estos vectores singulares son los vectores propios correspondientes a los p valores propios más grandes de la matriz de covarianza de muestra de los vectores de entrada. Estos p vectores singulares son los vectores de características aprendidos de los datos de entrada y representan direcciones a lo largo de las cuales los datos tienen las mayores variaciones.

PCA es un enfoque de aprendizaje de características lineales ya que los p vectores singulares son funciones lineales de la matriz de datos. Los vectores singulares se pueden generar mediante un algoritmo simple con p iteraciones. En la i -ésima iteración, se resta la proyección de la matriz de datos en el (i-1) ésimo vector propio, y el i -ésimo vector singular se encuentra como el vector singular derecho correspondiente al singular más grande de la matriz de datos residual.

PCA tiene varias limitaciones. En primer lugar, se supone que las direcciones con una gran variación son las de mayor interés, lo que puede no ser el caso. PCA solo se basa en transformaciones ortogonales de los datos originales y explota solo los momentos de primer y segundo orden de los datos, que pueden no caracterizar bien la distribución de los datos. Además, PCA puede reducir eficazmente la dimensión sólo cuando los vectores de datos de entrada están correlacionados (lo que da como resultado unos pocos valores propios dominantes).

Incrustación lineal local

La incrustación lineal local (LLE) es un enfoque de aprendizaje no lineal para generar representaciones de baja dimensión que preservan los vecinos a partir de entradas de alta dimensión (sin etiquetar). El enfoque fue propuesto por Roweis y Saul (2000). [18] [19] La idea general de LLE es reconstruir los datos originales de alta dimensión utilizando puntos de menor dimensión manteniendo algunas propiedades geométricas de las vecindades en el conjunto de datos original.

LLE consta de dos pasos principales. El primer paso es la "preservación del vecino", donde cada punto de datos de entrada Xi se reconstruye como una suma ponderada de K puntos de datos del vecino más cercano , y los pesos óptimos se encuentran minimizando el error de reconstrucción cuadrático promedio (es decir, la diferencia entre una entrada punto y su reconstrucción) bajo la restricción de que los pesos asociados con cada punto sumen uno. El segundo paso es la "reducción de dimensiones", buscando vectores en un espacio de dimensiones inferiores que minimice el error de representación utilizando los pesos optimizados en el primer paso. Tenga en cuenta que en el primer paso, los pesos se optimizan con datos fijos, lo que se puede resolver como un problema de mínimos cuadrados . En el segundo paso, los puntos de dimensiones inferiores se optimizan con pesos fijos, que pueden resolverse mediante una descomposición dispersa de valores propios.

Los pesos de reconstrucción obtenidos en el primer paso capturan las "propiedades geométricas intrínsecas" de una vecindad en los datos de entrada. [19] Se supone que los datos originales se encuentran en una variedad suave de dimensiones inferiores , y también se espera que las "propiedades geométricas intrínsecas" capturadas por los pesos de los datos originales estén en la variedad. Es por eso que se utilizan los mismos pesos en el segundo paso de LLE. En comparación con PCA, LLE es más potente a la hora de explotar la estructura de datos subyacente.

Análisis de componentes independientes

El análisis de componentes independientes (ICA) es una técnica para formar una representación de datos utilizando una suma ponderada de componentes independientes no gaussianos. [20] Se impone el supuesto de no gaussiano ya que los pesos no se pueden determinar de forma única cuando todos los componentes siguen una distribución gaussiana .

Aprendizaje de diccionario no supervisado

El aprendizaje de diccionarios no supervisado no utiliza etiquetas de datos y explota la estructura subyacente de los datos para optimizar los elementos del diccionario. Un ejemplo de aprendizaje de diccionario no supervisado es la codificación dispersa , cuyo objetivo es aprender funciones básicas (elementos del diccionario) para la representación de datos a partir de datos de entrada sin etiquetar. Se puede aplicar codificación dispersa para aprender diccionarios sobrecompletos, donde la cantidad de elementos del diccionario es mayor que la dimensión de los datos de entrada. [21] Aharon y otros. propuso el algoritmo K-SVD para aprender un diccionario de elementos que permite una representación dispersa. [22]

Arquitecturas multicapa/profundas

La arquitectura jerárquica del sistema neuronal biológico inspira arquitecturas de aprendizaje profundo para el aprendizaje de funciones mediante el apilamiento de múltiples capas de nodos de aprendizaje. [23] Estas arquitecturas a menudo se diseñan basándose en el supuesto de representación distribuida : los datos observados se generan mediante las interacciones de muchos factores diferentes en múltiples niveles. En una arquitectura de aprendizaje profundo, la salida de cada capa intermedia puede verse como una representación de los datos de entrada originales. Cada nivel utiliza la representación producida por el nivel inferior anterior como entrada y produce nuevas representaciones como salida, que luego se envían a niveles superiores. La entrada en la capa inferior son datos sin procesar, y la salida de la capa final más alta es la característica o representación final de baja dimensión.

Máquina Boltzmann restringida

Las máquinas Boltzmann restringidas (RBM) se utilizan a menudo como bloque de construcción para arquitecturas de aprendizaje multicapa. [6] [24] Un RBM se puede representar mediante un gráfico bipartito no dirigido que consta de un grupo de variables binarias ocultas , un grupo de variables visibles y bordes que conectan los nodos ocultos y visibles. Es un caso especial de las máquinas Boltzmann más generales con la restricción de no tener conexiones dentro del nodo. Cada borde en un RBM está asociado con un peso. Los pesos, junto con las conexiones, definen una función energética , a partir de la cual se puede idear una distribución conjunta de nodos visibles y ocultos. Según la topología del RBM, las variables ocultas (visibles) son independientes y están condicionadas a las variables visibles (ocultas). [ se necesita aclaración ] Dicha independencia condicional facilita los cálculos.

Un RBM puede verse como una arquitectura de una sola capa para el aprendizaje de funciones no supervisado. En particular, las variables visibles corresponden a datos de entrada y las variables ocultas corresponden a detectores de características. Los pesos se pueden entrenar maximizando la probabilidad de variables visibles utilizando el algoritmo de divergencia contrastiva (CD) de Hinton . [24]

En general, entrenar RBM resolviendo el problema de maximización tiende a dar como resultado representaciones no dispersas. Se propuso Sparse RBM [25] para permitir representaciones dispersas. La idea es agregar un término de regularización en la función objetivo de probabilidad de los datos, que penalice la desviación de las variables ocultas esperadas de una constante pequeña .

codificador automático

Un codificador automático que consta de un codificador y un decodificador es un paradigma para las arquitecturas de aprendizaje profundo. Hinton y Salakhutdinov [24] proporcionan un ejemplo en el que el codificador utiliza datos sin procesar (por ejemplo, imágenes) como entrada y produce una característica o representación como salida y el decodificador utiliza la característica extraída del codificador como entrada y reconstruye los datos sin procesar de entrada originales. como salida. El codificador y el decodificador se construyen apilando múltiples capas de RBM. Los parámetros involucrados en la arquitectura se entrenaron originalmente de manera codiciosa capa por capa: después de aprender una capa de detectores de características, se convierten en variables visibles para entrenar el RBM correspondiente. Los enfoques actuales suelen aplicar entrenamiento de un extremo a otro con métodos de descenso de gradiente estocástico . El entrenamiento se puede repetir hasta que se cumplan algunos criterios de parada.

Autosupervisado

El aprendizaje de representación autosupervisado consiste en aprender características entrenando en la estructura de datos sin etiquetar en lugar de depender de etiquetas explícitas para una señal de información . Este enfoque ha permitido el uso combinado de arquitecturas de redes neuronales profundas y conjuntos de datos más grandes sin etiquetar para producir representaciones de características profundas. [9] Las tareas de entrenamiento generalmente se clasifican en contrastivas, generativas o ambas. [26] El aprendizaje de representación contrastiva entrena representaciones para que los pares de datos asociados, llamados muestras positivas, se alineen, mientras que los pares sin relación, llamados muestras negativas, se contrastan. Por lo general, se necesita una porción mayor de muestras negativas para evitar un colapso catastrófico, que ocurre cuando todas las entradas se asignan a la misma representación. [9] El aprendizaje de representación generativa asigna al modelo la tarea de producir los datos correctos para coincidir con una entrada restringida o reconstruir la entrada completa a partir de una representación de dimensiones inferiores. [26]

Una configuración común para el aprendizaje de representación autosupervisado de un determinado tipo de datos (por ejemplo, texto, imagen, audio, video) es entrenar previamente el modelo utilizando grandes conjuntos de datos de contexto general, datos sin etiquetar. [11] Dependiendo del contexto, el resultado de esto es un conjunto de representaciones para segmentos de datos comunes (por ejemplo, palabras) en los que se pueden dividir los nuevos datos, o una red neuronal capaz de convertir cada nuevo punto de datos (por ejemplo, una imagen) en un conjunto de características de dimensiones inferiores. [9] En cualquier caso, las representaciones de salida se pueden utilizar como inicialización en muchos entornos de problemas diferentes donde los datos etiquetados pueden ser limitados. La especialización del modelo en tareas específicas generalmente se realiza con aprendizaje supervisado, ya sea ajustando el modelo/representaciones con las etiquetas como señal, o congelando las representaciones y entrenando un modelo adicional que las toma como entrada. [11]

Se han desarrollado muchos esquemas de capacitación autosupervisados ​​para su uso en el aprendizaje de representación de diversas modalidades , y a menudo muestran primero una aplicación exitosa en texto o imagen antes de transferirlos a otros tipos de datos. [9]

Texto

Word2vec es una técnica de incrustación de palabras que aprende a representar palabras mediante la autosupervisión de cada palabra y sus palabras vecinas en una ventana deslizante a través de un gran corpus de texto. [27] El modelo tiene dos posibles esquemas de entrenamiento para producir representaciones de vectores de palabras, uno generativo y otro contrastivo. [26] La primera es la predicción de palabras dada cada una de las palabras vecinas como entrada. [27] El segundo es el entrenamiento sobre la similitud de representación para palabras vecinas y la disimilitud de representación para pares aleatorios de palabras. [10] Una limitación de word2vec es que solo se utiliza la estructura de co-ocurrencia por pares de los datos, y no el orden o el conjunto completo de palabras de contexto. Los enfoques de aprendizaje de representación basados ​​en transformadores más recientes intentan resolver este problema con tareas de predicción de palabras. [9] Los GPT se entrenan previamente en la predicción de la siguiente palabra utilizando palabras de entrada anteriores como contexto, [28] mientras que BERT enmascara tokens aleatorios para proporcionar un contexto bidireccional. [29]

Otras técnicas autosupervisadas amplían la incrustación de palabras al encontrar representaciones de estructuras de texto más grandes, como oraciones o párrafos, en los datos de entrada. [9] Doc2vec amplía el enfoque de entrenamiento generativo en word2vec agregando una entrada adicional a la tarea de predicción de palabras basada en el párrafo en el que se encuentra y, por lo tanto, está destinado a representar el contexto a nivel de párrafo. [30]

Imagen

El dominio del aprendizaje de representación de imágenes ha empleado muchas técnicas de entrenamiento autosupervisadas diferentes, incluida la transformación, [31] pintura, [32] discriminación de parches [33] y agrupación. [34]

Ejemplos de enfoques generativos son Context Encoders, que entrena una arquitectura AlexNet CNN para generar una región de imagen eliminada dada la imagen enmascarada como entrada, [32] e iGPT, que aplica la arquitectura del modelo de lenguaje GPT-2 a imágenes entrenando la predicción de píxeles después. reduciendo la resolución de la imagen . [35]

Muchos otros métodos autosupervisados ​​utilizan redes siamesas , que generan diferentes vistas de la imagen a través de varios aumentos que luego se alinean para tener representaciones similares. El desafío es evitar soluciones colapsadas donde el modelo codifica todas las imágenes en la misma representación. [36] SimCLR es un enfoque contrastivo que utiliza ejemplos negativos para generar representaciones de imágenes con ResNet CNN . [33] Bootstrap Your Own Latent (BYOL) elimina la necesidad de muestras negativas al codificar una de las vistas con un promedio móvil lento de los parámetros del modelo a medida que se modifican durante el entrenamiento. [37]

Grafico

El objetivo de muchas técnicas de aprendizaje de representación gráfica es producir una representación integrada de cada nodo basada en la topología general de la red . [38] node2vec extiende la técnica de entrenamiento de word2vec a nodos en un gráfico mediante el uso de la co-ocurrencia en recorridos aleatorios a través del gráfico como medida de asociación. [39] Otro enfoque es maximizar la información mutua , una medida de similitud, entre las representaciones de estructuras asociadas dentro del gráfico. [9] Un ejemplo es Deep Graph Infomax, que utiliza autosupervisión contrastiva basada en información mutua entre la representación de un "parche" alrededor de cada nodo y una representación resumida de todo el gráfico. Las muestras negativas se obtienen emparejando la representación del gráfico con representaciones de otro gráfico en un entorno de entrenamiento de múltiples gráficos o con representaciones de parches corruptas en el entrenamiento de un solo gráfico. [40]

Video

Con resultados análogos en predicción enmascarada [41] y agrupamiento, [42] los enfoques de aprendizaje de representación de video son a menudo similares a las técnicas de imágenes, pero deben utilizar la secuencia temporal de fotogramas de video como una estructura aprendida adicional. Los ejemplos incluyen VCP, que enmascara videoclips y entrena para elegir el correcto dado un conjunto de opciones de clip, y Xu et al., que entrenan un 3D-CNN para identificar el orden original dado un conjunto aleatorio de videoclips. [43]

Audio

También se han aplicado técnicas de representación autosupervisadas a muchos formatos de datos de audio, particularmente para el procesamiento del habla . [9] Wav2vec 2.0 discretiza la forma de onda de audio en pasos de tiempo mediante convoluciones temporales y luego entrena un transformador en predicción enmascarada de pasos de tiempo aleatorios utilizando una pérdida contrastiva. [44] Esto es similar al modelo de lenguaje BERT , excepto que, como en muchos enfoques SSL para video, el modelo elige entre un conjunto de opciones en lugar de todo el vocabulario de palabras. [29] [44]

Multimodal

El aprendizaje autosupervisado también se ha utilizado para desarrollar representaciones conjuntas de múltiples tipos de datos. [9] Los enfoques generalmente se basan en alguna asociación natural o derivada del ser humano entre las modalidades como una etiqueta implícita, por ejemplo, videoclips de animales u objetos con sonidos característicos, [45] o subtítulos escritos para describir imágenes. [46] CLIP produce un espacio de representación conjunta de imagen y texto mediante el entrenamiento para alinear codificaciones de imagen y texto de un gran conjunto de datos de pares de imagen y título utilizando una pérdida de contraste. [46] MERLOT Reserve entrena un codificador basado en transformador para representar conjuntamente audio, subtítulos y cuadros de video de un gran conjunto de datos de videos a través de 3 tareas conjuntas de preentrenamiento: predicción enmascarada contrastiva de segmentos de audio o texto dados los cuadros de video y el audio y texto circundantes. contexto, junto con la alineación contrastante de los cuadros de video con sus correspondientes subtítulos. [45]

Los modelos de representación multimodal normalmente no pueden asumir una correspondencia directa de las representaciones en las diferentes modalidades, ya que la alineación precisa a menudo puede ser ruidosa o ambigua. Por ejemplo, el texto "perro" podría combinarse con muchas imágenes diferentes de perros y, en consecuencia, una imagen de un perro podría incluirse como título con distintos grados de especificidad. Esta limitación significa que las tareas posteriores pueden requerir una red de mapeo generativo adicional entre modalidades para lograr un rendimiento óptimo, como en DALLE-2 para la generación de texto a imagen. [47]

Aprendizaje de representación dinámica

Los métodos de aprendizaje de representación dinámica [48] generan incrustaciones latentes para sistemas dinámicos como redes dinámicas. Dado que funciones de distancia particulares son invariantes bajo transformaciones lineales particulares, diferentes conjuntos de vectores de incrustación en realidad pueden representar la misma o similar información. Por lo tanto, para un sistema dinámico, una diferencia temporal en sus incorporaciones puede explicarse por una desalineación de las incorporaciones debido a transformaciones arbitrarias y/o cambios reales en el sistema. [49] Por lo tanto, en términos generales, las incrustaciones temporales aprendidas a través de métodos de aprendizaje de representación dinámica deben inspeccionarse para detectar cambios espurios y alinearse antes de los análisis dinámicos posteriores.

Ver también

Referencias

  1. ^ Buen compañero, Ian (2016). Aprendizaje profundo . Yoshua Bengio, Aarón Courville. Cambridge, Massachusetts. págs. 524–534. ISBN  0-262-03561-8 . OCLC  955778308.
  2. ^ Y. Bengio; A. Courville; P. Vicente (2013). "Aprendizaje de representación: una revisión y nuevas perspectivas". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 35 (8): 1798–1828. arXiv : 1206.5538 . doi :10.1109/tpami.2013.50. PMID  23787338. S2CID  393948.
  3. ^ Stuart J. Russell, Peter Norvig (2010) Inteligencia artificial: un enfoque moderno , tercera edición , Prentice Hall ISBN 978-0-13-604259-4
  4. ^ Hinton, Geoffrey; Sejnowski, Terrence (1999). Aprendizaje no supervisado: fundamentos de la computación neuronal . Prensa del MIT. ISBN 978-0-262-58168-4
  5. ^ Nathan Srebro; Jason DM Rennie; Tommi S. Jaakkola (2004). Factorización matricial de margen máximo . NIPS .
  6. ^ abcd Coates, Adán; Lee, Honglak; Ng, Andrew Y. (2011). Un análisis de redes de una sola capa en el aprendizaje de funciones no supervisadas (PDF) . Conferencia Internacional. sobre IA y Estadísticas (AISTATS). Archivado desde el original (PDF) el 13 de agosto de 2017 . Consultado el 24 de noviembre de 2014 .
  7. ^ Csurka, Gabriella; Danza, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Categorización visual con bolsas de puntos clave (PDF) . Taller ECCV sobre Aprendizaje Estadístico en Visión por Computador.
  8. ^ Daniel Jurafsky ; James H. Martín (2009). Procesamiento del habla y el lenguaje . Internacional de la Educación Pearson. págs. 145-146.
  9. ^ abcdefghijk Ericsson, Linus; Gouk, Henry; Loy, Chen Cambio; Hospedales, Timothy M. (mayo de 2022). "Aprendizaje de representación autosupervisado: introducción, avances y desafíos". Revista de procesamiento de señales IEEE . 39 (3): 42–62. arXiv : 2110.09327 . Código Bib : 2022 ISPM...39c..42E. doi :10.1109/MSP.2021.3134634. ISSN  1558-0792. S2CID  239017006.
  10. ^ ab Mikolov, Tomás; Sutskever, Ilya; Chen, Kai; Corrado, Greg S; Decano, Jeff (2013). "Representaciones distribuidas de palabras y frases y su composicionalidad". Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 26 . arXiv : 1310.4546 .
  11. ^ abc Goodfellow, Ian (2016). Aprendizaje profundo . Yoshua Bengio, Aarón Courville. Cambridge, Massachusetts. págs. 499–516. ISBN 0-262-03561-8 . OCLC  955778308. 
  12. ^ Mairal, Julien; Bach, Francisco; Ponce, Jean; Sapiro, Guillermo; Zisserman, Andrés (2009). "Aprendizaje supervisado del diccionario". Avances en los sistemas de procesamiento de información neuronal .
  13. ^ Percy Liang (2005). Aprendizaje semisupervisado del lenguaje natural (PDF) (M. Eng.). MIT . págs. 44–52.
  14. ^ ab José Turian; Lev Ratinov; Yoshua Bengio (2010). Representaciones de palabras: un método simple y general para el aprendizaje semisupervisado (PDF) . Actas de la 48ª Reunión Anual de la Asociación de Lingüística Computacional. Archivado desde el original (PDF) el 26 de febrero de 2014 . Consultado el 22 de febrero de 2014 .
  15. ^ Schwenker, Friedhelm; Kestler, Hans A.; Palma, Günther (2001). "Tres fases de aprendizaje para redes de función de base radial". Redes neuronales . 14 (4–5): 439–458. CiteSeerX 10.1.1.109.312 . doi :10.1016/s0893-6080(01)00027-2. PMID  11411631. 
  16. ^ Coates, Adán; Ng, Andrew Y. (2012). "Aprendizaje de representaciones de características con k-medias". En G. Montavon, GB Orr y K.-R. Müller (ed.). Redes neuronales: trucos del oficio . Saltador.
  17. ^ Dekang Lin; Xiaoyun Wu (2009). Agrupación de frases para el aprendizaje discriminativo (PDF) . Proc. J.Conf. de la ACL y 4ta Int'l J. Conf. sobre Procesamiento del Lenguaje Natural de la AFNLP. págs. 1030-1038.
  18. ^ Roweis, Sam T; Saúl, Lawrence K (2000). "Reducción de dimensionalidad no lineal mediante incrustación localmente lineal". Ciencia . Series nuevas. 290 (5500): 2323–2326. Código Bib : 2000 Ciencia... 290.2323R. doi : 10.1126/ciencia.290.5500.2323. JSTOR  3081722. PMID  11125150. S2CID  5987139.
  19. ^ ab Saúl, Lawrence K; Roweis, Sam T (2000). "Una introducción a la incrustación localmente lineal". {{cite journal}}: Citar diario requiere |journal=( ayuda )
  20. ^ Hyvärinen, Aapo; Oja, Erkki (2000). "Análisis de componentes independientes: algoritmos y aplicaciones". Redes neuronales . 13 (4): 411–430. doi :10.1016/s0893-6080(00)00026-5. PMID  10946390. S2CID  11959218.
  21. ^ Lee, Honglak; Batalla, Alexis; Raina, Rajat; Ng, Andrew Y (2007). "Algoritmos de codificación dispersa eficientes". Avances en los sistemas de procesamiento de información neuronal .
  22. ^ Aarón, Mical ; Elad, Michael; Bruckstein, Alfred (2006). "K-SVD: un algoritmo para diseñar diccionarios supercompletos para una representación escasa". Traducción IEEE. Proceso de señal . 54 (11): 4311–4322. Código Bib : 2006ITSP...54.4311A. doi :10.1109/TSP.2006.881199. S2CID  7477309.
  23. ^ Bengio, Yoshua (2009). "Aprendizaje de arquitecturas profundas para IA". Fundamentos y tendencias en aprendizaje automático . 2 (1): 1–127. doi :10.1561/2200000006. S2CID  207178999.
  24. ^ abc Hinton, GE; Salakhutdinov, RR (2006). "Reducir la dimensionalidad de los datos con redes neuronales" (PDF) . Ciencia . 313 (5786): 504–507. Código Bib : 2006 Ciencia... 313.. 504H. doi : 10.1126/ciencia.1127647. PMID  16873662. S2CID  1658773.
  25. ^ Lee, Honglak; Ekanadham, Caitanya; Andrés, Ng (2008). "Modelo de red escasa de creencias profundas para el área visual V2". Avances en los sistemas de procesamiento de información neuronal .
  26. ^ abc Liu, Xiao; Zhang, Fanjin; Hou, Zhenyu; Mian, Li; Wang, Zhaoyu; Zhang, Jing; Tang, Jie (2021). "Aprendizaje autosupervisado: generativo o contrastivo". Transacciones IEEE sobre conocimiento e ingeniería de datos . 35 (1): 857–876. arXiv : 2006.08218 . doi :10.1109/TKDE.2021.3090866. ISSN  1558-2191. S2CID  219687051.
  27. ^ ab Mikolov, Tomás; Chen, Kai; Corrado, Greg; Decano, Jeffrey (6 de septiembre de 2013). "Estimación eficiente de representaciones de palabras en el espacio vectorial". arXiv : 1301.3781 [cs.CL].
  28. ^ "Mejora de la comprensión del lenguaje mediante una formación previa generativa" (PDF). Consultado el 10 de octubre de 2022.
  29. ^ ab Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (junio de 2019). "Actas de la Conferencia del Norte de 2019". Actas de la Conferencia de 2019 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano, Volumen 1 (artículos largos y cortos) . Minneapolis, Minnesota: Asociación de Lingüística Computacional: 4171–4186. doi :10.18653/v1/N19-1423. S2CID  52967399.
  30. ^ Le, Quoc; Mikolov, Tomás (18 de junio de 2014). "Representaciones Distribuidas de Sentencias y Documentos". Congreso Internacional sobre Aprendizaje Automático . PMLR: 1188-1196. arXiv : 1405.4053 .
  31. ^ Spyros Gidaris, Praveer Singh y Nikos Komodakis. Aprendizaje de representación no supervisado mediante la predicción de rotaciones de imágenes. En ICLR, 2018.
  32. ^ ab Pathak, Deepak; Krahenbuhl, Philipp; Donahue, Jeff; Darrell, Trevor; Efros, Alexéi A. (2016). "Codificadores de contexto: aprendizaje de funciones mediante pintura interna": 2536–2544. arXiv : 1604.07379 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  33. ^ ab Chen, Ting; Kornblith, Simón; Norouzi, Mohammad; Hinton, Geoffrey (21 de noviembre de 2020). "Un marco simple para el aprendizaje contrastivo de representaciones visuales". Congreso Internacional sobre Aprendizaje Automático . PMLR: 1597–1607.
  34. ^ Mathilde, Caron; Isán, Misra; Julien, Mairal; Priya, Goyal; Piotr, Bojanowski; Armand, Joulin (2020). "Aprendizaje no supervisado de características visuales mediante asignaciones de grupos contrastantes". Avances en los sistemas de procesamiento de información neuronal . 33 . arXiv : 2006.09882 .
  35. ^ Chen, Marcos; Radford, Alec; Niño, Rewon; Wu, Jeffrey; Jun, Heewoo; Luan, David; Sutskever, Ilya (21 de noviembre de 2020). "Preentrenamiento generativo a partir de píxeles". Congreso Internacional sobre Aprendizaje Automático . PMLR: 1691-1703.
  36. ^ Chen, Xinlei; Él, Kaiming (2021). "Explorando el aprendizaje de la representación siamesa simple": 15750–15758. arXiv : 2011.10566 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  37. ^ Jean-Bastien, Parrilla; Florián, Strub; Florent, Altché; Corentin, Tallec; Pedro, Richemond; Elena, Buchatskaya; Carl, Doersch; Bernardo, Ávila Pires; Zhaohan, Guo; Mohammad, Gheshlaghi Azar; Bilal, Piot; koray, kavukcuoglu; Remi, Munos; Michal, Valko (2020). "Bootstrap Your Own Latent: un nuevo enfoque para el aprendizaje autosupervisado". Avances en los sistemas de procesamiento de información neuronal . 33 .
  38. ^ Cai, HongYun; Zheng, Vicente W.; Chang, Kevin Chen-Chuan (septiembre de 2018). "Un estudio completo de la incrustación de gráficos: problemas, técnicas y aplicaciones". Transacciones IEEE sobre conocimiento e ingeniería de datos . 30 (9): 1616-1637. arXiv : 1709.07604 . doi :10.1109/TKDE.2018.2807452. ISSN  1558-2191. S2CID  13999578.
  39. ^ Grover, Aditya; Leskovec, Jure (13 de agosto de 2016). "Nodo2vec". Actas de la 22ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . KDD '16. vol. 2016. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 855–864. doi :10.1145/2939672.2939754. ISBN 978-1-4503-4232-2. PMC  5108654 . PMID  27853626.
  40. ^ Velikovi, P., Fedus, W., Hamilton, WL, Li, P., Bengio, Y. y Hjelm, RD Deep Graph InfoMax. En Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR'2019), 2019.
  41. ^ Luo, Dezhao; Liu, Chang; Zhou, Yu; Yang, Dongbao; Mamá, puedo; Sí, Qixiang; Wang, Weiping (3 de abril de 2020). "Procedimiento de cierre de vídeo para el aprendizaje espacio-temporal autosupervisado". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 34 (7): 11701–11708. arXiv : 2001.00294 . doi : 10.1609/aaai.v34i07.6840 . ISSN  2374-3468. S2CID  209531629.
  42. ^ Humam, Alwassel; Dhruv, Mahajan; Bruno, Korbar; Lorenzo, Torresani; Bernardo, Ghanem; Du, Tran (2020). "Aprendizaje autosupervisado mediante agrupación multimodal de audio y vídeo". Avances en los sistemas de procesamiento de información neuronal . 33 . arXiv : 1911.12667 .
  43. ^ Xu, Dejing; Xiao, junio; Zhao, Zhou; Shao, Jian; Xie, Di; Zhuang, Yueting (junio de 2019). "Aprendizaje espaciotemporal autosupervisado mediante predicción del orden de los vídeos". Conferencia IEEE/CVF de 2019 sobre visión por computadora y reconocimiento de patrones (CVPR) . págs. 10326-10335. doi :10.1109/CVPR.2019.01058. ISBN 978-1-7281-3293-8. S2CID  195504152.
  44. ^ ab Alexei, Baevski; Yuhao, Zhou; Abdelrahman, Mohamed; Michael, Auli (2020). "wav2vec 2.0: un marco para el aprendizaje autosupervisado de representaciones del habla". Avances en los sistemas de procesamiento de información neuronal . 33 . arXiv : 2006.11477 .
  45. ^ ab Zellers, Rowan; Lu, Jiasen; Lu, Ximing; Yu, Youngjae; Zhao, Yanpeng; Salehi, Mohammadreza; Kusupati, Aditya; Hessel, Jack; Farhadi, Ali; Choi, Yejin (2022). "Reserva MERLOT: conocimiento de la escritura neuronal a través de la visión, el lenguaje y el sonido": 16375–16387. arXiv : 2201.02639 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  46. ^ ab Radford, Alec; Kim, Jong Wook; Hallacy, Chris; Ramesh, Aditya; Vaya, Gabriel; Agarwal, Sandhini; Satry, Girish; Askell, Amanda; Mishkin, Pamela; Clark, Jack; Krueger, Gretchen; Sutskever, Ilya (1 de julio de 2021). "Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural". Congreso Internacional sobre Aprendizaje Automático . PMLR: 8748–8763. arXiv : 2103.00020 .
  47. ^ Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12 de abril de 2022). "Generación de imágenes jerárquicas de texto condicional con CLIP Latents". arXiv : 2204.06125 [cs.CV].
  48. ^ Zhang, Daokun; Yin, Jie; Zhu, Xingquan; Zhang, Chengqi (marzo de 2020). "Aprendizaje de representación de red: una encuesta". Transacciones IEEE sobre Big Data . 6 (1): 3–28. arXiv : 1801.05852 . doi :10.1109/TBDATA.2018.2850013. ISSN  2332-7790. S2CID  1479507.
  49. ^ Gürsoy, Furkan; Haddad, Mounir; Bothorel, Cécile (7 de octubre de 2023). "Alineación y estabilidad de incrustaciones: mejora de medidas e inferencias". Neurocomputación . 553 : 126517. arXiv : 2101.07251 . doi : 10.1016/j.neucom.2023.126517. ISSN  0925-2312. S2CID  231632462.