Aprendizaje sin supervisión

El aprendizaje no supervisado es un método de aprendizaje automático en el que, a diferencia del aprendizaje supervisado , los algoritmos aprenden patrones exclusivamente a partir de datos sin etiquetar. La esperanza es que a través del mimetismo, que es un modo importante de aprendizaje en las personas, la máquina se vea obligada a construir una representación concisa de su mundo y luego generar contenido imaginativo a partir de ella.

Otros métodos en el espectro de supervisión son el aprendizaje por refuerzo, donde la máquina recibe solo una puntuación de desempeño numérica como guía, y la supervisión débil o semi, donde se etiqueta una pequeña porción de los datos, y la autosupervisión .

Redes neuronales

Tareas versus métodos

Tendencia de una tarea a emplear métodos supervisados versus no supervisados. Los nombres de tareas que abarcan los límites del círculo son intencionales. Muestra que la división clásica de tareas imaginativas (izquierda) que emplean métodos no supervisados está desdibujada en los esquemas de aprendizaje actuales.

Las tareas de las redes neuronales a menudo se clasifican como discriminativas (reconocimiento) o generativas (imaginación). A menudo, pero no siempre, las tareas discriminativas utilizan métodos supervisados y las tareas generativas no supervisadas (consulte el diagrama de Venn ); sin embargo, la separación es muy confusa. Por ejemplo, el reconocimiento de objetos favorece el aprendizaje supervisado, pero el aprendizaje no supervisado también puede agrupar objetos. Además, a medida que avanza el progreso, algunas tareas emplean ambos métodos y otras pasan de uno a otro. Por ejemplo, el reconocimiento de imágenes comenzó siendo fuertemente supervisado, pero se volvió híbrido al emplear un entrenamiento previo no supervisado, y luego pasó nuevamente a la supervisión con la llegada de la deserción , ReLU y las tasas de aprendizaje adaptativo .

Capacitación

Durante la fase de aprendizaje, una red no supervisada intenta imitar los datos que se le proporcionan y utiliza el error en su salida imitada para corregirse (es decir, corregir sus pesos y sesgos). A veces, el error se expresa como una baja probabilidad de que se produzca una salida errónea, o puede expresarse como un estado inestable de alta energía en la red.

En contraste con el uso dominante de la propagación hacia atrás en los métodos supervisados , el aprendizaje no supervisado también emplea otros métodos que incluyen: regla de aprendizaje de Hopfield, regla de aprendizaje de Boltzmann, divergencia contrastiva , sueño de vigilia , inferencia variacional , probabilidad máxima , máxima A posteriori , muestreo de Gibbs y errores de reconstrucción de propagación hacia atrás. o reparametrizaciones de estado oculto. Consulte la siguiente tabla para obtener más detalles.

Energía

Una función de energía es una medida macroscópica del estado de activación de una red. En las máquinas Boltzmann desempeña el papel de función de coste. Esta analogía con la física está inspirada en el análisis de Ludwig Boltzmann de la energía macroscópica de un gas a partir de las probabilidades microscópicas del movimiento de partículas , donde k es la constante de Boltzmann y T es la temperatura. En la red RBM la relación es , ^[1] donde y varían en cada patrón de activación posible y . Para ser más precisos, donde hay un patrón de activación de todas las neuronas (visibles y ocultas). De ahí que algunas de las primeras redes neuronales lleven el nombre de Máquina de Boltzmann. Paul Smolensky la llama Armonía . Una red busca baja energía y alta armonía. $p\propto e^{-E/kT}$ $p=e^{-E}/Z$ $p$ $E$ $\textstyle {Z=\sum _{\scriptscriptstyle {\text{All Patterns}}}e^{-E({\text{pattern}})}}$ $p(a)=e^{-E(a)}/Z$ $a$ $-E\,$

Redes

Esta tabla muestra diagramas de conexión de varias redes no supervisadas, cuyos detalles se darán en la sección Comparación de redes. Los círculos son neuronas y los bordes entre ellos son pesos de conexión. A medida que cambia el diseño de la red, se agregan funciones para habilitar nuevas capacidades o se eliminan para acelerar el aprendizaje. Por ejemplo, las neuronas cambian entre deterministas (Hopfield) y estocásticas (Boltzmann) para permitir una salida sólida, se eliminan pesos dentro de una capa (RBM) para acelerar el aprendizaje, o se permite que las conexiones se vuelvan asimétricas (Helmholtz).

De las redes que llevan nombres de personas, sólo Hopfield trabajó directamente con redes neuronales. Boltzmann y Helmholtz fueron anteriores a las redes neuronales artificiales, pero su trabajo en física y fisiología inspiró los métodos analíticos que se utilizaron.

Historia

Redes específicas

Aquí destacamos algunas características de redes seleccionadas. Los detalles de cada uno se dan en la tabla comparativa a continuación.

Red Hopfield: El ferromagnetismo inspiró las redes de Hopfield. Una neurona corresponde a un dominio de hierro con momentos magnéticos binarios arriba y abajo, y las conexiones neuronales corresponden a la influencia de un dominio entre sí. Las conexiones simétricas permiten una formulación energética global. Durante la inferencia, la red actualiza cada estado utilizando la función de paso de activación estándar. Los pesos simétricos y las funciones energéticas correctas garantizan la convergencia a un patrón de activación estable. Los pesos asimétricos son difíciles de analizar. Las redes Hopfield se utilizan como memorias direccionables por contenido (CAM).
Máquina Boltzmann: Estas son redes de Hopfield estocásticas. Su valor de estado se muestra de este pdf de la siguiente manera: supongamos que una neurona binaria se dispara con la probabilidad de Bernoulli p(1) = 1/3 y descansa con p(0) = 2/3. Se toma una muestra tomando un número aleatorio y distribuido uniformemente y conectándolo a la función de distribución acumulativa invertida , que en este caso es la función escalonada con un umbral de 2/3. La función inversa = { 0 si x <= 2/3, 1 si x > 2/3 }.
Red de creencias sigmoidea: Introducida por Radford Neal en 1992, esta red aplica ideas de modelos gráficos probabilísticos a redes neuronales. Una diferencia clave es que los nodos en los modelos gráficos tienen significados preasignados, mientras que las características de las neuronas de Belief Net se determinan después del entrenamiento. La red es un gráfico acíclico dirigido escasamente conectado compuesto por neuronas estocásticas binarias. La regla de aprendizaje proviene de la Máxima Verosimilitud en p(X): Δw _ij s _j * (s _i - p _i ), donde p _i = 1 / ( 1 + e ^{entradas ponderadas en la neurona i} ). s _j son activaciones de una muestra insesgada de la distribución posterior y esto es problemático debido al problema de explicación planteado por Judea Perl. Los métodos bayesianos variacionales utilizan un posterior sustituto y descaradamente ignoran esta complejidad. $\propto$
Red de creencias profundas: Introducida por Hinton, esta red es un híbrido de RBM y Sigmoid Belief Network. Las 2 capas superiores son un RBM y la segunda capa hacia abajo forma una red de creencias sigmoidea. Uno lo entrena mediante el método RBM apilado y luego desecha los pesos de reconocimiento debajo del RBM superior. A partir de 2009, 3-4 capas parece ser la profundidad óptima. ^[2]
maquina helmholtz: Estas son las primeras inspiraciones para los codificadores automáticos variacionales. Sus 2 redes combinadas en una: los pesos hacia adelante operan el reconocimiento y los pesos hacia atrás implementan la imaginación. Quizás sea la primera red en hacer ambas cosas. Helmholtz no trabajó en el aprendizaje automático, pero inspiró la visión del "motor de inferencia estadística cuya función es inferir causas probables de información sensorial". ^[3] la neurona binaria estocástica genera una probabilidad de que su estado sea 0 o 1. La entrada de datos normalmente no se considera una capa, pero en el modo de generación de la máquina Helmholtz, la capa de datos recibe información de la capa intermedia y tiene pesos separados para este propósito, por lo que se considera una capa. Por tanto, esta red tiene 3 capas.
codificador automático variacional: Están inspirados en las máquinas de Helmholtz y combinan redes de probabilidad con redes neuronales. Un Autoencoder es una red CAM de 3 capas, donde se supone que la capa intermedia es una representación interna de los patrones de entrada. La red neuronal codificadora es una distribución de probabilidad q _φ (z dado x) y la red decodificadora es p _θ (x dado z). Los pesos se denominan phi y theta en lugar de W y V como en Helmholtz, una diferencia cosmética. Estas 2 redes aquí pueden estar completamente conectadas o usar otro esquema NN.

Comparación de redes

Aprendizaje hebbiano, ARTE, SOM

El ejemplo clásico de aprendizaje no supervisado en el estudio de las redes neuronales es el principio de Donald Hebb , es decir, las neuronas que se activan juntas se conectan entre sí. ^[4] En el aprendizaje hebbiano , la conexión se refuerza independientemente de un error, pero es función exclusivamente de la coincidencia entre los potenciales de acción entre las dos neuronas. ^[5] Una versión similar que modifica los pesos sinápticos tiene en cuenta el tiempo entre los potenciales de acción ( plasticidad dependiente del tiempo de pico o STDP). Se ha planteado la hipótesis de que el aprendizaje hebbiano es la base de una variedad de funciones cognitivas, como el reconocimiento de patrones y el aprendizaje experiencial.

Entre los modelos de redes neuronales , el mapa autoorganizado (SOM) y la teoría de la resonancia adaptativa (ART) se utilizan comúnmente en algoritmos de aprendizaje no supervisados. El SOM es una organización topográfica en la que las ubicaciones cercanas en el mapa representan entradas con propiedades similares. El modelo ART permite que el número de grupos varíe con el tamaño del problema y permite al usuario controlar el grado de similitud entre los miembros de los mismos grupos mediante una constante definida por el usuario llamada parámetro de vigilancia. Las redes ART se utilizan para muchas tareas de reconocimiento de patrones, como el reconocimiento automático de objetivos y el procesamiento de señales sísmicas. ^[6]

Métodos probabilísticos

Dos de los principales métodos utilizados en el aprendizaje no supervisado son el análisis de componentes principales y de conglomerados . El análisis de conglomerados se utiliza en el aprendizaje no supervisado para agrupar o segmentar conjuntos de datos con atributos compartidos con el fin de extrapolar relaciones algorítmicas. ^[7] El análisis de conglomerados es una rama del aprendizaje automático que agrupa los datos que no han sido etiquetados , clasificados o categorizados. En lugar de responder a la retroalimentación, el análisis de conglomerados identifica puntos en común en los datos y reacciona en función de la presencia o ausencia de dichos puntos en común en cada nuevo dato. Este enfoque ayuda a detectar puntos de datos anómalos que no encajan en ninguno de los grupos.

Una aplicación central del aprendizaje no supervisado se encuentra en el campo de la estimación de densidad en estadística , ^[8] aunque el aprendizaje no supervisado abarca muchos otros dominios que implican resumir y explicar características de los datos. Se puede contrastar con el aprendizaje supervisado diciendo que mientras que el aprendizaje supervisado pretende inferir una distribución de probabilidad condicional condicionada a la etiqueta de los datos de entrada; El aprendizaje no supervisado pretende inferir una distribución de probabilidad a priori .

Enfoques

Algunos de los algoritmos más comunes utilizados en el aprendizaje no supervisado incluyen: (1) Agrupación, (2) Detección de anomalías, (3) Enfoques para aprender modelos de variables latentes. Cada enfoque utiliza varios métodos de la siguiente manera:

Los métodos de agrupamiento incluyen: agrupamiento jerárquico , ^[9] k-medias , ^[10] modelos mixtos , agrupamiento basado en modelos , DBSCAN y algoritmo OPTICS.
Los métodos de detección de anomalías incluyen: factor de valores atípicos locales y bosque de aislamiento
Enfoques para aprender modelos de variables latentes , como el algoritmo de maximización de expectativas (EM), el método de momentos y las técnicas de separación de señales ciegas ( análisis de componentes principales , análisis de componentes independientes , factorización matricial no negativa , descomposición de valores singulares )

Método de momentos

Uno de los enfoques estadísticos para el aprendizaje no supervisado es el método de los momentos . En el método de los momentos, los parámetros desconocidos (de interés) en el modelo están relacionados con los momentos de una o más variables aleatorias y, por tanto, estos parámetros desconocidos pueden estimarse dados los momentos. Los momentos generalmente se estiman empíricamente a partir de muestras. Los momentos básicos son momentos de primer y segundo orden. Para un vector aleatorio, el momento de primer orden es el vector medio y el momento de segundo orden es la matriz de covarianza (cuando la media es cero). Los momentos de orden superior generalmente se representan mediante tensores que son la generalización de matrices a órdenes superiores como matrices multidimensionales.

En particular, el método de los momentos ha demostrado ser eficaz para aprender los parámetros de los modelos de variables latentes . Los modelos de variables latentes son modelos estadísticos donde además de las variables observadas, también existe un conjunto de variables latentes que no se observan. Un ejemplo muy práctico de modelos de variables latentes en el aprendizaje automático es el modelado de temas , que es un modelo estadístico para generar las palabras (variables observadas) en el documento en función del tema (variable latente) del documento. En el modelado de temas, las palabras del documento se generan de acuerdo con diferentes parámetros estadísticos cuando se cambia el tema del documento. Se muestra que el método de momentos (técnicas de descomposición tensorial) recupera consistentemente los parámetros de una gran clase de modelos de variables latentes bajo algunos supuestos. ^[11]

El algoritmo de maximización de expectativas (EM) es también uno de los métodos más prácticos para aprender modelos de variables latentes. Sin embargo, puede quedarse atascado en los óptimos locales y no se garantiza que el algoritmo converja a los verdaderos parámetros desconocidos del modelo. En cambio, para el método de los momentos, la convergencia global está garantizada bajo algunas condiciones.

Ver también

Referencias

^ Hinton, G. (2012). "Una guía práctica para el entrenamiento de máquinas Boltzmann restringidas" (PDF) . Redes neuronales: trucos del oficio . Apuntes de conferencias sobre informática. vol. 7700. Saltador. págs. 599–619. doi :10.1007/978-3-642-35289-8_32. ISBN 978-3-642-35289-8.
^ Hinton, Geoffrey (septiembre de 2009). "Redes de creencias profundas" (vídeo).
^ Pedro, Dayán ; Hinton, Geoffrey E .; Neal, Radford M .; Zemel, Richard S. (1995). "La máquina de Helmholtz". Computación neuronal . 7 (5): 889–904. doi :10.1162/neco.1995.7.5.889. hdl : 21.11116/0000-0002-D6D3-E . PMID 7584891. S2CID 1890561.
^ Buhmann, J.; Kuhnel, H. (1992). "Agrupación de datos supervisada y no supervisada con redes neuronales competitivas". [Actas de 1992] Conferencia conjunta internacional IJCNN sobre redes neuronales . vol. 4. IEEE. págs. 796–801. doi :10.1109/ijcnn.1992.227220. ISBN 0780305590. S2CID 62651220.
^ Comesaña-Campos, Alberto; Bouza-Rodríguez, José Benito (junio de 2016). "Una aplicación del aprendizaje hebbiano en la toma de decisiones del proceso de diseño". Revista de fabricación inteligente . 27 (3): 487–506. doi :10.1007/s10845-014-0881-z. ISSN 0956-5515. S2CID 207171436.
^ Carpintero, GA y Grossberg, S. (1988). "El ARTE del reconocimiento de patrones adaptativos mediante una red neuronal autoorganizada" (PDF) . Computadora . 21 (3): 77–88. doi :10.1109/2.33. S2CID 14625094. Archivado desde el original (PDF) el 16 de mayo de 2018 . Consultado el 16 de septiembre de 2013 .
^ Romano, Víctor (21 de abril de 2019). "Aprendizaje automático no supervisado: análisis de agrupación". Medio . Consultado el 1 de octubre de 2019 .
^ Jordania, Michael I.; Obispo, Christopher M. (2004). "7. Sistemas inteligentes §Redes neuronales". En Tucker, Allen B. (ed.). Manual de informática (2ª ed.). Chapman y Hall/CRC Press. doi :10.1201/9780203494455. ISBN 1-58488-360-X.
^ Hastie, Tibshirani y Friedman 2009, págs. 485–586
^ Garbade, Dr. Michael J. (12 de septiembre de 2018). "Comprensión de la agrupación de K-means en el aprendizaje automático". Medio . Consultado el 31 de octubre de 2019 .
^ Anandkumar, Animashree; Ge, Rong; Hsu, Daniel; Kakade, farsa; Telgarsky, Matus (2014). "Descomposiciones tensoriales para aprender modelos de variables latentes" (PDF) . Revista de investigación sobre aprendizaje automático . 15 : 2773–2832. arXiv : 1210.7559 . Código Bib : 2012arXiv1210.7559A.

Otras lecturas

Bousquet, O.; von Luxburg, U .; Raetsch, G., eds. (2004). Conferencias avanzadas sobre aprendizaje automático. Saltador. ISBN 978-3540231226.
Duda, Richard O .; Hart, Peter E .; Cigüeña, David G. (2001). "Agrupación y aprendizaje no supervisado". Clasificación de patrones (2ª ed.). Wiley. ISBN 0-471-05669-3.
Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2009). "Aprendizaje sin supervisión". Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción . Saltador. págs. 485–586. doi :10.1007/978-0-387-84858-7_14. ISBN 978-0-387-84857-0.
Hinton, Geoffrey ; Sejnowski, Terrence J. , eds. (1999). Aprendizaje no supervisado: fundamentos de la computación neuronal . Prensa del MIT . ISBN 0-262-58168-X.