El aprendizaje no supervisado es un marco de aprendizaje automático en el que, a diferencia del aprendizaje supervisado , los algoritmos aprenden patrones exclusivamente a partir de datos no etiquetados. [1] Otros marcos en el espectro de las supervisiones incluyen la supervisión débil o semisupervisión , donde se etiqueta una pequeña parte de los datos, y la autosupervisión . Algunos investigadores consideran que el aprendizaje autosupervisado es una forma de aprendizaje no supervisado. [2]
En términos conceptuales, el aprendizaje no supervisado se divide en los aspectos de datos, entrenamiento, algoritmo y aplicaciones posteriores. Normalmente, el conjunto de datos se obtiene de forma económica "en la naturaleza", como un corpus de texto masivo obtenido mediante rastreo web , con solo un filtrado menor (como Common Crawl ). Esto se compara favorablemente con el aprendizaje supervisado, donde el conjunto de datos (como ImageNet1000 ) generalmente se construye manualmente, lo que es mucho más costoso.
Hubo algoritmos diseñados específicamente para el aprendizaje no supervisado, como algoritmos de agrupamiento como k-means , técnicas de reducción de dimensionalidad como el análisis de componentes principales (PCA) , aprendizaje automático de Boltzmann y autocodificadores . Después del auge del aprendizaje profundo, la mayor parte del aprendizaje no supervisado a gran escala se ha realizado mediante el entrenamiento de arquitecturas de redes neuronales de propósito general por descenso de gradiente , adaptadas para realizar aprendizaje no supervisado mediante el diseño de un procedimiento de entrenamiento adecuado.
A veces, un modelo entrenado se puede utilizar tal cual, pero lo más frecuente es que se modifique para aplicaciones posteriores. Por ejemplo, el método de preentrenamiento generativo entrena un modelo para generar un conjunto de datos textuales, antes de ajustarlo para otras aplicaciones, como la clasificación de texto. [3] [4] Como otro ejemplo, los autocodificadores se entrenan para obtener buenas características , que luego se pueden usar como un módulo para otros modelos, como en un modelo de difusión latente .
Las tareas se suelen clasificar como discriminativas (reconocimiento) o generativas (imaginación). A menudo, pero no siempre, las tareas discriminativas utilizan métodos supervisados y las tareas generativas utilizan métodos no supervisados (véase el diagrama de Venn ); sin embargo, la separación es muy difusa. Por ejemplo, el reconocimiento de objetos favorece el aprendizaje supervisado, pero el aprendizaje no supervisado también puede agrupar objetos en grupos. Además, a medida que avanza el progreso, algunas tareas emplean ambos métodos, y algunas tareas oscilan entre uno y otro. Por ejemplo, el reconocimiento de imágenes comenzó siendo muy supervisado, pero se convirtió en híbrido al emplear un preentrenamiento no supervisado, y luego pasó a la supervisión nuevamente con la llegada de dropout , ReLU y las tasas de aprendizaje adaptativo .
Una tarea generativa típica es la siguiente: en cada paso, se toma una muestra de un punto de datos del conjunto de datos, se elimina una parte de los datos y el modelo debe inferir la parte eliminada. Esto es particularmente claro para los autocodificadores de eliminación de ruido y BERT .
Durante la fase de aprendizaje, una red no supervisada intenta imitar los datos que se le proporcionan y utiliza el error en su salida imitada para corregirse a sí misma (es decir, corregir sus ponderaciones y sesgos). A veces, el error se expresa como una baja probabilidad de que se produzca la salida errónea, o puede expresarse como un estado inestable de alta energía en la red.
A diferencia del uso dominante de la retropropagación en los métodos supervisados , el aprendizaje no supervisado también emplea otros métodos, entre ellos: la regla de aprendizaje de Hopfield, la regla de aprendizaje de Boltzmann, la divergencia contrastiva , el sueño-vigilia , la inferencia variacional , la máxima verosimilitud , el máximo a posteriori , el muestreo de Gibbs y la retropropagación de errores de reconstrucción o reparametrizaciones de estados ocultos. Consulte la tabla siguiente para obtener más detalles.
Una función de energía es una medida macroscópica del estado de activación de una red. En las máquinas de Boltzmann, desempeña el papel de la función de costo. Esta analogía con la física está inspirada en el análisis de Ludwig Boltzmann de la energía macroscópica de un gas a partir de las probabilidades microscópicas de movimiento de partículas , donde k es la constante de Boltzmann y T es la temperatura. En la red RBM la relación es , [5] donde y varían en cada patrón de activación posible y . Para ser más precisos, , donde es un patrón de activación de todas las neuronas (visibles y ocultas). Por lo tanto, algunas redes neuronales tempranas llevan el nombre de máquina de Boltzmann. Paul Smolensky llama a la armonía . Una red busca baja energía que es alta armonía.
Esta tabla muestra diagramas de conexión de varias redes no supervisadas, cuyos detalles se darán en la sección Comparación de redes. Los círculos son neuronas y los bordes entre ellos son pesos de conexión. A medida que cambia el diseño de la red, se agregan características para habilitar nuevas capacidades o se eliminan para acelerar el aprendizaje. Por ejemplo, las neuronas cambian entre deterministas (Hopfield) y estocásticas (Boltzmann) para permitir una salida robusta, se eliminan pesos dentro de una capa (RBM) para acelerar el aprendizaje o se permite que las conexiones se vuelvan asimétricas (Helmholtz).
De las redes que llevan nombres de personas, sólo Hopfield trabajó directamente con redes neuronales. Boltzmann y Helmholtz fueron los primeros en desarrollar redes neuronales artificiales, pero su trabajo en física y fisiología inspiró los métodos analíticos que se utilizaron.
A continuación, destacamos algunas características de redes seleccionadas. Los detalles de cada una se muestran en la siguiente tabla comparativa.
El ejemplo clásico de aprendizaje no supervisado en el estudio de redes neuronales es el principio de Donald Hebb , es decir, las neuronas que se activan juntas se conectan entre sí. [8] En el aprendizaje hebbiano , la conexión se refuerza independientemente de un error, pero es exclusivamente una función de la coincidencia entre los potenciales de acción entre las dos neuronas. [9] Una versión similar que modifica los pesos sinápticos tiene en cuenta el tiempo entre los potenciales de acción ( plasticidad dependiente del tiempo de pico o STDP). Se ha planteado la hipótesis de que el aprendizaje hebbiano subyace a una variedad de funciones cognitivas, como el reconocimiento de patrones y el aprendizaje experiencial.
Entre los modelos de redes neuronales , el mapa autoorganizado (SOM) y la teoría de resonancia adaptativa (ART) se utilizan comúnmente en algoritmos de aprendizaje no supervisado. El SOM es una organización topográfica en la que las ubicaciones cercanas en el mapa representan entradas con propiedades similares. El modelo ART permite que la cantidad de grupos varíe con el tamaño del problema y permite al usuario controlar el grado de similitud entre los miembros de los mismos grupos por medio de una constante definida por el usuario llamada parámetro de vigilancia. Las redes ART se utilizan para muchas tareas de reconocimiento de patrones, como el reconocimiento automático de objetivos y el procesamiento de señales sísmicas. [10]
Dos de los principales métodos utilizados en el aprendizaje no supervisado son el análisis de componentes principales y el análisis de conglomerados . El análisis de conglomerados se utiliza en el aprendizaje no supervisado para agrupar o segmentar conjuntos de datos con atributos compartidos con el fin de extrapolar relaciones algorítmicas. [11] El análisis de conglomerados es una rama del aprendizaje automático que agrupa los datos que no han sido etiquetados , clasificados o categorizados. En lugar de responder a la retroalimentación, el análisis de conglomerados identifica puntos en común en los datos y reacciona en función de la presencia o ausencia de dichos puntos en común en cada nuevo dato. Este enfoque ayuda a detectar puntos de datos anómalos que no encajan en ninguno de los grupos.
Una aplicación central del aprendizaje no supervisado es en el campo de la estimación de densidad en estadística , [12] aunque el aprendizaje no supervisado abarca muchos otros dominios que implican resumir y explicar características de datos. Se puede contrastar con el aprendizaje supervisado diciendo que mientras que el aprendizaje supervisado intenta inferir una distribución de probabilidad condicional condicionada a la etiqueta de los datos de entrada; el aprendizaje no supervisado intenta inferir una distribución de probabilidad a priori .
Algunos de los algoritmos más comunes utilizados en el aprendizaje no supervisado incluyen: (1) Agrupamiento, (2) Detección de anomalías, (3) Enfoques para el aprendizaje de modelos de variables latentes. Cada enfoque utiliza varios métodos, como se indica a continuación:
Uno de los enfoques estadísticos para el aprendizaje no supervisado es el método de los momentos . En el método de los momentos, los parámetros desconocidos (de interés) en el modelo están relacionados con los momentos de una o más variables aleatorias y, por lo tanto, estos parámetros desconocidos se pueden estimar dados los momentos. Los momentos generalmente se estiman a partir de muestras de manera empírica. Los momentos básicos son los momentos de primer y segundo orden. Para un vector aleatorio, el momento de primer orden es el vector medio y el momento de segundo orden es la matriz de covarianza (cuando la media es cero). Los momentos de orden superior generalmente se representan utilizando tensores que son la generalización de matrices a órdenes superiores como matrices multidimensionales.
En particular, se ha demostrado que el método de momentos es eficaz para aprender los parámetros de los modelos de variables latentes . Los modelos de variables latentes son modelos estadísticos en los que, además de las variables observadas, también existe un conjunto de variables latentes que no se observan. Un ejemplo muy práctico de modelos de variables latentes en el aprendizaje automático es el modelado de temas , que es un modelo estadístico para generar las palabras (variables observadas) en el documento en función del tema (variable latente) del documento. En el modelado de temas, las palabras del documento se generan de acuerdo con diferentes parámetros estadísticos cuando se cambia el tema del documento. Se ha demostrado que el método de momentos (técnicas de descomposición tensorial) recupera de forma consistente los parámetros de una gran clase de modelos de variables latentes bajo ciertas suposiciones. [15]
El algoritmo de expectativa-maximización (EM) es también uno de los métodos más prácticos para aprender modelos de variables latentes. Sin embargo, puede quedarse atascado en óptimos locales y no está garantizado que el algoritmo converja a los verdaderos parámetros desconocidos del modelo. En cambio, en el caso del método de momentos, la convergencia global está garantizada bajo ciertas condiciones.
{{cite web}}
: Parámetro desconocido |people=
ignorado ( ayuda )