La supervisión débil es un paradigma en el aprendizaje automático , cuya relevancia y notoriedad aumentaron con la llegada de grandes modelos de lenguaje debido a la gran cantidad de datos necesarios para entrenarlos. Se caracteriza por utilizar una combinación de una pequeña cantidad de datos etiquetados por humanos (utilizados exclusivamente en el paradigma de aprendizaje supervisado más costoso y que requiere más tiempo ), seguido de una gran cantidad de datos no etiquetados (utilizados exclusivamente en el paradigma de aprendizaje no supervisado ). En otras palabras, los valores de salida deseados se proporcionan solo para un subconjunto de los datos de entrenamiento. Los datos restantes no están etiquetados o están etiquetados de manera imprecisa. Intuitivamente, se puede ver como un examen y los datos etiquetados como problemas de muestra que el profesor resuelve para la clase como ayuda para resolver otro conjunto de problemas. En el entorno transductivo , estos problemas sin resolver actúan como preguntas de examen. En el entorno inductivo , se convierten en problemas de práctica del tipo que conformarán el examen. Técnicamente, podría verse como realizar una agrupación y luego etiquetar los grupos con los datos etiquetados, alejando el límite de decisión de las regiones de alta densidad o aprendiendo una variedad unidimensional subyacente donde residen los datos.
La adquisición de datos etiquetados para un problema de aprendizaje a menudo requiere un agente humano capacitado (por ejemplo, para transcribir un segmento de audio) o un experimento físico (por ejemplo, determinar la estructura 3D de una proteína o determinar si hay petróleo en una ubicación particular). El costo asociado con el proceso de etiquetado puede hacer que los conjuntos de entrenamiento grandes y completamente etiquetados sean inviables, mientras que la adquisición de datos no etiquetados es relativamente económica. En tales situaciones, el aprendizaje semisupervisado puede ser de gran valor práctico. El aprendizaje semisupervisado también es de interés teórico en el aprendizaje automático y como modelo para el aprendizaje humano.
De manera más formal, el aprendizaje semisupervisado supone que se procesa un conjunto de ejemplos distribuidos de forma idéntica e independiente con las etiquetas correspondientes y ejemplos no etiquetados . El aprendizaje semisupervisado combina esta información para superar el rendimiento de clasificación que se puede obtener descartando los datos no etiquetados y realizando un aprendizaje supervisado o descartando las etiquetas y realizando un aprendizaje no supervisado.
El aprendizaje semisupervisado puede referirse tanto al aprendizaje transductivo como al aprendizaje inductivo . [1] El objetivo del aprendizaje transductivo es inferir las etiquetas correctas solo para los datos no etiquetados dados. El objetivo del aprendizaje inductivo es inferir la asignación correcta de a .
No es necesario (y, según el principio de Vapnik , imprudente) realizar aprendizaje transductivo infiriendo una regla de clasificación sobre todo el espacio de entrada; sin embargo, en la práctica, los algoritmos diseñados formalmente para la transducción o la inducción a menudo se usan indistintamente.
Para poder utilizar datos no etiquetados, debe existir alguna relación con la distribución subyacente de los datos. Los algoritmos de aprendizaje semisupervisado utilizan al menos uno de los siguientes supuestos: [2]
Los puntos que están cerca entre sí tienen más probabilidades de compartir una etiqueta. Esto también se supone generalmente en el aprendizaje supervisado y produce una preferencia por límites de decisión geométricamente simples . En el caso del aprendizaje semisupervisado, el supuesto de suavidad produce además una preferencia por límites de decisión en regiones de baja densidad, por lo que pocos puntos están cerca entre sí pero en diferentes clases. [3]
Los datos tienden a formar grupos discretos y es más probable que los puntos de un mismo grupo compartan una etiqueta (aunque los datos que comparten una etiqueta pueden estar distribuidos en varios grupos). Este es un caso especial del supuesto de uniformidad y da lugar al aprendizaje de características con algoritmos de agrupamiento.
Los datos se encuentran aproximadamente en una variedad de dimensión mucho menor que el espacio de entrada. En este caso, el aprendizaje de la variedad utilizando tanto los datos etiquetados como los no etiquetados puede evitar la maldición de la dimensionalidad . Luego, el aprendizaje puede continuar utilizando distancias y densidades definidas en la variedad.
El supuesto de variedad es práctico cuando los datos de alta dimensión se generan mediante algún proceso que puede ser difícil de modelar directamente, pero que tiene solo unos pocos grados de libertad. Por ejemplo, la voz humana está controlada por unas pocas cuerdas vocales [4] y las imágenes de varias expresiones faciales están controladas por unos pocos músculos. En estos casos, es mejor considerar las distancias y la suavidad en el espacio natural del problema generador, en lugar de en el espacio de todas las ondas acústicas o imágenes posibles, respectivamente.
El enfoque heurístico de autoentrenamiento (también conocido como autoaprendizaje o autoetiquetado ) es históricamente el enfoque más antiguo para el aprendizaje semisupervisado, [2] con ejemplos de aplicaciones que comienzan en la década de 1960. [5]
El marco de aprendizaje transductivo fue introducido formalmente por Vladimir Vapnik en la década de 1970. [6] El interés en el aprendizaje inductivo utilizando modelos generativos también comenzó en la década de 1970. Ratsaby y Venkatesh demostraron en 1995 un límite de aprendizaje probablemente aproximadamente correcto para el aprendizaje semisupervisado de una mezcla gaussiana. [ 7]
Los enfoques generativos del aprendizaje estadístico primero buscan estimar [ disputado – discutir ] la distribución de los puntos de datos que pertenecen a cada clase. La probabilidad de que un punto dado tenga una etiqueta es entonces proporcional a por la regla de Bayes . El aprendizaje semisupervisado con modelos generativos puede verse como una extensión del aprendizaje supervisado (clasificación más información sobre ) o como una extensión del aprendizaje no supervisado (agrupamiento más algunas etiquetas).
Los modelos generativos suponen que las distribuciones adoptan una forma particular parametrizada por el vector . Si estas suposiciones son incorrectas, los datos no etiquetados pueden, en realidad, reducir la precisión de la solución en relación con lo que se habría obtenido con datos etiquetados únicamente. [8] Sin embargo, si las suposiciones son correctas, entonces los datos no etiquetados necesariamente mejoran el rendimiento. [7]
Los datos no etiquetados se distribuyen de acuerdo con una mezcla de distribuciones de clases individuales. Para conocer la distribución de mezcla a partir de los datos no etiquetados, esta debe ser identificable, es decir, los diferentes parámetros deben producir diferentes distribuciones sumadas. Las distribuciones de mezcla gaussianas son identificables y se utilizan comúnmente para los modelos generativos.
La distribución conjunta parametrizada se puede escribir como mediante la regla de la cadena . Cada vector de parámetros se asocia con una función de decisión . Luego, el parámetro se elige en función del ajuste a los datos etiquetados y no etiquetados, ponderado por :
Otra clase importante de métodos intenta colocar límites en regiones con pocos puntos de datos (etiquetados o no etiquetados). Uno de los algoritmos más utilizados es la máquina de vectores de soporte transductiva o TSVM (que, a pesar de su nombre, también se puede utilizar para el aprendizaje inductivo). Mientras que las máquinas de vectores de soporte para el aprendizaje supervisado buscan un límite de decisión con un margen máximo sobre los datos etiquetados, el objetivo de TSVM es un etiquetado de los datos no etiquetados de modo que el límite de decisión tenga un margen máximo sobre todos los datos. Además de la pérdida de bisagra estándar para los datos etiquetados, se introduce una función de pérdida sobre los datos no etiquetados al dejar . Luego, TSVM selecciona de un espacio de Hilbert de kernel de reproducción minimizando el riesgo empírico regularizado :
Una solución exacta es intratable debido al término no convexo , por lo que la investigación se centra en aproximaciones útiles. [9]
Otros enfoques que implementan la separación de baja densidad incluyen modelos de procesos gaussianos, regularización de información y minimización de entropía (de los cuales TSVM es un caso especial).
La regularización laplaciana se ha abordado históricamente a través del método laplaciano de grafos. Los métodos basados en grafos para el aprendizaje semisupervisado utilizan una representación gráfica de los datos, con un nodo para cada ejemplo etiquetado y no etiquetado. El grafo se puede construir utilizando el conocimiento del dominio o la similitud de ejemplos; dos métodos comunes son conectar cada punto de datos con sus vecinos más cercanos o con ejemplos dentro de cierta distancia . El peso de un borde entre y se establece entonces en .
En el marco de la regularización de variedades , [10] [11] el grafo sirve como proxy de la variedad. Se añade un término al problema de regularización de Tikhonov estándar para reforzar la suavidad de la solución en relación con la variedad (en el espacio intrínseco del problema) así como en relación con el espacio de entrada ambiental. El problema de minimización se convierte en
donde es un espacio de Hilbert de núcleo reproductor y es la variedad en la que se encuentran los datos. Los parámetros de regularización y controlan la suavidad en los espacios ambiente e intrínseco respectivamente. El gráfico se utiliza para aproximar el término de regularización intrínseca. Definiendo el gráfico laplaciano donde y es el vector , tenemos
El enfoque basado en gráficos para la regularización laplaciana es ponerlo en relación con el método de diferencias finitas . [ aclaración necesaria ] [ cita necesaria ]
El laplaciano también se puede utilizar para extender los algoritmos de aprendizaje supervisado: mínimos cuadrados regularizados y máquinas de vectores de soporte (SVM) a versiones semisupervisadas de mínimos cuadrados regularizados laplacianos y SVM laplacianos.
Algunos métodos de aprendizaje semisupervisado no están intrínsecamente orientados al aprendizaje tanto de datos etiquetados como no etiquetados, sino que hacen uso de datos no etiquetados dentro de un marco de aprendizaje supervisado. Por ejemplo, los ejemplos etiquetados y no etiquetados pueden informar una elección de representación, métrica de distancia o kernel para los datos en un primer paso no supervisado. Luego, el aprendizaje supervisado procede solo de los ejemplos etiquetados. En esta línea, algunos métodos aprenden una representación de baja dimensión utilizando los datos supervisados y luego aplican métodos de separación de baja densidad o basados en gráficos a la representación aprendida. [12] [13] Refinar iterativamente la representación y luego realizar un aprendizaje semisupervisado en dicha representación puede mejorar aún más el rendimiento.
El autoentrenamiento es un método de envoltorio para el aprendizaje semisupervisado. [14] Primero, se entrena un algoritmo de aprendizaje supervisado basándose únicamente en los datos etiquetados. Luego, este clasificador se aplica a los datos no etiquetados para generar más ejemplos etiquetados como entrada para el algoritmo de aprendizaje supervisado. Generalmente, en cada paso solo se agregan las etiquetas en las que el clasificador tiene más confianza. [15] En el procesamiento del lenguaje natural, un algoritmo de autoentrenamiento común es el algoritmo de Yarowsky para problemas como la desambiguación del sentido de las palabras, la restauración del acento y la corrección ortográfica. [16]
El co-entrenamiento es una extensión del auto-entrenamiento en el cual múltiples clasificadores se entrenan en conjuntos diferentes (idealmente disjuntos) de características y generan ejemplos etiquetados para cada uno. [17]
Las respuestas humanas a los problemas formales de aprendizaje semisupervisado han dado lugar a conclusiones diversas sobre el grado de influencia de los datos no etiquetados. [18] Los problemas de aprendizaje más naturales también pueden considerarse ejemplos de aprendizaje semisupervisado. Gran parte del aprendizaje de conceptos humanos implica una pequeña cantidad de instrucción directa (por ejemplo, el etiquetado de objetos por parte de los padres durante la infancia) combinada con grandes cantidades de experiencia no etiquetada (por ejemplo, la observación de objetos sin nombrarlos ni contarlos, o al menos sin retroalimentación).
Los bebés humanos son sensibles a la estructura de categorías naturales no etiquetadas, como imágenes de perros y gatos o rostros masculinos y femeninos. [19] Los bebés y los niños tienen en cuenta no sólo los ejemplos no etiquetados, sino también el proceso de muestreo del que surgen los ejemplos etiquetados. [20] [21]
{{cite journal}}
: CS1 maint: multiple names: authors list (link)