La supervisión débil es un paradigma en el aprendizaje automático , cuya relevancia y notoriedad aumentó con la llegada de grandes modelos de lenguaje debido a la gran cantidad de datos necesarios para entrenarlos. Se caracteriza por utilizar una combinación de una pequeña cantidad de datos etiquetados por humanos (utilizados exclusivamente en el paradigma de aprendizaje supervisado, más caro y que requiere más tiempo ), seguido de una gran cantidad de datos sin etiquetar (utilizados exclusivamente en el paradigma de aprendizaje no supervisado ). En otras palabras, los valores de salida deseados se proporcionan sólo para un subconjunto de los datos de entrenamiento. Los datos restantes no están etiquetados o están etiquetados de manera imprecisa. Intuitivamente, puede verse como un examen y etiquetar los datos como problemas de muestra que el profesor resuelve para la clase como ayuda para resolver otro conjunto de problemas. En el entorno transductivo, estos problemas sin resolver actúan como preguntas de examen. En el entorno inductivo, se convierten en problemas de práctica del tipo que formarán el examen. Técnicamente, podría verse como realizar agrupaciones y luego etiquetar las agrupaciones con los datos etiquetados, alejar el límite de decisión de las regiones de alta densidad o aprender una variedad unidimensional subyacente donde residen los datos.
La adquisición de datos etiquetados para un problema de aprendizaje a menudo requiere un agente humano capacitado (por ejemplo, para transcribir un segmento de audio) o un experimento físico (por ejemplo, determinar la estructura 3D de una proteína o determinar si hay aceite en un lugar particular). Por lo tanto, el costo asociado con el proceso de etiquetado puede hacer que grandes conjuntos de entrenamiento completamente etiquetados sean inviables, mientras que la adquisición de datos sin etiquetar es relativamente económica. En tales situaciones, el aprendizaje semisupervisado puede resultar de gran valor práctico. El aprendizaje semisupervisado también tiene interés teórico en el aprendizaje automático y como modelo para el aprendizaje humano.
Más formalmente, el aprendizaje semisupervisado supone que se procesa un conjunto de ejemplos distribuidos de forma independiente e idéntica con las etiquetas correspondientes y ejemplos sin etiquetar . El aprendizaje semisupervisado combina esta información para superar el rendimiento de clasificación que se puede obtener descartando los datos sin etiquetar y realizando un aprendizaje supervisado o descartando las etiquetas y realizando un aprendizaje no supervisado.
El aprendizaje semisupervisado puede referirse tanto al aprendizaje transductivo como al aprendizaje inductivo . [1] El objetivo del aprendizaje transductivo es inferir las etiquetas correctas únicamente para los datos dados sin etiquetar. El objetivo del aprendizaje inductivo es inferir el mapeo correcto de a .
Es innecesario (y, según el principio de Vapnik , imprudente) realizar un aprendizaje transductivo infiriendo una regla de clasificación sobre todo el espacio de entrada; sin embargo, en la práctica, los algoritmos diseñados formalmente para transducción o inducción suelen usarse indistintamente.
Para poder utilizar datos sin etiquetar, debe existir alguna relación con la distribución subyacente de los datos. Los algoritmos de aprendizaje semisupervisados utilizan al menos uno de los siguientes supuestos: [2]
Es más probable que los puntos que están cerca unos de otros compartan una etiqueta. Esto también se asume generalmente en el aprendizaje supervisado y produce una preferencia por límites de decisión geométricamente simples . En el caso del aprendizaje semisupervisado, el supuesto de suavidad genera además una preferencia por los límites de decisión en regiones de baja densidad, por lo que pocos puntos están cerca entre sí pero en diferentes clases. [3]
Los datos tienden a formar grupos discretos y es más probable que los puntos del mismo grupo compartan una etiqueta (aunque los datos que comparten una etiqueta pueden distribuirse en varios grupos). Este es un caso especial del supuesto de suavidad y da lugar al aprendizaje de características con algoritmos de agrupamiento.
Los datos se encuentran aproximadamente en una variedad de dimensiones mucho más bajas que el espacio de entrada. En este caso, aprender la variedad utilizando datos etiquetados y no etiquetados puede evitar la maldición de la dimensionalidad . Luego, el aprendizaje puede continuar utilizando distancias y densidades definidas en la variedad.
El supuesto múltiple es práctico cuando se generan datos de alta dimensión mediante algún proceso que puede ser difícil de modelar directamente, pero que tiene sólo unos pocos grados de libertad. Por ejemplo, la voz humana está controlada por unas pocas cuerdas vocales [4] y las imágenes de diversas expresiones faciales están controladas por unos pocos músculos. En estos casos, es mejor considerar distancias y suavidad en el espacio natural del problema generador, que en el espacio de todas las posibles ondas o imágenes acústicas, respectivamente.
El enfoque heurístico de autoformación (también conocido como autoaprendizaje o autoetiquetado ) es históricamente el enfoque más antiguo de aprendizaje semisupervisado, [2] con ejemplos de aplicaciones que comienzan en la década de 1960. [5]
El marco de aprendizaje transductivo fue introducido formalmente por Vladimir Vapnik en la década de 1970. [6] El interés por el aprendizaje inductivo utilizando modelos generativos también comenzó en la década de 1970. Ratsaby y Venkatesh demostraron en 1995 un aprendizaje probablemente aproximadamente correcto para el aprendizaje semisupervisado de una mezcla gaussiana .
Los enfoques generativos del aprendizaje estadístico primero buscan estimar , [ discutir ] la distribución de puntos de datos que pertenecen a cada clase. La probabilidad de que un punto dado tenga etiqueta es entonces proporcional a la regla de Bayes . El aprendizaje semisupervisado con modelos generativos puede verse como una extensión del aprendizaje supervisado (clasificación más información sobre ) o como una extensión del aprendizaje no supervisado (agrupación más algunas etiquetas).
Los modelos generativos suponen que las distribuciones toman alguna forma particular parametrizada por el vector . Si estas suposiciones son incorrectas, los datos sin etiquetar pueden en realidad disminuir la precisión de la solución en relación con la que se habría obtenido solo con los datos etiquetados. [8] Sin embargo, si las suposiciones son correctas, entonces los datos sin etiquetar necesariamente mejoran el rendimiento. [7]
Los datos sin etiquetar se distribuyen según una combinación de distribuciones de clases individuales. Para conocer la distribución de la mezcla a partir de datos sin etiquetar, debe ser identificable, es decir, diferentes parámetros deben producir diferentes distribuciones sumadas. Las distribuciones de mezclas gaussianas son identificables y comúnmente utilizadas para modelos generativos.
La distribución conjunta parametrizada se puede escribir utilizando la regla de la cadena . Cada vector de parámetros está asociado a una función de decisión . Luego, el parámetro se elige en función del ajuste a los datos etiquetados y no etiquetados, ponderado por :
Otra clase importante de métodos intenta establecer límites en regiones con pocos puntos de datos (etiquetados o no). Uno de los algoritmos más utilizados es la máquina de vectores de soporte transductivo , o TSVM (que, a pesar de su nombre, también puede usarse para el aprendizaje inductivo). Mientras que las máquinas de vectores de soporte para el aprendizaje supervisado buscan un límite de decisión con un margen máximo sobre los datos etiquetados, el objetivo de TSVM es etiquetar los datos no etiquetados de modo que el límite de decisión tenga un margen máximo sobre todos los datos. Además de la pérdida de bisagra estándar para datos etiquetados, se introduce una función de pérdida sobre los datos no etiquetados al permitir . Luego, TSVM selecciona de un espacio de Hilbert del núcleo en reproducción minimizando el riesgo empírico regularizado :
Una solución exacta es intratable debido al término no convexo , por lo que la investigación se centra en aproximaciones útiles. [9]
Otros enfoques que implementan la separación de baja densidad incluyen modelos de procesos gaussianos, regularización de información y minimización de entropía (de los cuales TSVM es un caso especial).
La regularización laplaciana se ha abordado históricamente a través del grafo-laplaciano. Los métodos basados en gráficos para el aprendizaje semisupervisado utilizan una representación gráfica de los datos, con un nodo para cada ejemplo etiquetado y no etiquetado. El gráfico se puede construir utilizando el conocimiento del dominio o la similitud de ejemplos; Dos métodos comunes son conectar cada punto de datos con sus vecinos más cercanos o con ejemplos dentro de cierta distancia . El peso de un borde entre y luego se establece en .
En el marco de la regularización múltiple , [10] [11] el gráfico sirve como proxy de la variedad. Se agrega un término al problema de regularización estándar de Tikhonov para imponer la suavidad de la solución en relación con la variedad (en el espacio intrínseco del problema), así como en relación con el espacio de entrada ambiental. El problema de minimización se convierte en
donde es un espacio de Hilbert del núcleo reproductor y es la variedad en la que se encuentran los datos. Los parámetros de regularización y control de suavidad en los espacios ambiente e intrínseco respectivamente. El gráfico se utiliza para aproximar el término de regularización intrínseco. Definiendo el grafo laplaciano donde y es el vector , tenemos
El enfoque basado en gráficos para la regularización laplaciana es relacionarlo con el método de diferencias finitas . [ se necesita aclaración ] [ se necesita cita ]
El laplaciano también se puede utilizar para extender los algoritmos de aprendizaje supervisado: mínimos cuadrados regularizados y máquinas de vectores de soporte (SVM) a versiones semi-supervisadas de mínimos cuadrados regularizados laplacianos y SVM laplaciano.
Algunos métodos de aprendizaje semisupervisado no están intrínsecamente orientados al aprendizaje a partir de datos etiquetados y sin etiquetar, sino que utilizan datos sin etiquetar dentro de un marco de aprendizaje supervisado. Por ejemplo, los ejemplos etiquetados y no etiquetados pueden informar una elección de representación, métrica de distancia o núcleo para los datos en un primer paso no supervisado. Luego, el aprendizaje supervisado procede únicamente de los ejemplos etiquetados. En este sentido, algunos métodos aprenden una representación de baja dimensión utilizando los datos supervisados y luego aplican métodos de separación de baja densidad o basados en gráficos a la representación aprendida. [12] [13] Refinar iterativamente la representación y luego realizar un aprendizaje semisupervisado en dicha representación puede mejorar aún más el rendimiento.
La autoformación es un método contenedor para el aprendizaje semisupervisado. [14] Primero, se entrena un algoritmo de aprendizaje supervisado basándose únicamente en los datos etiquetados. Luego, este clasificador se aplica a los datos sin etiquetar para generar más ejemplos etiquetados como entrada para el algoritmo de aprendizaje supervisado. Generalmente, en cada paso solo se agregan las etiquetas en las que el clasificador tiene más confianza. [15] En el procesamiento del lenguaje natural, un algoritmo de autoformación común es el algoritmo de Yarowsky para problemas como la desambiguación del sentido de las palabras, la restauración del acento y la corrección ortográfica. [dieciséis]
El coentrenamiento es una extensión del autoentrenamiento en el que se entrenan múltiples clasificadores en diferentes conjuntos de características (idealmente separados) y generan ejemplos etiquetados entre sí. [17]
Las respuestas humanas a problemas formales de aprendizaje semisupervisado han arrojado diversas conclusiones sobre el grado de influencia de los datos no etiquetados. [18] Los problemas de aprendizaje más naturales también pueden verse como casos de aprendizaje semisupervisado. Gran parte del aprendizaje de conceptos humanos implica una pequeña cantidad de instrucción directa (por ejemplo, el etiquetado de objetos por parte de los padres durante la infancia) combinada con grandes cantidades de experiencia no etiquetada (por ejemplo, observación de objetos sin nombrarlos ni contarlos, o al menos sin retroalimentación).
Los bebés humanos son sensibles a la estructura de categorías naturales no etiquetadas, como imágenes de perros y gatos o rostros masculinos y femeninos. [19] Los bebés y los niños tienen en cuenta no sólo los ejemplos no etiquetados, sino también el proceso de muestreo del que surgen los ejemplos etiquetados. [20] [21]
{{cite journal}}
: CS1 maint: multiple names: authors list (link)