Supervisión débil

La supervisión débil es un paradigma en el aprendizaje automático , cuya relevancia y notoriedad aumentó con la llegada de grandes modelos de lenguaje debido a la gran cantidad de datos necesarios para entrenarlos. Se caracteriza por utilizar una combinación de una pequeña cantidad de datos etiquetados por humanos (utilizados exclusivamente en el paradigma de aprendizaje supervisado, más caro y que requiere más tiempo ), seguido de una gran cantidad de datos sin etiquetar (utilizados exclusivamente en el paradigma de aprendizaje no supervisado ). En otras palabras, los valores de salida deseados se proporcionan sólo para un subconjunto de los datos de entrenamiento. Los datos restantes no están etiquetados o están etiquetados de manera imprecisa. Intuitivamente, puede verse como un examen y etiquetar los datos como problemas de muestra que el profesor resuelve para la clase como ayuda para resolver otro conjunto de problemas. En el entorno transductivo, estos problemas sin resolver actúan como preguntas de examen. En el entorno inductivo, se convierten en problemas de práctica del tipo que formarán el examen. Técnicamente, podría verse como realizar agrupaciones y luego etiquetar las agrupaciones con los datos etiquetados, alejar el límite de decisión de las regiones de alta densidad o aprender una variedad unidimensional subyacente donde residen los datos.

Problema

Tendencia de una tarea a emplear métodos supervisados versus no supervisados. Los nombres de tareas que abarcan los límites del círculo son intencionales. Muestra que la división clásica de tareas imaginativas (izquierda) que emplean métodos no supervisados está desdibujada en los esquemas de aprendizaje actuales.

La adquisición de datos etiquetados para un problema de aprendizaje a menudo requiere un agente humano capacitado (por ejemplo, para transcribir un segmento de audio) o un experimento físico (por ejemplo, determinar la estructura 3D de una proteína o determinar si hay aceite en un lugar particular). Por lo tanto, el costo asociado con el proceso de etiquetado puede hacer que grandes conjuntos de entrenamiento completamente etiquetados sean inviables, mientras que la adquisición de datos sin etiquetar es relativamente económica. En tales situaciones, el aprendizaje semisupervisado puede resultar de gran valor práctico. El aprendizaje semisupervisado también tiene interés teórico en el aprendizaje automático y como modelo para el aprendizaje humano.

Técnica

Más formalmente, el aprendizaje semisupervisado supone que se procesa un conjunto de ejemplos distribuidos de forma independiente e idéntica con las etiquetas correspondientes y ejemplos sin etiquetar . El aprendizaje semisupervisado combina esta información para superar el rendimiento de clasificación que se puede obtener descartando los datos sin etiquetar y realizando un aprendizaje supervisado o descartando las etiquetas y realizando un aprendizaje no supervisado. $l$ $x_{1},\dots ,x_{l}\in X$ $y_{1},\dots ,y_{l}\in Y$ $u$ $x_{l+1},\dots ,x_{l+u}\in X$

El aprendizaje semisupervisado puede referirse tanto al aprendizaje transductivo como al aprendizaje inductivo . ^[1] El objetivo del aprendizaje transductivo es inferir las etiquetas correctas únicamente para los datos dados sin etiquetar. El objetivo del aprendizaje inductivo es inferir el mapeo correcto de a . $x_{l+1},\dots ,x_{l+u}$ $X$ $Y$

Es innecesario (y, según el principio de Vapnik , imprudente) realizar un aprendizaje transductivo infiriendo una regla de clasificación sobre todo el espacio de entrada; sin embargo, en la práctica, los algoritmos diseñados formalmente para transducción o inducción suelen usarse indistintamente.

Suposiciones

Para poder utilizar datos sin etiquetar, debe existir alguna relación con la distribución subyacente de los datos. Los algoritmos de aprendizaje semisupervisados utilizan al menos uno de los siguientes supuestos: ^[2]

Supuesto de continuidad/suavidad

Es más probable que los puntos que están cerca unos de otros compartan una etiqueta. Esto también se asume generalmente en el aprendizaje supervisado y produce una preferencia por límites de decisión geométricamente simples . En el caso del aprendizaje semisupervisado, el supuesto de suavidad genera además una preferencia por los límites de decisión en regiones de baja densidad, por lo que pocos puntos están cerca entre sí pero en diferentes clases. ^[3]

Supuesto de grupo

Los datos tienden a formar grupos discretos y es más probable que los puntos del mismo grupo compartan una etiqueta (aunque los datos que comparten una etiqueta pueden distribuirse en varios grupos). Este es un caso especial del supuesto de suavidad y da lugar al aprendizaje de características con algoritmos de agrupamiento.

Suposición múltiple

Los datos se encuentran aproximadamente en una variedad de dimensiones mucho más bajas que el espacio de entrada. En este caso, aprender la variedad utilizando datos etiquetados y no etiquetados puede evitar la maldición de la dimensionalidad . Luego, el aprendizaje puede continuar utilizando distancias y densidades definidas en la variedad.

El supuesto múltiple es práctico cuando se generan datos de alta dimensión mediante algún proceso que puede ser difícil de modelar directamente, pero que tiene sólo unos pocos grados de libertad. Por ejemplo, la voz humana está controlada por unas pocas cuerdas vocales ^[4] y las imágenes de diversas expresiones faciales están controladas por unos pocos músculos. En estos casos, es mejor considerar distancias y suavidad en el espacio natural del problema generador, que en el espacio de todas las posibles ondas o imágenes acústicas, respectivamente.

Historia

El enfoque heurístico de autoformación (también conocido como autoaprendizaje o autoetiquetado ) es históricamente el enfoque más antiguo de aprendizaje semisupervisado, ^[2] con ejemplos de aplicaciones que comienzan en la década de 1960. ^[5]

El marco de aprendizaje transductivo fue introducido formalmente por Vladimir Vapnik en la década de 1970. ^[6] El interés por el aprendizaje inductivo utilizando modelos generativos también comenzó en la década de 1970. Ratsaby y Venkatesh demostraron en 1995 un aprendizaje probablemente aproximadamente correcto para el aprendizaje semisupervisado de una mezcla gaussiana ^.

Métodos

Modelos generativos

Los enfoques generativos del aprendizaje estadístico primero buscan estimar , ^[^discutir^–^discutir^] la distribución de puntos de datos que pertenecen a cada clase. La probabilidad de que un punto dado tenga etiqueta es entonces proporcional a la regla de Bayes . El aprendizaje semisupervisado con modelos generativos puede verse como una extensión del aprendizaje supervisado (clasificación más información sobre ) o como una extensión del aprendizaje no supervisado (agrupación más algunas etiquetas). $p(x|y)$ $p(y|x)$ $x$ $y$ $p(x|y)p(y)$ $p(x)$

Los modelos generativos suponen que las distribuciones toman alguna forma particular parametrizada por el vector . Si estas suposiciones son incorrectas, los datos sin etiquetar pueden en realidad disminuir la precisión de la solución en relación con la que se habría obtenido solo con los datos etiquetados. ^[8] Sin embargo, si las suposiciones son correctas, entonces los datos sin etiquetar necesariamente mejoran el rendimiento. ^[7] $p(x|y,\theta )$ $\theta$

Los datos sin etiquetar se distribuyen según una combinación de distribuciones de clases individuales. Para conocer la distribución de la mezcla a partir de datos sin etiquetar, debe ser identificable, es decir, diferentes parámetros deben producir diferentes distribuciones sumadas. Las distribuciones de mezclas gaussianas son identificables y comúnmente utilizadas para modelos generativos.

La distribución conjunta parametrizada se puede escribir utilizando la regla de la cadena . Cada vector de parámetros está asociado a una función de decisión . Luego, el parámetro se elige en función del ajuste a los datos etiquetados y no etiquetados, ponderado por : $p(x,y|\theta )=p(y|\theta )p(x|y,\theta )$ $\theta$ $f_{\theta }(x)={\underset {y}{\operatorname {argmax} }}\ p(y|x,\theta )$ $\lambda$

{\underset {\Theta }{\operatorname {argmax} }}\left(\log p(\{x_{i},y_{i}\}_{i=1}^{l}|\theta )+\lambda \log p(\{x_{i}\}_{i=l+1}^{l+u}|\theta )\right)

^[9]

Separación de baja densidad

Otra clase importante de métodos intenta establecer límites en regiones con pocos puntos de datos (etiquetados o no). Uno de los algoritmos más utilizados es la máquina de vectores de soporte transductivo , o TSVM (que, a pesar de su nombre, también puede usarse para el aprendizaje inductivo). Mientras que las máquinas de vectores de soporte para el aprendizaje supervisado buscan un límite de decisión con un margen máximo sobre los datos etiquetados, el objetivo de TSVM es etiquetar los datos no etiquetados de modo que el límite de decisión tenga un margen máximo sobre todos los datos. Además de la pérdida de bisagra estándar para datos etiquetados, se introduce una función de pérdida sobre los datos no etiquetados al permitir . Luego, TSVM selecciona de un espacio de Hilbert del núcleo en reproducción minimizando el riesgo empírico regularizado : $(1-yf(x))_{+}$ $(1-|f(x)|)_{+}$ $y=\operatorname {sign} {f(x)}$ $f^{*}(x)=h^{*}(x)+b$ ${\mathcal {H}}$

f^{*}={\underset {f}{\operatorname {argmin} }}\left(\displaystyle \sum _{i=1}^{l}(1-y_{i}f(x_{i}))_{+}+\lambda _{1}\|h\|_{\mathcal {H}}^{2}+\lambda _{2}\sum _{i=l+1}^{l+u}(1-|f(x_{i})|)_{+}\right)

Una solución exacta es intratable debido al término no convexo , por lo que la investigación se centra en aproximaciones útiles. ^[9] $(1-|f(x)|)_{+}$

Otros enfoques que implementan la separación de baja densidad incluyen modelos de procesos gaussianos, regularización de información y minimización de entropía (de los cuales TSVM es un caso especial).

Regularización laplaciana

La regularización laplaciana se ha abordado históricamente a través del grafo-laplaciano. Los métodos basados en gráficos para el aprendizaje semisupervisado utilizan una representación gráfica de los datos, con un nodo para cada ejemplo etiquetado y no etiquetado. El gráfico se puede construir utilizando el conocimiento del dominio o la similitud de ejemplos; Dos métodos comunes son conectar cada punto de datos con sus vecinos más cercanos o con ejemplos dentro de cierta distancia . El peso de un borde entre y luego se establece en . $k$ $\epsilon$ $W_{ij}$ $x_{i}$ $x_{j}$ $e^{-\|x_{i}-x_{j}\|^{2}/\epsilon ^{2}}$

En el marco de la regularización múltiple , ^[10]^[11] el gráfico sirve como proxy de la variedad. Se agrega un término al problema de regularización estándar de Tikhonov para imponer la suavidad de la solución en relación con la variedad (en el espacio intrínseco del problema), así como en relación con el espacio de entrada ambiental. El problema de minimización se convierte en

{\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left({\frac {1}{l}}\displaystyle \sum _{i=1}^{l}V(f(x_{i}),y_{i})+\lambda _{A}\|f\|_{\mathcal {H}}^{2}+\lambda _{I}\int _{\mathcal {M}}\|\nabla _{\mathcal {M}}f(x)\|^{2}dp(x)\right)

^[9]

donde es un espacio de Hilbert del núcleo reproductor y es la variedad en la que se encuentran los datos. Los parámetros de regularización y control de suavidad en los espacios ambiente e intrínseco respectivamente. El gráfico se utiliza para aproximar el término de regularización intrínseco. Definiendo el grafo laplaciano donde y es el vector , tenemos ${\mathcal {H}}$ ${\mathcal {M}}$ $\lambda _{A}$ $\lambda _{I}$ $L=D-W$ $D_{ii}=\sum _{j=1}^{l+u}W_{ij}$ $\mathbf {f}$ $[f(x_{1})\dots f(x_{l+u})]$

\mathbf {f} ^{T}L\mathbf {f} =\displaystyle \sum _{i,j=1}^{l+u}W_{ij}(f_{i}-f_{j})^{2}\approx \int _{\mathcal {M}}\|\nabla _{\mathcal {M}}f(x)\|^{2}dp(x)

El enfoque basado en gráficos para la regularización laplaciana es relacionarlo con el método de diferencias finitas . ^{[ se necesita aclaración ]}^{[ se necesita cita ]}

El laplaciano también se puede utilizar para extender los algoritmos de aprendizaje supervisado: mínimos cuadrados regularizados y máquinas de vectores de soporte (SVM) a versiones semi-supervisadas de mínimos cuadrados regularizados laplacianos y SVM laplaciano.

Enfoques heurísticos

Algunos métodos de aprendizaje semisupervisado no están intrínsecamente orientados al aprendizaje a partir de datos etiquetados y sin etiquetar, sino que utilizan datos sin etiquetar dentro de un marco de aprendizaje supervisado. Por ejemplo, los ejemplos etiquetados y no etiquetados pueden informar una elección de representación, métrica de distancia o núcleo para los datos en un primer paso no supervisado. Luego, el aprendizaje supervisado procede únicamente de los ejemplos etiquetados. En este sentido, algunos métodos aprenden una representación de baja dimensión utilizando los datos supervisados y luego aplican métodos de separación de baja densidad o basados en gráficos a la representación aprendida. ^[12]^[13] Refinar iterativamente la representación y luego realizar un aprendizaje semisupervisado en dicha representación puede mejorar aún más el rendimiento. $x_{1},\dots ,x_{l+u}$

La autoformación es un método contenedor para el aprendizaje semisupervisado. ^[14] Primero, se entrena un algoritmo de aprendizaje supervisado basándose únicamente en los datos etiquetados. Luego, este clasificador se aplica a los datos sin etiquetar para generar más ejemplos etiquetados como entrada para el algoritmo de aprendizaje supervisado. Generalmente, en cada paso solo se agregan las etiquetas en las que el clasificador tiene más confianza. ^[15] En el procesamiento del lenguaje natural, un algoritmo de autoformación común es el algoritmo de Yarowsky para problemas como la desambiguación del sentido de las palabras, la restauración del acento y la corrección ortográfica. ^[dieciséis]

El coentrenamiento es una extensión del autoentrenamiento en el que se entrenan múltiples clasificadores en diferentes conjuntos de características (idealmente separados) y generan ejemplos etiquetados entre sí. ^[17]

En la cognición humana

Las respuestas humanas a problemas formales de aprendizaje semisupervisado han arrojado diversas conclusiones sobre el grado de influencia de los datos no etiquetados. ^[18] Los problemas de aprendizaje más naturales también pueden verse como casos de aprendizaje semisupervisado. Gran parte del aprendizaje de conceptos humanos implica una pequeña cantidad de instrucción directa (por ejemplo, el etiquetado de objetos por parte de los padres durante la infancia) combinada con grandes cantidades de experiencia no etiquetada (por ejemplo, observación de objetos sin nombrarlos ni contarlos, o al menos sin retroalimentación).

Los bebés humanos son sensibles a la estructura de categorías naturales no etiquetadas, como imágenes de perros y gatos o rostros masculinos y femeninos. ^[19] Los bebés y los niños tienen en cuenta no sólo los ejemplos no etiquetados, sino también el proceso de muestreo del que surgen los ejemplos etiquetados. ^[20]^[21]

Ver también

Aprendizaje PU

Referencias

^ Encuesta de literatura sobre aprendizaje semisupervisado, página 5 , 2007, CiteSeerX 10.1.1.99.9681
^ ab Chapelle, Schölkopf y Zien 2006.
^ Chawla, N., Bowyer, K., Hall, LO y Kegelmeyer, WP (2002). SMOTE: Técnica de sobremuestreo de minorías sintéticas. ArXiv, abs/1106.1813.
^ Stevens, Kenneth N. (1998). Fonética acustica . Cambridge, Massachusetts: MIT Press. ISBN 0-585-08720-2. OCLC 42856189.
^ Scudder, H. (julio de 1965). "Probabilidad de error de algunas máquinas adaptativas de reconocimiento de patrones". Transacciones IEEE sobre teoría de la información . 11 (3): 363–371. doi :10.1109/TIT.1965.1053799. ISSN 1557-9654.
^ Vapnik, V.; Chervonenkis, A. (1974). Teoría del reconocimiento de patrones (en ruso). Moscú: Nauka.citado en Chapelle, Schölkopf & Zien 2006, p. 3
^ ab Ratsaby, J.; Venkatesh, S. "Aprender de una combinación de ejemplos etiquetados y no etiquetados con información adicional paramétrica" (PDF) .En Actas de la octava conferencia anual sobre teoría del aprendizaje computacional: COLT '95 . Nueva York, Nueva York, Estados Unidos: ACM Press. 1995, págs. 412–417. doi :10.1145/225298.225348. ISBN 0-89791-723-5. S2CID 17561403.. Citado en Chapelle, Schölkopf & Zien 2006, p. 4
^ Fabio, Cozmán; Ira, Cohen (22 de septiembre de 2006), "Riesgos del aprendizaje semisupervisado: cómo los datos sin etiquetar pueden degradar el rendimiento de los clasificadores generativos", Aprendizaje semisupervisado , The MIT Press, págs. 56–72, doi :10.7551/mitpress /9780262033589.003.0004, ISBN 978-0-262-03358-9En: Chapelle, Schölkopf y Zien 2006
^ abc Zhu, Xiaojin. Universidad de Aprendizaje Semisupervisado de Wisconsin-Madison.
^ Señor Belkin; P. Niyogi (2004). "Aprendizaje semisupervisado sobre variedades de Riemann". Aprendizaje automático . 56 (Número especial sobre agrupación): 209–239. doi : 10.1023/b:mach.0000033120.25363.1e .
^ M. Belkin, P. Niyogi, V. Sindhwani. Sobre la regularización de múltiples. AISTATAS 2005.
^ Iscen, Ahmet; Tolias, Giorgos; Avrithis, Yannis; Amigo, Ondrej (2019). "Propagación de etiquetas para el aprendizaje profundo semisupervisado". Conferencia IEEE/CVF de 2019 sobre visión por computadora y reconocimiento de patrones (CVPR) . págs. 5065–5074. arXiv : 1904.04717 . doi :10.1109/CVPR.2019.00521. ISBN 978-1-7281-3293-8. S2CID 104291869 . Consultado el 26 de marzo de 2021 .
^ Burkhart, Michael C.; Shan, Kyle (2020). "Separación profunda de baja densidad para clasificación semisupervisada". Conferencia Internacional sobre Ciencias Computacionales (ICCS) . Apuntes de conferencias sobre informática. 12139 : 297–311. arXiv : 2205.11995 . doi : 10.1007/978-3-030-50420-5_22 . ISBN 978-3-030-50419-9.
^ Triguero, Isaac; García, Salvador; Herrera, Francisco (26-11-2013). "Técnicas autoetiquetadas para el aprendizaje semisupervisado: taxonomía, software y estudio empírico". Sistemas de Conocimiento y Información . 42 (2): 245–284. doi :10.1007/s10115-013-0706-y. ISSN 0219-1377. S2CID 1955810.
^ Fazakis, Nikos; Karlos, Stamatis; Kotsiantis, Sotiris; Sgarbas, Kyriakos (29 de diciembre de 2015). "LMT autodidacta para aprendizaje semisupervisado". Inteligencia Computacional y Neurociencia . 2016 : 3057481. doi : 10.1155/2016/3057481 . PMC 4709606 . PMID 26839531.
^ Yarowsky, David (1995). "Desambiguación del sentido de las palabras no supervisada que rivaliza con los métodos supervisados". Actas de la 33ª Reunión Anual de la Asociación de Lingüística Computacional . Cambridge, MA: Asociación de Lingüística Computacional: 189–196. doi : 10.3115/981658.981684 . Consultado el 1 de noviembre de 2022 .
^ Didaci, Luca; Fumera, Giorgio; Roli, Fabio (7 de noviembre de 2012). Gimel'farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Felicitaciones, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji (eds.). Análisis de algoritmo de coentrenamiento con conjuntos de entrenamiento muy pequeños . Apuntes de conferencias sobre informática. Springer Berlín Heidelberg. págs. 719–726. doi :10.1007/978-3-642-34166-3_79. ISBN 9783642341656. S2CID 46063225.
^ Zhu, Xiaojin (2009). Introducción al aprendizaje semisupervisado . Goldberg, AB (Andrew B.). [San Rafael, California]: Morgan & Claypool Publishers. ISBN 978-1-59829-548-1. OCLC 428541480.
^ Licenciatura más joven; Temiendo DD (1999). "Analizar elementos en categorías separadas: cambio de desarrollo en la categorización infantil". Desarrollo infantil . 70 (2): 291–303. doi :10.1111/1467-8624.00022.
^ Xu, F. y Tenenbaum, JB (2007). "Sensibilidad al muestreo en el aprendizaje de palabras bayesiano". Ciencia del desarrollo . 10 (3): 288–297. CiteSeerX 10.1.1.141.7505 . doi :10.1111/j.1467-7687.2007.00590.x. PMID 17444970.
^ Gweon, H., Tenenbaum JB y Schulz LE (2010). "Los bebés consideran tanto la muestra como el proceso de muestreo en una generalización inductiva". Proc Natl Acad Sci Estados Unidos . 107 (20): 9066–71. Código Bib : 2010PNAS..107.9066G. doi : 10.1073/pnas.1003095107 . PMC 2889113 . PMID 20435914. {{cite journal}}: CS1 maint: multiple names: authors list (link)

Fuentes

Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alejandro (2006). Aprendizaje semisupervisado . Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-03358-9.

enlaces externos

Regularización de colectores Una implementación de MATLAB disponible gratuitamente de los algoritmos semisupervisados basados en gráficos, máquinas de vectores de soporte laplacianos y mínimos cuadrados regularizados laplacianos.
KEEL: una herramienta de software para evaluar algoritmos evolutivos para problemas de minería de datos (regresión, clasificación, agrupamiento, minería de patrones, etc.) Módulo KEEL para aprendizaje semisupervisado.
Software de aprendizaje semisupervisado
Aprendizaje semisupervisado: documentación de scikit-learn Aprendizaje semisupervisado en scikit-learn .