Aprendizaje supervisado

El aprendizaje supervisado ( SL ) es un paradigma en el aprendizaje automático donde los objetos de entrada (por ejemplo, un vector de variables predictoras) y un valor de salida deseado (también conocido como señal de supervisión etiquetada por humanos ) entrenan un modelo. Los datos de entrenamiento se procesan, construyendo una función que asigna nuevos datos a los valores de salida esperados. ^[1] Un escenario óptimo permitirá que el algoritmo determine correctamente los valores de salida para instancias no vistas. Esto requiere que el algoritmo de aprendizaje generalice a partir de los datos de entrenamiento a situaciones no vistas de una manera "razonable" (ver sesgo inductivo ). Esta calidad estadística de un algoritmo se mide a través del llamado error de generalización .

Tendencia de una tarea a emplear métodos supervisados y no supervisados. Los nombres de las tareas que se encuentran entre los límites del círculo son intencionales. Esto demuestra que la división clásica de las tareas imaginativas (izquierda) que emplean métodos no supervisados está desdibujada en los esquemas de aprendizaje actuales.

Pasos a seguir

Para resolver un problema dado de aprendizaje supervisado, hay que realizar los siguientes pasos:

Determinar el tipo de ejemplos de entrenamiento. Antes de hacer cualquier otra cosa, el usuario debe decidir qué tipo de datos se utilizarán como conjunto de entrenamiento. En el caso del análisis de escritura a mano , por ejemplo, podría tratarse de un solo carácter escrito a mano, una palabra escrita a mano entera, una oración completa escrita a mano o quizás un párrafo completo escrito a mano.
Recopilar un conjunto de entrenamiento . El conjunto de entrenamiento debe ser representativo del uso real de la función. Por lo tanto, se recopila un conjunto de objetos de entrada y también se recopilan los resultados correspondientes, ya sea de expertos humanos o de mediciones.
Determinar la representación de la función aprendida mediante la función de entrada . La precisión de la función aprendida depende en gran medida de cómo se representa el objeto de entrada. Normalmente, el objeto de entrada se transforma en un vector de características , que contiene una serie de características que describen el objeto. La cantidad de características no debe ser demasiado grande, debido a la maldición de la dimensionalidad , pero debe contener suficiente información para predecir con precisión la salida.
Determinar la estructura de la función aprendida y el algoritmo de aprendizaje correspondiente. Por ejemplo, el ingeniero puede optar por utilizar máquinas de vectores de soporte o árboles de decisión .
Complete el diseño. Ejecute el algoritmo de aprendizaje en el conjunto de entrenamiento recopilado. Algunos algoritmos de aprendizaje supervisado requieren que el usuario determine ciertos parámetros de control . Estos parámetros se pueden ajustar optimizando el rendimiento en un subconjunto (llamado conjunto de validación ) del conjunto de entrenamiento o mediante validación cruzada .
Evalúe la precisión de la función aprendida. Después del ajuste de parámetros y el aprendizaje, el rendimiento de la función resultante debe medirse en un conjunto de prueba que sea independiente del conjunto de entrenamiento.

Elección del algoritmo

Existe una amplia gama de algoritmos de aprendizaje supervisado, cada uno con sus puntos fuertes y débiles. No existe un único algoritmo de aprendizaje que funcione mejor en todos los problemas de aprendizaje supervisado (consulte el teorema de que no hay almuerzo gratis ).

Hay cuatro cuestiones principales a tener en cuenta en el aprendizaje supervisado:

Compensación entre sesgo y varianza

Un primer problema es el equilibrio entre sesgo y varianza . ^[2] Imaginemos que disponemos de varios conjuntos de datos de entrenamiento diferentes, pero igualmente buenos. Un algoritmo de aprendizaje está sesgado para una entrada particular si, cuando se entrena en cada uno de estos conjuntos de datos, es sistemáticamente incorrecto al predecir la salida correcta para . Un algoritmo de aprendizaje tiene una alta varianza para una entrada particular si predice diferentes valores de salida cuando se entrena en diferentes conjuntos de entrenamiento. El error de predicción de un clasificador aprendido está relacionado con la suma del sesgo y la varianza del algoritmo de aprendizaje. ^[3] Generalmente, existe un equilibrio entre sesgo y varianza. Un algoritmo de aprendizaje con bajo sesgo debe ser "flexible" para que pueda ajustar bien los datos. Pero si el algoritmo de aprendizaje es demasiado flexible, se ajustará a cada conjunto de datos de entrenamiento de manera diferente y, por lo tanto, tendrá una alta varianza. Un aspecto clave de muchos métodos de aprendizaje supervisado es que pueden ajustar este equilibrio entre sesgo y varianza (ya sea automáticamente o proporcionando un parámetro de sesgo/varianza que el usuario puede ajustar). $x$ $x$ $x$

Complejidad de funciones y cantidad de datos de entrenamiento

La segunda cuestión es la cantidad de datos de entrenamiento disponibles en relación con la complejidad de la función "verdadera" (clasificador o función de regresión). Si la función verdadera es simple, entonces un algoritmo de aprendizaje "inflexible" con un sesgo alto y una varianza baja podrá aprenderla a partir de una pequeña cantidad de datos. Pero si la función verdadera es muy compleja (por ejemplo, porque implica interacciones complejas entre muchas características de entrada diferentes y se comporta de manera diferente en diferentes partes del espacio de entrada), entonces la función solo podrá aprender con una gran cantidad de datos de entrenamiento emparejados con un algoritmo de aprendizaje "flexible" con un sesgo bajo y una varianza alta.

Dimensionalidad del espacio de entrada

Un tercer problema es la dimensionalidad del espacio de entrada. Si los vectores de características de entrada tienen grandes dimensiones, aprender la función puede ser difícil incluso si la función verdadera solo depende de un pequeño número de esas características. Esto se debe a que las muchas dimensiones "adicionales" pueden confundir al algoritmo de aprendizaje y hacer que tenga una alta varianza. Por lo tanto, los datos de entrada de grandes dimensiones generalmente requieren ajustar el clasificador para que tenga una baja varianza y un alto sesgo. En la práctica, si el ingeniero puede eliminar manualmente las características irrelevantes de los datos de entrada, probablemente mejorará la precisión de la función aprendida. Además, existen muchos algoritmos para la selección de características que buscan identificar las características relevantes y descartar las irrelevantes. Este es un ejemplo de la estrategia más general de reducción de dimensionalidad , que busca mapear los datos de entrada en un espacio de menor dimensión antes de ejecutar el algoritmo de aprendizaje supervisado.

Ruido en los valores de salida

Un cuarto problema es el grado de ruido en los valores de salida deseados (las variables objetivo de supervisión ). Si los valores de salida deseados a menudo son incorrectos (debido a errores humanos o errores del sensor), entonces el algoritmo de aprendizaje no debería intentar encontrar una función que coincida exactamente con los ejemplos de entrenamiento. Intentar ajustar los datos con demasiado cuidado conduce a un sobreajuste . Puede sobreajustar incluso cuando no hay errores de medición (ruido estocástico) si la función que está tratando de aprender es demasiado compleja para su modelo de aprendizaje. En tal situación, la parte de la función objetivo que no se puede modelar "corrompe" sus datos de entrenamiento: este fenómeno se ha llamado ruido determinista . Cuando está presente cualquiera de los dos tipos de ruido, es mejor optar por un estimador con mayor sesgo y menor varianza.

En la práctica, existen varios enfoques para aliviar el ruido en los valores de salida, como la detención temprana para evitar el sobreajuste , así como la detección y eliminación de los ejemplos de entrenamiento ruidosos antes de entrenar el algoritmo de aprendizaje supervisado. Hay varios algoritmos que identifican ejemplos de entrenamiento ruidosos y la eliminación de los ejemplos de entrenamiento sospechosos de ser ruidosos antes del entrenamiento ha disminuido el error de generalización con significación estadística . ^[4]^[5]

Otros factores a considerar

Otros factores a tener en cuenta al elegir y aplicar un algoritmo de aprendizaje incluyen los siguientes:

Heterogeneidad de los datos. Si los vectores de características incluyen características de muchos tipos diferentes (discretas, discretas ordenadas, recuentos, valores continuos), algunos algoritmos son más fáciles de aplicar que otros. Muchos algoritmos, incluidas las máquinas de vectores de soporte , la regresión lineal , la regresión logística , las redes neuronales y los métodos del vecino más cercano , requieren que las características de entrada sean numéricas y escaladas a rangos similares (por ejemplo, al intervalo [-1,1]). Los métodos que emplean una función de distancia, como los métodos del vecino más cercano y las máquinas de vectores de soporte con núcleos gaussianos , son particularmente sensibles a esto. Una ventaja de los árboles de decisión es que manejan fácilmente datos heterogéneos.
Redundancia en los datos. Si las características de entrada contienen información redundante (por ejemplo, características altamente correlacionadas), algunos algoritmos de aprendizaje (por ejemplo, regresión lineal , regresión logística y métodos basados en la distancia ) tendrán un rendimiento deficiente debido a inestabilidades numéricas. Estos problemas a menudo se pueden resolver imponiendo alguna forma de regularización .
Presencia de interacciones y no linealidades. Si cada una de las características hace una contribución independiente al resultado, entonces los algoritmos basados en funciones lineales (por ejemplo, regresión lineal , regresión logística , máquinas de vectores de soporte , Bayes ingenuo ) y funciones de distancia (por ejemplo, métodos del vecino más cercano , máquinas de vectores de soporte con núcleos gaussianos ) generalmente funcionan bien. Sin embargo, si hay interacciones complejas entre las características, entonces los algoritmos como los árboles de decisión y las redes neuronales funcionan mejor, porque están diseñados específicamente para descubrir estas interacciones. También se pueden aplicar métodos lineales, pero el ingeniero debe especificar manualmente las interacciones al usarlos.

Al considerar una nueva aplicación, el ingeniero puede comparar múltiples algoritmos de aprendizaje y determinar experimentalmente cuál funciona mejor en el problema en cuestión (consulte validación cruzada ). Ajustar el rendimiento de un algoritmo de aprendizaje puede llevar mucho tiempo. Dados los recursos fijos, a menudo es mejor dedicar más tiempo a recopilar datos de entrenamiento adicionales y características más informativas que dedicar más tiempo a ajustar los algoritmos de aprendizaje.

Algoritmos

Los algoritmos de aprendizaje más utilizados son:

Cómo funcionan los algoritmos de aprendizaje supervisado

Dado un conjunto de ejemplos de entrenamiento de la forma tal que es el vector de características del -ésimo ejemplo y es su etiqueta (es decir, clase), un algoritmo de aprendizaje busca una función , donde es el espacio de entrada y es el espacio de salida. La función es un elemento de algún espacio de funciones posibles , generalmente llamado espacio de hipótesis . A veces es conveniente representar usando una función de puntuación tal que se define como devolviendo el valor que da la puntuación más alta: . Sea . el espacio de funciones de puntuación. $N$ $\{(x_{1},y_{1}),...,(x_{N},\;y_{N})\}$ $x_{i}$ $i$ $y_{i}$ $g:X\to Y$ $X$ $Y$ $g$ $G$ $g$ $f:X\times Y\to \mathbb {R}$ $g$ $y$ $g(x)={\underset {y}{\arg \max }}\;f(x,y)$ $F$

Aunque y puede ser cualquier espacio de funciones, muchos algoritmos de aprendizaje son modelos probabilísticos donde toma la forma de un modelo de probabilidad condicional o toma la forma de un modelo de probabilidad conjunta . Por ejemplo, el análisis Bayesiano ingenuo y el análisis discriminante lineal son modelos de probabilidad conjunta, mientras que la regresión logística es un modelo de probabilidad condicional. $G$ $F$ $g$ $g(x)={\underset {y}{\arg \max }}\;P(y|x)$ $f$ $f(x,y)=P(x,y)$

Existen dos enfoques básicos para elegir o : minimización del riesgo empírico y minimización del riesgo estructural . ^[6] La minimización del riesgo empírico busca la función que mejor se ajusta a los datos de entrenamiento. La minimización del riesgo estructural incluye una función de penalización que controla el equilibrio entre sesgo y varianza. $f$ $g$

En ambos casos, se supone que el conjunto de entrenamiento consta de una muestra de pares independientes e idénticamente distribuidos , . Para medir qué tan bien se ajusta una función a los datos de entrenamiento, se define una función de pérdida . Para el ejemplo de entrenamiento , la pérdida de predicción del valor es . $(x_{i},\;y_{i})$ $L:Y\times Y\to \mathbb {R} ^{\geq 0}$ $(x_{i},\;y_{i})$ ${\hat {y}}$ $L(y_{i},{\hat {y}})$

El riesgo de función se define como la pérdida esperada de . Esto se puede estimar a partir de los datos de entrenamiento como $R(g)$ $g$ $g$

R_{emp}(g)={\frac {1}{N}}\sum _{i}L(y_{i},g(x_{i}))

Minimización del riesgo empírico

En la minimización empírica del riesgo, el algoritmo de aprendizaje supervisado busca la función que minimiza . Por lo tanto, se puede construir un algoritmo de aprendizaje supervisado aplicando un algoritmo de optimización para encontrar . $g$ $R(g)$ $g$

Cuando es una distribución de probabilidad condicional y la función de pérdida es el logaritmo de verosimilitud negativo: , entonces la minimización del riesgo empírico es equivalente a la estimación de máxima verosimilitud . $g$ $P(y|x)$ $L(y,{\hat {y}})=-\log P(y|x)$

Cuando contiene muchas funciones candidatas o el conjunto de entrenamiento no es lo suficientemente grande, la minimización del riesgo empírico conduce a una alta varianza y una mala generalización. El algoritmo de aprendizaje es capaz de memorizar los ejemplos de entrenamiento sin generalizar bien. Esto se denomina sobreajuste . $G$

Minimización de riesgos estructurales

La minimización del riesgo estructural busca evitar el sobreajuste incorporando una penalización de regularización a la optimización. La penalización de regularización puede considerarse como la implementación de una forma de la navaja de Occam que prefiere las funciones más simples a las más complejas.

Se han empleado una amplia variedad de penalizaciones que corresponden a diferentes definiciones de complejidad. Por ejemplo, considere el caso en el que la función es una función lineal de la forma $g$

g(x)=\sum _{j=1}^{d}\beta _{j}x_{j}

Una penalización de regularización popular es , que es la norma euclidiana al cuadrado de los pesos, también conocida como la norma. Otras normas incluyen la norma, y la "norma" , que es la cantidad de s distintos de cero . La penalización se denotará por . $\sum _{j}\beta _{j}^{2}$ $L_{2}$ $L_{1}$ $\sum _{j}|\beta _{j}|$ $L_{0}$ $\beta _{j}$ $C(g)$

El problema de optimización del aprendizaje supervisado es encontrar la función que minimiza $g$

J(g)=R_{emp}(g)+\lambda C(g).

El parámetro controla el equilibrio entre sesgo y varianza. Cuando , esto proporciona una minimización del riesgo empírico con un sesgo bajo y una varianza alta. Cuando es grande, el algoritmo de aprendizaje tendrá un sesgo alto y una varianza baja. El valor de se puede elegir empíricamente a través de una validación cruzada . $\lambda$ $\lambda =0$ $\lambda$ $\lambda$

La penalización por complejidad tiene una interpretación bayesiana como la probabilidad previa logarítmica negativa de , , en cuyo caso es la probabilidad posterior de . $g$ $-\log P(g)$ $J(g)$ $g$

Entrenamiento generativo

Los métodos de entrenamiento descritos anteriormente son métodos de entrenamiento discriminativo , porque buscan encontrar una función que discrimine bien entre los diferentes valores de salida (ver modelo discriminativo ). Para el caso especial donde es una distribución de probabilidad conjunta y la función de pérdida es el logaritmo de verosimilitud negativo , se dice que un algoritmo de minimización de riesgos realiza un entrenamiento generativo , porque puede considerarse como un modelo generativo que explica cómo se generaron los datos. Los algoritmos de entrenamiento generativo suelen ser más simples y computacionalmente más eficientes que los algoritmos de entrenamiento discriminativo. En algunos casos, la solución se puede calcular en forma cerrada como en el análisis Bayes ingenuo y el análisis discriminante lineal . $g$ $f(x,y)=P(x,y)$ $-\sum _{i}\log P(x_{i},y_{i}),$ $f$

Generalizaciones

Hay varias formas en las que se puede generalizar el problema estándar de aprendizaje supervisado:

Aprendizaje semisupervisado o supervisión débil : los valores de salida deseados se proporcionan solo para un subconjunto de los datos de entrenamiento. Los datos restantes no están etiquetados o están etiquetados de manera imprecisa.
Aprendizaje activo : en lugar de suponer que todos los ejemplos de entrenamiento se proporcionan desde el principio, los algoritmos de aprendizaje activo recopilan nuevos ejemplos de forma interactiva, normalmente mediante consultas a un usuario humano. A menudo, las consultas se basan en datos no etiquetados, lo que es un escenario que combina el aprendizaje semisupervisado con el aprendizaje activo.
Predicción estructurada : cuando el valor de salida deseado es un objeto complejo, como un árbol de análisis o un gráfico etiquetado, entonces se deben ampliar los métodos estándar.
Aprendiendo a clasificar : cuando la entrada es un conjunto de objetos y el resultado deseado es una clasificación de esos objetos, entonces nuevamente se deben ampliar los métodos estándar.

Enfoques y algoritmos

Aprendizaje analítico
Red neuronal artificial
Retropropagación
Impulso (meta-algoritmo)
Estadísticas bayesianas
Razonamiento basado en casos
Aprendizaje mediante árboles de decisión
Programación lógica inductiva
Regresión del proceso gaussiano
Programación genética
Método grupal de manejo de datos
Estimadores de kernel
Autómatas de aprendizaje
Sistemas de clasificación de aprendizaje
Aprendiendo cuantificación vectorial
Longitud mínima del mensaje ( árboles de decisión , gráficos de decisión, etc.)
Aprendizaje de subespacios multilineales
Clasificador bayesiano ingenuo
Clasificador de máxima entropía
Campo aleatorio condicional
Algoritmo del vecino más cercano
Aprendizaje probablemente aproximadamente correcto (PAC)
Reglas de ondulación descendente , una metodología de adquisición de conocimiento
Algoritmos de aprendizaje automático simbólico
Algoritmos de aprendizaje automático subsimbólico
Máquinas de vectores de soporte
Máquinas de mínima complejidad (MCM)
Bosques aleatorios
Conjuntos de clasificadores
Clasificación ordinal
Preprocesamiento de datos
Manejo de conjuntos de datos desequilibrados
Aprendizaje relacional estadístico
Proaftn , un algoritmo de clasificación multicriterio

Aplicaciones

Bioinformática
Quimioinformática
- Relación cuantitativa estructura-actividad
Marketing de bases de datos
Reconocimiento de escritura a mano
Recuperación de información
- Aprendiendo a clasificar
Extracción de información
Reconocimiento de objetos en visión artificial
Reconocimiento óptico de caracteres
Detección de spam
Reconocimiento de patrones
Reconocimiento de voz
El aprendizaje supervisado es un caso especial de causalidad descendente en sistemas biológicos
Clasificación de formas del terreno mediante imágenes satelitales ^[7]
Clasificación del gasto en los procesos de compras ^[8]

Cuestiones generales

Véase también

Lista de conjuntos de datos para la investigación del aprendizaje automático

Referencias

^ Mehryar Mohri , Afshin Rostamizadeh, Ameet Talwalkar (2012) Fundamentos del aprendizaje automático , The MIT Press ISBN 9780262018258 .
^ S. Geman, E. Bienenstock y R. Doursat (1992). Redes neuronales y el dilema sesgo/varianza. Neural Computation 4, 1–58.
^ G. James (2003) Varianza y sesgo para funciones de pérdida generales, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf)
^ CE Brodely y MA Friedl (1999). Identificación y eliminación de instancias de entrenamiento mal etiquetadas, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf)
^ MR Smith y T. Martinez (2011). "Mejora de la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse incorrectamente". Actas de la Conferencia conjunta internacional sobre redes neuronales (IJCNN 2011) . págs. 2690–2697. CiteSeerX 10.1.1.221.1371 . doi :10.1109/IJCNN.2011.6033571.
^ Vapnik, VN La naturaleza de la teoría del aprendizaje estadístico (2.ª ed.), Springer Verlag, 2000.
^ A. Maity (2016). "Clasificación supervisada de datos polarimétricos de RADARSAT-2 para diferentes características terrestres". arXiv : 1608.00501 [cs.CV].
^ "Tecnologías clave para la contratación ágil | Publicaciones de SIPMM". publication.sipmm.edu.sg . 2020-10-09 . Consultado el 2022-06-16 .

Enlaces externos

Software de código abierto para aprendizaje automático (MLOSS)