Aprendizaje supervisado

El aprendizaje supervisado ( SL ) es un paradigma en el aprendizaje automático donde los objetos de entrada (por ejemplo, un vector de variables predictivas) y un valor de salida deseado (también conocido como señal de supervisión etiquetada por humanos ) entrenan un modelo. Los datos de entrenamiento se procesan, creando una función que asigna nuevos datos a los valores de salida esperados. ^[1] Un escenario óptimo permitirá que el algoritmo determine correctamente los valores de salida para instancias invisibles. Esto requiere que el algoritmo de aprendizaje generalice a partir de los datos de entrenamiento a situaciones invisibles de una manera "razonable" (ver sesgo inductivo ). Esta calidad estadística de un algoritmo se mide mediante el llamado error de generalización .

Tendencia de una tarea a emplear métodos supervisados versus no supervisados. Los nombres de tareas que abarcan los límites del círculo son intencionales. Muestra que la división clásica de tareas imaginativas (izquierda) que emplean métodos no supervisados está desdibujada en los esquemas de aprendizaje actuales.

Pasos a seguir

Para resolver un problema determinado de aprendizaje supervisado, se deben realizar los siguientes pasos:

Determinar el tipo de ejemplos de entrenamiento. Antes de hacer cualquier otra cosa, el usuario debe decidir qué tipo de datos se utilizará como conjunto de entrenamiento. En el caso del análisis de escritura a mano , por ejemplo, esto podría ser un solo carácter escrito a mano, una palabra escrita a mano completa, una oración completa escrita a mano o tal vez un párrafo completo escrito a mano.
Reúna un conjunto de entrenamiento . El conjunto de entrenamiento debe ser representativo del uso de la función en el mundo real. Por lo tanto, se recopila un conjunto de objetos de entrada y también se recopilan las salidas correspondientes, ya sea de expertos humanos o de mediciones.
Determine la representación de la característica de entrada de la función aprendida. La precisión de la función aprendida depende en gran medida de cómo se representa el objeto de entrada. Normalmente, el objeto de entrada se transforma en un vector de características , que contiene una serie de características que son descriptivas del objeto. El número de características no debe ser demasiado grande, debido a la maldición de la dimensionalidad ; pero debe contener suficiente información para predecir con precisión el resultado.
Determine la estructura de la función aprendida y el algoritmo de aprendizaje correspondiente. Por ejemplo, el ingeniero puede optar por utilizar máquinas de vectores de soporte o árboles de decisión .
Completa el diseño. Ejecute el algoritmo de aprendizaje en el conjunto de entrenamiento recopilado. Algunos algoritmos de aprendizaje supervisado requieren que el usuario determine ciertos parámetros de control . Estos parámetros se pueden ajustar optimizando el rendimiento en un subconjunto (llamado conjunto de validación ) del conjunto de entrenamiento o mediante validación cruzada .
Evaluar la precisión de la función aprendida. Después del ajuste y el aprendizaje de los parámetros, el rendimiento de la función resultante debe medirse en un conjunto de prueba que esté separado del conjunto de entrenamiento.

elección de algoritmo

Se encuentra disponible una amplia gama de algoritmos de aprendizaje supervisado, cada uno con sus fortalezas y debilidades. No existe un algoritmo de aprendizaje único que funcione mejor en todos los problemas de aprendizaje supervisado (consulte el teorema del almuerzo gratis ).

Hay cuatro cuestiones principales a considerar en el aprendizaje supervisado:

Compensación sesgo-varianza

Una primera cuestión es el equilibrio entre sesgo y varianza . ^[2] Imagine que tenemos disponibles varios conjuntos de datos de entrenamiento diferentes, pero igualmente buenos. Un algoritmo de aprendizaje está sesgado para una entrada particular si, cuando se entrena en cada uno de estos conjuntos de datos, es sistemáticamente incorrecto al predecir la salida correcta para . Un algoritmo de aprendizaje tiene una gran variación para una entrada particular si predice diferentes valores de salida cuando se entrena en diferentes conjuntos de entrenamiento. El error de predicción de un clasificador aprendido está relacionado con la suma del sesgo y la varianza del algoritmo de aprendizaje. ^[3] Generalmente, existe un equilibrio entre sesgo y varianza. Un algoritmo de aprendizaje con bajo sesgo debe ser "flexible" para que pueda ajustarse bien a los datos. Pero si el algoritmo de aprendizaje es demasiado flexible, se ajustará a cada conjunto de datos de entrenamiento de manera diferente y, por lo tanto, tendrá una gran variación. Un aspecto clave de muchos métodos de aprendizaje supervisado es que pueden ajustar este equilibrio entre sesgo y varianza (ya sea automáticamente o proporcionando un parámetro de sesgo/varianza que el usuario puede ajustar). $x$ $x$ $x$

Complejidad de la función y cantidad de datos de entrenamiento.

La segunda cuestión es la cantidad de datos de entrenamiento disponibles en relación con la complejidad de la función "verdadera" (clasificador o función de regresión). Si la función verdadera es simple, entonces un algoritmo de aprendizaje "inflexible" con alto sesgo y baja varianza podrá aprenderla a partir de una pequeña cantidad de datos. Pero si la verdadera función es muy compleja (por ejemplo, porque implica interacciones complejas entre muchas características de entrada diferentes y se comporta de manera diferente en diferentes partes del espacio de entrada), entonces la función sólo podrá aprender con una gran cantidad de datos de entrenamiento emparejados. con un algoritmo de aprendizaje "flexible" con bajo sesgo y alta varianza.

Dimensionalidad del espacio de entrada.

Una tercera cuestión es la dimensionalidad del espacio de entrada. Si los vectores de características de entrada tienen dimensiones grandes, aprender la función puede ser difícil incluso si la función verdadera solo depende de una pequeña cantidad de esas características. Esto se debe a que las numerosas dimensiones "adicionales" pueden confundir el algoritmo de aprendizaje y provocar que tenga una gran variación. Por lo tanto, los datos de entrada de grandes dimensiones generalmente requieren ajustar el clasificador para que tenga una varianza baja y un sesgo alto. En la práctica, si el ingeniero puede eliminar manualmente características irrelevantes de los datos de entrada, probablemente mejorará la precisión de la función aprendida. Además, existen muchos algoritmos para la selección de características que buscan identificar las características relevantes y descartar las irrelevantes. Este es un ejemplo de la estrategia más general de reducción de dimensionalidad , que busca mapear los datos de entrada en un espacio de dimensiones inferiores antes de ejecutar el algoritmo de aprendizaje supervisado.

Ruido en los valores de salida.

Una cuarta cuestión es el grado de ruido en los valores de salida deseados (las variables objetivo de supervisión ). Si los valores de salida deseados suelen ser incorrectos (debido a errores humanos o errores de sensores), entonces el algoritmo de aprendizaje no debería intentar encontrar una función que coincida exactamente con los ejemplos de entrenamiento. Intentar ajustar los datos con demasiado cuidado conduce a un sobreajuste . Puede realizar un sobreajuste incluso cuando no haya errores de medición (ruido estocástico) si la función que intenta aprender es demasiado compleja para su modelo de aprendizaje. En tal situación, la parte de la función objetivo que no se puede modelar "corrompe" los datos de entrenamiento; este fenómeno se ha denominado ruido determinista . Cuando está presente cualquier tipo de ruido, es mejor utilizar un estimador de mayor sesgo y menor varianza.

En la práctica, existen varios enfoques para aliviar el ruido en los valores de salida, como la detención temprana para evitar el sobreajuste , así como la detección y eliminación de ejemplos de entrenamiento ruidosos antes de entrenar el algoritmo de aprendizaje supervisado. Hay varios algoritmos que identifican ejemplos de entrenamiento ruidosos y eliminar los ejemplos de entrenamiento ruidosos sospechosos antes del entrenamiento ha disminuido el error de generalización con significación estadística . ^[4]^[5]

Otros factores a considerar

Otros factores a considerar al elegir y aplicar un algoritmo de aprendizaje incluyen los siguientes:

Heterogeneidad de los datos. Si los vectores de características incluyen características de muchos tipos diferentes (discretas, ordenadas discretas, conteos, valores continuos), algunos algoritmos son más fáciles de aplicar que otros. Muchos algoritmos, incluidas las máquinas de vectores de soporte , la regresión lineal , la regresión logística , las redes neuronales y los métodos del vecino más cercano , requieren que las características de entrada sean numéricas y escaladas a rangos similares (por ejemplo, al intervalo [-1,1]). Los métodos que emplean una función de distancia, como los métodos del vecino más cercano y las máquinas de vectores de soporte con núcleos gaussianos , son particularmente sensibles a esto. Una ventaja de los árboles de decisión es que manejan fácilmente datos heterogéneos.
Redundancia en los datos. Si las características de entrada contienen información redundante (p. ej., características altamente correlacionadas), algunos algoritmos de aprendizaje (p. ej., regresión lineal , regresión logística y métodos basados en la distancia ) funcionarán mal debido a las inestabilidades numéricas. Estos problemas a menudo pueden resolverse imponiendo alguna forma de regularización .
Presencia de interacciones y no linealidades. Si cada una de las características hace una contribución independiente a la salida, entonces se utilizan algoritmos basados en funciones lineales (p. ej., regresión lineal , regresión logística , máquinas de vectores de soporte , Bayes ingenuo ) y funciones de distancia (p. ej., métodos del vecino más cercano , máquinas de vectores de soporte). con núcleos gaussianos ) generalmente funcionan bien. Sin embargo, si existen interacciones complejas entre características, entonces los algoritmos como los árboles de decisión y las redes neuronales funcionan mejor porque están diseñados específicamente para descubrir estas interacciones. También se pueden aplicar métodos lineales, pero el ingeniero debe especificar manualmente las interacciones al utilizarlos.

Al considerar una nueva aplicación, el ingeniero puede comparar múltiples algoritmos de aprendizaje y determinar experimentalmente cuál funciona mejor en el problema en cuestión (ver validación cruzada ). Ajustar el rendimiento de un algoritmo de aprendizaje puede llevar mucho tiempo. Dados los recursos fijos, a menudo es mejor dedicar más tiempo a recopilar datos de entrenamiento adicionales y características más informativas que dedicar más tiempo a ajustar los algoritmos de aprendizaje.

Algoritmos

Los algoritmos de aprendizaje más utilizados son:

Cómo funcionan los algoritmos de aprendizaje supervisado

Dado un conjunto de ejemplos de entrenamiento de la forma tal que es el vector de características del -ésimo ejemplo y es su etiqueta (es decir, clase), un algoritmo de aprendizaje busca una función , donde es el espacio de entrada y el espacio de salida. La función es un elemento de algún espacio de funciones posibles , normalmente llamado espacio de hipótesis . A veces es conveniente representar utilizando una función de puntuación que se define como devolver el valor que da la puntuación más alta: . Denotemos el espacio de funciones de puntuación. $N$ $\{(x_{1},y_{1}),...,(x_{N},\;y_{N})\}$ $x_{i}$ $i$ $y_{i}$ $g:X\to Y$ $X$ $Y$ $g$ $G$ $g$ $f:X\times Y\to \mathbb {R}$ $g$ $y$ $g(x)={\underset {y}{\arg \max }}\;f(x,y)$ $F$

Aunque y puede ser cualquier espacio de funciones, muchos algoritmos de aprendizaje son modelos probabilísticos que toman la forma de un modelo de probabilidad condicional o toman la forma de un modelo de probabilidad conjunta . Por ejemplo, el análisis ingenuo de Bayes y el análisis discriminante lineal son modelos de probabilidad conjunta, mientras que la regresión logística es un modelo de probabilidad condicional. $G$ $F$ $g$ $g(x)={\underset {y}{\arg \max }}\;P(y|x)$ $f$ $f(x,y)=P(x,y)$

Hay dos enfoques básicos para elegir o : minimización del riesgo empírico y minimización del riesgo estructural . ^[6] La minimización empírica del riesgo busca la función que mejor se ajuste a los datos de entrenamiento. La minimización del riesgo estructural incluye una función de penalización que controla el equilibrio entre sesgo y varianza. $f$ $g$

En ambos casos, se supone que el conjunto de entrenamiento consta de una muestra de pares independientes e idénticamente distribuidos . Para medir qué tan bien se ajusta una función a los datos de entrenamiento, se define una función de pérdida . Por ejemplo, en el entrenamiento , la pérdida de predicción del valor es . $(x_{i},\;y_{i})$ $L:Y\times Y\to \mathbb {R} ^{\geq 0}$ $(x_{i},\;y_{i})$ ${\hat {y}}$ $L(y_{i},{\hat {y}})$

El riesgo de función se define como la pérdida esperada de . Esto se puede estimar a partir de los datos de entrenamiento como $R(g)$ $g$ $g$

R_{emp}(g)={\frac {1}{N}}\sum _{i}L(y_{i},g(x_{i}))

Minimización empírica del riesgo

En la minimización empírica del riesgo, el algoritmo de aprendizaje supervisado busca la función que minimiza . Por lo tanto, se puede construir un algoritmo de aprendizaje supervisado aplicando un algoritmo de optimización para encontrar . $g$ $R(g)$ $g$

Cuando es una distribución de probabilidad condicional y la función de pérdida es el logaritmo de probabilidad negativo: entonces la minimización empírica del riesgo es equivalente a la estimación de máxima verosimilitud . $g$ $P(y|x)$ $L(y,{\hat {y}})=-\log P(y|x)$

Cuando contiene muchas funciones candidatas o el conjunto de entrenamiento no es lo suficientemente grande, la minimización del riesgo empírico conduce a una alta varianza y una generalización deficiente. El algoritmo de aprendizaje es capaz de memorizar los ejemplos de entrenamiento sin generalizar bien. A esto se le llama sobreajuste . $G$

Minimización de riesgos estructurales

La minimización del riesgo estructural busca evitar el sobreajuste incorporando una penalización de regularización en la optimización. Se puede considerar que la penalización por regularización implementa una forma de la navaja de Occam que prefiere funciones más simples a otras más complejas.

Se ha empleado una amplia variedad de sanciones que corresponden a diferentes definiciones de complejidad. Por ejemplo, considere el caso donde la función es una función lineal de la forma $g$

g(x)=\sum _{j=1}^{d}\beta _{j}x_{j}

Una penalización de regularización popular es , que es la norma euclidiana al cuadrado de los pesos, también conocida como norma. Otras normas incluyen la norma, y la "norma" , que es el número de s distintos de cero. La pena se denotará por . $\sum _{j}\beta _{j}^{2}$ $L_{2}$ $L_{1}$ $\sum _{j}|\beta _{j}|$ $L_{0}$ $\beta _{j}$ $C(g)$

El problema de optimización del aprendizaje supervisado consiste en encontrar la función que minimice $g$

J(g)=R_{emp}(g)+\lambda C(g).

El parámetro controla la compensación entre sesgo y varianza. Cuando , esto proporciona una minimización del riesgo empírico con bajo sesgo y alta varianza. Cuando es grande, el algoritmo de aprendizaje tendrá un sesgo alto y una varianza baja. El valor de se puede elegir empíricamente mediante validación cruzada . $\lambda$ $\lambda =0$ $\lambda$ $\lambda$

La penalización por complejidad tiene una interpretación bayesiana como la probabilidad anterior logarítmica negativa de , en cuyo caso es la probabilidad posterior de . $g$ $-\log P(g)$ $J(g)$ $g$

entrenamiento generativo

Los métodos de entrenamiento descritos anteriormente son métodos de entrenamiento discriminativos , porque buscan encontrar una función que discrimine bien entre los diferentes valores de salida (ver modelo discriminativo ). Para el caso especial donde hay una distribución de probabilidad conjunta y la función de pérdida es la probabilidad logarítmica negativa , se dice que un algoritmo de minimización de riesgos realiza entrenamiento generativo , porque puede considerarse como un modelo generativo que explica cómo se generaron los datos. Los algoritmos de entrenamiento generativo son a menudo más simples y computacionalmente más eficientes que los algoritmos de entrenamiento discriminativos. En algunos casos, la solución se puede calcular en forma cerrada como en el análisis ingenuo de Bayes y discriminante lineal . $g$ $f(x,y)=P(x,y)$ $-\sum _{i}\log P(x_{i},y_{i}),$ $f$

Generalizaciones

Hay varias formas en que se puede generalizar el problema estándar de aprendizaje supervisado:

Aprendizaje semisupervisado o supervisión débil : los valores de salida deseados se proporcionan solo para un subconjunto de datos de entrenamiento. Los datos restantes no están etiquetados o están etiquetados de manera imprecisa.
Aprendizaje activo : en lugar de asumir que todos los ejemplos de capacitación se dan al principio, los algoritmos de aprendizaje activo recopilan de forma interactiva nuevos ejemplos, generalmente mediante consultas a un usuario humano. A menudo, las consultas se basan en datos sin etiquetar, que es un escenario que combina el aprendizaje semisupervisado con el aprendizaje activo.
Predicción estructurada : cuando el valor de salida deseado es un objeto complejo, como un árbol de análisis o un gráfico etiquetado, se deben ampliar los métodos estándar.
Aprender a clasificar : cuando la entrada es un conjunto de objetos y la salida deseada es una clasificación de esos objetos, nuevamente se deben ampliar los métodos estándar.

Enfoques y algoritmos

Aprendizaje analítico
Red neuronal artificial
Propagación hacia atrás
Impulso (metaalgoritmo)
Estadísticas bayesianas
Razonamiento basado en casos
Aprendizaje del árbol de decisión
Programación lógica inductiva
Regresión del proceso gaussiano
Programación genética
Método grupal de manejo de datos.
Estimadores de kernel
Autómatas de aprendizaje
Sistemas clasificadores de aprendizaje.
Aprendizaje de la cuantificación de vectores
Longitud mínima del mensaje ( árboles de decisión , gráficos de decisión, etc.)
Aprendizaje subespacial multilineal
Clasificador ingenuo de Bayes
Clasificador de máxima entropía
Campo aleatorio condicional
Algoritmo del vecino más cercano
Probablemente aprendizaje aproximadamente correcto (PAC)
Reglas de ondulación , una metodología de adquisición de conocimiento
Algoritmos simbólicos de aprendizaje automático
Algoritmos de aprendizaje automático subsimbólico
Máquinas de vectores de soporte
Máquinas de mínima complejidad (MCM)
Bosques aleatorios
Conjuntos de clasificadores.
Clasificación ordinal
Preprocesamiento de datos
Manejo de conjuntos de datos desequilibrados
Aprendizaje relacional estadístico
Proaftn , un algoritmo de clasificación multicriterio

Aplicaciones

Bioinformática
quimioinformática
- Relación estructura cuantitativa-actividad
Comercialización de bases de datos
Reconocimiento de escritura a mano
Recuperación de información
- Aprendiendo a clasificar
Extracción de información
Reconocimiento de objetos en visión por computadora.
Reconocimiento óptico de caracteres
Detección de spam
Reconocimiento de patrones
Reconocimiento de voz
El aprendizaje supervisado es un caso especial de causalidad descendente en los sistemas biológicos.
Clasificación de accidentes geográficos mediante imágenes de satélite ^[7]
Clasificación del gasto en procesos de adquisiciones ^[8]

Asuntos Generales

Ver también

Lista de conjuntos de datos para la investigación del aprendizaje automático

Referencias

^ Mehryar Mohri , Afshin Rostamizadeh, Ameet Talwalkar (2012) Fundamentos del aprendizaje automático , The MIT Press ISBN 9780262018258 .
^ S. Geman, E. Bienenstock y R. Doursat (1992). Las redes neuronales y el dilema sesgo/varianza. Computación neuronal 4, 1–58.
^ G. James (2003) Varianza y sesgo de funciones de pérdida general, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf)
^ CE Brodely y MA Friedl (1999). Identificación y eliminación de instancias de capacitación mal etiquetadas, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf)
^ MR Smith y T. Martínez (2011). "Mejora de la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse erróneamente". Actas de la Conferencia Conjunta Internacional sobre Redes Neuronales (IJCNN 2011) . págs. 2690–2697. CiteSeerX 10.1.1.221.1371 . doi :10.1109/IJCNN.2011.6033571.
^ Vapnik, VN La naturaleza de la teoría del aprendizaje estadístico (2ª ed.), Springer Verlag, 2000.
^ A. Maity (2016). "Clasificación supervisada de datos polarimétricos RADARSAT-2 para diferentes características del terreno". arXiv : 1608.00501 [cs.CV].
^ "Tecnologías clave para adquisiciones ágiles | Publicaciones SIPMM". publicación.sipmm.edu.sg . 2020-10-09 . Consultado el 16 de junio de 2022 .

enlaces externos

Software de código abierto de aprendizaje automático (MLOSS)