stringtranslate.com

Aprendizaje supervisado

El aprendizaje supervisado ( SL ) es un paradigma en el aprendizaje automático donde los objetos de entrada (por ejemplo, un vector de variables predictivas) y un valor de salida deseado (también conocido como señal de supervisión etiquetada por humanos ) entrenan un modelo. Los datos de entrenamiento se procesan, creando una función que asigna nuevos datos a los valores de salida esperados. [1] Un escenario óptimo permitirá que el algoritmo determine correctamente los valores de salida para instancias invisibles. Esto requiere que el algoritmo de aprendizaje generalice a partir de los datos de entrenamiento a situaciones invisibles de una manera "razonable" (ver sesgo inductivo ). Esta calidad estadística de un algoritmo se mide mediante el llamado error de generalización .

Tendencia de una tarea a emplear métodos supervisados ​​versus no supervisados. Los nombres de tareas que abarcan los límites del círculo son intencionales. Muestra que la división clásica de tareas imaginativas (izquierda) que emplean métodos no supervisados ​​está desdibujada en los esquemas de aprendizaje actuales.

Pasos a seguir

Para resolver un problema determinado de aprendizaje supervisado, se deben realizar los siguientes pasos:

  1. Determinar el tipo de ejemplos de entrenamiento. Antes de hacer cualquier otra cosa, el usuario debe decidir qué tipo de datos se utilizará como conjunto de entrenamiento. En el caso del análisis de escritura a mano , por ejemplo, esto podría ser un solo carácter escrito a mano, una palabra escrita a mano completa, una oración completa escrita a mano o tal vez un párrafo completo escrito a mano.
  2. Reúna un conjunto de entrenamiento . El conjunto de entrenamiento debe ser representativo del uso de la función en el mundo real. Por lo tanto, se recopila un conjunto de objetos de entrada y también se recopilan las salidas correspondientes, ya sea de expertos humanos o de mediciones.
  3. Determine la representación de la característica de entrada de la función aprendida. La precisión de la función aprendida depende en gran medida de cómo se representa el objeto de entrada. Normalmente, el objeto de entrada se transforma en un vector de características , que contiene una serie de características que son descriptivas del objeto. El número de características no debe ser demasiado grande, debido a la maldición de la dimensionalidad ; pero debe contener suficiente información para predecir con precisión el resultado.
  4. Determine la estructura de la función aprendida y el algoritmo de aprendizaje correspondiente. Por ejemplo, el ingeniero puede optar por utilizar máquinas de vectores de soporte o árboles de decisión .
  5. Completa el diseño. Ejecute el algoritmo de aprendizaje en el conjunto de entrenamiento recopilado. Algunos algoritmos de aprendizaje supervisado requieren que el usuario determine ciertos parámetros de control . Estos parámetros se pueden ajustar optimizando el rendimiento en un subconjunto (llamado conjunto de validación ) del conjunto de entrenamiento o mediante validación cruzada .
  6. Evaluar la precisión de la función aprendida. Después del ajuste y el aprendizaje de los parámetros, el rendimiento de la función resultante debe medirse en un conjunto de prueba que esté separado del conjunto de entrenamiento.

elección de algoritmo

Se encuentra disponible una amplia gama de algoritmos de aprendizaje supervisado, cada uno con sus fortalezas y debilidades. No existe un algoritmo de aprendizaje único que funcione mejor en todos los problemas de aprendizaje supervisado (consulte el teorema del almuerzo gratis ).

Hay cuatro cuestiones principales a considerar en el aprendizaje supervisado:

Compensación sesgo-varianza

Una primera cuestión es el equilibrio entre sesgo y varianza . [2] Imagine que tenemos disponibles varios conjuntos de datos de entrenamiento diferentes, pero igualmente buenos. Un algoritmo de aprendizaje está sesgado para una entrada particular si, cuando se entrena en cada uno de estos conjuntos de datos, es sistemáticamente incorrecto al predecir la salida correcta para . Un algoritmo de aprendizaje tiene una gran variación para una entrada particular si predice diferentes valores de salida cuando se entrena en diferentes conjuntos de entrenamiento. El error de predicción de un clasificador aprendido está relacionado con la suma del sesgo y la varianza del algoritmo de aprendizaje. [3] Generalmente, existe un equilibrio entre sesgo y varianza. Un algoritmo de aprendizaje con bajo sesgo debe ser "flexible" para que pueda ajustarse bien a los datos. Pero si el algoritmo de aprendizaje es demasiado flexible, se ajustará a cada conjunto de datos de entrenamiento de manera diferente y, por lo tanto, tendrá una gran variación. Un aspecto clave de muchos métodos de aprendizaje supervisado es que pueden ajustar este equilibrio entre sesgo y varianza (ya sea automáticamente o proporcionando un parámetro de sesgo/varianza que el usuario puede ajustar).

Complejidad de la función y cantidad de datos de entrenamiento.

La segunda cuestión es la cantidad de datos de entrenamiento disponibles en relación con la complejidad de la función "verdadera" (clasificador o función de regresión). Si la función verdadera es simple, entonces un algoritmo de aprendizaje "inflexible" con alto sesgo y baja varianza podrá aprenderla a partir de una pequeña cantidad de datos. Pero si la verdadera función es muy compleja (por ejemplo, porque implica interacciones complejas entre muchas características de entrada diferentes y se comporta de manera diferente en diferentes partes del espacio de entrada), entonces la función sólo podrá aprender con una gran cantidad de datos de entrenamiento emparejados. con un algoritmo de aprendizaje "flexible" con bajo sesgo y alta varianza.

Dimensionalidad del espacio de entrada.

Una tercera cuestión es la dimensionalidad del espacio de entrada. Si los vectores de características de entrada tienen dimensiones grandes, aprender la función puede ser difícil incluso si la función verdadera solo depende de una pequeña cantidad de esas características. Esto se debe a que las numerosas dimensiones "adicionales" pueden confundir el algoritmo de aprendizaje y provocar que tenga una gran variación. Por lo tanto, los datos de entrada de grandes dimensiones generalmente requieren ajustar el clasificador para que tenga una varianza baja y un sesgo alto. En la práctica, si el ingeniero puede eliminar manualmente características irrelevantes de los datos de entrada, probablemente mejorará la precisión de la función aprendida. Además, existen muchos algoritmos para la selección de características que buscan identificar las características relevantes y descartar las irrelevantes. Este es un ejemplo de la estrategia más general de reducción de dimensionalidad , que busca mapear los datos de entrada en un espacio de dimensiones inferiores antes de ejecutar el algoritmo de aprendizaje supervisado.

Ruido en los valores de salida.

Una cuarta cuestión es el grado de ruido en los valores de salida deseados (las variables objetivo de supervisión ). Si los valores de salida deseados suelen ser incorrectos (debido a errores humanos o errores de sensores), entonces el algoritmo de aprendizaje no debería intentar encontrar una función que coincida exactamente con los ejemplos de entrenamiento. Intentar ajustar los datos con demasiado cuidado conduce a un sobreajuste . Puede realizar un sobreajuste incluso cuando no haya errores de medición (ruido estocástico) si la función que intenta aprender es demasiado compleja para su modelo de aprendizaje. En tal situación, la parte de la función objetivo que no se puede modelar "corrompe" los datos de entrenamiento; este fenómeno se ha denominado ruido determinista . Cuando está presente cualquier tipo de ruido, es mejor utilizar un estimador de mayor sesgo y menor varianza.

En la práctica, existen varios enfoques para aliviar el ruido en los valores de salida, como la detención temprana para evitar el sobreajuste , así como la detección y eliminación de ejemplos de entrenamiento ruidosos antes de entrenar el algoritmo de aprendizaje supervisado. Hay varios algoritmos que identifican ejemplos de entrenamiento ruidosos y eliminar los ejemplos de entrenamiento ruidosos sospechosos antes del entrenamiento ha disminuido el error de generalización con significación estadística . [4] [5]

Otros factores a considerar

Otros factores a considerar al elegir y aplicar un algoritmo de aprendizaje incluyen los siguientes:

Al considerar una nueva aplicación, el ingeniero puede comparar múltiples algoritmos de aprendizaje y determinar experimentalmente cuál funciona mejor en el problema en cuestión (ver validación cruzada ). Ajustar el rendimiento de un algoritmo de aprendizaje puede llevar mucho tiempo. Dados los recursos fijos, a menudo es mejor dedicar más tiempo a recopilar datos de entrenamiento adicionales y características más informativas que dedicar más tiempo a ajustar los algoritmos de aprendizaje.

Algoritmos

Los algoritmos de aprendizaje más utilizados son:

Cómo funcionan los algoritmos de aprendizaje supervisado

Dado un conjunto de ejemplos de entrenamiento de la forma tal que es el vector de características del -ésimo ejemplo y es su etiqueta (es decir, clase), un algoritmo de aprendizaje busca una función , donde es el espacio de entrada y el espacio de salida. La función es un elemento de algún espacio de funciones posibles , normalmente llamado espacio de hipótesis . A veces es conveniente representar utilizando una función de puntuación que se define como devolver el valor que da la puntuación más alta: . Denotemos el espacio de funciones de puntuación.

Aunque y puede ser cualquier espacio de funciones, muchos algoritmos de aprendizaje son modelos probabilísticos que toman la forma de un modelo de probabilidad condicional o toman la forma de un modelo de probabilidad conjunta . Por ejemplo, el análisis ingenuo de Bayes y el análisis discriminante lineal son modelos de probabilidad conjunta, mientras que la regresión logística es un modelo de probabilidad condicional.

Hay dos enfoques básicos para elegir o : minimización del riesgo empírico y minimización del riesgo estructural . [6] La minimización empírica del riesgo busca la función que mejor se ajuste a los datos de entrenamiento. La minimización del riesgo estructural incluye una función de penalización que controla el equilibrio entre sesgo y varianza.

En ambos casos, se supone que el conjunto de entrenamiento consta de una muestra de pares independientes e idénticamente distribuidos . Para medir qué tan bien se ajusta una función a los datos de entrenamiento, se define una función de pérdida . Por ejemplo, en el entrenamiento , la pérdida de predicción del valor es .

El riesgo de función se define como la pérdida esperada de . Esto se puede estimar a partir de los datos de entrenamiento como

.

Minimización empírica del riesgo

En la minimización empírica del riesgo, el algoritmo de aprendizaje supervisado busca la función que minimiza . Por lo tanto, se puede construir un algoritmo de aprendizaje supervisado aplicando un algoritmo de optimización para encontrar .

Cuando es una distribución de probabilidad condicional y la función de pérdida es el logaritmo de probabilidad negativo: entonces la minimización empírica del riesgo es equivalente a la estimación de máxima verosimilitud .

Cuando contiene muchas funciones candidatas o el conjunto de entrenamiento no es lo suficientemente grande, la minimización del riesgo empírico conduce a una alta varianza y una generalización deficiente. El algoritmo de aprendizaje es capaz de memorizar los ejemplos de entrenamiento sin generalizar bien. A esto se le llama sobreajuste .

Minimización de riesgos estructurales

La minimización del riesgo estructural busca evitar el sobreajuste incorporando una penalización de regularización en la optimización. Se puede considerar que la penalización por regularización implementa una forma de la navaja de Occam que prefiere funciones más simples a otras más complejas.

Se ha empleado una amplia variedad de sanciones que corresponden a diferentes definiciones de complejidad. Por ejemplo, considere el caso donde la función es una función lineal de la forma

.

Una penalización de regularización popular es , que es la norma euclidiana al cuadrado de los pesos, también conocida como norma. Otras normas incluyen la norma, y ​​la "norma" , que es el número de s distintos de cero. La pena se denotará por .

El problema de optimización del aprendizaje supervisado consiste en encontrar la función que minimice

El parámetro controla la compensación entre sesgo y varianza. Cuando , esto proporciona una minimización del riesgo empírico con bajo sesgo y alta varianza. Cuando es grande, el algoritmo de aprendizaje tendrá un sesgo alto y una varianza baja. El valor de se puede elegir empíricamente mediante validación cruzada .

La penalización por complejidad tiene una interpretación bayesiana como la probabilidad anterior logarítmica negativa de , en cuyo caso es la probabilidad posterior de .

entrenamiento generativo

Los métodos de entrenamiento descritos anteriormente son métodos de entrenamiento discriminativos , porque buscan encontrar una función que discrimine bien entre los diferentes valores de salida (ver modelo discriminativo ). Para el caso especial donde hay una distribución de probabilidad conjunta y la función de pérdida es la probabilidad logarítmica negativa , se dice que un algoritmo de minimización de riesgos realiza entrenamiento generativo , porque puede considerarse como un modelo generativo que explica cómo se generaron los datos. Los algoritmos de entrenamiento generativo son a menudo más simples y computacionalmente más eficientes que los algoritmos de entrenamiento discriminativos. En algunos casos, la solución se puede calcular en forma cerrada como en el análisis ingenuo de Bayes y discriminante lineal .

Generalizaciones

Hay varias formas en que se puede generalizar el problema estándar de aprendizaje supervisado:

Enfoques y algoritmos

Aplicaciones

Asuntos Generales

Ver también

Referencias

  1. ^ Mehryar Mohri , Afshin Rostamizadeh, Ameet Talwalkar (2012) Fundamentos del aprendizaje automático , The MIT Press ISBN  9780262018258 .
  2. ^ S. Geman, E. Bienenstock y R. Doursat (1992). Las redes neuronales y el dilema sesgo/varianza. Computación neuronal 4, 1–58.
  3. ^ G. James (2003) Varianza y sesgo de funciones de pérdida general, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf)
  4. ^ CE Brodely y MA Friedl (1999). Identificación y eliminación de instancias de capacitación mal etiquetadas, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf)
  5. ^ MR Smith y T. Martínez (2011). "Mejora de la precisión de la clasificación mediante la identificación y eliminación de instancias que deberían clasificarse erróneamente". Actas de la Conferencia Conjunta Internacional sobre Redes Neuronales (IJCNN 2011) . págs. 2690–2697. CiteSeerX 10.1.1.221.1371 . doi :10.1109/IJCNN.2011.6033571. 
  6. ^ Vapnik, VN La naturaleza de la teoría del aprendizaje estadístico (2ª ed.), Springer Verlag, 2000.
  7. ^ A. Maity (2016). "Clasificación supervisada de datos polarimétricos RADARSAT-2 para diferentes características del terreno". arXiv : 1608.00501 [cs.CV].
  8. ^ "Tecnologías clave para adquisiciones ágiles | Publicaciones SIPMM". publicación.sipmm.edu.sg . 2020-10-09 . Consultado el 16 de junio de 2022 .

enlaces externos