stringtranslate.com

clasificador lineal

En el campo del aprendizaje automático , el objetivo de la clasificación estadística es utilizar las características de un objeto para identificar a qué clase (o grupo) pertenece. Un clasificador lineal logra esto tomando una decisión de clasificación basada en el valor de una combinación lineal de características. Las características de un objeto también se conocen como valores de características y normalmente se presentan a la máquina en un vector llamado vector de características . Dichos clasificadores funcionan bien para problemas prácticos como la clasificación de documentos y, más generalmente, para problemas con muchas variables ( características ), alcanzando niveles de precisión comparables a los clasificadores no lineales y tomando menos tiempo para entrenarlos y usarlos. [1] 5–12–23

Definición

En este caso, los puntos sólidos y vacíos se pueden clasificar correctamente mediante cualquier número de clasificadores lineales. H1 (azul) los clasifica correctamente, al igual que H2 (rojo). H2 podría considerarse "mejor" en el sentido de que también está más alejado de ambos grupos. H3 (verde) no clasifica correctamente los puntos.

Si el vector de características de entrada al clasificador es un vector real , entonces la puntuación de salida es

donde es un vector real de pesos y f es una función que convierte el producto escalar de los dos vectores en la salida deseada. (En otras palabras, es un mapeo funcional lineal o de una sola forma en R ). El vector de peso se aprende a partir de un conjunto de muestras de entrenamiento etiquetadas. A menudo, f es una función de umbral , que asigna todos los valores por encima de un cierto umbral a la primera clase y todos los demás valores a la segunda clase; p.ej,

El superíndice T indica la transpuesta y es un umbral escalar. Una f más compleja podría dar la probabilidad de que un artículo pertenezca a una determinada clase.

Para un problema de clasificación de dos clases, se puede visualizar la operación de un clasificador lineal como dividir un espacio de entrada de alta dimensión con un hiperplano : todos los puntos en un lado del hiperplano se clasifican como "sí", mientras que los demás se clasifican como "No".

Un clasificador lineal se utiliza a menudo en situaciones en las que la velocidad de clasificación es un problema, ya que suele ser el clasificador más rápido, especialmente cuando es escaso. Además, los clasificadores lineales suelen funcionar muy bien cuando el número de dimensiones es grande, como en la clasificación de documentos , donde cada elemento suele ser el número de apariciones de una palabra en un documento (consulte la matriz de términos de documento ). En tales casos, el clasificador debe estar bien regularizado .

Modelos generativos versus modelos discriminativos

Hay dos clases amplias de métodos para determinar los parámetros de un clasificador lineal . Pueden ser modelos generativos y discriminativos . [2] [3] Métodos del primer modelo de distribución de probabilidad conjunta , mientras que métodos del último modelo de funciones de densidad condicional . Ejemplos de tales algoritmos incluyen:

El segundo conjunto de métodos incluye modelos discriminativos , que intentan maximizar la calidad del resultado en un conjunto de entrenamiento . Los términos adicionales en la función de costo de capacitación pueden realizar fácilmente la regularización del modelo final. Ejemplos de entrenamiento discriminativo de clasificadores lineales incluyen:

Nota: A pesar de su nombre, LDA no pertenece a la clase de modelos discriminativos de esta taxonomía. Sin embargo, su nombre tiene sentido cuando comparamos LDA con el otro algoritmo principal de reducción de dimensionalidad lineal : el análisis de componentes principales (PCA). LDA es un algoritmo de aprendizaje supervisado que utiliza las etiquetas de los datos, mientras que PCA es un algoritmo de aprendizaje no supervisado que ignora las etiquetas. En resumen, el nombre es un artefacto histórico. [5] : 117 

El entrenamiento discriminativo a menudo produce una mayor precisión que el modelado de funciones de densidad condicionales [ cita requerida ] . Sin embargo, manejar los datos faltantes suele ser más fácil con modelos de densidad condicional [ cita necesaria ] .

Todos los algoritmos de clasificador lineal enumerados anteriormente se pueden convertir en algoritmos no lineales que operan en un espacio de entrada diferente , utilizando el truco del núcleo .

Entrenamiento discriminativo

El entrenamiento discriminativo de clasificadores lineales generalmente se realiza de forma supervisada , mediante un algoritmo de optimización al que se le proporciona un conjunto de entrenamiento con los resultados deseados y una función de pérdida que mide la discrepancia entre los resultados del clasificador y los resultados deseados. Así, el algoritmo de aprendizaje resuelve un problema de optimización de la forma [1]

dónde

Las funciones de pérdida populares incluyen la pérdida de bisagra (para SVM lineales) y la pérdida logarítmica (para regresión logística lineal). Si la función de regularización R es convexa , entonces lo anterior es un problema convexo . [1] Existen muchos algoritmos para resolver este tipo de problemas; Los más populares para la clasificación lineal incluyen el descenso de gradiente ( estocástico ) , L-BFGS , el descenso de coordenadas y los métodos de Newton .

Ver también

Notas

  1. ^ a b C Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "Avances recientes en clasificación lineal a gran escala" (PDF) . Proc. IEEE . 100 (9). Archivado (PDF) desde el original el 10 de junio de 2017.
  2. ^ T. Mitchell, Clasificadores generativos y discriminativos: Bayes ingenuo y regresión logística. Versión borrador, 2005
  3. ^ AY Ng y MI Jordan. Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Naive Bayes. en NIPS 14, 2002.
  4. ^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN 0-471-05669-3 
  5. ^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN 0-471-05669-3 

Otras lecturas

  1. Y. Yang, X. Liu, "Un reexamen de la categorización de textos", Proc. Conferencia ACM SIGIR, págs. 42–49, (1999). papel @ citeseer
  2. R. Herbrich, "Aprendizaje de clasificadores de núcleo: teoría y algoritmos", MIT Press, (2001). ISBN 0-262-08306-X