clasificador lineal

En el campo del aprendizaje automático , el objetivo de la clasificación estadística es utilizar las características de un objeto para identificar a qué clase (o grupo) pertenece. Un clasificador lineal logra esto tomando una decisión de clasificación basada en el valor de una combinación lineal de características. Las características de un objeto también se conocen como valores de características y normalmente se presentan a la máquina en un vector llamado vector de características . Dichos clasificadores funcionan bien para problemas prácticos como la clasificación de documentos y, más generalmente, para problemas con muchas variables ( características ), alcanzando niveles de precisión comparables a los clasificadores no lineales y tomando menos tiempo para entrenarlos y usarlos. ^[1] 5–12–23

Definición

Si el vector de características de entrada al clasificador es un vector real , entonces la puntuación de salida es ${\vec {x}}$

y=f({\vec {w}}\cdot {\vec {x}})=f\left(\sum _{j}w_{j}x_{j}\right),

donde es un vector real de pesos y f es una función que convierte el producto escalar de los dos vectores en la salida deseada. (En otras palabras, es un mapeo funcional lineal o de una sola forma en R ). El vector de peso se aprende a partir de un conjunto de muestras de entrenamiento etiquetadas. A menudo, f es una función de umbral , que asigna todos los valores por encima de un cierto umbral a la primera clase y todos los demás valores a la segunda clase; p.ej, ${\vec {w}}$ ${\vec {w}}$ ${\vec {x}}$ ${\vec {w}}$ ${\vec {w}}\cdot {\vec {x}}$

f(\mathbf {x} )={\begin{casos}1&{\text{if }}\ \mathbf {w} ^{T}\cdot \mathbf {x} >\theta ,\\0& {\text{de lo contrario}}\end{casos}}

El superíndice T indica la transpuesta y es un umbral escalar. Una f más compleja podría dar la probabilidad de que un artículo pertenezca a una determinada clase. $\theta$

Para un problema de clasificación de dos clases, se puede visualizar la operación de un clasificador lineal como dividir un espacio de entrada de alta dimensión con un hiperplano : todos los puntos en un lado del hiperplano se clasifican como "sí", mientras que los demás se clasifican como "No".

Un clasificador lineal se utiliza a menudo en situaciones en las que la velocidad de clasificación es un problema, ya que suele ser el clasificador más rápido, especialmente cuando es escaso. Además, los clasificadores lineales suelen funcionar muy bien cuando el número de dimensiones es grande, como en la clasificación de documentos , donde cada elemento suele ser el número de apariciones de una palabra en un documento (consulte la matriz de términos de documento ). En tales casos, el clasificador debe estar bien regularizado . ${\vec {x}}$ ${\vec {x}}$ ${\vec {x}}$

Modelos generativos versus modelos discriminativos

Hay dos clases amplias de métodos para determinar los parámetros de un clasificador lineal . Pueden ser modelos generativos y discriminativos . ^[2]^[3] Métodos del primer modelo de distribución de probabilidad conjunta , mientras que métodos del último modelo de funciones de densidad condicional . Ejemplos de tales algoritmos incluyen: ${\vec {w}}$ $P({\rm {clase}}|{\vec {x}})$

Análisis discriminante lineal (LDA): asume modelos de densidad condicional gaussianos
Clasificador ingenuo de Bayes con modelos de eventos de Bernoulli multinomiales o multivariados.

El segundo conjunto de métodos incluye modelos discriminativos , que intentan maximizar la calidad del resultado en un conjunto de entrenamiento . Los términos adicionales en la función de costo de capacitación pueden realizar fácilmente la regularización del modelo final. Ejemplos de entrenamiento discriminativo de clasificadores lineales incluyen:

Regresión logística : estimación de máxima verosimilitud al suponer que el conjunto de entrenamiento observado fue generado por un modelo binomial que depende de la salida del clasificador. ${\vec {w}}$
Perceptrón : un algoritmo que intenta corregir todos los errores encontrados en el conjunto de entrenamiento.
Análisis discriminante lineal de Fisher: un algoritmo (diferente de "LDA") que maximiza la relación entre la dispersión entre clases y la dispersión dentro de la clase, sin ninguna otra suposición. En esencia, es un método de reducción de dimensionalidad para la clasificación binaria. ^[4]
Máquina de vectores de soporte : un algoritmo que maximiza el margen entre el hiperplano de decisión y los ejemplos del conjunto de entrenamiento.

Nota: A pesar de su nombre, LDA no pertenece a la clase de modelos discriminativos de esta taxonomía. Sin embargo, su nombre tiene sentido cuando comparamos LDA con el otro algoritmo principal de reducción de dimensionalidad lineal : el análisis de componentes principales (PCA). LDA es un algoritmo de aprendizaje supervisado que utiliza las etiquetas de los datos, mientras que PCA es un algoritmo de aprendizaje no supervisado que ignora las etiquetas. En resumen, el nombre es un artefacto histórico. ^[5]^{: 117}

El entrenamiento discriminativo a menudo produce una mayor precisión que el modelado de funciones de densidad condicionales ^{[ cita requerida ]} . Sin embargo, manejar los datos faltantes suele ser más fácil con modelos de densidad condicional ^{[ cita necesaria ]} .

Todos los algoritmos de clasificador lineal enumerados anteriormente se pueden convertir en algoritmos no lineales que operan en un espacio de entrada diferente , utilizando el truco del núcleo . $\varphi ({\vec {x}})$

Entrenamiento discriminativo

El entrenamiento discriminativo de clasificadores lineales generalmente se realiza de forma supervisada , mediante un algoritmo de optimización al que se le proporciona un conjunto de entrenamiento con los resultados deseados y una función de pérdida que mide la discrepancia entre los resultados del clasificador y los resultados deseados. Así, el algoritmo de aprendizaje resuelve un problema de optimización de la forma ^[1]

{\underset {\mathbf {w} }{\arg \min }}\;R(\mathbf {w} )+C\sum _{i=1}^{N}L(y_{i} ,\mathbf {w} ^{\mathsf {T}}\mathbf {x} _{i})

dónde

$w$ es un vector de parámetros del clasificador,
$L (y i, w T x i)$ es una función de pérdida que mide la discrepancia entre la predicción del clasificador y la salida verdadera $y i$ para el $i'ésimo$ ejemplo de entrenamiento,
$R (w)$ es una función de regularización que evita que los parámetros crezcan demasiado (provocando un sobreajuste ), y
$C$ es una constante escalar (establecida por el usuario del algoritmo de aprendizaje) que controla el equilibrio entre la regularización y la función de pérdida.

Las funciones de pérdida populares incluyen la pérdida de bisagra (para SVM lineales) y la pérdida logarítmica (para regresión logística lineal). Si la función de regularización $R$ es convexa , entonces lo anterior es un problema convexo . ^[1] Existen muchos algoritmos para resolver este tipo de problemas; Los más populares para la clasificación lineal incluyen el descenso de gradiente ( estocástico ) , L-BFGS , el descenso de coordenadas y los métodos de Newton .

Ver también

Notas

^ a b C Guo-Xun Yuan; Chia-Hua Ho; Chih-Jen Lin (2012). "Avances recientes en clasificación lineal a gran escala" (PDF) . Proc. IEEE . 100 (9). Archivado (PDF) desde el original el 10 de junio de 2017.
^ T. Mitchell, Clasificadores generativos y discriminativos: Bayes ingenuo y regresión logística. Versión borrador, 2005
^ AY Ng y MI Jordan. Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Naive Bayes. en NIPS 14, 2002.
^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN 0-471-05669-3
^ RO Duda, PE Hart, DG Stork, "Clasificación de patrones", Wiley, (2001). ISBN 0-471-05669-3

Otras lecturas

Y. Yang, X. Liu, "Un reexamen de la categorización de textos", Proc. Conferencia ACM SIGIR, págs. 42–49, (1999). papel @ citeseer
R. Herbrich, "Aprendizaje de clasificadores de núcleo: teoría y algoritmos", MIT Press, (2001). ISBN 0-262-08306-X