Clasificación multiclase

En aprendizaje automático y clasificación estadística , la clasificación multiclase o clasificación multinomial es el problema de clasificar instancias en una de tres o más clases (clasificar instancias en una de dos clases se llama clasificación binaria ).

Si bien muchos algoritmos de clasificación (en particular, la regresión logística multinomial ) permiten naturalmente el uso de más de dos clases, algunos son por naturaleza algoritmos binarios ; Sin embargo, estos pueden convertirse en clasificadores multinomiales mediante una variedad de estrategias.

La clasificación multiclase no debe confundirse con la clasificación de múltiples etiquetas , donde se deben predecir múltiples etiquetas para cada instancia.

Estrategias generales

Las técnicas de clasificación de clases múltiples existentes se pueden clasificar en

transformación a binario
extensión de binario
clasificación jerárquica. ^[1]

Transformación a binario

Esta sección analiza estrategias para reducir el problema de la clasificación multiclase a múltiples problemas de clasificación binaria. Se puede clasificar en uno contra descanso y uno contra uno . Las técnicas desarrolladas basadas en la reducción del problema multiclase a múltiples problemas binarios también pueden denominarse técnicas de transformación de problemas.

Uno contra el resto

Uno contra el resto ^[2]^{: 182, 338} (OvR o uno contra todos , OvA o uno contra todos , OAA) la estrategia implica entrenar un único clasificador por clase, con las muestras de esa clase como positivas. muestras y todas las demás muestras como negativas. Esta estrategia requiere que los clasificadores base produzcan una puntuación de valor real para su decisión (ver también regla de puntuación ), en lugar de simplemente una etiqueta de clase; Las etiquetas de clases discretas por sí solas pueden generar ambigüedades, donde se predicen múltiples clases para una sola muestra. ^[2]^{: 182}^{[nota 1]}

En pseudocódigo, el algoritmo de entrenamiento para un alumno de OvR construido a partir de un alumno de clasificación binaria $L$ es el siguiente:

Entradas:

$L$ , un alumno (algoritmo de entrenamiento para clasificadores binarios)
muestras $X$
etiquetas $y$ donde $y i$ ∈ {1, … $K$ } es la etiqueta de la muestra $X i$

Producción:

una lista de clasificadores $f k$ para $k$ ∈ {1,…, $K$ }

Procedimiento:

Para cada k en {1,…, K }
- Construya un nuevo vector de etiqueta $z$ donde $z i$ = $y i$ si $y i = k$ y $z i = 0$ en caso contrario
- Aplicar $L$ a $X$ , $z$ para obtener $f k$

Tomar decisiones significa aplicar todos los clasificadores a una muestra $x$ invisible y predecir la etiqueta $k$ para la cual el clasificador correspondiente informa el puntaje de confianza más alto:

{\hat {y}}={\underset {k\in \{1\ldots K\}}{\arg \!\max }}\;f_{k}(x)

Aunque esta estrategia es popular, es una heurística que adolece de varios problemas. En primer lugar, la escala de los valores de confianza puede diferir entre los clasificadores binarios. En segundo lugar, incluso si la distribución de clases está equilibrada en el conjunto de entrenamiento, los alumnos de clasificación binaria ven distribuciones desequilibradas porque normalmente el conjunto de aspectos negativos que ven es mucho mayor que el conjunto de aspectos positivos. ^[2]^{: 338}

Uno contra uno

En la reducción uno contra uno (OvO), se entrena clasificadores binarios $K (K - 1) / 2$ para un problema multiclase $de K$ vías; cada uno recibe las muestras de un par de clases del conjunto de entrenamiento original y debe aprender a distinguir estas dos clases. En el momento de la predicción, se aplica un esquema de votación: todos los clasificadores $K (K - 1) / 2$ se aplican a una muestra invisible y el clasificador combinado predice la clase que obtuvo el mayor número de predicciones "+1". ^[2]^{: 339}

Al igual que OvR, OvO adolece de ambigüedades en el sentido de que algunas regiones de su espacio de entrada pueden recibir el mismo número de votos. ^[2]^{: 183}

Extensión desde binario

Esta sección analiza estrategias para ampliar los clasificadores binarios existentes para resolver problemas de clasificación de clases múltiples. Se han desarrollado varios algoritmos basados en redes neuronales , árboles de decisión , k-vecinos más cercanos , Bayes ingenuos , máquinas de vectores de soporte y máquinas de aprendizaje extremo para abordar problemas de clasificación de clases múltiples. Este tipo de técnicas también pueden denominarse técnicas de adaptación de algoritmos.

Redes neuronales

Los perceptrones multiclase proporcionan una extensión natural al problema multiclase. En lugar de tener solo una neurona en la capa de salida, con salida binaria, se podrían tener N neuronas binarias que conduzcan a una clasificación de clases múltiples. En la práctica, la última capa de una red neuronal suele ser una capa de función softmax , que es la simplificación algebraica de N clasificadores logísticos, normalizados por clase por la suma de los N-1 otros clasificadores logísticos. La clasificación basada en redes neuronales ha aportado importantes mejoras y posibilidades de pensar desde diferentes perspectivas. ^[3]^[4]

Máquinas de aprendizaje extremas

Las máquinas de aprendizaje extremo (ELM) son un caso especial de redes neuronales de alimentación directa de una sola capa oculta (SLFN) en las que los pesos de entrada y los sesgos de los nodos ocultos se pueden elegir al azar. Se realizan muchas variantes y desarrollos en el ELM para la clasificación multiclase.

k-vecinos más cercanos

k-vecinos más cercanos kNN se considera uno de los algoritmos de clasificación no paramétricos más antiguos. Para clasificar un ejemplo desconocido, se mide la distancia entre ese ejemplo y todos los demás ejemplos de entrenamiento. Se identifican las k distancias más pequeñas y la clase más representada por estos k vecinos más cercanos se considera la etiqueta de clase de salida.

Bayes ingenuo

Naive Bayes es un clasificador exitoso basado en el principio de máximo a posteriori (MAP). Este enfoque es naturalmente extensible al caso de tener más de dos clases y demostró funcionar bien a pesar del supuesto simplificador subyacente de independencia condicional .

Árboles de decisión

El aprendizaje de árboles de decisión es una poderosa técnica de clasificación. El árbol intenta inferir una división de los datos de entrenamiento en función de los valores de las características disponibles para producir una buena generalización. Naturalmente, el algoritmo puede manejar problemas de clasificación binaria o multiclase. Los nodos hoja pueden hacer referencia a cualquiera de las clases K interesadas.

Máquinas de vectores de soporte

Las máquinas de vectores de soporte se basan en la idea de maximizar el margen, es decir, maximizar la distancia mínima desde el hiperplano de separación hasta el ejemplo más cercano. El SVM básico sólo soporta clasificación binaria, pero se han propuesto extensiones para manejar también el caso de clasificación multiclase. En estas extensiones, se agregan parámetros y restricciones adicionales al problema de optimización para manejar la separación de las diferentes clases.

Programación de múltiples expresiones

La programación de expresiones múltiples (MEP) es un algoritmo evolutivo para generar programas informáticos (que también se puede utilizar para tareas de clasificación). MEP tiene una característica única: codifica múltiples programas en un solo cromosoma. Cada uno de estos programas se puede utilizar para generar el resultado de una clase, lo que hace que MEP sea naturalmente adecuado para resolver problemas de clasificación de clases múltiples.

Clasificación jerárquica

La clasificación jerárquica aborda el problema de la clasificación de clases múltiples dividiendo el espacio de salida, es decir, en un árbol . Cada nodo principal se divide en varios nodos secundarios y el proceso continúa hasta que cada nodo secundario represente solo una clase. Se han propuesto varios métodos basados en la clasificación jerárquica.

Paradigmas de aprendizaje

Según los paradigmas de aprendizaje, las técnicas de clasificación de clases múltiples existentes se pueden clasificar en aprendizaje por lotes y aprendizaje en línea . Los algoritmos de aprendizaje por lotes requieren que todas las muestras de datos estén disponibles de antemano. Entrena el modelo utilizando todos los datos de entrenamiento y luego predice la muestra de prueba utilizando la relación encontrada. Los algoritmos de aprendizaje en línea, por otro lado, construyen incrementalmente sus modelos en iteraciones secuenciales. En la iteración t, un algoritmo en línea recibe una muestra, x _t y predice su etiqueta ŷ _t utilizando el modelo actual; Luego, el algoritmo recibe y _t , la etiqueta verdadera de x _t y actualiza su modelo en función del par muestra-etiqueta: (x _t , y _t ). Recientemente, se ha desarrollado un nuevo paradigma de aprendizaje llamado técnica de aprendizaje progresivo. ^[5] La técnica de aprendizaje progresivo es capaz no solo de aprender de nuevas muestras, sino también de aprender nuevas clases de datos y, aún así, retener el conocimiento aprendido hasta el momento. ^[6]

Ver también

Notas

^ En la clasificación de etiquetas múltiples , OvR se conoce como relevancia binaria y la predicción de múltiples clases se considera una característica, no un problema.

Referencias

^ Mohamed, Aly (2005). "Encuesta sobre métodos de clasificación multiclase". Informe técnico, Caltech .
^ obispo abcde, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador.
^ Ekin, Cubuk (2019). "Autoaumento: aprendizaje de estrategias de aumento a partir de datos". Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones .
^ Kabir, HM Dipu (2023). "Reducción de la incertidumbre de activación de clases con información previa". arXiv preimpresión arXiv:2305.03238 .
^ Venkatesan, Rajasekar; Meng Joo, Er (2016). "Una novedosa técnica de aprendizaje progresivo para la clasificación de clases múltiples". Neurocomputación . 207 : 310–321. arXiv : 1609.00085 . doi :10.1016/j.neucom.2016.05.006. S2CID 12510650.
^ Venkatesan, Rajasekar. "Técnica de aprendizaje progresivo".