En aprendizaje automático y clasificación estadística , la clasificación multiclase o clasificación multinomial es el problema de clasificar instancias en una de tres o más clases (clasificar instancias en una de dos clases se llama clasificación binaria ).
Si bien muchos algoritmos de clasificación (en particular, la regresión logística multinomial ) permiten naturalmente el uso de más de dos clases, algunos son por naturaleza algoritmos binarios ; Sin embargo, estos pueden convertirse en clasificadores multinomiales mediante una variedad de estrategias.
La clasificación multiclase no debe confundirse con la clasificación de múltiples etiquetas , donde se deben predecir múltiples etiquetas para cada instancia.
Las técnicas de clasificación de clases múltiples existentes se pueden clasificar en
Esta sección analiza estrategias para reducir el problema de la clasificación multiclase a múltiples problemas de clasificación binaria. Se puede clasificar en uno contra descanso y uno contra uno . Las técnicas desarrolladas basadas en la reducción del problema multiclase a múltiples problemas binarios también pueden denominarse técnicas de transformación de problemas.
Uno contra el resto [2] : 182, 338 (OvR o uno contra todos , OvA o uno contra todos , OAA) la estrategia implica entrenar un único clasificador por clase, con las muestras de esa clase como positivas. muestras y todas las demás muestras como negativas. Esta estrategia requiere que los clasificadores base produzcan una puntuación de valor real para su decisión (ver también regla de puntuación ), en lugar de simplemente una etiqueta de clase; Las etiquetas de clases discretas por sí solas pueden generar ambigüedades, donde se predicen múltiples clases para una sola muestra. [2] : 182 [nota 1]
En pseudocódigo, el algoritmo de entrenamiento para un alumno de OvR construido a partir de un alumno de clasificación binaria L es el siguiente:
Tomar decisiones significa aplicar todos los clasificadores a una muestra x invisible y predecir la etiqueta k para la cual el clasificador correspondiente informa el puntaje de confianza más alto:
Aunque esta estrategia es popular, es una heurística que adolece de varios problemas. En primer lugar, la escala de los valores de confianza puede diferir entre los clasificadores binarios. En segundo lugar, incluso si la distribución de clases está equilibrada en el conjunto de entrenamiento, los alumnos de clasificación binaria ven distribuciones desequilibradas porque normalmente el conjunto de aspectos negativos que ven es mucho mayor que el conjunto de aspectos positivos. [2] : 338
En la reducción uno contra uno (OvO), se entrena clasificadores binarios K ( K − 1) / 2 para un problema multiclase de K vías; cada uno recibe las muestras de un par de clases del conjunto de entrenamiento original y debe aprender a distinguir estas dos clases. En el momento de la predicción, se aplica un esquema de votación: todos los clasificadores K ( K − 1) / 2 se aplican a una muestra invisible y el clasificador combinado predice la clase que obtuvo el mayor número de predicciones "+1". [2] : 339
Al igual que OvR, OvO adolece de ambigüedades en el sentido de que algunas regiones de su espacio de entrada pueden recibir el mismo número de votos. [2] : 183
Esta sección analiza estrategias para ampliar los clasificadores binarios existentes para resolver problemas de clasificación de clases múltiples. Se han desarrollado varios algoritmos basados en redes neuronales , árboles de decisión , k-vecinos más cercanos , Bayes ingenuos , máquinas de vectores de soporte y máquinas de aprendizaje extremo para abordar problemas de clasificación de clases múltiples. Este tipo de técnicas también pueden denominarse técnicas de adaptación de algoritmos.
Los perceptrones multiclase proporcionan una extensión natural al problema multiclase. En lugar de tener solo una neurona en la capa de salida, con salida binaria, se podrían tener N neuronas binarias que conduzcan a una clasificación de clases múltiples. En la práctica, la última capa de una red neuronal suele ser una capa de función softmax , que es la simplificación algebraica de N clasificadores logísticos, normalizados por clase por la suma de los N-1 otros clasificadores logísticos. La clasificación basada en redes neuronales ha aportado importantes mejoras y posibilidades de pensar desde diferentes perspectivas. [3] [4]
Las máquinas de aprendizaje extremo (ELM) son un caso especial de redes neuronales de alimentación directa de una sola capa oculta (SLFN) en las que los pesos de entrada y los sesgos de los nodos ocultos se pueden elegir al azar. Se realizan muchas variantes y desarrollos en el ELM para la clasificación multiclase.
k-vecinos más cercanos kNN se considera uno de los algoritmos de clasificación no paramétricos más antiguos. Para clasificar un ejemplo desconocido, se mide la distancia entre ese ejemplo y todos los demás ejemplos de entrenamiento. Se identifican las k distancias más pequeñas y la clase más representada por estos k vecinos más cercanos se considera la etiqueta de clase de salida.
Naive Bayes es un clasificador exitoso basado en el principio de máximo a posteriori (MAP). Este enfoque es naturalmente extensible al caso de tener más de dos clases y demostró funcionar bien a pesar del supuesto simplificador subyacente de independencia condicional .
El aprendizaje de árboles de decisión es una poderosa técnica de clasificación. El árbol intenta inferir una división de los datos de entrenamiento en función de los valores de las características disponibles para producir una buena generalización. Naturalmente, el algoritmo puede manejar problemas de clasificación binaria o multiclase. Los nodos hoja pueden hacer referencia a cualquiera de las clases K interesadas.
Las máquinas de vectores de soporte se basan en la idea de maximizar el margen, es decir, maximizar la distancia mínima desde el hiperplano de separación hasta el ejemplo más cercano. El SVM básico sólo soporta clasificación binaria, pero se han propuesto extensiones para manejar también el caso de clasificación multiclase. En estas extensiones, se agregan parámetros y restricciones adicionales al problema de optimización para manejar la separación de las diferentes clases.
La programación de expresiones múltiples (MEP) es un algoritmo evolutivo para generar programas informáticos (que también se puede utilizar para tareas de clasificación). MEP tiene una característica única: codifica múltiples programas en un solo cromosoma. Cada uno de estos programas se puede utilizar para generar el resultado de una clase, lo que hace que MEP sea naturalmente adecuado para resolver problemas de clasificación de clases múltiples.
La clasificación jerárquica aborda el problema de la clasificación de clases múltiples dividiendo el espacio de salida, es decir, en un árbol . Cada nodo principal se divide en varios nodos secundarios y el proceso continúa hasta que cada nodo secundario represente solo una clase. Se han propuesto varios métodos basados en la clasificación jerárquica.
Según los paradigmas de aprendizaje, las técnicas de clasificación de clases múltiples existentes se pueden clasificar en aprendizaje por lotes y aprendizaje en línea . Los algoritmos de aprendizaje por lotes requieren que todas las muestras de datos estén disponibles de antemano. Entrena el modelo utilizando todos los datos de entrenamiento y luego predice la muestra de prueba utilizando la relación encontrada. Los algoritmos de aprendizaje en línea, por otro lado, construyen incrementalmente sus modelos en iteraciones secuenciales. En la iteración t, un algoritmo en línea recibe una muestra, x t y predice su etiqueta ŷ t utilizando el modelo actual; Luego, el algoritmo recibe y t , la etiqueta verdadera de x t y actualiza su modelo en función del par muestra-etiqueta: (x t , y t ). Recientemente, se ha desarrollado un nuevo paradigma de aprendizaje llamado técnica de aprendizaje progresivo. [5] La técnica de aprendizaje progresivo es capaz no solo de aprender de nuevas muestras, sino también de aprender nuevas clases de datos y, aún así, retener el conocimiento aprendido hasta el momento. [6]