La clasificación es la actividad de asignar objetos a algunas clases o categorías preexistentes. Esto es distinto de la tarea de establecer las clases en sí mismas (por ejemplo, mediante el análisis de conglomerados ). [1] Algunos ejemplos son las pruebas de diagnóstico, la identificación de correos electrónicos no deseados y la decisión de otorgar o no una licencia de conducir a alguien.
Además de "categoría", los sinónimos o casi sinónimos de "clase" incluyen "tipo", "especie", "orden", "concepto", "taxón", "grupo", "identificación" y "división".
El significado de la palabra "clasificación" (y sus sinónimos) puede tener varios significados relacionados. Puede abarcar tanto la clasificación como la creación de clases, como por ejemplo en "la tarea de categorizar páginas en Wikipedia"; esta actividad general se incluye en Taxonomía . Puede referirse exclusivamente al esquema subyacente de clases (que de otro modo podría llamarse taxonomía). O puede referirse a la etiqueta que el clasificador le da a un objeto.
La clasificación es parte de muchos tipos diferentes de actividades y se estudia desde muchos puntos de vista diferentes, incluidos la medicina , la filosofía , el derecho , la antropología , la biología , la taxonomía , la cognición , las comunicaciones , la organización del conocimiento , la psicología , las estadísticas , el aprendizaje automático , la economía y las matemáticas .
El trabajo metodológico destinado a mejorar la precisión de un clasificador se divide comúnmente entre casos en los que hay exactamente dos clases ( clasificación binaria ) y casos en los que hay tres o más clases ( clasificación multiclase ).
A diferencia de la teoría de la decisión , se supone que un clasificador repite la tarea de clasificación una y otra vez. Y a diferencia de una lotería , se supone que cada clasificación puede ser correcta o incorrecta; en la teoría de la medición, la clasificación se entiende como una medición contra una escala nominal . Por lo tanto, es posible intentar medir la precisión de un clasificador.
La medición de la precisión de un clasificador permite elegir entre dos clasificadores alternativos. Esto es importante tanto al desarrollar un clasificador como al elegir qué clasificador implementar. Sin embargo, existen muchos métodos diferentes para evaluar la precisión de un clasificador y no hay un método general para determinar qué método se debe utilizar en qué circunstancias. Diferentes campos han adoptado diferentes enfoques, incluso en la clasificación binaria. En el reconocimiento de patrones , la tasa de error es popular. El coeficiente de Gini y la estadística KS se utilizan ampliamente en la industria de la calificación crediticia. La sensibilidad y la especificidad se utilizan ampliamente en epidemiología y medicina. La precisión y la recuperación se utilizan ampliamente en la recuperación de información. [2]
La precisión del clasificador depende en gran medida de las características de los datos que se van a clasificar. No existe un clasificador único que funcione mejor en todos los problemas dados (un fenómeno que puede explicarse mediante el teorema de que no hay nada gratis ).