Cuando la clasificación la realiza una computadora, normalmente se utilizan métodos estadísticos para desarrollar el algoritmo.
A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como variables explicativas o características . Estas propiedades pueden ser categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ), ordinales (por ejemplo, "grande", "mediano" o "pequeño"), de valor entero (por ejemplo, el número de apariciones de una palabra particular en un correo electrónico ) o de valor real (por ejemplo, una medición de la presión arterial ). Otros clasificadores funcionan comparando observaciones con observaciones anteriores por medio de una función de similitud o distancia .
Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como clasificador . El término "clasificador" a veces también se refiere a la función matemática , implementada por un algoritmo de clasificación, que asigna los datos de entrada a una categoría.
La terminología en los distintos campos es bastante variada. En estadística , donde la clasificación se realiza a menudo con regresión logística o un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes , regresores, etc.) y las categorías que se van a predecir se conocen como resultados, que se consideran posibles valores de la variable dependiente . En el aprendizaje automático , las observaciones se conocen a menudo como instancias , las variables explicativas se denominan características (agrupadas en un vector de características ) y las posibles categorías que se van a predecir son clases . Otros campos pueden utilizar una terminología diferente: por ejemplo, en ecología de comunidades , el término "clasificación" normalmente se refiere al análisis de conglomerados .
La clasificación y el agrupamiento son ejemplos del problema más general del reconocimiento de patrones , que es la asignación de algún tipo de valor de salida a un valor de entrada dado. Otros ejemplos son la regresión , que asigna una salida de valor real a cada entrada; el etiquetado de secuencias , que asigna una clase a cada miembro de una secuencia de valores (por ejemplo, el etiquetado de partes del discurso , que asigna una parte del discurso a cada palabra en una oración de entrada); el análisis sintáctico , que asigna un árbol de análisis sintáctico a una oración de entrada, describiendo la estructura sintáctica de la oración; etc.
Una subclase común de clasificación es la clasificación probabilística . Los algoritmos de esta naturaleza utilizan la inferencia estadística para encontrar la mejor clase para una instancia dada. A diferencia de otros algoritmos, que simplemente generan una "mejor" clase, los algoritmos probabilísticos generan una probabilidad de que la instancia sea miembro de cada una de las clases posibles. La mejor clase normalmente se selecciona como la que tiene la mayor probabilidad. Sin embargo, este algoritmo tiene numerosas ventajas sobre los clasificadores no probabilísticos:
Los primeros trabajos sobre clasificación estadística fueron realizados por Fisher [ 1] [2] en el contexto de problemas de dos grupos, lo que llevó a la función discriminante lineal de Fisher como regla para asignar un grupo a una nueva observación. [3] Este trabajo temprano asumió que los valores de los datos dentro de cada uno de los dos grupos tenían una distribución normal multivariada . También se ha considerado la extensión de este mismo contexto a más de dos grupos con una restricción impuesta de que la regla de clasificación debería ser lineal . [3] [4] El trabajo posterior para la distribución normal multivariada permitió que el clasificador fuera no lineal : [5] se pueden derivar varias reglas de clasificación basadas en diferentes ajustes de la distancia de Mahalanobis , y se asigna una nueva observación al grupo cuyo centro tiene la distancia ajustada más baja desde la observación.
A diferencia de los procedimientos frecuentistas, los procedimientos de clasificación bayesianos proporcionan una forma natural de tener en cuenta cualquier información disponible sobre los tamaños relativos de los diferentes grupos dentro de la población general. [6] Los procedimientos bayesianos tienden a ser computacionalmente costosos y, en los días anteriores al desarrollo de los cálculos de Monte Carlo de cadena de Markov , se idearon aproximaciones para las reglas de agrupamiento bayesiano. [7]
Algunos procedimientos bayesianos implican el cálculo de probabilidades de pertenencia a grupos : estos proporcionan un resultado más informativo que una simple atribución de una única etiqueta de grupo a cada nueva observación.
La clasificación puede considerarse como dos problemas separados: la clasificación binaria y la clasificación multiclase . En la clasificación binaria, una tarea mejor entendida, solo intervienen dos clases, mientras que la clasificación multiclase implica asignar un objeto a una de varias clases. [8] Dado que se han desarrollado muchos métodos de clasificación específicamente para la clasificación binaria, la clasificación multiclase a menudo requiere el uso combinado de varios clasificadores binarios.
La mayoría de los algoritmos describen una instancia individual cuya categoría se debe predecir utilizando un vector de características de propiedades individuales y mensurables de la instancia. Cada propiedad se denomina característica , también conocida en estadística como variable explicativa (o variable independiente , aunque las características pueden ser o no estadísticamente independientes ). Las características pueden ser binarias (por ejemplo, "activado" o "desactivado"); categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ); ordinales (por ejemplo, "grande", "mediano" o "pequeño"); de valor entero (por ejemplo, el número de ocurrencias de una palabra particular en un correo electrónico); o de valor real (por ejemplo, una medición de la presión arterial). Si la instancia es una imagen, los valores de la característica pueden corresponder a los píxeles de una imagen; si la instancia es un fragmento de texto, los valores de la característica pueden ser frecuencias de ocurrencia de diferentes palabras. Algunos algoritmos funcionan sólo en términos de datos discretos y requieren que los datos con valores reales o enteros se discreticen en grupos (por ejemplo, menores que 5, entre 5 y 10, o mayores que 10).
Una gran cantidad de algoritmos de clasificación se pueden expresar en términos de una función lineal que asigna una puntuación a cada categoría posible k combinando el vector de características de una instancia con un vector de pesos, utilizando un producto escalar . La categoría predicha es la que tiene la puntuación más alta. Este tipo de función de puntuación se conoce como función predictora lineal y tiene la siguiente forma general: donde X i es el vector de características para la instancia i , β k es el vector de pesos correspondiente a la categoría k , y score( X i , k ) es la puntuación asociada con la asignación de la instancia i a la categoría k . En la teoría de elección discreta , donde las instancias representan personas y las categorías representan elecciones, la puntuación se considera la utilidad asociada con la persona i que elige la categoría k .
Los algoritmos con esta configuración básica se conocen como clasificadores lineales . Lo que los distingue es el procedimiento para determinar (entrenar) los pesos/coeficientes óptimos y la forma en que se interpreta la puntuación.
Algunos ejemplos de dichos algoritmos incluyen:
Dado que no existe una única forma de clasificación adecuada para todos los conjuntos de datos, se ha desarrollado un amplio conjunto de algoritmos de clasificación. Los más utilizados son: [9]
Las elecciones entre diferentes algoritmos posibles se hacen con frecuencia sobre la base de una evaluación cuantitativa de la precisión .
La clasificación tiene muchas aplicaciones. En algunas de ellas se emplea como procedimiento de minería de datos , mientras que en otras se lleva a cabo un modelado estadístico más detallado.