stringtranslate.com

Clasificación estadística

En estadística , la clasificación es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una observación (u observaciones). Algunos ejemplos son asignar un correo electrónico determinado a la clase "spam" o "no spam" y asignar un diagnóstico a un paciente determinado en función de las características observadas del paciente (sexo, presión arterial, presencia o ausencia de ciertos síntomas, etc.). .

A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como variables o características explicativas . Estas propiedades pueden ser categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ), ordinales (por ejemplo, "grande", "mediana" o "pequeña"), de valor entero (por ejemplo, el número de apariciones de una palabra particular en un correo electrónico ) o de valor real (por ejemplo, una medición de la presión arterial ). Otros clasificadores funcionan comparando observaciones con observaciones anteriores mediante una función de similitud o distancia .

Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como clasificador . El término "clasificador" a veces también se refiere a la función matemática , implementada por un algoritmo de clasificación, que asigna datos de entrada a una categoría.

La terminología entre campos es bastante variada. En estadística , donde la clasificación suele realizarse mediante regresión logística o un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes , regresores, etc.), y las categorías que se van a predecir se conocen como resultados, que se consideran ser valores posibles de la variable dependiente . En el aprendizaje automático , las observaciones a menudo se conocen como instancias , las variables explicativas se denominan características (agrupadas en un vector de características ) y las posibles categorías a predecir son clases . Otros campos pueden utilizar terminología diferente: por ejemplo, en ecología comunitaria , el término "clasificación" normalmente se refiere al análisis de conglomerados .

Relación con otros problemas

La clasificación y la agrupación son ejemplos del problema más general del reconocimiento de patrones , que es la asignación de algún tipo de valor de salida a un valor de entrada determinado. Otros ejemplos son la regresión , que asigna una salida de valor real a cada entrada; etiquetado de secuencia , que asigna una clase a cada miembro de una secuencia de valores (por ejemplo, etiquetado de parte del discurso , que asigna una parte del discurso a cada palabra en una oración de entrada); análisis , que asigna un árbol de análisis a una oración de entrada, describiendo la estructura sintáctica de la oración; etc.

Una subclase común de clasificación es la clasificación probabilística . Los algoritmos de esta naturaleza utilizan la inferencia estadística para encontrar la mejor clase para una instancia determinada. A diferencia de otros algoritmos, que simplemente generan una "mejor" clase, los algoritmos probabilísticos generan una probabilidad de que la instancia sea miembro de cada una de las clases posibles. Normalmente se selecciona la mejor clase como la que tiene la mayor probabilidad. Sin embargo, dicho algoritmo tiene numerosas ventajas sobre los clasificadores no probabilísticos:

Procedimientos frecuentistas

Fisher realizó los primeros trabajos sobre clasificación estadística , [1] [2] en el contexto de problemas de dos grupos, lo que llevó a la función discriminante lineal de Fisher como regla para asignar un grupo a una nueva observación. [3] Este trabajo inicial asumió que los valores de datos dentro de cada uno de los dos grupos tenían una distribución normal multivariada . También se ha considerado la extensión de este mismo contexto a más de dos grupos con la restricción de que la regla de clasificación debe ser lineal . [3] [4] El trabajo posterior para la distribución normal multivariada permitió que el clasificador fuera no lineal : [5] se pueden derivar varias reglas de clasificación basadas en diferentes ajustes de la distancia de Mahalanobis , asignando una nueva observación al grupo cuyo centro tiene la distancia ajustada más baja desde la observación.

Procedimientos bayesianos

A diferencia de los procedimientos frecuentistas, los procedimientos de clasificación bayesianos proporcionan una forma natural de tener en cuenta cualquier información disponible sobre los tamaños relativos de los diferentes grupos dentro de la población general. [6] Los procedimientos bayesianos tienden a ser computacionalmente costosos y, en los días previos a que se desarrollaran los cálculos Monte Carlo de la cadena de Markov , se idearon aproximaciones para las reglas de agrupamiento bayesiano. [7]

Algunos procedimientos bayesianos implican el cálculo de probabilidades de pertenencia a grupos : estos proporcionan un resultado más informativo que una simple atribución de una única etiqueta de grupo a cada nueva observación.

Clasificación binaria y multiclase.

La clasificación puede considerarse como dos problemas separados: clasificación binaria y clasificación multiclase . En la clasificación binaria, una tarea mejor entendida, sólo participan dos clases, mientras que la clasificación multiclase implica asignar un objeto a una de varias clases. [8] Dado que muchos métodos de clasificación se han desarrollado específicamente para la clasificación binaria, la clasificación multiclase a menudo requiere el uso combinado de múltiples clasificadores binarios.

Vectores de características

La mayoría de los algoritmos describen una instancia individual cuya categoría se va a predecir utilizando un vector de características de propiedades individuales y medibles de la instancia. Cada propiedad se denomina característica , también conocida en estadística como variable explicativa (o variable independiente , aunque las características pueden ser o no estadísticamente independientes ). Las funciones pueden ser binarias (por ejemplo, "activadas" o "desactivadas"); categórico (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ); ordinal (por ejemplo, "grande", "mediano" o "pequeño"); con valores enteros (por ejemplo, el número de apariciones de una palabra concreta en un correo electrónico); o de valor real (por ejemplo, una medición de la presión arterial). Si la instancia es una imagen, los valores de las características pueden corresponder a los píxeles de una imagen; si la instancia es un fragmento de texto, los valores de las características pueden ser frecuencias de aparición de diferentes palabras. Algunos algoritmos funcionan sólo en términos de datos discretos y requieren que los datos con valores reales o enteros se discreticen en grupos (por ejemplo, menos de 5, entre 5 y 10, o más de 10).

Clasificadores lineales

Una gran cantidad de algoritmos de clasificación se pueden expresar en términos de una función lineal que asigna una puntuación a cada categoría posible k combinando el vector de características de una instancia con un vector de pesos, utilizando un producto escalar . La categoría prevista es la que tiene la puntuación más alta. Este tipo de función de puntuación se conoce como función predictora lineal y tiene la siguiente forma general:

X iiβ kkX ikikde la elección discretautilidadik

Los algoritmos con esta configuración básica se conocen como clasificadores lineales . Lo que los distingue es el procedimiento para determinar (entrenar) los pesos/coeficientes óptimos y la forma en que se interpreta la puntuación.

Ejemplos de tales algoritmos incluyen

Algoritmos

Dado que ninguna forma de clasificación es apropiada para todos los conjuntos de datos, se ha desarrollado un gran conjunto de herramientas de algoritmos de clasificación. Los más utilizados incluyen: [9]

Evaluación

El rendimiento del clasificador depende en gran medida de las características de los datos a clasificar. No existe un clasificador único que funcione mejor en todos los problemas dados (un fenómeno que puede explicarse mediante el teorema de no comer gratis ). Se han realizado varias pruebas empíricas para comparar el desempeño del clasificador y encontrar las características de los datos que determinan el desempeño del clasificador. Sin embargo, determinar un clasificador adecuado para un problema determinado es más un arte que una ciencia.

Las medidas de precisión y recuperación son métricas populares que se utilizan para evaluar la calidad de un sistema de clasificación. Más recientemente, las curvas de características operativas del receptor (ROC) se han utilizado para evaluar la compensación entre tasas de verdaderos y falsos positivos de los algoritmos de clasificación.

Como métrica de desempeño, el coeficiente de incertidumbre tiene la ventaja sobre la precisión simple de que no se ve afectado por los tamaños relativos de las diferentes clases.[10] Además, no penalizará a un algoritmo por simplemente reorganizar las clases.

Dominios de aplicación

La clasificación tiene muchas aplicaciones. En algunos de ellos, se emplea como procedimiento de extracción de datos , mientras que en otros se lleva a cabo un modelado estadístico más detallado.

Ver también

Referencias

  1. ^ Pescador, RA (1936). "El uso de múltiples mediciones en problemas taxonómicos". Anales de la eugenesia . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
  2. ^ Pescador, RA (1938). "La utilización estadística de múltiples medidas". Anales de la eugenesia . 8 (4): 376–386. doi :10.1111/j.1469-1809.1938.tb02189.x. hdl : 2440/15232 .
  3. ^ ab Gnanadesikan, R. (1977) Métodos para el análisis de datos estadísticos de observaciones multivariadas , Wiley. ISBN 0-471-30845-5 (págs. 83–86) 
  4. ^ Rao, CR (1952) Métodos estadísticos avanzados en análisis multivariado , Wiley. (Sección 9c)
  5. ^ Anderson, TW (1958) Introducción al análisis estadístico multivariado , Wiley.
  6. ^ Carpeta, DA (1978). "Análisis de conglomerados bayesianos". Biometrika . 65 : 31–38. doi :10.1093/biomet/65.1.31.
  7. ^ Carpeta, David A. (1981). "Aproximaciones a las reglas de agrupación bayesiana". Biometrika . 68 : 275–285. doi :10.1093/biomet/68.1.275.
  8. ^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Clasificación de restricciones para clasificación y clasificación multiclase". En: Becker, B., Thrun, S. , Obermayer, K. (Eds) Avances en sistemas de procesamiento de información neuronal 15: Actas de la conferencia de 2002 , MIT Press. ISBN 0-262-02550-7 
  9. ^ "Un recorrido por los 10 algoritmos principales para principiantes en el aprendizaje automático". Incorporado . 2018-01-20 . Consultado el 10 de junio de 2019 .
  10. ^ Peter Mills (2011). "Clasificación estadística eficiente de mediciones satelitales". Revista Internacional de Percepción Remota . 32 (21): 6109–6132. arXiv : 1202.2194 . Código Bib : 2011IJRS...32.6109M. doi :10.1080/01431161.2010.507795. S2CID  88518570.