Clasificación estadística

Cuando la clasificación la realiza una computadora, normalmente se utilizan métodos estadísticos para desarrollar el algoritmo.

A menudo, las observaciones individuales se analizan en un conjunto de propiedades cuantificables, conocidas como variables explicativas o características . Estas propiedades pueden ser categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ), ordinales (por ejemplo, "grande", "mediano" o "pequeño"), de valor entero (por ejemplo, el número de apariciones de una palabra particular en un correo electrónico ) o de valor real (por ejemplo, una medición de la presión arterial ). Otros clasificadores funcionan comparando observaciones con observaciones anteriores por medio de una función de similitud o distancia .

Un algoritmo que implementa la clasificación, especialmente en una implementación concreta, se conoce como clasificador . El término "clasificador" a veces también se refiere a la función matemática , implementada por un algoritmo de clasificación, que asigna los datos de entrada a una categoría.

La terminología en los distintos campos es bastante variada. En estadística , donde la clasificación se realiza a menudo con regresión logística o un procedimiento similar, las propiedades de las observaciones se denominan variables explicativas (o variables independientes , regresores, etc.) y las categorías que se van a predecir se conocen como resultados, que se consideran posibles valores de la variable dependiente . En el aprendizaje automático , las observaciones se conocen a menudo como instancias , las variables explicativas se denominan características (agrupadas en un vector de características ) y las posibles categorías que se van a predecir son clases . Otros campos pueden utilizar una terminología diferente: por ejemplo, en ecología de comunidades , el término "clasificación" normalmente se refiere al análisis de conglomerados .

Relación con otros problemas

La clasificación y el agrupamiento son ejemplos del problema más general del reconocimiento de patrones , que es la asignación de algún tipo de valor de salida a un valor de entrada dado. Otros ejemplos son la regresión , que asigna una salida de valor real a cada entrada; el etiquetado de secuencias , que asigna una clase a cada miembro de una secuencia de valores (por ejemplo, el etiquetado de partes del discurso , que asigna una parte del discurso a cada palabra en una oración de entrada); el análisis sintáctico , que asigna un árbol de análisis sintáctico a una oración de entrada, describiendo la estructura sintáctica de la oración; etc.

Una subclase común de clasificación es la clasificación probabilística . Los algoritmos de esta naturaleza utilizan la inferencia estadística para encontrar la mejor clase para una instancia dada. A diferencia de otros algoritmos, que simplemente generan una "mejor" clase, los algoritmos probabilísticos generan una probabilidad de que la instancia sea miembro de cada una de las clases posibles. La mejor clase normalmente se selecciona como la que tiene la mayor probabilidad. Sin embargo, este algoritmo tiene numerosas ventajas sobre los clasificadores no probabilísticos:

Puede generar un valor de confianza asociado con su elección (en general, un clasificador que puede hacer esto se conoce como clasificador ponderado por confianza ).
En consecuencia, puede abstenerse cuando su confianza en elegir una salida particular es demasiado baja.
Debido a las probabilidades que se generan, los clasificadores probabilísticos se pueden incorporar de manera más efectiva en tareas de aprendizaje automático más grandes, de una manera que evita parcial o totalmente el problema de la propagación de errores .

Procedimientos frecuentistas

Los primeros trabajos sobre clasificación estadística fueron realizados por Fisher [ ^1]^[2] en el contexto de problemas de dos grupos, lo que llevó a la función discriminante lineal de Fisher como regla para asignar un grupo a una nueva observación. ^[3] Este trabajo temprano asumió que los valores de los datos dentro de cada uno de los dos grupos tenían una distribución normal multivariada . También se ha considerado la extensión de este mismo contexto a más de dos grupos con una restricción impuesta de que la regla de clasificación debería ser lineal . ^[3]^[4] El trabajo posterior para la distribución normal multivariada permitió que el clasificador fuera no lineal : ^[5] se pueden derivar varias reglas de clasificación basadas en diferentes ajustes de la distancia de Mahalanobis , y se asigna una nueva observación al grupo cuyo centro tiene la distancia ajustada más baja desde la observación.

Procedimientos bayesianos

A diferencia de los procedimientos frecuentistas, los procedimientos de clasificación bayesianos proporcionan una forma natural de tener en cuenta cualquier información disponible sobre los tamaños relativos de los diferentes grupos dentro de la población general. ^[6] Los procedimientos bayesianos tienden a ser computacionalmente costosos y, en los días anteriores al desarrollo de los cálculos de Monte Carlo de cadena de Markov , se idearon aproximaciones para las reglas de agrupamiento bayesiano. ^[7]

Algunos procedimientos bayesianos implican el cálculo de probabilidades de pertenencia a grupos : estos proporcionan un resultado más informativo que una simple atribución de una única etiqueta de grupo a cada nueva observación.

Clasificación binaria y multiclase

La clasificación puede considerarse como dos problemas separados: la clasificación binaria y la clasificación multiclase . En la clasificación binaria, una tarea mejor entendida, solo intervienen dos clases, mientras que la clasificación multiclase implica asignar un objeto a una de varias clases. ^[8] Dado que se han desarrollado muchos métodos de clasificación específicamente para la clasificación binaria, la clasificación multiclase a menudo requiere el uso combinado de varios clasificadores binarios.

Vectores de características

La mayoría de los algoritmos describen una instancia individual cuya categoría se debe predecir utilizando un vector de características de propiedades individuales y mensurables de la instancia. Cada propiedad se denomina característica , también conocida en estadística como variable explicativa (o variable independiente , aunque las características pueden ser o no estadísticamente independientes ). Las características pueden ser binarias (por ejemplo, "activado" o "desactivado"); categóricas (por ejemplo, "A", "B", "AB" u "O", para el tipo de sangre ); ordinales (por ejemplo, "grande", "mediano" o "pequeño"); de valor entero (por ejemplo, el número de ocurrencias de una palabra particular en un correo electrónico); o de valor real (por ejemplo, una medición de la presión arterial). Si la instancia es una imagen, los valores de la característica pueden corresponder a los píxeles de una imagen; si la instancia es un fragmento de texto, los valores de la característica pueden ser frecuencias de ocurrencia de diferentes palabras. Algunos algoritmos funcionan sólo en términos de datos discretos y requieren que los datos con valores reales o enteros se discreticen en grupos (por ejemplo, menores que 5, entre 5 y 10, o mayores que 10).

Clasificadores lineales

Una gran cantidad de algoritmos de clasificación se pueden expresar en términos de una función lineal que asigna una puntuación a cada categoría posible k combinando el vector de características de una instancia con un vector de pesos, utilizando un producto escalar . La categoría predicha es la que tiene la puntuación más alta. Este tipo de función de puntuación se conoce como función predictora lineal y tiene la siguiente forma general: donde X _i es el vector de características para la instancia i , β _k es el vector de pesos correspondiente a la categoría k , y score( X _i , k ) es la puntuación asociada con la asignación de la instancia i a la categoría k . En la teoría de elección discreta , donde las instancias representan personas y las categorías representan elecciones, la puntuación se considera la utilidad asociada con la persona i que elige la categoría k . $\operatorname {puntaje} (\mathbf {X} _{i},k)={\boldsymbol {\beta }}_{k}\cdot \mathbf {X} _{i},$

Los algoritmos con esta configuración básica se conocen como clasificadores lineales . Lo que los distingue es el procedimiento para determinar (entrenar) los pesos/coeficientes óptimos y la forma en que se interpreta la puntuación.

Algunos ejemplos de dichos algoritmos incluyen:

Regresión logística : modelo estadístico para una variable dependiente binaria
- Regresión logística multinomial : regresión para más de dos resultados discretos
Regresión probit : regresión estadística donde la variable dependiente solo puede tomar dos valores
El algoritmo del perceptrón
Máquina de vectores de soporte : conjunto de métodos para el aprendizaje estadístico supervisado
Análisis discriminante lineal : método utilizado en estadística, reconocimiento de patrones y otros campos.

Algoritmos

Dado que no existe una única forma de clasificación adecuada para todos los conjuntos de datos, se ha desarrollado un amplio conjunto de algoritmos de clasificación. Los más utilizados son: ^[9]

Redes neuronales artificiales : modelo computacional utilizado en el aprendizaje automático, basado en funciones jerárquicas conectadas
Impulso (aprendizaje automático) : método en el aprendizaje automático
Bosque aleatorio : método de aprendizaje automático por conjuntos basado en árboles
Programación genética : desarrollo de programas informáticos con técnicas análogas a los procesos genéticos naturales
- Programación de la expresión genética : algoritmo evolutivo
- Programación multiexpresiva
- Programación genética lineal : un tipo de algoritmo de programación genética
Estimación del núcleo : función de ventanaPáginas que muestran descripciones breves de los objetivos de redireccionamiento
- k-vecino más cercano – Método de clasificación no paramétrico
Aprendiendo cuantificación vectorial
Clasificador lineal – Clasificación estadística en el aprendizaje automático
- Discriminante lineal de Fisher : método utilizado en estadística, reconocimiento de patrones y otros campos
- Regresión logística : modelo estadístico para una variable dependiente binaria
- Clasificador Bayesiano ingenuo : algoritmo de clasificación probabilística
- Perceptrón – Algoritmo para el aprendizaje supervisado de clasificadores binarios
Clasificador cuadrático : se utiliza en el aprendizaje automático para separar las mediciones de dos o más clases de objetos.
Máquina de vectores de soporte : conjunto de métodos para el aprendizaje estadístico supervisado
- Máquina de vectores de soporte de mínimos cuadrados

Las elecciones entre diferentes algoritmos posibles se hacen frecuentemente sobre la base de una evaluación cuantitativa de la precisión .

Dominios de aplicación

La clasificación tiene muchas aplicaciones. En algunas de ellas se emplea como procedimiento de minería de datos , mientras que en otras se lleva a cabo un modelado estadístico más detallado.

Clasificación biológica : la ciencia de identificar, describir, definir y nombrar grupos de organismos biológicos.
Biometría : métricas relacionadas con la identificación de características humanas.
Visión artificial : extracción de información computarizada de imágenes
- Análisis de imágenes médicas y obtención de imágenes médicas : técnica y proceso de creación de representaciones visuales del interior de un cuerpo.
- Reconocimiento óptico de caracteres : reconocimiento informático de texto visual
- Seguimiento de vídeo : localización de un objeto en movimiento mediante el análisis de fotogramas de un vídeo
Puntuación crediticia : expresión numérica que representa la solvencia crediticia de una persona.
Clasificación de documentos – Proceso de categorización de documentos
Descubrimiento y desarrollo de fármacos : proceso de llevar un nuevo fármaco al mercado.
- Toxicogenómica : rama de la toxicología y la genómica
- Relación cuantitativa estructura-actividad – Modelo químico predictivo
Geoestadística : rama de la estadística que se centra en conjuntos de datos espaciales.
Reconocimiento de escritura a mano : capacidad de una computadora para recibir e interpretar una entrada manuscrita inteligible.
Motores de búsqueda de Internet
Clasificación de microarrays
Reconocimiento de patrones : reconocimiento automático de patrones y regularidades en los datos.
Sistema de recomendación – Sistema de filtrado de información para predecir las preferencias de los usuarios
Reconocimiento de voz : conversión automática del lenguaje hablado en texto
Procesamiento estadístico del lenguaje natural – Campo de la lingüística y la informática

Véase también

Inteligencia artificial – Inteligencia de las máquinas
Clasificación binaria : dividir cosas en dos categorías
Clasificación multiclase : problema en el aprendizaje automático y la clasificación estadística
Probabilidades de pertenencia a una clase : problema de aprendizaje automático
Regla de clasificación
Procesamiento de términos compuestos
Matriz de confusión : diseño de tabla para visualizar el rendimiento; también llamada matriz de error
Minería de datos : proceso de extracción y descubrimiento de patrones en grandes conjuntos de datos.
Almacén de datos : almacenamiento centralizado de conocimientos
Lógica difusa : sistema para razonar sobre la vaguedad
Recuperación de información : obtención de recursos de información relevantes para una necesidad de información
Lista de conjuntos de datos para la investigación del aprendizaje automático
Aprendizaje automático : estudio de algoritmos que mejoran automáticamente a través de la experiencia.
Sistema de recomendación – Sistema de filtrado de información para predecir las preferencias de los usuarios

Referencias

Wikimedia Commons tiene medios relacionados con Clasificación estadística .

^ Fisher, RA (1936). "El uso de mediciones múltiples en problemas taxonómicos". Anales de eugenesia . 7 (2): 179–188. doi :10.1111/j.1469-1809.1936.tb02137.x. hdl : 2440/15227 .
^ Fisher, RA (1938). "La utilización estadística de mediciones múltiples". Anales de eugenesia . 8 (4): 376–386. doi :10.1111/j.1469-1809.1938.tb02189.x. hdl : 2440/15232 .
^ ab Gnanadesikan, R. (1977) Métodos para el análisis estadístico de datos de observaciones multivariadas , Wiley. ISBN 0-471-30845-5 (pág. 83–86)
^ Rao, CR (1952) Métodos estadísticos avanzados en análisis multivariante , Wiley. (Sección 9c)
^ Anderson, TW (1958) Introducción al análisis estadístico multivariante , Wiley.
^ Binder, DA (1978). "Análisis de conglomerados bayesiano". Biometrika . 65 : 31–38. doi :10.1093/biomet/65.1.31.
^ Binder, David A. (1981). "Aproximaciones a las reglas de agrupamiento bayesiano". Biometrika . 68 : 275–285. doi :10.1093/biomet/68.1.275.
^ Har-Peled, S. , Roth, D., Zimak, D. (2003) "Clasificación de restricciones para clasificación y ordenamiento multiclase". En: Becker, B., Thrun, S. , Obermayer, K. (Eds) Advances in Neural Information Processing Systems 15: Proceedings of the 2002 Conference , MIT Press. ISBN 0-262-02550-7
^ "Un recorrido por los 10 mejores algoritmos para principiantes en aprendizaje automático". Creado en . 2018-01-20 . Consultado el 2019-06-10 .