stringtranslate.com

Clasificador de centroide más cercano

Clasificación de Rocchio

En aprendizaje automático , un clasificador de centroide más cercano o clasificador prototipo más cercano es un modelo de clasificación que asigna a las observaciones la etiqueta de la clase de muestras de entrenamiento cuya media ( centroide ) está más cercana a la observación. Cuando se aplica a la clasificación de texto utilizando vectores de palabras que contienen pesos tf*idf para representar documentos, el clasificador de centroide más cercano se conoce como clasificador de Rocchio debido a su similitud con el algoritmo de Rocchio para la retroalimentación de relevancia . [1]

Una versión ampliada del clasificador de centroide más cercano ha encontrado aplicaciones en el ámbito médico, específicamente en la clasificación de tumores . [2]

Algoritmo

Capacitación

Dadas las muestras de entrenamiento etiquetadas con etiquetas de clase , calcule los centroides por clase donde está el conjunto de índices de muestras que pertenecen a la clase .

Predicción

La clase asignada a una observación es .

Ver también

Referencias

  1. ^ Manning, Cristóbal; Raghavan, Prabhakar; Schütze, Hinrich (2008). "Clasificación del espacio vectorial". Introducción a la recuperación de información. Prensa de la Universidad de Cambridge.
  2. ^ Tibshirani, Robert ; Hastie, Trevor ; Narasimhan, Balasubramanian; Chu, Gilbert (2002). "Diagnóstico de múltiples tipos de cáncer mediante centroides reducidos de expresión genética". Procedimientos de la Academia Nacional de Ciencias . 99 (10): 6567–6572. doi : 10.1073/pnas.082099299 . PMC 124443 . PMID  12011421.