Modelo bolsa de palabras

El modelo "bolsa de palabras" (del inglés, Bag of Words) es un método que se utiliza en el procesado del lenguaje para representar documentos ignorando el orden de las palabras.En este modelo, cada documento parece una bolsa que contiene algunas palabras.Este detector aplica el determinante para elegir la posición y la escala.El detector DoG (Difference of Gaussians) es un algoritmo que hace la detección de los bordes de una imagen haciendo dos desenfoques Gaussianos en la misma imagen con diferentes radios y saca las dos versiones para obtener el resultado final.Algunos descriptores locales e individuales se extraen con el descriptor Scale Invariant Feature Transform (SIFT), que extrae los gradientes de la imagen y seguidamente se forman los keypoint descriptors, o con el descriptor Speeded Up Robust Features (SURF).Una vez detectados los puntos claves y sus características y se han extraído con el descriptor, el siguiente paso es generar un libro de códigos (codebook) de las características.Este paso se hace haciendo una cuantificación vectorial con métodos de clustering, por ejemplo el algoritmo k-means, ya que los métodos basados en clústers se utilizan mucho en el aprendizaje de vocabulario visual.Los datos están organizados en diferentes clústers que corresponden con palabras visuales (codewords).