Categorización de objetos a partir de la búsqueda de imágenes.

En visión por computadora , el problema de la categorización de objetos a partir de la búsqueda de imágenes es el problema de entrenar a un clasificador para que reconozca categorías de objetos, utilizando únicamente las imágenes recuperadas automáticamente con un motor de búsqueda de Internet . Idealmente, la recopilación automática de imágenes permitiría entrenar a los clasificadores con nada más que los nombres de las categorías como entrada. Este problema está estrechamente relacionado con el de la recuperación de imágenes basada en contenido (CBIR), donde el objetivo es obtener mejores resultados de búsqueda de imágenes en lugar de entrenar un clasificador para el reconocimiento de imágenes.

Tradicionalmente, los clasificadores se entrenan utilizando conjuntos de imágenes etiquetadas a mano. Recopilar un conjunto de imágenes de este tipo suele ser un proceso laborioso y que requiere mucho tiempo. El uso de motores de búsqueda de Internet para automatizar el proceso de adquisición de grandes conjuntos de imágenes etiquetadas se ha descrito como una forma potencial de facilitar enormemente la investigación en visión por computadora. ^[1]

Desafíos

Imágenes no relacionadas

Un problema al utilizar los resultados de búsqueda de imágenes de Internet como conjunto de entrenamiento para un clasificador es el alto porcentaje de imágenes no relacionadas dentro de los resultados. Se ha estimado que, cuando se consulta un motor de búsqueda de imágenes como Google con el nombre de una categoría de objeto (como avión ), hasta el 85% de las imágenes devueltas no están relacionadas con la categoría. ^[1]

Variabilidad intraclase

Otro desafío que plantea el uso de resultados de búsqueda de imágenes en Internet como conjuntos de entrenamiento para clasificadores es que existe una gran variabilidad dentro de las categorías de objetos, en comparación con las categorías que se encuentran en conjuntos de datos etiquetados manualmente como Caltech 101 y Pascal . Las imágenes de objetos pueden variar ampliamente en función de una serie de factores importantes, como la escala, la pose, la iluminación, la cantidad de objetos y la cantidad de oclusión.

enfoque pLSA

En un artículo de 2005 de Fergus et al., ^{[1] se aplicaron} pLSA (análisis semántico latente probabilístico) y extensiones de este modelo al problema de la categorización de objetos a partir de la búsqueda de imágenes. pLSA se desarrolló originalmente para la clasificación de documentos , pero desde entonces se ha aplicado a la visión por computadora . Se parte del supuesto de que las imágenes son documentos que se ajustan al modelo de bolsa de palabras .

Modelo

Así como los documentos de texto se componen de palabras, cada una de las cuales puede repetirse dentro del documento y entre documentos, las imágenes se pueden modelar como combinaciones de palabras visuales . Así como todo el conjunto de palabras de texto se define en un diccionario, todo el conjunto de palabras visuales se define en un diccionario de palabras en código .

pLSA también divide los documentos en temas . Así como conocer los temas de un artículo le permite hacer buenas conjeturas sobre los tipos de palabras que aparecerán en él, la distribución de las palabras en una imagen depende de los temas subyacentes. El modelo pLSA nos dice la probabilidad de ver cada palabra dada la categoría en términos de temas : $w$ $\displaystyle d$ $\displaystyle z$

$\displaystyle P(w|d)=\sum _ {z=1}^{Z}P(w|z)P(z|d)$

Una suposición importante hecha en este modelo es que y son condicionalmente independientes dado . Dado un tema, la probabilidad de que una determinada palabra aparezca como parte de ese tema es independiente del resto de la imagen. ^[2] $\displaystyle w$ $\displaystyle d$ $\displaystyle z$

Entrenar este modelo implica encontrar y maximizar la probabilidad de las palabras observadas en cada documento. Para ello se utiliza el algoritmo de maximización de expectativas , con la siguiente función objetivo : $\displaystyle P(w|z)$ $\displaystyle P(z|d)$

$\displaystyle L=\prod _ {d=1}^{D}\prod _ {w=1}^{W}P(w|d)^{n(w|d)}$

Solicitud

ABS-PLSA

La posición absoluta pLSA (ABS-pLSA) adjunta información de ubicación a cada palabra visual localizándola en una de las X "ins" de la imagen. Aquí, representa en cuál de los contenedores cae la palabra visual. La nueva ecuación es: $\displaystyle x$

$\displaystyle P(w|d)=\sum _ {z=1}^{Z}P(w,x|z)P(z|d)$

$\displaystyle P(w,x|z)$ y se puede resolver de manera similar al problema pLSA original, utilizando el algoritmo EM $\displaystyle P(d)$

Un problema con este modelo es que no es invariante de traducción ni de escala. Dado que las posiciones de las palabras visuales son absolutas, cambiar el tamaño del objeto en la imagen o moverlo tendría un impacto significativo en la distribución espacial de las palabras visuales en diferentes contenedores.

ETI-pLSA

Traducción y pLSA invariante de escala (TSI-pLSA). Este modelo amplía pLSA agregando otra variable latente, que describe la ubicación espacial del objeto objetivo en una imagen. Ahora, la posición de una palabra visual se da en relación con la ubicación de este objeto, en lugar de como una posición absoluta en la imagen. La nueva ecuación es: $\displaystyle x$

$\displaystyle P(w,x|d)=\sum _{z=1}^{Z}\sum _{c=1}^{C}P(w,x|c,z)P(c)P(z|d)$

Nuevamente, los parámetros y se pueden resolver usando el algoritmo EM . Se puede suponer que es una distribución uniforme. $\displaystyle P(w,x|c,z)$ $\displaystyle P(d)$ $\displaystyle P(c)$

Implementación

Seleccionando palabras

Las palabras de una imagen se seleccionaron utilizando 4 detectores de características diferentes: ^[1]

Detector de prominencia Kadir-Brady
Detector Harris multiescala
Diferencia de gaussianos
Operador basado en Edge, descrito en el estudio.

Utilizando estos 4 detectores, se detectaron aproximadamente 700 características por imagen. Luego, estas características se codificaron como descriptores de transformación de características invariantes de escala y se cuantificaron vectorialmente para que coincidan con una de las 350 palabras contenidas en un libro de códigos. El libro de códigos se calculó previamente a partir de características extraídas de una gran cantidad de imágenes que abarcan numerosas categorías de objetos.

Posibles ubicaciones de objetos

Una cuestión importante en el modelo TSI-pLSA es cómo determinar los valores que puede tomar la variable aleatoria. Es un vector de 4, cuyos componentes describen el centroide del objeto, así como las escalas x e y que definen un cuadro delimitador alrededor del objeto, por lo que el espacio de posibles valores que puede adoptar es enorme. Para limitar el número de posibles ubicaciones de objetos a un número razonable, primero se lleva a cabo pLSA normal en el conjunto de imágenes y, para cada tema, se ajusta un modelo de mezcla gaussiana sobre las palabras visuales, ponderado por . Se prueban hasta gaussianos (lo que permite múltiples instancias de un objeto en una sola imagen), donde es una constante. $\displaystyle C$ $\displaystyle P(w|z)$ $\displaystyle K$ $\displaystyle K$

Actuación

Los autores de Fergus et al. El artículo comparó el rendimiento de los tres algoritmos pLSA (pLSA, ABS-pLSA y TSI-pLSA) en conjuntos de datos cuidadosamente seleccionados e imágenes obtenidas de búsquedas en Google. El rendimiento se midió como la tasa de error al clasificar imágenes en un conjunto de prueba como que contienen la imagen o que solo contienen fondo.

Como era de esperar, entrenar directamente con datos de Google genera tasas de error más altas que entrenar con datos preparados. ^[1] En aproximadamente la mitad de las categorías de objetos probadas, ABS-pLSA y TSI-pLSA funcionan significativamente mejor que pLSA normal, y en sólo 2 categorías de 7, TSI-pLSA funciona mejor que los otros dos modelos.

OPTIMOL

OPTIMOL (recopilación automática de imágenes en línea mediante aprendizaje incremental de modelos) aborda el problema de aprender categorías de objetos a partir de búsquedas de imágenes en línea abordando el aprendizaje de modelos y la búsqueda simultáneamente. OPTIMOL es un modelo iterativo que actualiza su modelo de la categoría de objeto de destino y al mismo tiempo recupera imágenes más relevantes. ^[3]

Marco general

OPTIMOL se presentó como un marco iterativo general que es independiente del modelo específico utilizado para el aprendizaje de categorías. El algoritmo es como sigue:

Descargue un gran conjunto de imágenes de Internet buscando una palabra clave
Inicialice el conjunto de datos con imágenes semilla
Si bien se necesitan más imágenes en el conjunto de datos:
- Conozca el modelo con las imágenes del conjunto de datos agregadas más recientemente
- Clasifica las imágenes descargadas usando el modelo actualizado.
- Agregar imágenes aceptadas al conjunto de datos

Tenga en cuenta que en cada ronda de aprendizaje solo se utilizan las imágenes agregadas más recientemente. Esto permite que el algoritmo se ejecute en una cantidad arbitrariamente grande de imágenes de entrada.