Categorización de objetos a partir de la búsqueda de imágenes

En la visión artificial , el problema de la categorización de objetos a partir de la búsqueda de imágenes es el problema de entrenar un clasificador para reconocer categorías de objetos, utilizando únicamente las imágenes recuperadas automáticamente con un motor de búsqueda de Internet . Idealmente, la recopilación automática de imágenes permitiría entrenar a los clasificadores con nada más que los nombres de las categorías como entrada. Este problema está estrechamente relacionado con el de la recuperación de imágenes basada en contenido (CBIR), donde el objetivo es devolver mejores resultados de búsqueda de imágenes en lugar de entrenar un clasificador para el reconocimiento de imágenes.

Tradicionalmente, los clasificadores se entrenan utilizando conjuntos de imágenes que se etiquetan a mano. Recopilar un conjunto de imágenes de este tipo suele ser un proceso muy laborioso y que requiere mucho tiempo. El uso de motores de búsqueda de Internet para automatizar el proceso de adquisición de grandes conjuntos de imágenes etiquetadas se ha descrito como una forma potencial de facilitar enormemente la investigación en visión artificial. ^[1]

Desafíos

Imágenes no relacionadas

Un problema que presenta el uso de los resultados de búsqueda de imágenes de Internet como conjunto de entrenamiento para un clasificador es el alto porcentaje de imágenes no relacionadas que contienen los resultados. Se ha estimado que, cuando se consulta un motor de búsqueda como Google Images con el nombre de una categoría de objeto (como avión ), hasta el 85% de las imágenes devueltas no están relacionadas con la categoría. ^[1]

Variabilidad intraclase

Otro desafío que plantea el uso de los resultados de búsqueda de imágenes en Internet como conjuntos de entrenamiento para los clasificadores es que existe una gran variabilidad dentro de las categorías de objetos, en comparación con las categorías que se encuentran en conjuntos de datos etiquetados manualmente, como Caltech 101 y Pascal . Las imágenes de objetos pueden variar ampliamente en una serie de factores importantes, como la escala, la pose, la iluminación, la cantidad de objetos y la cantidad de oclusión.

Enfoque pLSA

En un artículo de 2005 de Fergus et al., ^[1] pLSA (análisis semántico latente probabilístico) y extensiones de este modelo se aplicaron al problema de la categorización de objetos a partir de la búsqueda de imágenes. pLSA se desarrolló originalmente para la clasificación de documentos , pero desde entonces se ha aplicado a la visión artificial . Supone que las imágenes son documentos que se ajustan al modelo de bolsa de palabras .

Modelo

Así como los documentos de texto están compuestos de palabras, cada una de las cuales puede repetirse dentro del documento y entre documentos, las imágenes pueden modelarse como combinaciones de palabras visuales . Así como el conjunto completo de palabras de texto se define en un diccionario, el conjunto completo de palabras visuales se define en un diccionario de palabras de código .

pLSA también divide los documentos en temas . Así como conocer el tema de un artículo permite hacer conjeturas acertadas sobre el tipo de palabras que aparecerán en él, la distribución de palabras en una imagen depende de los temas subyacentes. El modelo pLSA nos indica la probabilidad de ver cada palabra dada la categoría en términos de temas : ${\estilo de visualización w}$ $\displaystyle d$ $\displaystyle z$

$\displaystyle P(w|d)=\sum _ {z=1}^{Z}P(w|z)P(z|d)$

Un supuesto importante que se hace en este modelo es que y son condicionalmente independientes dado . Dado un tema, la probabilidad de que una determinada palabra aparezca como parte de ese tema es independiente del resto de la imagen. ^[2] $\displaystyle w$ $\displaystyle d$ $\displaystyle z$

El entrenamiento de este modelo implica encontrar y que maximice la probabilidad de las palabras observadas en cada documento. Para ello se utiliza el algoritmo de maximización de expectativas , con la siguiente función objetivo : $\displaystyle P(w|z)$ $\displaystyle P(z|d)$

$\displaystyle L=\prod _ {d=1}^{D}\prod _ {w=1}^{W}P(w|d)^{n(w|d)}$

Solicitud

ABS-pLSA

La pLSA de posición absoluta (ABS-pLSA) adjunta información de ubicación a cada palabra visual al localizarla en una de las X 揵ins? de la imagen. Aquí, representa en cuál de los contenedores se encuentra la palabra visual. La nueva ecuación es: $\displaystyle x$

$\displaystyle P(w|d)=\sum _ {z=1}^{Z}P(w,x|z)P(z|d)$

$\displaystyle P(w,x|z)$ y se puede resolver de una manera similar al problema pLSA original, utilizando el algoritmo EM $\displaystyle P(d)$

Un problema con este modelo es que no es invariable en cuanto a la traducción o la escala. Dado que las posiciones de las palabras visuales son absolutas, cambiar el tamaño del objeto en la imagen o moverlo tendría un impacto significativo en la distribución espacial de las palabras visuales en diferentes contenedores.

TSI-pLSA

pLSA invariante en la traducción y la escala (TSI-pLSA). Este modelo amplía el pLSA añadiendo otra variable latente, que describe la ubicación espacial del objeto de destino en una imagen. Ahora, la posición de una palabra visual se da en relación con la ubicación de este objeto, en lugar de como una posición absoluta en la imagen. La nueva ecuación es: $\displaystyle x$

$\displaystyle P(w,x|d)=\sum _{z=1}^{Z}\sum _{c=1}^{C}P(w,x|c,z)P(c)P(z|d)$

Nuevamente, los parámetros y se pueden resolver utilizando el algoritmo EM . se puede suponer que son una distribución uniforme. $\displaystyle P(w,x|c,z)$ $\displaystyle P(d)$ $\displaystyle P(c)$

Implementación

Seleccionar palabras

Las palabras en una imagen se seleccionaron utilizando 4 detectores de características diferentes: ^[1]

Detector de saliencia Kadir-Brady
Detector Harris multiescala
Diferencia de Gaussianas
Operador basado en bordes, descrito en el estudio

Con estos 4 detectores, se detectaron aproximadamente 700 características por imagen. Estas características se codificaron como descriptores de transformación de características invariantes de escala y se cuantificaron vectorialmente para que coincidieran con una de las 350 palabras contenidas en un libro de códigos. El libro de códigos se calculó previamente a partir de características extraídas de una gran cantidad de imágenes que abarcaban numerosas categorías de objetos.

Posibles ubicaciones de los objetos

Una cuestión importante en el modelo TSI-pLSA es cómo determinar los valores que puede tomar la variable aleatoria. Es un vector de 4, cuyos componentes describen el centroide del objeto, así como las escalas x e y que definen un cuadro delimitador alrededor del objeto, por lo que el espacio de posibles valores que puede tomar es enorme. Para limitar el número de posibles ubicaciones de los objetos a un número razonable, primero se lleva a cabo un pLSA normal en el conjunto de imágenes y, para cada tema, se ajusta un modelo de mezcla gaussiana sobre las palabras visuales, ponderado por . Se prueban hasta gaussianas (permitiendo múltiples instancias de un objeto en una sola imagen), donde es una constante. $\displaystyle C$ $\displaystyle P(w|z)$ $\displaystyle K$ $\displaystyle K$

Actuación

Los autores del artículo de Fergus et al. compararon el rendimiento de los tres algoritmos pLSA (pLSA, ABS-pLSA y TSI-pLSA) en conjuntos de datos seleccionados e imágenes obtenidas de búsquedas de Google. El rendimiento se midió como la tasa de error al clasificar las imágenes de un conjunto de prueba como si contenían la imagen o solo el fondo.

Como era de esperar, el entrenamiento directo sobre datos de Google arroja índices de error más altos que el entrenamiento sobre datos preparados. ^[1] En aproximadamente la mitad de las categorías de objetos probadas, ABS-pLSA y TSI-pLSA tienen un rendimiento significativamente mejor que el pLSA normal, y solo en 2 categorías de 7, TSI-pLSA tiene un rendimiento mejor que los otros dos modelos.

ÓPTIMO

OPTIMOL (recopilación automática de imágenes en línea mediante aprendizaje incremental de modelos) aborda el problema de aprender categorías de objetos a partir de búsquedas de imágenes en línea abordando el aprendizaje y la búsqueda de modelos simultáneamente. OPTIMOL es un modelo iterativo que actualiza su modelo de la categoría de objeto de destino mientras recupera simultáneamente imágenes más relevantes. ^[3]

Marco general

OPTIMOL se presentó como un marco iterativo general que es independiente del modelo específico utilizado para el aprendizaje de categorías. El algoritmo es el siguiente:

Descargue un gran conjunto de imágenes de Internet buscando una palabra clave
Inicializar el conjunto de datos con imágenes semilla
Aunque se necesitan más imágenes en el conjunto de datos:
- Conozca el modelo con las imágenes del conjunto de datos agregadas más recientemente
- Clasifique las imágenes descargadas utilizando el modelo actualizado
- Añadir imágenes aceptadas al conjunto de datos

Tenga en cuenta que solo se utilizan las imágenes agregadas más recientemente en cada ronda de aprendizaje. Esto permite que el algoritmo se ejecute en una cantidad arbitrariamente grande de imágenes de entrada.