stringtranslate.com

Categorización de objetos a partir de la búsqueda de imágenes.

En visión por computadora , el problema de la categorización de objetos a partir de la búsqueda de imágenes es el problema de entrenar a un clasificador para que reconozca categorías de objetos, utilizando únicamente las imágenes recuperadas automáticamente con un motor de búsqueda de Internet . Idealmente, la recopilación automática de imágenes permitiría entrenar a los clasificadores con nada más que los nombres de las categorías como entrada. Este problema está estrechamente relacionado con el de la recuperación de imágenes basada en contenido (CBIR), donde el objetivo es obtener mejores resultados de búsqueda de imágenes en lugar de entrenar un clasificador para el reconocimiento de imágenes.

Tradicionalmente, los clasificadores se entrenan utilizando conjuntos de imágenes etiquetadas a mano. Recopilar un conjunto de imágenes de este tipo suele ser un proceso laborioso y que requiere mucho tiempo. El uso de motores de búsqueda de Internet para automatizar el proceso de adquisición de grandes conjuntos de imágenes etiquetadas se ha descrito como una forma potencial de facilitar enormemente la investigación en visión por computadora. [1]

Desafíos

Imágenes no relacionadas

Un problema al utilizar los resultados de búsqueda de imágenes de Internet como conjunto de entrenamiento para un clasificador es el alto porcentaje de imágenes no relacionadas dentro de los resultados. Se ha estimado que, cuando se consulta un motor de búsqueda de imágenes como Google con el nombre de una categoría de objeto (como avión ), hasta el 85% de las imágenes devueltas no están relacionadas con la categoría. [1]

Variabilidad intraclase

Otro desafío que plantea el uso de resultados de búsqueda de imágenes en Internet como conjuntos de entrenamiento para clasificadores es que existe una gran variabilidad dentro de las categorías de objetos, en comparación con las categorías que se encuentran en conjuntos de datos etiquetados manualmente como Caltech 101 y Pascal . Las imágenes de objetos pueden variar ampliamente en función de una serie de factores importantes, como la escala, la pose, la iluminación, la cantidad de objetos y la cantidad de oclusión.

enfoque pLSA

En un artículo de 2005 de Fergus et al., [1] se aplicaron pLSA (análisis semántico latente probabilístico) y extensiones de este modelo al problema de la categorización de objetos a partir de la búsqueda de imágenes. pLSA se desarrolló originalmente para la clasificación de documentos , pero desde entonces se ha aplicado a la visión por computadora . Se parte del supuesto de que las imágenes son documentos que se ajustan al modelo de bolsa de palabras .

Modelo

Así como los documentos de texto se componen de palabras, cada una de las cuales puede repetirse dentro del documento y entre documentos, las imágenes se pueden modelar como combinaciones de palabras visuales . Así como todo el conjunto de palabras de texto se define en un diccionario, todo el conjunto de palabras visuales se define en un diccionario de palabras en código .

pLSA también divide los documentos en temas . Así como conocer los temas de un artículo le permite hacer buenas conjeturas sobre los tipos de palabras que aparecerán en él, la distribución de las palabras en una imagen depende de los temas subyacentes. El modelo pLSA nos dice la probabilidad de ver cada palabra dada la categoría en términos de temas :

Una suposición importante hecha en este modelo es que y son condicionalmente independientes dado . Dado un tema, la probabilidad de que una determinada palabra aparezca como parte de ese tema es independiente del resto de la imagen. [2]

Entrenar este modelo implica encontrar y maximizar la probabilidad de las palabras observadas en cada documento. Para ello se utiliza el algoritmo de maximización de expectativas , con la siguiente función objetivo :

Solicitud

ABS-PLSA

La posición absoluta pLSA (ABS-pLSA) adjunta información de ubicación a cada palabra visual localizándola en una de las X "ins" de la imagen. Aquí, representa en cuál de los contenedores cae la palabra visual. La nueva ecuación es:

y se puede resolver de manera similar al problema pLSA original, utilizando el algoritmo EM

Un problema con este modelo es que no es invariante de traducción ni de escala. Dado que las posiciones de las palabras visuales son absolutas, cambiar el tamaño del objeto en la imagen o moverlo tendría un impacto significativo en la distribución espacial de las palabras visuales en diferentes contenedores.

ETI-pLSA

Traducción y pLSA invariante de escala (TSI-pLSA). Este modelo amplía pLSA agregando otra variable latente, que describe la ubicación espacial del objeto objetivo en una imagen. Ahora, la posición de una palabra visual se da en relación con la ubicación de este objeto, en lugar de como una posición absoluta en la imagen. La nueva ecuación es:

Nuevamente, los parámetros y se pueden resolver usando el algoritmo EM . Se puede suponer que es una distribución uniforme.

Implementación

Seleccionando palabras

Las palabras de una imagen se seleccionaron utilizando 4 detectores de características diferentes: [1]

Utilizando estos 4 detectores, se detectaron aproximadamente 700 características por imagen. Luego, estas características se codificaron como descriptores de transformación de características invariantes de escala y se cuantificaron vectorialmente para que coincidan con una de las 350 palabras contenidas en un libro de códigos. El libro de códigos se calculó previamente a partir de características extraídas de una gran cantidad de imágenes que abarcan numerosas categorías de objetos.

Posibles ubicaciones de objetos

Una cuestión importante en el modelo TSI-pLSA es cómo determinar los valores que puede tomar la variable aleatoria. Es un vector de 4, cuyos componentes describen el centroide del objeto, así como las escalas x e y que definen un cuadro delimitador alrededor del objeto, por lo que el espacio de posibles valores que puede adoptar es enorme. Para limitar el número de posibles ubicaciones de objetos a un número razonable, primero se lleva a cabo pLSA normal en el conjunto de imágenes y, para cada tema, se ajusta un modelo de mezcla gaussiana sobre las palabras visuales, ponderado por . Se prueban hasta gaussianos (lo que permite múltiples instancias de un objeto en una sola imagen), donde es una constante.

Actuación

Los autores de Fergus et al. El artículo comparó el rendimiento de los tres algoritmos pLSA (pLSA, ABS-pLSA y TSI-pLSA) en conjuntos de datos cuidadosamente seleccionados e imágenes obtenidas de búsquedas en Google. El rendimiento se midió como la tasa de error al clasificar imágenes en un conjunto de prueba como que contienen la imagen o que solo contienen fondo.

Como era de esperar, entrenar directamente con datos de Google genera tasas de error más altas que entrenar con datos preparados. [1] En aproximadamente la mitad de las categorías de objetos probadas, ABS-pLSA y TSI-pLSA funcionan significativamente mejor que pLSA normal, y en sólo 2 categorías de 7, TSI-pLSA funciona mejor que los otros dos modelos.

OPTIMOL

OPTIMOL (recopilación automática de imágenes en línea mediante aprendizaje incremental de modelos) aborda el problema de aprender categorías de objetos a partir de búsquedas de imágenes en línea abordando el aprendizaje de modelos y la búsqueda simultáneamente. OPTIMOL es un modelo iterativo que actualiza su modelo de la categoría de objeto de destino y al mismo tiempo recupera imágenes más relevantes. [3]

Marco general

OPTIMOL se presentó como un marco iterativo general que es independiente del modelo específico utilizado para el aprendizaje de categorías. El algoritmo es como sigue:

Tenga en cuenta que en cada ronda de aprendizaje solo se utilizan las imágenes agregadas más recientemente. Esto permite que el algoritmo se ejecute en una cantidad arbitrariamente grande de imágenes de entrada.

Modelo

Las dos categorías (objeto objetivo y fondo) se modelan como procesos jerárquicos de Dirichlet (HDP). Al igual que en el enfoque pLSA, se supone que las imágenes se pueden describir con el modelo de bolsa de palabras . HDP modela las distribuciones de una cantidad no especificada de temas en imágenes de una categoría y entre categorías. La distribución de temas entre imágenes en una sola categoría se modela como un proceso de Dirichlet (un tipo de distribución de probabilidad no paramétrica ). Para permitir compartir temas entre clases, cada uno de estos procesos de Dirichlet se modela como una muestra de otro proceso de Dirichlet actual. El HDP fue descrito por primera vez por Teh et al. en 2005. [4]

Implementación

Inicialización

El conjunto de datos debe inicializarse o sembrarse con un lote original de imágenes que sirvan como buenos ejemplos de la categoría de objeto que se va a aprender. Estos se pueden recopilar automáticamente, utilizando la primera página de imágenes devueltas por el motor de búsqueda (que tienden a ser mejores que las imágenes posteriores). Alternativamente, las imágenes iniciales se pueden recolectar a mano.

Aprendizaje modelo

Para aprender los diversos parámetros del HDP de manera incremental, se utiliza el muestreo de Gibbs sobre las variables latentes. Se lleva a cabo después de que cada nuevo conjunto de imágenes se incorpora al conjunto de datos. El muestreo de Gibbs implica tomar muestras repetidas de un conjunto de variables aleatorias para aproximar sus distribuciones. El muestreo implica generar un valor para la variable aleatoria en cuestión, en función del estado de las otras variables aleatorias de las que depende. Con suficientes muestras, se puede lograr una aproximación razonable del valor.

Clasificación

En cada iteración, y se puede obtener del modelo aprendido después de la ronda anterior de muestreo de Gibbs, donde es un tema, una categoría y una sola palabra visual. Entonces, la probabilidad de que una imagen pertenezca a una determinada clase es:

Esto se calcula para cada nueva imagen candidata por iteración. La imagen se clasifica como perteneciente a la categoría con mayor probabilidad.

Adición al conjunto de datos y al "conjunto de caché"

Sin embargo, para calificar para su incorporación al conjunto de datos, una imagen debe cumplir una condición más estricta:

Donde y son categorías de primer plano (objeto) y de fondo, respectivamente, y la proporción de constantes describe el riesgo de aceptar falsos positivos y falsos negativos. Se ajustan automáticamente en cada iteración, y el coste de un falso positivo es mayor que el de un falso negativo. Esto garantiza que se recopile un mejor conjunto de datos.

Sin embargo, una vez que se acepta una imagen que cumple con el criterio anterior y se incorpora al conjunto de datos, debe cumplir otro criterio antes de incorporarse al "conjunto de dolor", el conjunto de imágenes que se utilizarán para el entrenamiento. Este conjunto pretende ser un subconjunto diverso del conjunto de imágenes aceptadas. Si el modelo se entrenara con todas las imágenes aceptadas, podría volverse cada vez más especializado y aceptar solo imágenes muy similares a las anteriores.

Actuación

El rendimiento del método OPTIMOL está definido por tres factores:

Categorización de objetos en la recuperación de imágenes basada en contenido

Normalmente, las búsquedas de imágenes sólo utilizan texto asociado a las imágenes. El problema de la recuperación de imágenes basada en contenido es el de mejorar los resultados de búsqueda teniendo en cuenta la información visual contenida en las propias imágenes. Varios métodos CBIR utilizan clasificadores entrenados en resultados de búsqueda de imágenes para refinar la búsqueda. En otras palabras, la categorización de objetos a partir de la búsqueda de imágenes es un componente del sistema. OPTIMOL, por ejemplo, utiliza un clasificador entrenado en imágenes recopiladas durante iteraciones anteriores para seleccionar imágenes adicionales para el conjunto de datos devuelto.

Ejemplos de métodos CBIR que modelan categorías de objetos a partir de la búsqueda de imágenes son:

Referencias

  1. ^ ABCDE Fergus, R.; Fei-Fei, L.; Perona, P.; Zisserman, A. (2005). "Aprendizaje de categorías de objetos de la búsqueda de imágenes de Google" (PDF) . Proc. Conferencia Internacional IEEE sobre Visión por Computadora .
  2. ^ Hofmann, Thomas (1999). "Análisis semántico latente probabilístico" (PDF) . Incertidumbre en la Inteligencia Artificial . Archivado desde el original (PDF) el 10 de julio de 2007.
  3. ^ Li, Li-Jia; Wang, pandilla; Fei-Fei, Li (2007). "OPTIMOL: recopilación automática de imágenes en línea mediante aprendizaje incremental de modelos" (PDF) . Proc. Conferencia IEEE sobre visión por computadora y reconocimiento de patrones .
  4. ^ Teh, sí; Jordania, Michigan; Beal, MJ; Blei, David (2006). "Procesos jerárquicos de Dirichlet" (PDF) . Revista de la Asociación Estadounidense de Estadística . 101 (476): 1566. CiteSeerX 10.1.1.5.9094 . doi :10.1198/016214506000000302. S2CID  7934949. 
  5. ^ Fergus, R.; Perona, P.; Zisserman, A. (2004). "Un filtro de categorías visuales para imágenes de Google" (PDF) . Proc. 8ª Conferencia Europea. sobre Visión por Computador .
  6. ^ Berg, T.; Forsyth, D. (2006). "Animales en la web". Proc. Visión por computadora y reconocimiento de patrones . doi :10.1109/CVPR.2006.57.
  7. ^ Yanai, K; Barnard, K. (2005). "Recopilación probabilística de imágenes web". Taller ACM SIGMM sobre recuperación de información multimedia .

Ver también