En la visión artificial , el problema de la categorización de objetos a partir de la búsqueda de imágenes es el problema de entrenar un clasificador para reconocer categorías de objetos, utilizando únicamente las imágenes recuperadas automáticamente con un motor de búsqueda de Internet . Idealmente, la recopilación automática de imágenes permitiría entrenar a los clasificadores con nada más que los nombres de las categorías como entrada. Este problema está estrechamente relacionado con el de la recuperación de imágenes basada en contenido (CBIR), donde el objetivo es devolver mejores resultados de búsqueda de imágenes en lugar de entrenar un clasificador para el reconocimiento de imágenes.
Tradicionalmente, los clasificadores se entrenan utilizando conjuntos de imágenes que se etiquetan a mano. Recopilar un conjunto de imágenes de este tipo suele ser un proceso muy laborioso y que requiere mucho tiempo. El uso de motores de búsqueda de Internet para automatizar el proceso de adquisición de grandes conjuntos de imágenes etiquetadas se ha descrito como una forma potencial de facilitar enormemente la investigación en visión artificial. [1]
Un problema que presenta el uso de los resultados de búsqueda de imágenes de Internet como conjunto de entrenamiento para un clasificador es el alto porcentaje de imágenes no relacionadas que contienen los resultados. Se ha estimado que, cuando se consulta un motor de búsqueda como Google Images con el nombre de una categoría de objeto (como avión ), hasta el 85% de las imágenes devueltas no están relacionadas con la categoría. [1]
Otro desafío que plantea el uso de los resultados de búsqueda de imágenes en Internet como conjuntos de entrenamiento para los clasificadores es que existe una gran variabilidad dentro de las categorías de objetos, en comparación con las categorías que se encuentran en conjuntos de datos etiquetados manualmente, como Caltech 101 y Pascal . Las imágenes de objetos pueden variar ampliamente en una serie de factores importantes, como la escala, la pose, la iluminación, la cantidad de objetos y la cantidad de oclusión.
En un artículo de 2005 de Fergus et al., [1] pLSA (análisis semántico latente probabilístico) y extensiones de este modelo se aplicaron al problema de la categorización de objetos a partir de la búsqueda de imágenes. pLSA se desarrolló originalmente para la clasificación de documentos , pero desde entonces se ha aplicado a la visión artificial . Supone que las imágenes son documentos que se ajustan al modelo de bolsa de palabras .
Así como los documentos de texto están compuestos de palabras, cada una de las cuales puede repetirse dentro del documento y entre documentos, las imágenes pueden modelarse como combinaciones de palabras visuales . Así como el conjunto completo de palabras de texto se define en un diccionario, el conjunto completo de palabras visuales se define en un diccionario de palabras de código .
pLSA también divide los documentos en temas . Así como conocer el tema de un artículo permite hacer conjeturas acertadas sobre el tipo de palabras que aparecerán en él, la distribución de palabras en una imagen depende de los temas subyacentes. El modelo pLSA nos indica la probabilidad de ver cada palabra dada la categoría en términos de temas :
Un supuesto importante que se hace en este modelo es que y son condicionalmente independientes dado . Dado un tema, la probabilidad de que una determinada palabra aparezca como parte de ese tema es independiente del resto de la imagen. [2]
El entrenamiento de este modelo implica encontrar y que maximice la probabilidad de las palabras observadas en cada documento. Para ello se utiliza el algoritmo de maximización de expectativas , con la siguiente función objetivo :
La pLSA de posición absoluta (ABS-pLSA) adjunta información de ubicación a cada palabra visual al localizarla en una de las X 揵ins? de la imagen. Aquí, representa en cuál de los contenedores se encuentra la palabra visual. La nueva ecuación es:
y se puede resolver de una manera similar al problema pLSA original, utilizando el algoritmo EM
Un problema con este modelo es que no es invariable en cuanto a la traducción o la escala. Dado que las posiciones de las palabras visuales son absolutas, cambiar el tamaño del objeto en la imagen o moverlo tendría un impacto significativo en la distribución espacial de las palabras visuales en diferentes contenedores.
pLSA invariante en la traducción y la escala (TSI-pLSA). Este modelo amplía el pLSA añadiendo otra variable latente, que describe la ubicación espacial del objeto de destino en una imagen. Ahora, la posición de una palabra visual se da en relación con la ubicación de este objeto, en lugar de como una posición absoluta en la imagen. La nueva ecuación es:
Nuevamente, los parámetros y se pueden resolver utilizando el algoritmo EM . se puede suponer que son una distribución uniforme.
Las palabras en una imagen se seleccionaron utilizando 4 detectores de características diferentes: [1]
Con estos 4 detectores, se detectaron aproximadamente 700 características por imagen. Estas características se codificaron como descriptores de transformación de características invariantes de escala y se cuantificaron vectorialmente para que coincidieran con una de las 350 palabras contenidas en un libro de códigos. El libro de códigos se calculó previamente a partir de características extraídas de una gran cantidad de imágenes que abarcaban numerosas categorías de objetos.
Una cuestión importante en el modelo TSI-pLSA es cómo determinar los valores que puede tomar la variable aleatoria. Es un vector de 4, cuyos componentes describen el centroide del objeto, así como las escalas x e y que definen un cuadro delimitador alrededor del objeto, por lo que el espacio de posibles valores que puede tomar es enorme. Para limitar el número de posibles ubicaciones de los objetos a un número razonable, primero se lleva a cabo un pLSA normal en el conjunto de imágenes y, para cada tema, se ajusta un modelo de mezcla gaussiana sobre las palabras visuales, ponderado por . Se prueban hasta gaussianas (permitiendo múltiples instancias de un objeto en una sola imagen), donde es una constante.
Los autores del artículo de Fergus et al. compararon el rendimiento de los tres algoritmos pLSA (pLSA, ABS-pLSA y TSI-pLSA) en conjuntos de datos seleccionados e imágenes obtenidas de búsquedas de Google. El rendimiento se midió como la tasa de error al clasificar las imágenes de un conjunto de prueba como si contenían la imagen o solo el fondo.
Como era de esperar, el entrenamiento directo sobre datos de Google arroja índices de error más altos que el entrenamiento sobre datos preparados. [1] En aproximadamente la mitad de las categorías de objetos probadas, ABS-pLSA y TSI-pLSA tienen un rendimiento significativamente mejor que el pLSA normal, y solo en 2 categorías de 7, TSI-pLSA tiene un rendimiento mejor que los otros dos modelos.
OPTIMOL (recopilación automática de imágenes en línea mediante aprendizaje incremental de modelos) aborda el problema de aprender categorías de objetos a partir de búsquedas de imágenes en línea abordando el aprendizaje y la búsqueda de modelos simultáneamente. OPTIMOL es un modelo iterativo que actualiza su modelo de la categoría de objeto de destino mientras recupera simultáneamente imágenes más relevantes. [3]
OPTIMOL se presentó como un marco iterativo general que es independiente del modelo específico utilizado para el aprendizaje de categorías. El algoritmo es el siguiente:
Tenga en cuenta que solo se utilizan las imágenes agregadas más recientemente en cada ronda de aprendizaje. Esto permite que el algoritmo se ejecute en una cantidad arbitrariamente grande de imágenes de entrada.
Las dos categorías (objeto de destino y fondo) se modelan como procesos Dirichlet jerárquicos (HDP). Al igual que en el enfoque pLSA, se supone que las imágenes se pueden describir con el modelo de bolsa de palabras . HDP modela las distribuciones de un número no especificado de temas en las imágenes de una categoría y en las categorías. La distribución de temas entre las imágenes de una sola categoría se modela como un proceso Dirichlet (un tipo de distribución de probabilidad no paramétrica ). Para permitir el intercambio de temas entre clases, cada uno de estos procesos Dirichlet se modela como una muestra de otro proceso Dirichlet "no original". HDP fue descrito por primera vez por Teh et al. en 2005. [4]
El conjunto de datos debe inicializarse o incluir un lote original de imágenes que sirvan como buenos ejemplos de la categoría de objeto que se desea aprender. Estas imágenes se pueden recopilar automáticamente, utilizando la primera página de imágenes que devuelve el motor de búsqueda (que suelen ser mejores que las imágenes posteriores). Otra posibilidad es recopilar las imágenes iniciales a mano.
Para conocer los distintos parámetros del HDP de forma incremental, se utiliza el muestreo de Gibbs sobre las variables latentes. Se lleva a cabo después de incorporar cada nuevo conjunto de imágenes al conjunto de datos. El muestreo de Gibbs implica muestrear repetidamente un conjunto de variables aleatorias con el fin de aproximar sus distribuciones. El muestreo implica generar un valor para la variable aleatoria en cuestión, en función del estado de las otras variables aleatorias de las que depende. Si se obtienen suficientes muestras, se puede lograr una aproximación razonable del valor.
En cada iteración, y se puede obtener a partir del modelo aprendido después de la ronda anterior de muestreo de Gibbs, donde es un tema, es una categoría y es una sola palabra visual. La probabilidad de que una imagen esté en una determinada clase, entonces, es:
Esto se calcula para cada nueva imagen candidata por iteración. La imagen se clasifica como perteneciente a la categoría con mayor probabilidad.
Sin embargo, para poder ser incorporada al conjunto de datos, una imagen debe satisfacer una condición más estricta:
Donde y son las categorías de primer plano (objeto) y de fondo, respectivamente, y la relación de constantes describe el riesgo de aceptar falsos positivos y falsos negativos. Se ajustan automáticamente en cada iteración, y el costo de un falso positivo es mayor que el de un falso negativo. Esto garantiza que se recopile un mejor conjunto de datos.
Sin embargo, una vez que se acepta una imagen al cumplir con el criterio anterior y se incorpora al conjunto de datos, debe cumplir con otro criterio antes de incorporarse al "conjunto de imágenes", el conjunto de imágenes que se utilizará para el entrenamiento. Este conjunto está destinado a ser un subconjunto diverso del conjunto de imágenes aceptadas. Si el modelo se entrenara con todas las imágenes aceptadas, podría volverse cada vez más especializado y solo aceptar imágenes muy similares a las anteriores.
El rendimiento del método OPTIMOL está definido por tres factores:
Por lo general, las búsquedas de imágenes solo utilizan el texto asociado con las imágenes. El problema de la recuperación de imágenes basada en el contenido es el de mejorar los resultados de la búsqueda teniendo en cuenta la información visual contenida en las propias imágenes. Varios métodos CBIR utilizan clasificadores entrenados con resultados de búsqueda de imágenes para refinar la búsqueda. En otras palabras, la categorización de objetos a partir de la búsqueda de imágenes es un componente del sistema. OPTIMOL, por ejemplo, utiliza un clasificador entrenado con imágenes recopiladas durante iteraciones anteriores para seleccionar imágenes adicionales para el conjunto de datos devuelto.
Ejemplos de métodos CBIR que modelan categorías de objetos a partir de la búsqueda de imágenes son: