Descriptor visual

En visión artificial , los descriptores visuales o descriptores de imagen son descripciones de las características visuales de los contenidos en imágenes , vídeos o algoritmos o aplicaciones que producen dichas descripciones. Describen características elementales como la forma , el color , la textura o el movimiento , entre otras.

Introducción

Como consecuencia de las nuevas tecnologías de la comunicación y del uso masivo de Internet en nuestra sociedad, la cantidad de información audiovisual disponible en formato digital está aumentando considerablemente, por lo que ha sido necesario diseñar unos sistemas que nos permitan describir el contenido de diversos tipos de información multimedia para poder realizar su búsqueda y clasificación.

Los descriptores audiovisuales son los encargados de la descripción de los contenidos. Estos descriptores tienen un buen conocimiento de los objetos y eventos que se encuentran en un vídeo, imagen o audio y permiten realizar búsquedas rápidas y eficientes del contenido audiovisual.

Este sistema se puede comparar con los buscadores de contenidos textuales. Aunque es relativamente fácil encontrar texto con un ordenador, es mucho más difícil encontrar fragmentos concretos de audio y vídeo. Por ejemplo, imaginemos a alguien que busca una imagen de una persona feliz. La felicidad es un sentimiento y no se aprecia su forma, color y textura en las imágenes.

La descripción del contenido audiovisual no es una tarea superficial y resulta esencial para el uso eficaz de este tipo de archivos. El sistema de normalización que se ocupa de los descriptores audiovisuales es el MPEG-7 ( Motion Picture Expert Group - 7 ).

Tipos

Los descriptores son el primer paso para descubrir la conexión entre los píxeles contenidos en una imagen digital y lo que los humanos recuerdan después de haber observado una imagen o un grupo de imágenes después de algunos minutos.

Los descriptores visuales se dividen en dos grupos principales:

Descriptores de información general: contienen descriptores de bajo nivel que brindan una descripción sobre el color, la forma, las regiones , las texturas y el movimiento.
Descriptores de información de dominio específico: brindan información sobre objetos y eventos en la escena. Un ejemplo concreto sería el reconocimiento facial .

Descriptores de información general

Los descriptores de información general consisten en un conjunto de descriptores que cubren diferentes características básicas y elementales como: color, textura, forma, movimiento, ubicación y otros. Esta descripción se genera automáticamente mediante procesamiento de señales .

Color

Es la cualidad más básica del contenido visual. Se definen cinco herramientas para describir el color. Las tres primeras herramientas representan la distribución del color y las últimas describen la relación de color entre secuencias o grupos de imágenes :

Descriptor de color dominante (DCD)
Descriptor de color escalable (SCD)
Descriptor de estructura de color (CSD)
Descriptor de diseño de color (CLD)
Grupo de cuadros (GoF) o grupo de imágenes (GoP)

Textura

Es una cualidad importante para describir una imagen. Los descriptores de textura caracterizan las texturas o regiones de la imagen. Observan la homogeneidad de las regiones y los histogramas de los bordes de estas regiones. El conjunto de descriptores está formado por:

Descriptor de textura homogéneo (HTD)
Descriptor de exploración de texturas (por determinar)
Descriptor de histograma de bordes (EHD)

Forma

Contiene información semántica importante debido a la capacidad del ser humano para reconocer objetos a través de su forma. Sin embargo, esta información solo se puede extraer mediante una segmentación similar a la que implementa el sistema visual humano. En la actualidad, un sistema de segmentación de este tipo aún no está disponible, sin embargo, existe una serie de algoritmos que se consideran una buena aproximación. Estos descriptores describen regiones, contornos y formas para imágenes 2D y para volúmenes 3D . Los descriptores de forma son los siguientes:

Descriptor de forma basado en región (RSD)
Descriptor de forma basado en contornos (CSD)
Descriptor de forma 3D (SD 3D)

Movimiento

Se define mediante cuatro descriptores diferentes que describen el movimiento en una secuencia de vídeo . El movimiento está relacionado con el movimiento de los objetos en la secuencia y con el movimiento de la cámara . Esta última información la proporciona el dispositivo de captura, mientras que el resto se implementa mediante el procesamiento de imágenes . El conjunto de descriptores es el siguiente:

Descriptor de actividad de movimiento (MAD)
Descriptor de movimiento de cámara (CMD)
Descriptor de trayectoria de movimiento (MTD)
Descriptor de movimiento paramétrico y de deformación (WMD y PMD)

Ubicación

La ubicación de los elementos en la imagen se utiliza para describir los elementos en el dominio espacial. Además, los elementos también pueden ubicarse en el dominio temporal:

Descriptor de localización de región (RLD)
Descriptor de localización espacio-temporal (STLD)

Descriptores de información de dominio específico

Estos descriptores, que dan información sobre objetos y eventos en la escena, no son fácilmente extraíbles, más aún cuando la extracción se va a realizar de forma automática. No obstante, pueden procesarse manualmente.

Como se mencionó anteriormente, el reconocimiento facial es un ejemplo concreto de una aplicación que intenta obtener esta información automáticamente.

Aplicaciones de descriptores

Entre todas las aplicaciones las más importantes son:

Motores de búsqueda y clasificadores de documentos multimedia .
Biblioteca digital : los descriptores visuales permiten una búsqueda muy detallada y concreta de cualquier vídeo o imagen mediante diferentes parámetros de búsqueda. Por ejemplo, la búsqueda de películas en las que aparece un actor conocido, la búsqueda de vídeos que contienen la montaña Everest, etc.
Servicio de noticias electrónicas personalizado.
Posibilidad de conexión automática a un canal de televisión que esté retransmitiendo un partido de fútbol, por ejemplo, cada vez que un jugador se acerque al área de portería.
Control y filtrado de contenidos audiovisuales concretos, como material violento o pornográfico. También autorización para algunos contenidos multimedia .

Véase también

Referencias

BS Manjunath (Editor), Philippe Salembier (Editor) y Thomas Sikora (Editor): Introducción a MPEG-7: Interfaz de descripción de contenido multimedia . Wiley & Sons, abril de 2002 - ISBN 0-471-48678-7