stringtranslate.com

Descriptor visual

En visión artificial , los descriptores visuales o descriptores de imagen son descripciones de las características visuales de los contenidos en imágenes , vídeos o algoritmos o aplicaciones que producen dichas descripciones. Describen características elementales como la forma , el color , la textura o el movimiento , entre otras.

Introducción

Como consecuencia de las nuevas tecnologías de la comunicación y del uso masivo de Internet en nuestra sociedad, la cantidad de información audiovisual disponible en formato digital está aumentando considerablemente, por lo que ha sido necesario diseñar sistemas que permitan describir el contenido de diversos tipos de información multimedia para poder realizar su búsqueda y clasificación.

Los descriptores audiovisuales son los encargados de la descripción de los contenidos. Estos descriptores tienen un buen conocimiento de los objetos y eventos que se encuentran en un vídeo, imagen o audio y permiten realizar búsquedas rápidas y eficientes del contenido audiovisual.

Este sistema se puede comparar con los buscadores de contenidos textuales. Aunque es relativamente fácil encontrar texto con un ordenador, es mucho más difícil encontrar fragmentos concretos de audio y vídeo. Por ejemplo, imaginemos a alguien que busca una imagen de una persona feliz. La felicidad es un sentimiento y no se aprecia su forma, color y textura en las imágenes.

La descripción del contenido audiovisual no es una tarea superficial y resulta esencial para el uso eficaz de este tipo de archivos. El sistema de normalización que se ocupa de los descriptores audiovisuales es el MPEG-7 ( Motion Picture Expert Group - 7 ).

Tipos

Los descriptores son el primer paso para descubrir la conexión entre los píxeles contenidos en una imagen digital y lo que los humanos recuerdan después de haber observado una imagen o un grupo de imágenes después de algunos minutos.

Los descriptores visuales se dividen en dos grupos principales:

Descriptores de información general

Los descriptores de información general consisten en un conjunto de descriptores que cubren diferentes características básicas y elementales como: color, textura, forma, movimiento, ubicación y otros. Esta descripción se genera automáticamente mediante procesamiento de señales .

Color

Es la cualidad más básica del contenido visual. Se definen cinco herramientas para describir el color. Las tres primeras herramientas representan la distribución del color y las últimas describen la relación de color entre secuencias o grupos de imágenes :

Textura

Es una cualidad importante para describir una imagen. Los descriptores de textura caracterizan las texturas o regiones de la imagen. Observan la homogeneidad de las regiones y los histogramas de los bordes de estas regiones. El conjunto de descriptores está formado por:

Forma

Contiene información semántica importante debido a la capacidad del ser humano para reconocer objetos a través de su forma. Sin embargo, esta información solo se puede extraer mediante una segmentación similar a la que implementa el sistema visual humano. En la actualidad, un sistema de segmentación de este tipo aún no está disponible, sin embargo, existe una serie de algoritmos que se consideran una buena aproximación. Estos descriptores describen regiones, contornos y formas para imágenes 2D y para volúmenes 3D . Los descriptores de forma son los siguientes:

Movimiento

Se define mediante cuatro descriptores diferentes que describen el movimiento en una secuencia de vídeo . El movimiento está relacionado con el movimiento de los objetos en la secuencia y con el movimiento de la cámara . Esta última información la proporciona el dispositivo de captura, mientras que el resto se implementa mediante el procesamiento de imágenes . El conjunto de descriptores es el siguiente:

Ubicación

La ubicación de los elementos en la imagen se utiliza para describir los elementos en el dominio espacial. Además, los elementos también pueden ubicarse en el dominio temporal:

Descriptores de información de dominio específico

Estos descriptores, que dan información sobre objetos y eventos en la escena, no son fácilmente extraíbles, más aún cuando la extracción se va a realizar de forma automática. No obstante, pueden procesarse manualmente.

Como se mencionó anteriormente, el reconocimiento facial es un ejemplo concreto de una aplicación que intenta obtener esta información automáticamente.

Aplicaciones de descriptores

Entre todas las aplicaciones las más importantes son:

Véase también

Referencias