stringtranslate.com

Descriptor visual

En visión por computadora , los descriptores visuales o descriptores de imágenes son descripciones de las características visuales de los contenidos en imágenes , videos o algoritmos o aplicaciones que producen dichas descripciones. Describen características elementales como la forma , el color , la textura o el movimiento , entre otras.

Introducción

Como consecuencia de las nuevas tecnologías de la comunicación y el uso masivo de Internet en nuestra sociedad, la cantidad de información audiovisual disponible en formato digital está aumentando considerablemente. Por ello, ha sido necesario diseñar algunos sistemas que permitan describir el contenido de varios tipos de información multimedia para poder buscarlos y clasificarlos.

Los descriptores audiovisuales son los encargados de la descripción de los contenidos. Estos descriptores conocen bien los objetos y eventos encontrados en un vídeo, imagen o audio y permiten realizar búsquedas rápidas y eficaces del contenido audiovisual.

Este sistema se puede comparar con los motores de búsqueda de contenidos textuales. Aunque es cierto que es relativamente fácil encontrar texto con un ordenador, es mucho más difícil encontrar partes concretas de audio y vídeo. Por ejemplo, imagina a alguien buscando una escena de una persona feliz. La felicidad es un sentimiento y no es evidente su descripción de forma, color y textura en imágenes.

La descripción del contenido audiovisual no es una tarea superficial y es imprescindible para el uso eficaz de este tipo de archivos. El sistema de estandarización que se ocupa de los descriptores audiovisuales es el MPEG-7 ( Motion Picture Expert Group - 7 ).

Tipos

Los descriptores son el primer paso para descubrir la conexión entre los píxeles contenidos en una imagen digital y lo que los humanos recuerdan después de haber observado una imagen o un grupo de imágenes después de algunos minutos.

Los descriptores visuales se dividen en dos grupos principales:

Descriptores de información general

Los descriptores de información general consisten en un conjunto de descriptores que cubren diferentes características básicas y elementales como: color, textura, forma, movimiento, ubicación y otros. Esta descripción se genera automáticamente mediante procesamiento de señales .

Color

Es la cualidad más básica del contenido visual. Se definen cinco herramientas para describir el color. Las tres primeras herramientas representan la distribución del color y las últimas describen la relación de color entre secuencias o grupos de imágenes :

Textura

Es una cualidad importante para describir una imagen. Los descriptores de textura caracterizan texturas o regiones de la imagen. Observan la homogeneidad de la región y los histogramas de los límites de estas regiones. El conjunto de descriptores está formado por:

Forma

Contiene información semántica importante debido a la capacidad humana para reconocer objetos a través de su forma. Sin embargo, esta información sólo puede extraerse mediante una segmentación similar a la que implementa el sistema visual humano. Hoy en día, un sistema de segmentación de este tipo aún no está disponible, sin embargo, existen una serie de algoritmos que se consideran una buena aproximación. Estos descriptores describen regiones, contornos y formas para imágenes 2D y volúmenes 3D . Los descriptores de forma son los siguientes:

Movimiento

Está definido por cuatro descriptores diferentes que describen el movimiento en una secuencia de vídeo . El movimiento está relacionado con el movimiento de los objetos en la secuencia y con el movimiento de la cámara . Esta última información la proporciona el dispositivo de captura, mientras que el resto se implementa mediante el procesamiento de imágenes . El conjunto de descriptores es el siguiente:

Ubicación

La ubicación de los elementos en la imagen se utiliza para describir elementos en el dominio espacial. Además, los elementos también pueden ubicarse en el dominio temporal:

Descriptores de información de dominio específicos

Estos descriptores, que dan información sobre objetos y eventos en la escena, no son fácilmente extraíbles, más aún cuando la extracción debe realizarse automáticamente. Sin embargo, se pueden procesar manualmente.

Como se mencionó anteriormente, el reconocimiento facial es un ejemplo concreto de una aplicación que intenta obtener esta información automáticamente.

Aplicaciones de descriptores

Entre todas las aplicaciones, las más importantes son:

Ver también

Referencias