La exploración de vídeo , también conocida como búsqueda exploratoria de vídeo , es el proceso interactivo de examinar rápidamente el contenido de vídeo para satisfacer alguna necesidad de información o para comprobar de forma interactiva si el contenido del vídeo es relevante. Aunque originalmente se propuso para ayudar a los usuarios a inspeccionar un único vídeo a través de miniaturas visuales, [1] las herramientas de exploración de vídeo modernas permiten a los usuarios encontrar rápidamente la información deseada en un archivo de vídeo mediante la interacción iterativa entre humanos y ordenadores a través de un enfoque de búsqueda exploratoria . [2] [3] Muchas de estas herramientas presuponen un usuario inteligente que desea funciones para inspeccionar de forma interactiva el contenido de vídeo, así como funciones de filtrado automático de contenido. Para ello, se suelen proporcionar varias funciones de interacción con el vídeo [4] , como una navegación sofisticada en el vídeo o una búsqueda mediante una consulta basada en el contenido . Las herramientas de exploración de vídeo suelen basarse en un análisis de contenido de vídeo de nivel inferior , como la detección de transición de tomas , la extracción de fotogramas clave, la detección de conceptos semánticos y la creación de una descripción general del contenido estructurado del archivo de vídeo o archivo de vídeo. Además, suelen proporcionar funciones de navegación sofisticadas, como líneas de tiempo avanzadas, [5] barras de búsqueda visual o una lista de miniaturas seleccionadas, así como medios para realizar consultas de contenido. Algunos ejemplos de consultas de contenido son el filtrado de tomas a través de conceptos visuales (por ejemplo, solo tomas que muestren automóviles), a través de algunas características específicas (por ejemplo, filtrado de color o movimiento), a través de bocetos proporcionados por el usuario (por ejemplo, un boceto dibujado visualmente) o a través de una búsqueda de similitud basada en contenido .
La exploración de vídeo fue propuesta originalmente por el ingeniero iraní Farshid Arman, el científico informático taiwanés Arding Hsu y el científico informático Ming-Yee Chiu, mientras trabajaban en Siemens , y se presentó en la Conferencia Internacional ACM en agosto de 1993. [1] [6] Describieron un algoritmo de detección de tomas para vídeo comprimido que originalmente se codificó con estándares de codificación de vídeo de transformada de coseno discreta (DCT) como JPEG , MPEG y H.26x . [7] La idea básica era que, dado que los coeficientes DCT están matemáticamente relacionados con el dominio espacial y representan el contenido de cada fotograma, se pueden utilizar para detectar las diferencias entre fotogramas de vídeo. En el algoritmo, un subconjunto de bloques en un fotograma y un subconjunto de coeficientes DCT para cada bloque se utilizan como representación del vector de movimiento para el fotograma. Al operar en representaciones DCT comprimidas, el algoritmo reduce significativamente los requisitos computacionales para la descompresión y permite una exploración de vídeo eficaz. [8] El algoritmo representa tomas separadas de una secuencia de video mediante un fotograma r, una miniatura de la toma enmarcada por una región de seguimiento de movimiento. Una variación de este concepto se adoptó posteriormente para los mosaicos de contenido de video QBIC , donde cada fotograma r es una imagen destacada de la toma que representa. [9]
Las soluciones modernas de búsqueda de vídeos incluyen Video Notebook, una startup de Menlo Park fundada en 2021 por Mike Lanza, que utiliza visión artificial para extraer diapositivas y reconocimiento óptico de caracteres y de voz para facilitar la búsqueda de vídeos. El software se puede utilizar en el lado del cliente (utilizando una extensión del navegador ), donde se extraen las diapositivas y el texto mientras se ve el vídeo (por ejemplo, en una plataforma de vídeo como YouTube o Udemy ), [10] [11] o en el lado del servidor. Los vídeos procesados, que se pueden ver en la aplicación web Video Notebook , cuentan con una interfaz de usuario de búsqueda de vídeos con diapositivas extraídas con marca de tiempo, una barra de búsqueda para consultar el vídeo (o una colección de vídeos) y capítulos de texto. Entre los clientes de Video Notebook se incluyen organizaciones como Ernst & Young . [12]
El concurso de búsqueda de vídeos (Video Browser Showdown, VBS) [13] es una competición anual de evaluación en directo de herramientas de búsqueda exploratoria de vídeos, en la que investigadores internacionales utilizan herramientas de búsqueda de vídeos para resolver tareas de búsqueda de vídeos ad hoc en un conjunto de datos moderadamente grande lo más rápido posible. El objetivo principal del concurso, que comenzó en 2012 en la Conferencia Internacional sobre Modelado Multimedia (MMM), es mejorar el rendimiento de las herramientas de búsqueda de vídeos. Desde 2016, el concurso también colabora con TRECVID. [14] El objetivo del concurso es evaluar la eficiencia de las herramientas de búsqueda de vídeos en tareas de búsqueda de elementos conocidos (KIS) con un conjunto de datos bien definido en comparación directa con otras herramientas. [15]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )