stringtranslate.com

Navegación de videos

La exploración de vídeo , también conocida como búsqueda exploratoria de vídeo , es el proceso interactivo de examinar rápidamente el contenido de vídeo para satisfacer alguna necesidad de información o para comprobar de forma interactiva si el contenido del vídeo es relevante. Aunque originalmente se propuso para ayudar a los usuarios a inspeccionar un único vídeo a través de miniaturas visuales, [1] las herramientas de exploración de vídeo modernas permiten a los usuarios encontrar rápidamente la información deseada en un archivo de vídeo mediante la interacción iterativa entre humanos y ordenadores a través de un enfoque de búsqueda exploratoria . [2] [3] Muchas de estas herramientas presuponen un usuario inteligente que desea funciones para inspeccionar de forma interactiva el contenido de vídeo, así como funciones de filtrado automático de contenido. Para ello, se suelen proporcionar varias funciones de interacción con el vídeo [4] , como una navegación sofisticada en el vídeo o una búsqueda mediante una consulta basada en el contenido . Las herramientas de exploración de vídeo suelen basarse en un análisis de contenido de vídeo de nivel inferior , como la detección de transición de tomas , la extracción de fotogramas clave, la detección de conceptos semánticos y la creación de una descripción general del contenido estructurado del archivo de vídeo o archivo de vídeo. Además, suelen proporcionar funciones de navegación sofisticadas, como líneas de tiempo avanzadas, [5] barras de búsqueda visual o una lista de miniaturas seleccionadas, así como medios para realizar consultas de contenido. Algunos ejemplos de consultas de contenido son el filtrado de tomas a través de conceptos visuales (por ejemplo, solo tomas que muestren automóviles), a través de algunas características específicas (por ejemplo, filtrado de color o movimiento), a través de bocetos proporcionados por el usuario (por ejemplo, un boceto dibujado visualmente) o a través de una búsqueda de similitud basada en contenido .

Historia

La exploración de vídeo fue propuesta originalmente por el ingeniero iraní Farshid Arman, el científico informático taiwanés Arding Hsu y el científico informático Ming-Yee Chiu, mientras trabajaban en Siemens , y se presentó en la Conferencia Internacional ACM en agosto de 1993. [1] [6] Describieron un algoritmo de detección de tomas para vídeo comprimido que originalmente se codificó con estándares de codificación de vídeo de transformada de coseno discreta (DCT) como JPEG , MPEG y H.26x . [7] La ​​idea básica era que, dado que los coeficientes DCT están matemáticamente relacionados con el dominio espacial y representan el contenido de cada fotograma, se pueden utilizar para detectar las diferencias entre fotogramas de vídeo. En el algoritmo, un subconjunto de bloques en un fotograma y un subconjunto de coeficientes DCT para cada bloque se utilizan como representación del vector de movimiento para el fotograma. Al operar en representaciones DCT comprimidas, el algoritmo reduce significativamente los requisitos computacionales para la descompresión y permite una exploración de vídeo eficaz. [8] El algoritmo representa tomas separadas de una secuencia de video mediante un fotograma r, una miniatura de la toma enmarcada por una región de seguimiento de movimiento. Una variación de este concepto se adoptó posteriormente para los mosaicos de contenido de video QBIC , donde cada fotograma r es una imagen destacada de la toma que representa. [9]

Cuaderno de video

Las soluciones modernas de búsqueda de vídeos incluyen Video Notebook, una startup de Menlo Park fundada en 2021 por Mike Lanza, que utiliza visión artificial para extraer diapositivas y reconocimiento óptico de caracteres y de voz para facilitar la búsqueda de vídeos. El software se puede utilizar en el lado del cliente (utilizando una extensión del navegador ), donde se extraen las diapositivas y el texto mientras se ve el vídeo (por ejemplo, en una plataforma de vídeo como YouTube o Udemy ), [10] [11] o en el lado del servidor. Los vídeos procesados, que se pueden ver en la aplicación web Video Notebook , cuentan con una interfaz de usuario de búsqueda de vídeos con diapositivas extraídas con marca de tiempo, una barra de búsqueda para consultar el vídeo (o una colección de vídeos) y capítulos de texto. Entre los clientes de Video Notebook se incluyen organizaciones como Ernst & Young . [12]

Comparación de navegadores de vídeo

El concurso de búsqueda de vídeos (Video Browser Showdown, VBS) [13] es una competición anual de evaluación en directo de herramientas de búsqueda exploratoria de vídeos, en la que investigadores internacionales utilizan herramientas de búsqueda de vídeos para resolver tareas de búsqueda de vídeos ad hoc en un conjunto de datos moderadamente grande lo más rápido posible. El objetivo principal del concurso, que comenzó en 2012 en la Conferencia Internacional sobre Modelado Multimedia (MMM), es mejorar el rendimiento de las herramientas de búsqueda de vídeos. Desde 2016, el concurso también colabora con TRECVID. [14] El objetivo del concurso es evaluar la eficiencia de las herramientas de búsqueda de vídeos en tareas de búsqueda de elementos conocidos (KIS) con un conjunto de datos bien definido en comparación directa con otras herramientas. [15]

Referencias

  1. ^ ab Arman, Farshid; Depommier, Remi; Hsu, Arding; Chiu, Ming-Yee (octubre de 1994). "Exploración basada en contenido de secuencias de vídeo". Actas de la segunda conferencia internacional de la ACM sobre multimedia - MULTIMEDIA '94 . Association for Computing Machinery . págs. 97–103. doi : 10.1145/192593.192630 . ISBN . 0897916867.S2CID1360834  .​
  2. ^ Apoyo a la búsqueda exploratoria en videotecas: cuando los guiones gráficos no son suficientes. MG Christel. 2008.
  3. ^ The Video Explorer: una herramienta para navegar y buscar dentro de un mismo vídeo basada en un análisis rápido de contenido. K. Schoeffmann, M. Taschwer y L. Boeszoermenyi. 2010.
  4. ^ Herramientas de interacción con video: un estudio de trabajos recientes. K. Schoeffmann, MA Hudelist y J. Huber. 2015.
  5. ^ Interfaces para la navegación de vídeo móvil basada en líneas de tiempo. W. Hürst y K. Meier. 2008.
  6. ^ Arman, Farshid; Hsu, Arding; Chiu, Ming-Yee (agosto de 1993). "Procesamiento de imágenes en datos comprimidos para bases de datos de vídeo de gran tamaño". Actas de la primera conferencia internacional de la ACM sobre multimedia - MULTIMEDIA '93 . Association for Computing Machinery . págs. 267–272. doi :10.1145/166266.166297. ISBN. 0897915968.S2CID10392157  .​
  7. ^ Skodras, Athanassios (1 de enero de 2009). "Ocultación de datos en tiempo real mediante la explotación de macrobloques IPCM en transmisiones H. 264/AVC". Journal of Real-Time Image Processing .
  8. ^ Zhang, HongJiang (1998). "Exploración y recuperación de vídeo basada en contenido". En Furht, Borko (ed.). Manual de sistemas y aplicaciones de Internet y multimedia. CRC Press . págs. 83–108 (89). ISBN 9780849318580.
  9. ^ Steele, Michael; Hearst, Marti A.; Lawrence, A. Rowe (1998). "The Video Workbench: a direct modification interface for digital media editing by amateur videographers" (PDF) : 1-19 (14). S2CID  18212394. Archivado desde el original (PDF) el 2019-02-26 . Consultado el 18 de octubre de 2019 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  10. ^ "Video Notebook - Notas sobre todas las plataformas de vídeo". chrome.google.com . Consultado el 3 de junio de 2022 .
  11. ^ "Capturas de pantalla y notas de video: YouTube y más". www.videonotebook.com . Consultado el 3 de junio de 2022 .
  12. ^ "Videos navegables y buscables - Video Notebook" www.videonotebook.com . Consultado el 3 de junio de 2022 .
  13. ^ Comparación de navegadores de vídeo
  14. ^ TRECVID, iniciativa de referencia académica del NIST
  15. ^ Schöffmann, Klaus; Bailer, Werner (24 de julio de 2012). "Enfrentamiento del navegador de vídeo". Registros multimedia ACM SIG . 4 (2): 1–2. doi :10.1145/2350204.2350205. S2CID  46224263.