Detección de copia de vídeo

La detección de copias de videos es el proceso de detectar videos copiados ilegalmente analizándolos y comparándolos con el contenido original.

El objetivo de este proceso es proteger la propiedad intelectual del creador de un vídeo.

Historia

Indyk et al. ^[1] produjo una teoría de detección de copias de vídeo basada en la duración de la película; sin embargo, funcionó sólo para películas completas sin modificaciones. Cuando se aplica a clips cortos de un vídeo, la técnica de Idynk et al. no detecta que el clip sea una copia.

^¿ Más tarde, ^cuando?^] Oostveen et al. introdujo el concepto de huella digital , o función hash , que crea una firma única del vídeo en función de su contenido. Esta huella digital se basa en la duración del vídeo y el brillo, que se determina dividiéndolo en una cuadrícula. La huella digital no se puede utilizar para recrear el video original porque solo describe ciertas características de su video respectivo.

Hace algún tiempo, ^{[ ¿cuándo? ]} B. Coskun et al. presentó dos algoritmos robustos basados en transformada de coseno discreta .

Hampapur y Balle crearon un algoritmo que crea una descripción global de una pieza de video basada en el movimiento, el color, el espacio, ^{[ aclaración necesaria ]} y la duración del video.

Se pensó en observar los niveles de color de la imagen, y por esta razón, Li et al. creó un algoritmo que examina los colores de un clip creando una firma binaria obtenida del histograma de cada fotograma. ^{[ aclaración necesaria ]} Sin embargo, este algoritmo devuelve resultados inconsistentes en los casos en que se agrega un logotipo al video, porque la inserción de los elementos de color del logotipo agrega información falsa que puede confundir al sistema.

Técnicas

Marcas de agua

Las marcas de agua se utilizan para introducir una señal invisible en un vídeo para facilitar la detección de copias ilegales. Esta técnica es muy utilizada por los fotógrafos . Colocar una marca de agua en un vídeo de manera que la audiencia pueda verlo fácilmente permite al creador de contenido detectar fácilmente si la imagen ha sido copiada.

La limitación de las marcas de agua es que si la imagen original no tiene marca de agua, no es posible saber si otras imágenes son copias.

Firma basada en contenido

En esta técnica, se crea una firma única para el vídeo en función del contenido del vídeo. Existen varios algoritmos de detección de copias de video que utilizan características del contenido del video para asignarle un videohash único . La huella digital se puede comparar con otros videohashes en una base de datos .

Este tipo de algoritmo tiene un problema importante: si varios aspectos del contenido de los vídeos son similares, es difícil para un algoritmo determinar si el vídeo en cuestión es una copia del original o simplemente similar a él. En tal caso (por ejemplo, dos transmisiones de noticias distintas ), el algoritmo puede devolver que el video en cuestión es una copia, ya que las transmisiones de noticias a menudo involucran un tipo similar de pancarta y el presentador a menudo se sienta en una posición similar. Los vídeos con cambios mínimos en los fotogramas con respecto al tiempo son más vulnerables a la colisión de hash.

Algoritmos

A continuación se presentan algunos algoritmos y técnicas propuestas para la detección de copias de vídeo.

Descriptores globales

Descriptor temporal global

En este algoritmo, una intensidad global se define como la suma de todas las intensidades de todos los píxeles ponderados a lo largo de todo el vídeo. Por lo tanto, se puede construir una identidad para una muestra de video en función de la duración del video y las intensidades de los píxeles a lo largo.

La intensidad global a(t) se define como:

$a(t)=\sum _ {i=1}^{N}K(i)(I(i,t-1))^{2}$

Donde k es la ponderación de la imagen, I es la imagen y N es el número de píxeles de la imagen.

Descriptor de medida ordinal global

En este algoritmo, el vídeo se divide en N bloques, ordenados por nivel de grises . Luego es posible crear un vector que describa el nivel de gris promedio de cada bloque.

Con estos niveles medios es posible crear un nuevo vector S(t) , la firma del vídeo:

$S(t)=(r_{1},r_{2},\cdots,r_{N})$

Para comparar dos vídeos, el algoritmo define un D(t) que representa la similitud entre ambos.

$D(t)={\frac {1}{T}}\sum _{1=t-{\frac {T}{2}}}^{t+{\frac {T}{2}} }{\begin{vmatrix}R(i)-C(i)\end{vmatrix}}$

El valor devuelto por D(t) ayuda a determinar si el vídeo en cuestión es una copia. ^{[ se necesita aclaración ]}

Descriptores ordinales y temporales

Esta técnica fue propuesta por L.Chen y F. Stentiford. Se realiza una medición de la disimilitud combinando los dos algoritmos antes mencionados, descriptores temporales globales y descriptores de medición ordinal global, en el tiempo y el espacio . ^{[ se necesita aclaración ]}

TMK+PDQF

En 2019, Facebook abrió TMK+PDQF, ^[2] parte de un conjunto de herramientas utilizadas en Facebook para detectar contenido dañino. Genera una firma de un vídeo completo y puede manejar fácilmente cambios de formato o marcas de agua agregadas, pero es menos tolerante al recorte o recorte. ^[3]

Descriptores locales

AJ

Descrito por A. Joly et al., este algoritmo es una mejora del detector de puntos de interés de Harris. ^{[ aclaración necesaria (¿qué es esto?) ]} Esta técnica sugiere que en muchos videos una cantidad significativa de fotogramas son casi idénticos, por lo que es más eficiente probar no todos los fotogramas, sino solo aquellos que representan una cantidad significativa de movimiento.

ViCopT

ViCopT utiliza los puntos de interés de cada imagen para definir una firma de todo el vídeo. En cada imagen, los algoritmos identifican y definen dos partes: el fondo , un conjunto de elementos estáticos a lo largo de una secuencia temporal, y el movimiento , puntos persistentes que cambian de posición a lo largo del vídeo.

Puntos de interés del espacio-tiempo (STIP)

Este algoritmo fue desarrollado por I. Laptev y T.Lindeberg. Utiliza la técnica de puntos de interés a lo largo del espacio y el tiempo para definir la firma del video y crea un vector de 34 dimensiones que almacena esta firma. ^{[ se necesita aclaración ]}

Presentación de algoritmos

Existen algoritmos para la detección de copias de vídeo que se utilizan en la actualidad. En 2007, hubo una muestra de evaluación conocida como Comprensión Multimedia a través de la Semántica, la Computación y el Aprendizaje (MUSCLE), que probó algoritmos de detección de copias de vídeo en varias muestras de vídeo que iban desde grabaciones de vídeo caseras hasta segmentos de programas de televisión que oscilaban entre un minuto y una hora en longitud.

Referencias

^ P. Indyk, G. Iyengar y N. Shivakumar. Encontrar secuencias de vídeos pirateados en Internet. Informe técnico, Universidad de Stanford, 1999.
^ "Algoritmos de código abierto de Facebook para detectar imágenes de terrorismo y explotación infantil". Agosto de 2019.
^ "Documentos con código: PDQ y TMK + PDQF: una prueba de los algoritmos de hash perceptual de Facebook".

MUSCLE (Comprensión Multimedia a través de la Semántica, la Computación y el Aprendizaje) (en inglés)
IBM - Grupo Explorando la visión por ordenador (en inglés)
"Un estudio comparativo" (PDF) . (563 KB) (en inglés)