Detección de copia de vídeo

La detección de copias de video es el proceso de detectar videos copiados ilegalmente analizándolos y comparándolos con el contenido original.

El objetivo de este proceso es proteger la propiedad intelectual del creador de un video.

Historia

Indyk et al. ^[1] desarrollaron una teoría de detección de copias de video basada en la duración de la película; sin embargo, esta técnica solo funcionó para películas completas sin modificaciones. Cuando se aplica a fragmentos cortos de un video, la técnica de Idynk et al. no detecta que el fragmento es una copia.

Más tarde, ^{[¿ cuándo? ]} Oostveen et al. introdujeron el concepto de huella digital , o función hash , que crea una firma única del vídeo en función de su contenido. Esta huella digital se basa en la duración del vídeo y el brillo, determinados al dividirlo en una cuadrícula. La huella digital no se puede utilizar para recrear el vídeo original porque describe solo ciertas características de su vídeo respectivo.

Hace algún tiempo, ^{[¿ cuándo? ]} B. Coskun et al. presentaron dos algoritmos robustos basados en la transformada de coseno discreta .

Hampapur y Balle crearon un algoritmo que crea una descripción global de un fragmento de vídeo basándose en el movimiento, el color, el espacio ^{[ aclaración necesaria ]} y la duración del vídeo.

Se pensó en observar los niveles de color de la imagen, y por esta razón, Li et al. crearon un algoritmo que examina los colores de un clip creando una firma binaria obtenida del histograma de cada fotograma. ^{[ aclaración necesaria ]} Este algoritmo, sin embargo, devuelve resultados inconsistentes en los casos en los que se agrega un logotipo al video, porque la inserción de los elementos de color del logotipo agrega información falsa que puede confundir al sistema.

Técnicas

Marcas de agua

Las marcas de agua se utilizan para introducir una señal invisible en un vídeo y facilitar la detección de copias ilegales. Esta técnica es muy utilizada por los fotógrafos . Colocar una marca de agua en un vídeo de forma que la audiencia la pueda ver fácilmente permite al creador del contenido detectar fácilmente si la imagen ha sido copiada.

La limitación de las marcas de agua es que si la imagen original no tiene marca de agua, entonces no es posible saber si otras imágenes son copias.

Firma basada en contenido

En esta técnica, se crea una firma única para el vídeo en función del contenido del mismo. Existen varios algoritmos de detección de copias de vídeo que utilizan características del contenido del vídeo para asignarle al vídeo un hash de vídeo único . La huella digital se puede comparar con otros hashes de vídeo en una base de datos .

Este tipo de algoritmo tiene un problema importante: si varios aspectos del contenido de los videos son similares, es difícil para un algoritmo determinar si el video en cuestión es una copia del original o simplemente similar a él. En tal caso (por ejemplo, dos transmisiones de noticias distintas ), el algoritmo puede determinar que el video en cuestión es una copia, ya que la transmisión de noticias a menudo incluye un tipo similar de pancarta y el presentador a menudo se sienta en una posición similar. Los videos con cambios mínimos en los fotogramas con respecto al tiempo son más vulnerables a la colisión de hash.

Algoritmos

A continuación se presentan algunos algoritmos y técnicas propuestos para la detección de copias de vídeo.

Descriptores globales

Descriptor temporal global

En este algoritmo, una intensidad global se define como la suma de todas las intensidades de todos los píxeles ponderados a lo largo de todo el vídeo. De este modo, se puede construir una identidad para una muestra de vídeo en función de la duración del vídeo y de las intensidades de los píxeles a lo largo de todo el vídeo.

La intensidad global a(t) se define como:

$a(t)=\sum _{i=1}^{N}K(i)(I(i,t-1))^{2}$

Donde k es la ponderación de la imagen, I es la imagen y N es el número de píxeles de la imagen.

Descriptor de medida ordinal global

En este algoritmo, el vídeo se divide en N bloques, ordenados por nivel de gris . Luego, es posible crear un vector que describe el nivel de gris promedio de cada bloque.

Con estos niveles medios es posible crear un nuevo vector S(t) , la firma del vídeo:

$S(t)=(r_{1},r_{2},\cdots ,r_{N})$

Para comparar dos vídeos, el algoritmo define una D(t) que representa la similitud entre ambos.

$D(t)={\frac {1}{T}}\sum _{1=t-{\frac {T}{2}}}^{t+{\frac {T}{2}}}{\begin{vmatrix}R(i)-C(i)\end{vmatrix}}$

El valor devuelto por D(t) ayuda a determinar si el vídeo en cuestión es una copia. ^{[ aclaración necesaria ]}

Descriptores ordinales y temporales

Esta técnica fue propuesta por L. Chen y F. Stentiford. La medición de la disimilitud se realiza combinando los dos algoritmos antes mencionados, descriptores temporales globales y descriptores de medición ordinales globales, en tiempo y espacio . ^{[ Aclaración necesaria ]}

TMK+PDQF

En 2019, Facebook publicó el código fuente abierto de TMK+PDQF, ^[2] parte de un conjunto de herramientas que utiliza Facebook para detectar contenido dañino. Genera una firma de un video completo y puede manejar fácilmente cambios de formato o marcas de agua agregadas, pero es menos tolerante al recorte o al corte. ^[3]

Descriptores locales

AJ

Descrito por A. Joly et al., este algoritmo es una mejora del detector de puntos de interés de Harris. ^{[ aclaración necesaria (¿qué es esto?) ]} Esta técnica sugiere que en muchos videos una cantidad significativa de fotogramas son casi idénticos, por lo que es más eficiente probar no todos los fotogramas sino solo aquellos que representan una cantidad significativa de movimiento.

Vicop T

ViCopT utiliza los puntos de interés de cada imagen para definir una firma de todo el vídeo. En cada imagen, los algoritmos identifican y definen dos partes: el fondo , un conjunto de elementos estáticos a lo largo de una secuencia temporal, y el movimiento , puntos persistentes que cambian de posición a lo largo del vídeo.

Puntos de interés espacio-temporales (STIP)

Este algoritmo fue desarrollado por I. Laptev y T. Lindeberg. Utiliza la técnica de puntos de interés a lo largo del espacio y el tiempo para definir la firma del video y crea un vector de 34 dimensiones que almacena esta firma. ^{[ Aclaración necesaria ]}

Presentación de algoritmos

Existen algoritmos para la detección de copias de vídeo que se utilizan en la actualidad. En 2007, se llevó a cabo una prueba de evaluación conocida como Multimedia Understanding Through Semantics, Computation and Learning (MUSCLE), que probó algoritmos de detección de copias de vídeo en varias muestras de vídeo, desde grabaciones de vídeo caseras hasta segmentos de programas de televisión de entre un minuto y una hora de duración.

Referencias

^ P. Indyk, G. Iyengar y N. Shivakumar. Cómo encontrar secuencias de vídeo pirateadas en Internet. Informe técnico, Universidad de Stanford, 1999.
^ "Facebook utiliza algoritmos de código abierto para detectar imágenes de explotación infantil y terrorismo". Agosto de 2019.
^ "Artículos con código - PDQ y TMK + PDQF - Una prueba de los algoritmos de hash perceptual de Facebook".

MUSCLE (Comprensión multimedia a través de la semántica, la computación y el aprendizaje) (en inglés)
IBM - Grupo de exploración de la visión artificial (en inglés)
"Un estudio comparativo" (PDF) . (563 KB) (en inglés)