La detección del primer plano es una de las principales tareas en el campo de la visión artificial y el procesamiento de imágenes , cuyo objetivo es detectar cambios en las secuencias de imágenes. La sustracción del fondo es cualquier técnica que permite extraer el primer plano de una imagen para su posterior procesamiento (reconocimiento de objetos, etc.).
Muchas aplicaciones no necesitan conocer todo sobre la evolución del movimiento en una secuencia de vídeo, sino que sólo requieren la información de los cambios en la escena, porque las regiones de interés de una imagen son objetos (personas, coches, texto, etc.) en su primer plano. Después de la etapa de preprocesamiento de la imagen (que puede incluir la eliminación de ruido de la imagen , el posprocesamiento como la morfología, etc.) se requiere la localización de objetos que puede hacer uso de esta técnica.
La detección del primer plano separa el primer plano del fondo en función de los cambios que se producen en el primer plano. Se trata de un conjunto de técnicas que suelen analizar secuencias de vídeo grabadas en tiempo real con una cámara fija.
Descripción
Todas las técnicas de detección se basan en modelar el fondo de la imagen, es decir, fijar el fondo y detectar qué cambios se producen. Definir el fondo puede resultar muy difícil cuando contiene formas, sombras y objetos en movimiento. Al definir el fondo, se supone que los objetos estacionarios podrían variar en color e intensidad con el tiempo.
Los escenarios en los que se aplican estas técnicas suelen ser muy diversos. Pueden darse secuencias muy variables, como imágenes con iluminación, interiores, exteriores, calidad y ruido muy diferentes. Además de procesar en tiempo real, los sistemas deben poder adaptarse a estos cambios.
Un muy buen sistema de detección de primer plano debería ser capaz de:
Desarrollar un modelo de fondo (estimación).
Sea resistente a los cambios de iluminación, movimientos repetitivos (hojas, ondas, sombras) y cambios a largo plazo.
Resta de fondo
La sustracción de fondo es un método ampliamente utilizado para detectar objetos en movimiento en videos de cámaras estáticas. La lógica de este método es detectar los objetos en movimiento a partir de la diferencia entre el fotograma actual y un fotograma de referencia, a menudo llamado "imagen de fondo" o "modelo de fondo". La sustracción de fondo se realiza principalmente si la imagen en cuestión es parte de una secuencia de video. La sustracción de fondo proporciona pistas importantes para numerosas aplicaciones en visión artificial, por ejemplo, seguimiento de vigilancia o estimación de la postura humana . [ cita requerida ]
La sustracción de fondo se basa generalmente en una hipótesis de fondo estático que a menudo no es aplicable en entornos reales. En las escenas de interior, los reflejos o las imágenes animadas en las pantallas provocan cambios de fondo. De manera similar, debido al viento, la lluvia o los cambios de iluminación provocados por el clima, los métodos de fondos estáticos tienen dificultades con las escenas de exterior. [1]
Filtro de promedio temporal
El filtro de promedio temporal es un método propuesto en Velastin. Este sistema estima el modelo de fondo a partir de la mediana de todos los píxeles de una serie de imágenes anteriores. El sistema utiliza un búfer con los valores de los píxeles de los últimos fotogramas para actualizar la mediana de cada imagen.
Para modelar el fondo, el sistema examina todas las imágenes en un período de tiempo determinado llamado tiempo de entrenamiento . En este momento, solo mostramos imágenes y encontraremos la mediana, píxel por píxel, de todos los gráficos del fondo en este momento.
Después del período de entrenamiento para cada nuevo cuadro, cada valor de píxel se compara con el valor de entrada de los fondos calculados previamente. Si el píxel de entrada está dentro de un umbral, se considera que el píxel coincide con el modelo de fondo y su valor se incluye en el búfer de píxeles. De lo contrario, si el valor está fuera de este umbral, el píxel se clasifica como primer plano y no se incluye en el búfer.
Este método no puede considerarse muy eficiente porque no presenta una base estadística rigurosa y requiere un buffer que tiene un alto coste computacional.
Enfoques convencionales
Un algoritmo de sustracción de fondo robusto debería ser capaz de manejar cambios de iluminación, movimientos repetitivos del desorden y cambios de escena a largo plazo. [2] Los siguientes análisis hacen uso de la función de V ( x , y , t ) como una secuencia de video donde t es la dimensión de tiempo, x e y son las variables de ubicación de píxeles. por ejemplo, V (1,2,3) es la intensidad del píxel en la ubicación del píxel (1,2) de la imagen en t = 3 en la secuencia de video.
Utilizando la diferenciación de cuadros
Un algoritmo de detección de movimiento comienza con la parte de segmentación, en la que los objetos en primer plano o en movimiento se separan del fondo. La forma más sencilla de implementar esto es tomar una imagen como fondo y comparar los fotogramas obtenidos en el momento t, denotado por I(t), con la imagen de fondo denotada por B. Aquí, utilizando cálculos aritméticos simples, podemos segmentar los objetos simplemente utilizando la técnica de sustracción de imágenes de la visión artificial, lo que significa que para cada píxel en I(t), tomamos el valor del píxel denotado por P[I(t)] y lo restamos con los píxeles correspondientes en la misma posición en la imagen de fondo denotada como P[B].
En ecuación matemática se escribe así:
Se supone que el fondo es el fotograma en el momento t . Esta imagen de diferencia solo mostraría cierta intensidad para las ubicaciones de los píxeles que han cambiado en los dos fotogramas. Aunque aparentemente hemos eliminado el fondo, este enfoque solo funcionará en los casos en los que todos los píxeles del primer plano se mueven y todos los píxeles del fondo son estáticos. [2] Se coloca un umbral "Umbral" en esta imagen de diferencia para mejorar la sustracción (consulte Umbralización de imagen ):
Esto significa que las intensidades de los píxeles de la imagen diferencial se "limitan" o filtran en función del valor del umbral. [3] La precisión de este enfoque depende de la velocidad de movimiento en la escena. Los movimientos más rápidos pueden requerir umbrales más altos.
Filtro de media
Para calcular la imagen que contiene sólo el fondo, se promedia una serie de imágenes anteriores. Para calcular la imagen de fondo en el instante t:
donde N es el número de imágenes anteriores tomadas para promediar. Este promedio se refiere a promediar los píxeles correspondientes en las imágenes dadas. N dependería de la velocidad del video (número de imágenes por segundo en el video) y la cantidad de movimiento en el video. [4] Después de calcular el fondo B ( x , y , t ) podemos restarlo de la imagen V ( x , y , t ) en el tiempo t = t y establecer un umbral. Por lo tanto, el primer plano es:
donde Th es un valor umbral. De manera similar, también podemos utilizar la mediana en lugar de la media en el cálculo anterior de B ( x , y , t ).
El uso de umbrales globales e independientes del tiempo (el mismo valor Th para todos los píxeles de la imagen) puede limitar la precisión de los dos enfoques anteriores. [2]
Promedio gaussiano móvil
Para este método, Wren et al. [5] proponen ajustar una función de densidad probabilística gaussiana (pdf) en los fotogramas más recientes . Para evitar ajustar la pdf desde cero en cada nuevo fotograma , se calcula un promedio móvil (o acumulativo en línea).
La función de densidad de probabilidad de cada píxel se caracteriza por la media y la varianza . La siguiente es una posible condición inicial (suponiendo que inicialmente cada píxel es el fondo):
donde es el valor de la intensidad del píxel en el momento . Para inicializar la varianza, podemos, por ejemplo, utilizar la varianza en x e y de una pequeña ventana alrededor de cada píxel.
Tenga en cuenta que el fondo puede cambiar con el tiempo (por ejemplo, debido a cambios en la iluminación o a objetos de fondo no estáticos). Para adaptarse a ese cambio, en cada cuadro , se deben actualizar la media y la varianza de cada píxel, de la siguiente manera:
Donde determina el tamaño de la ventana temporal que se utiliza para ajustar el pdf (normalmente ) y es la distancia euclidiana entre la media y el valor del píxel.
Ahora podemos clasificar un píxel como de fondo si su intensidad actual se encuentra dentro de algún intervalo de confianza de la media de su distribución:
donde el parámetro es un umbral libre (normalmente ). Un valor mayor para permite un fondo más dinámico, mientras que un valor menor aumenta la probabilidad de una transición del fondo al primer plano debido a cambios más sutiles.
En una variante del método, la distribución de un píxel solo se actualiza si se clasifica como fondo. Esto sirve para evitar que los objetos recién introducidos en primer plano se desvanezcan en el fondo. La fórmula de actualización de la media se modifica en consecuencia:
donde cuando se considera primer plano y de otro modo. Entonces , cuando , es decir, cuando el píxel se detecta como primer plano, la media permanecerá igual. Como resultado, un píxel, una vez que se ha convertido en primer plano, solo puede volver a convertirse en fondo cuando el valor de intensidad se acerca al que era antes de convertirse en primer plano. Este método, sin embargo, tiene varios problemas: solo funciona si todos los píxeles son inicialmente píxeles de fondo (o los píxeles de primer plano están anotados como tales). Además, no puede hacer frente a los cambios de fondo graduales: si un píxel se clasifica como primer plano durante un período de tiempo demasiado largo, la intensidad de fondo en esa ubicación podría haber cambiado (porque la iluminación ha cambiado, etc.). Como resultado, una vez que el objeto de primer plano desaparece, la nueva intensidad de fondo podría no reconocerse más como tal.
Modelos de mezcla de fondo
El método de mezcla de gaussianas se basa en modelar cada píxel como una mezcla de gaussianas y utiliza una aproximación en línea para actualizar el modelo. En esta técnica, se supone que los valores de intensidad de cada píxel en el video se pueden modelar utilizando un modelo de mezcla de gaussianas . [6] Una heurística simple determina qué intensidades son más probablemente las del fondo. Luego, los píxeles que no coinciden con estas se denominan píxeles de primer plano. Los píxeles de primer plano se agrupan utilizando un análisis de componentes conectados en 2D . [6]
En cualquier momento t, el historial de un píxel particular ( ) es:
Esta historia está modelada por una mezcla de K distribuciones gaussianas:
dónde:
En primer lugar, cada píxel se caracteriza por su intensidad en el espacio de color RGB. Luego, la probabilidad de observar el píxel actual se da mediante la siguiente fórmula en el caso multidimensional:
Donde K es el número de distribuciones, ω es un peso asociado a la i-ésima gaussiana en el tiempo t y μ, Σ son la media y la desviación estándar de dicha gaussiana respectivamente.
Una vez realizada la inicialización de los parámetros, se puede realizar una primera detección del primer plano y luego se actualizan los parámetros. La primera distribución gaussiana B que supera el umbral T se conserva para una distribución de fondo:
Se considera que las demás distribuciones representan una distribución de primer plano. Luego, cuando el nuevo marco llega en los tiempos , se realiza una prueba de coincidencia de cada píxel. Un píxel coincide con una distribución gaussiana si la distancia de Mahalanobis :
donde k es un umbral constante igual a . Entonces, pueden darse dos casos:
Caso 1: Se encuentra una coincidencia con una de las k gaussianas. Para el componente coincidente, la actualización se realiza de la siguiente manera: [7]
Power y Schoonees [3] utilizaron el mismo algoritmo para segmentar el primer plano de la imagen:
La aproximación esencial a viene dada por : [8]
Caso 2: No se encuentra coincidencia con ninguna de las gaussianas. En este caso, la distribución menos probable se reemplaza por una nueva con parámetros:
Una vez realizado el mantenimiento de los parámetros, se puede realizar la detección del primer plano, y así sucesivamente. Se utiliza una aproximación de K-medias en línea para actualizar las gaussianas. Se han propuesto numerosas mejoras de este método original desarrollado por Stauffer y Grimson [6] y se puede encontrar un estudio completo en Bouwmans et al. [7]. Un método estándar de fondo adaptativo es promediar las imágenes a lo largo del tiempo, creando una aproximación de fondo que es similar a la escena estática actual, excepto donde se produce movimiento.
Encuestas
A continuación se pueden encontrar varias encuestas que se refieren a categorías o subcategorías de modelos:
^ Piccardi, M. (2004). "Técnicas de sustracción de fondo: una revisión" (PDF) . Conferencia internacional IEEE de 2004 sobre sistemas, hombre y cibernética. pp. 3099–3104. doi :10.1109/icsmc.2004.1400815. ISBN 0-7803-8567-5. Número de identificación del sujeto 12127129.
^ abc Tamersoy, B. (29 de septiembre de 2009). "Resta de fondo: notas de clase" (PDF) . Universidad de Texas en Austin.
^ Lu, N.; Wang, J.; Wu, Q.; Yang, L. (febrero de 2012). Un método de detección de movimiento mejorado para vigilancia en tiempo real . CiteSeerX 10.1.1.149.33 .
^ Benezeth, Y.; Jodoin, PM; Emile, B.; Laurent, H.; Rosenberger, C. (2008). "Revisión y evaluación de algoritmos de sustracción de fondo comúnmente implementados" (PDF) . 2008 19th International Conference on Pattern Recognition (PDF) . págs. 1–4. doi :10.1109/ICPR.2008.4760998. ISBN .978-1-4244-2174-9. Número de identificación del sujeto 15733287.
^ Wren, CR; Azarbayejani, A.; Darrell, T.; Pentland, AP (1997). "Pfinder: Seguimiento en tiempo real del cuerpo humano" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 19 (7): 780–785. doi :10.1109/34.598236. hdl : 1721.1/10652 .
^ abc Stauffer, C.; Grimson, WEL (1999). "Modelos de mezcla de fondo adaptativos para seguimiento en tiempo real" (PDF) . Actas de la Conferencia de la IEEE Computer Society de 1999 sobre visión artificial y reconocimiento de patrones . págs. 246–252. doi :10.1109/CVPR.1999.784637. ISBN .0-7695-0149-4.S2CID8195115 .
^ abc Bouwmans, T.; El Baf, F.; Vachon, B. (noviembre de 2008). "Modelado de fondo utilizando mezcla de gaussianas para detección de primer plano: una encuesta". Patentes recientes en informática . 1 (3): 219–237. CiteSeerX 10.1.1.324.22 . doi :10.2174/2213275910801030219.
^ Power, P.; Schoonees, J. (2002). "Comprensión de los modelos de mezcla de fondo para la segmentación del primer plano" (PDF) . Actas de Image and Vision Computing New Zealand 2002. págs. 267–271.
^ Bouwmans, Thierry (noviembre de 2009). "Aprendizaje del subespacio para modelado de fondo: una encuesta". Patentes recientes en informática . 2 (3): 223–234. doi :10.2174/1874479610902030223. S2CID 62697257.
^ Chen, CH (2009). Manual de reconocimiento de patrones y visión artificial . pp. 181–199. doi :10.1142/7297. ISBN.978-981-4273-38-1.S2CID58410480 .
^ Bouwmans, Thierry (septiembre de 2011). "Modelado estadístico avanzado de fondo reciente para detección de primer plano: un estudio sistemático". Patentes recientes en informática . 4 (3): 147–176. doi :10.2174/1874479611104030147.
^ Bouwmans, Thierry (2012). "Substracción de fondo para vigilancia visual". Manual de informática blanda para videovigilancia . Serie de criptografía y seguridad de redes Chapman & Hall/CRC. págs. 103–138. ISBN978-1-4398-5684-0.
^ Bouwmans, Thierry; Zahzah, El Hadi (2014). "PCA robusto mediante seguimiento de componentes principales: una revisión para una evaluación comparativa en videovigilancia". Visión artificial y comprensión de imágenes . 122 : 22–34. doi :10.1016/j.cviu.2013.11.009.
^ Vaswani, Namrata; Bouwmans, Thierry; Javed, Sajid; Narayanamurthy, Praneeth (2018). "Aprendizaje robusto del subespacio: PCA robusto, seguimiento robusto del subespacio y recuperación robusta del subespacio". Revista IEEE de procesamiento de señales . 35 (4): 32–55. arXiv : 1711.09492 . Código Bibliográfico :2018ISPM...35d..32V. doi :10.1109/MSP.2018.2826566. S2CID 3691367.
^ Bouwmans, Thierry; Sobral, Andrews; Javed, Sajid; Jung, Soon Ki; Zahzah, El-Hadi (2017). "Descomposición en matrices aditivas de bajo rango para la separación de fondo/primer plano: una revisión para una evaluación comparativa con un conjunto de datos a gran escala". Computer Science Review . 23 : 1–71. arXiv : 1511.01245 . doi :10.1016/j.cosrev.2016.11.001. S2CID 10420698.
^ Vaswani, Namrata; Bouwmans, Thierry; Javed, Sajid; Narayanamurthy, Praneeth (2018). "Conceptos de redes neuronales profundas para la sustracción de fondo: una revisión sistemática y una evaluación comparativa". arXiv : 1811.05255 [cs.CV].
^ Bouwmans, T. (25 de julio de 2014). "Enfoques tradicionales en el modelado de fondo para cámaras estáticas". Modelado de fondo y detección de primer plano para videovigilancia . CRC Press. ISBN9781482205374.
^ Bouwmans, T. (25 de julio de 2014). "Enfoques recientes en el modelado de fondo para cámaras estáticas". Modelado de fondo y detección de primer plano para videovigilancia . CRC Press. ISBN9781482205374.
^ Bouwmans, T.; Garcia-Garcia, B. (2019). "Sustracción de fondo en aplicaciones reales: desafíos, modelos actuales y direcciones futuras". arXiv : 1901.03577 [cs.CV].
Comparaciones
Se pueden encontrar en la literatura varios artículos de comparación/evaluación:
A. Sobral, A. Vacavant. "Una revisión exhaustiva de algoritmos de sustracción de fondo evaluados con videos sintéticos y reales [ vínculo muerto ] ". Computer Vision and Image Understanding, CVIU 2014, 2014.
A. Shahbaz, J. Hariyono, K. Jo, "Evaluación de algoritmos de sustracción de fondo para videovigilancia", FCV 2015, 2015.
Y. Xu, J. Dong, B. Zhang, D. Xu, "Métodos de modelado de fondo en análisis de video: una revisión y evaluación comparativa", CAAI Transactions on Intelligence Technology, páginas 43–60, Volumen 1, Número 1, enero de 2016.
Libros
T. Bouwmans, F. Porikli, B. Horferlin, A. Vacavant, Manual sobre "Modelado de fondo y detección de primer plano para videovigilancia: enfoques tradicionales y recientes, implementaciones, evaluación comparativa y evaluación" , CRC Press, Taylor and Francis Group, junio de 2014. (Para obtener más información: http://www.crcpress.com/product/isbn/9781482205374)
T. Bouwmans, N. Aybat y E. Zahzah. Manual sobre descomposición robusta de matrices dispersas y de bajo rango: aplicaciones en el procesamiento de imágenes y videos , CRC Press, Taylor and Francis Group, mayo de 2016. (Para obtener más información: http://www.crcpress.com/product/isbn/9781498724623)
Revistas
T. Bouwmans, L. Davis, J. Gonzalez, M. Piccardi, C. Shan, Número especial sobre "Modelado de fondo para detección de primer plano en escenas dinámicas del mundo real", Número especial en Machine Vision and Applications , julio de 2014.
A. Vacavant, L. Tougne, T. Chateau, Sección especial sobre "Comparación de modelos de fondo", Computer Vision and Image Understanding , CVIU 2014, mayo de 2014.
A. Petrosino, L. Maddalena, T. Bouwmans, Número especial sobre "Modelado e inicialización del fondo de la escena", Pattern Recognition Letters , septiembre de 2017.
T. Bouwmans, Número especial sobre "Detección de objetos en movimiento", MDPI Journal of Imaging, 2018.
Talleres
Taller sobre aprendizaje de fondo para detección y seguimiento a partir de vídeos RGB (RGBD 2017) en colaboración con ICIAP 2017. (Para más información: http://rgbd2017.na.icar.cnr.it/)
Taller sobre modelado e inicialización de fondo de escena (SBMI 2015) en colaboración con ICIAP 2015. (Para más información: http://sbmi2015.na.icar.cnr.it/)
Taller sobre detección de cambios del IEEE en colaboración con el CVPR 2014. (Para obtener más información: http://www.changedetection.net/)
Taller sobre los desafíos de los modelos de referencia (BMC 2012) en colaboración con ACCV 2012. (Para más información: http://bmc.iut-auvergne.com/)
Concursos
Concurso de modelado de fondo de escena IEEE (SBMC 2016) en conjunto con ICPR 2016 (Para obtener más información: http://pione.dinf.usherbrooke.ca/sbmc2016/ Archivado el 10 de agosto de 2019 en Wayback Machine )
Enlaces externos
Resta de fondo por R. Venkatesh Babu
Segmentación y seguimiento del primer plano basado en técnicas de modelado de primer plano y fondo por Jaume Gallego
Detección y extracción de aviones a secuencias de vídeo por Marc García i Ramis
Sitios web
Sitio web de sustracción de antecedentes
El sitio web Background Subtraction (T. Bouwmans, Univ. La Rochelle, Francia) contiene una lista completa de las referencias en el campo y enlaces a conjuntos de datos y software disponibles.
Conjuntos de datos
ChangeDetection.net (Para más información: http://www.changedetection.net/)
Desafío de modelos de fondo (Para más información: http://bmc.iut-auvergne.com/)
Conjunto de datos de sustracción de fondo artificial de Stuttgart (para obtener más información: http://www.vis.uni-stuttgart.de/index.php?id=sabs Archivado el 27 de marzo de 2015 en Wayback Machine )
Conjunto de datos SBMI (Para más información: http://sbmi2015.na.icar.cnr.it/)
Conjunto de datos SBMnet (Para obtener más información: http://pione.dinf.usherbrooke.ca/dataset/ Archivado el 31 de octubre de 2018 en Wayback Machine )
Bibliotecas
FondoSubtractorCNT
La biblioteca BackgroundSubtractorCNT implementa un algoritmo muy rápido y de alta calidad escrito en C++ basado en OpenCV. Está orientado a hardware de baja especificación, pero funciona igual de rápido en Linux y Windows modernos. (Para obtener más información: https://github.com/sagi-z/BackgroundSubtractorCNT).
Biblioteca BGS
La biblioteca BGS (A. Sobral, Univ. La Rochelle, Francia) proporciona un marco de trabajo en C++ para ejecutar algoritmos de sustracción de fondo. El código funciona tanto en Windows como en Linux. Actualmente, la biblioteca ofrece más de 30 algoritmos BGS. (Para obtener más información: https://github.com/andrewssobral/bgslibrary)
Biblioteca LRS: herramientas de bajo rango y dispersas para modelado y sustracción de fondo en videos La biblioteca LRSLibrary (A. Sobral, Univ. La Rochelle, Francia) ofrece una colección de algoritmos de descomposición de bajo rango y dispersa en MATLAB. La biblioteca fue diseñada para la segmentación de movimiento en videos, pero también se puede usar o adaptar para otros problemas de visión artificial. Actualmente, la biblioteca LRSLibrary contiene más de 100 algoritmos basados en matrices y tensores. (Para obtener más información: https://github.com/andrewssobral/lrslibrary)
OpenCV – La biblioteca OpenCV proporciona varios algoritmos de segmentación de fondo/primer plano.