Detección de peatones

La detección de peatones es una tarea esencial y significativa en cualquier sistema de videovigilancia inteligente , ya que proporciona la información fundamental para la comprensión semántica de las secuencias de vídeo . Tiene una extensión obvia a las aplicaciones automotrices debido al potencial para mejorar los sistemas de seguridad. Muchos fabricantes de automóviles (por ejemplo, Volvo, Ford, GM, Nissan) ofrecen esta opción como ADAS en 2017.

Desafíos

Varios estilos de ropa en apariencia.
Diferentes articulaciones posibles
La presencia de accesorios oclusivos
Oclusión frecuente entre peatones

Enfoques existentes

A pesar de los desafíos, la detección de peatones sigue siendo un área de investigación activa en el campo de la visión artificial en los últimos años. Se han propuesto numerosos enfoques.

Detección holística

Los detectores están entrenados para buscar peatones en el cuadro de video escaneando todo el cuadro. El detector se “activará” si las características de la imagen dentro de la ventana de búsqueda local cumplen con ciertos criterios. Algunos métodos emplean características globales como la plantilla de borde ^[1] , otros usan características locales como el histograma de descriptores de gradientes orientados ^[2] . El inconveniente de este enfoque es que el rendimiento puede verse fácilmente afectado por el desorden y las oclusiones del fondo.

Detección basada en piezas

Los peatones se modelan como conjuntos de partes. Las hipótesis de las partes se generan primero mediante el aprendizaje de características locales, que incluyen características de borde ^{[3] y de orientación.}^[4] Estas hipótesis de las partes se unen luego para formar el mejor conjunto de hipótesis de peatones existentes. Si bien este enfoque es atractivo, la detección de partes en sí misma es una tarea difícil. La implementación de este enfoque sigue un procedimiento estándar para procesar los datos de imagen que consiste en crear primero una pirámide de imágenes de muestreo denso, calcular las características en cada escala, realizar la clasificación en todas las ubicaciones posibles y, finalmente, realizar la supresión no máxima para generar el conjunto final de cuadros delimitadores. ^[5]

Detección basada en parches

En 2005, Leibe et al. ^[6] propusieron un enfoque que combina tanto la detección como la segmentación , denominado Modelo de Forma Implícita (ISM). Durante el proceso de entrenamiento se aprende un libro de códigos de apariencia local. En el proceso de detección, se utilizan características locales extraídas para compararlas con las entradas del libro de códigos, y cada coincidencia otorga un voto a favor de las hipótesis de los peatones. Los resultados finales de la detección se pueden obtener refinando aún más esas hipótesis. La ventaja de este enfoque es que solo se requiere una pequeña cantidad de imágenes de entrenamiento.

Detección basada en movimiento

Cuando las condiciones lo permiten (cámara fija, condiciones de iluminación estacionarias, etc.), la sustracción de fondo puede ayudar a detectar peatones. La sustracción de fondo clasifica los píxeles de las secuencias de vídeo como fondo, donde no se detecta movimiento, o primer plano, donde se detecta movimiento. Este procedimiento resalta las siluetas (los componentes conectados en primer plano) de cada elemento en movimiento en la escena, incluidas las personas. Se ha desarrollado un algoritmo, ^[7]^[8] en la Universidad de Lieja , para analizar la forma de estas siluetas con el fin de detectar a los humanos. Dado que los métodos que consideran la silueta como un todo y realizan una única clasificación son, en general, muy sensibles a los defectos de forma, se ha propuesto un método basado en partes que divide las siluetas en un conjunto de regiones más pequeñas para disminuir la influencia de los defectos. Al contrario de otros enfoques basados en partes, estas regiones no tienen ningún significado anatómico. Este algoritmo se ha extendido a la detección de humanos en secuencias de vídeo 3D. ^[9]

Detección mediante múltiples cámaras

Fleuret et al. ^[10] sugirieron un método para integrar múltiples cámaras calibradas para detectar múltiples peatones. En este enfoque, el plano del suelo se divide en celdas de cuadrícula uniformes y no superpuestas, generalmente con un tamaño de 25 por 25 (cm). El detector produce un mapa de ocupación de probabilidad (POM), que proporciona una estimación de la probabilidad de que cada celda de la cuadrícula esté ocupada por una persona. Dados de dos a cuatro transmisiones de video sincronizadas tomadas a la altura de los ojos y desde diferentes ángulos, este método puede combinar de manera efectiva un modelo generativo con programación dinámica para seguir con precisión hasta seis personas en miles de cuadros a pesar de oclusiones significativas y cambios de iluminación. También puede derivar trayectorias métricamente precisas para cada una de ellas.

Trabajo seminal relacionado

Véase también

Referencias

^ C. Papageorgiou y T. Poggio, "Un sistema de detección de peatones entrenable", International Journal of Computer Vision (IJCV), páginas 1:15–33, 2000
^ N. Dalal, B. Triggs, “Histogramas de gradientes orientados para la detección humana”, Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones (CVPR), páginas 1:886–893, 2005
^ Bo Wu y Ram Nevatia, "Detección de múltiples humanos parcialmente ocluidos en una sola imagen mediante la combinación bayesiana de detectores de partes de aristas", IEEE International Conference on Computer Vision (ICCV), páginas 1:90–97, 2005
^ Mikolajczyk, K. y Schmid, C. y Zisserman, A. "Detección humana basada en un ensamblaje probabilístico de detectores de piezas robustas", Conferencia Europea sobre Visión Artificial (ECCV), volumen 3021/2004, páginas 69–82, 2005
^ Hyunggi Cho, Paul E. Rybski, Aharon Bar-Hillel y Wende Zhang "Detección de peatones en tiempo real con modelos de piezas deformables"
^ B. Leibe, E. Seemann y B. Schiele. "Detección de peatones en escenas concurridas" IEEE Conference on Computer Vision and Pattern Recognition (CVPR), páginas 1:878–885, 2005
^ O. Barnich, S. Jodogne y M. Van Droogenbroeck. "Análisis robusto de siluetas mediante distribuciones de tamaño morfológico", Conceptos avanzados para sistemas de visión inteligente (ACIVS), páginas 734-745, 2006
^ S. Piérard, A. Lejeune y M. Van Droogenbroeck. "Un enfoque probabilístico basado en píxeles para detectar humanos en transmisiones de video", IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), páginas 921–924, 2011
^ S. Piérard, A. Lejeune y M. Van Droogenbroeck. "La información 3D es valiosa para la detección de humanos en transmisiones de video", Actas de 3D Stereo MEDIA , páginas 1–4, 2010
^ F. Fleuret, J. Berclaz, R. Lengagne y P. Fua, Seguimiento de personas con múltiples cámaras y un mapa de ocupación probabilístico, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 30, n.° 2, págs. 267-282, febrero de 2008.

Enlaces externos

Código para POM: detección de peatones desde múltiples cámaras mediante un mapa de ocupación probabilístico
Sistema de detección de peatones para maquinaria pesada – Ejemplo de sistema de detección de peatones
Sistema de detección de peatones Blaxtair para plantas móviles