La detección de peatones es una tarea esencial y significativa en cualquier sistema de videovigilancia inteligente , ya que proporciona la información fundamental para la comprensión semántica de las secuencias de vídeo . Tiene una extensión obvia a las aplicaciones automotrices debido al potencial para mejorar los sistemas de seguridad. Muchos fabricantes de automóviles (por ejemplo, Volvo, Ford, GM, Nissan) ofrecen esta opción como ADAS en 2017.
A pesar de los desafíos, la detección de peatones sigue siendo un área de investigación activa en el campo de la visión artificial en los últimos años. Se han propuesto numerosos enfoques.
Los detectores están entrenados para buscar peatones en el cuadro de video escaneando todo el cuadro. El detector se “activará” si las características de la imagen dentro de la ventana de búsqueda local cumplen con ciertos criterios. Algunos métodos emplean características globales como la plantilla de borde [1] , otros usan características locales como el histograma de descriptores de gradientes orientados [2] . El inconveniente de este enfoque es que el rendimiento puede verse fácilmente afectado por el desorden y las oclusiones del fondo.
Los peatones se modelan como conjuntos de partes. Las hipótesis de las partes se generan primero mediante el aprendizaje de características locales, que incluyen características de borde [3] y de orientación. [4] Estas hipótesis de las partes se unen luego para formar el mejor conjunto de hipótesis de peatones existentes. Si bien este enfoque es atractivo, la detección de partes en sí misma es una tarea difícil. La implementación de este enfoque sigue un procedimiento estándar para procesar los datos de imagen que consiste en crear primero una pirámide de imágenes de muestreo denso, calcular las características en cada escala, realizar la clasificación en todas las ubicaciones posibles y, finalmente, realizar la supresión no máxima para generar el conjunto final de cuadros delimitadores. [5]
En 2005, Leibe et al. [6] propusieron un enfoque que combina tanto la detección como la segmentación , denominado Modelo de Forma Implícita (ISM). Durante el proceso de entrenamiento se aprende un libro de códigos de apariencia local. En el proceso de detección, se utilizan características locales extraídas para compararlas con las entradas del libro de códigos, y cada coincidencia otorga un voto a favor de las hipótesis de los peatones. Los resultados finales de la detección se pueden obtener refinando aún más esas hipótesis. La ventaja de este enfoque es que solo se requiere una pequeña cantidad de imágenes de entrenamiento.
Cuando las condiciones lo permiten (cámara fija, condiciones de iluminación estacionarias, etc.), la sustracción de fondo puede ayudar a detectar peatones. La sustracción de fondo clasifica los píxeles de las secuencias de vídeo como fondo, donde no se detecta movimiento, o primer plano, donde se detecta movimiento. Este procedimiento resalta las siluetas (los componentes conectados en primer plano) de cada elemento en movimiento en la escena, incluidas las personas. Se ha desarrollado un algoritmo, [7] [8] en la Universidad de Lieja , para analizar la forma de estas siluetas con el fin de detectar a los humanos. Dado que los métodos que consideran la silueta como un todo y realizan una única clasificación son, en general, muy sensibles a los defectos de forma, se ha propuesto un método basado en partes que divide las siluetas en un conjunto de regiones más pequeñas para disminuir la influencia de los defectos. Al contrario de otros enfoques basados en partes, estas regiones no tienen ningún significado anatómico. Este algoritmo se ha extendido a la detección de humanos en secuencias de vídeo 3D. [9]
Fleuret et al. [10] sugirieron un método para integrar múltiples cámaras calibradas para detectar múltiples peatones. En este enfoque, el plano del suelo se divide en celdas de cuadrícula uniformes y no superpuestas, generalmente con un tamaño de 25 por 25 (cm). El detector produce un mapa de ocupación de probabilidad (POM), que proporciona una estimación de la probabilidad de que cada celda de la cuadrícula esté ocupada por una persona. Dados de dos a cuatro transmisiones de video sincronizadas tomadas a la altura de los ojos y desde diferentes ángulos, este método puede combinar de manera efectiva un modelo generativo con programación dinámica para seguir con precisión hasta seis personas en miles de cuadros a pesar de oclusiones significativas y cambios de iluminación. También puede derivar trayectorias métricamente precisas para cada una de ellas.