La inteligencia artificial para la videovigilancia utiliza programas informáticos que analizan el audio y las imágenes de las cámaras de videovigilancia para reconocer personas, vehículos, objetos, atributos y eventos. Los contratistas de seguridad programan el software para definir áreas restringidas dentro del campo de visión de la cámara (como un área cercada, un estacionamiento pero no la acera o la calle pública fuera del estacionamiento) y programan horarios del día (como después del cierre de negocios) para la propiedad que está siendo protegida por la vigilancia de la cámara . La inteligencia artificial ("IA") envía una alerta si detecta a un intruso que infringe la "regla" establecida de que no se permite a ninguna persona ingresar a esa área durante ese momento del día. [1]
El programa de IA funciona mediante visión artificial . La visión artificial es una serie de algoritmos o procedimientos matemáticos que funcionan como un diagrama de flujo o una serie de preguntas para comparar el objeto observado con cientos de miles de imágenes de referencia almacenadas de humanos en diferentes posturas, ángulos, posiciones y movimientos. La IA se pregunta si el objeto observado se mueve como las imágenes de referencia, si tiene aproximadamente el mismo tamaño de altura en relación con el ancho, si tiene los dos brazos y dos piernas característicos, si se mueve con una velocidad similar y si es vertical en lugar de horizontal. Son posibles muchas otras preguntas, como el grado en que el objeto es reflectante, el grado en que es estable o vibrante y la suavidad con la que se mueve. Combinando todos los valores de las diversas preguntas, se deriva una clasificación general que le da a la IA la probabilidad de que el objeto sea o no un humano. Si el valor excede un límite establecido, se envía la alerta. Una característica de estos programas es que aprenden por sí solos hasta cierto punto, aprendiendo, por ejemplo, que los humanos o los vehículos aparecen más grandes en ciertas partes de la imagen monitoreada (las áreas cercanas a la cámara) que en otras partes, es decir, las áreas más alejadas de la cámara.
Además de la sencilla regla que restringe el acceso de personas o vehículos a determinadas zonas en determinados momentos del día, se pueden establecer reglas más complejas. El usuario del sistema puede querer saber si los vehículos circulan en una dirección pero no en la otra. Los usuarios pueden querer saber si hay más de una determinada cantidad de personas preestablecida dentro de una zona determinada. La IA es capaz de mantener la vigilancia de cientos de cámaras simultáneamente. Su capacidad para detectar a un intruso a la distancia o bajo la lluvia o el resplandor es superior a la capacidad de los humanos para hacerlo.
Este tipo de IA para la seguridad se conoce como " basada en reglas " porque un programador humano debe establecer reglas para todas las cosas sobre las que el usuario desea recibir alertas. Esta es la forma más común de IA para la seguridad. Muchos sistemas de cámaras de videovigilancia actuales incluyen este tipo de capacidad de IA. El disco duro que alberga el programa puede estar ubicado en las propias cámaras o puede estar en un dispositivo separado que recibe la información de las cámaras.
Se ha desarrollado una forma más nueva de IA para la seguridad, que no se basa en reglas y se denomina " análisis de comportamiento ". Este software es totalmente autodidacta y no requiere programación inicial por parte del usuario o del contratista de seguridad. En este tipo de análisis , la IA aprende cuál es el comportamiento normal de las personas, los vehículos, las máquinas y el entorno basándose en su propia observación de patrones de diversas características, como tamaño, velocidad, reflectividad, color, agrupación, orientación vertical u horizontal, etc. La IA normaliza los datos visuales, lo que significa que clasifica y etiqueta los objetos y patrones que observa, y construye definiciones continuamente refinadas de lo que es un comportamiento normal o promedio para los diversos objetos observados. Después de varias semanas de aprendizaje de esta manera, puede reconocer cuándo las cosas rompen el patrón. Cuando observa tales anomalías, envía una alerta. Por ejemplo, es normal que los automóviles circulen por la calle. Un automóvil visto subiendo a una acera sería una anomalía. Si un patio cercado normalmente está vacío por la noche, entonces una persona que ingresa a esa área sería una anomalía.
Las limitaciones de la capacidad de los seres humanos para supervisar atentamente las imágenes de las cámaras de vigilancia en directo han hecho que se necesite una inteligencia artificial que pueda cumplir mejor su función. Los seres humanos que miran un solo monitor de vídeo durante más de veinte minutos pierden el 95% de su capacidad de mantener la atención lo suficiente como para discernir los acontecimientos importantes. [2] Con dos monitores, esta capacidad se reduce a la mitad. [3] Dado que muchas instalaciones tienen docenas o incluso cientos de cámaras, la tarea está claramente más allá de la capacidad humana. En general, las vistas de las cámaras de pasillos vacíos, almacenes, aparcamientos o estructuras son extremadamente aburridas y, por tanto, la atención disminuye rápidamente. Cuando se supervisan varias cámaras, normalmente empleando un monitor de pared o un conjunto de monitores con vistas de pantalla dividida y rotando cada varios segundos entre un conjunto de cámaras y el siguiente, el tedio visual resulta rápidamente abrumador. Aunque las cámaras de vigilancia por vídeo proliferaron y fueron adoptadas en gran medida por usuarios que iban desde concesionarios de coches y centros comerciales hasta escuelas y empresas e instalaciones de alta seguridad como plantas nucleares, se reconoció en retrospectiva que la vigilancia por vídeo a cargo de agentes humanos (también llamados "operadores") era poco práctica e ineficaz. Los sistemas de videovigilancia de gran alcance se relegaron a la mera grabación para su posible uso forense para identificar a alguien, después del hecho de un robo, incendio provocado, ataque o incidente. Cuando se emplearon cámaras con ángulos de visión amplios, en particular para grandes áreas al aire libre, se descubrieron graves limitaciones incluso para este propósito debido a la resolución insuficiente. [4] En estos casos es imposible identificar al intruso o al autor del delito porque su imagen es demasiado pequeña en el monitor. [ cita requerida ]
En respuesta a las deficiencias de los guardias humanos para vigilar los monitores de vigilancia a largo plazo, la primera solución fue agregar detectores de movimiento a las cámaras. Se razonó que el movimiento de un intruso o agresor enviaría una alerta al oficial de monitoreo remoto, obviando la necesidad de una vigilancia humana constante. El problema era que en un entorno al aire libre hay un movimiento constante o cambios de píxeles que componen la imagen total vista en pantalla. El movimiento de las hojas de los árboles que se mueven con el viento, la basura en el suelo, los insectos, los pájaros, los perros, las sombras, los faros, los rayos del sol, etc., todo esto compone el movimiento. Esto causaba cientos o incluso miles de falsas alertas por día, lo que hacía que esta solución fuera inoperativa, excepto en entornos interiores durante las horas de no funcionamiento.
La siguiente evolución redujo las falsas alarmas hasta cierto punto, pero a costa de una calibración manual complicada y que requiere mucho tiempo. En este caso, se detectan los cambios de un objetivo, como una persona o un vehículo, en relación con un fondo fijo. Cuando el fondo cambia estacionalmente o debido a otros cambios, la fiabilidad se deteriora con el tiempo. La economía de responder a demasiadas falsas alarmas volvió a resultar un obstáculo y esta solución no fue suficiente.
El aprendizaje automático del reconocimiento visual se relaciona con los patrones y su clasificación. [5] [6] El verdadero análisis de video puede distinguir la forma humana, los vehículos y los barcos u objetos seleccionados del movimiento general de todos los demás objetos y la estática visual o los cambios en los píxeles del monitor. Lo hace mediante el reconocimiento de patrones . Cuando el objeto de interés, por ejemplo un humano, viola una regla preestablecida, por ejemplo que el número de personas no debe exceder cero en un área predefinida durante un intervalo de tiempo definido, entonces se envía una alerta. Un rectángulo rojo o el llamado "cuadro delimitador" generalmente seguirá automáticamente al intruso detectado, y un breve videoclip de esto se enviará como alerta.
La detección de intrusos mediante videovigilancia tiene limitaciones basadas en la economía y la naturaleza de las cámaras de video. Por lo general, las cámaras para exteriores están configuradas con un ángulo de visión amplio y, sin embargo, miran a una gran distancia. La velocidad de cuadros por segundo y el rango dinámico para manejar áreas muy iluminadas y otras con poca luz dificultan aún más que la cámara sea realmente adecuada para ver a un intruso humano en movimiento. De noche, incluso en áreas exteriores iluminadas, un sujeto en movimiento no capta suficiente luz por cuadro por segundo y, por lo tanto, a menos que esté muy cerca de la cámara, aparecerá como una fina sombra o un fantasma apenas perceptible o completamente invisible. Las condiciones de deslumbramiento, oscurecimiento parcial, lluvia, nieve, niebla y oscuridad agravan el problema. Incluso cuando se le indica a un humano que mire la ubicación real en un monitor de un sujeto en estas condiciones, el sujeto generalmente no será detectado. La IA puede mirar imparcialmente la imagen completa y las imágenes de todas las cámaras simultáneamente. Usando modelos estadísticos de grados de desviación de su patrón aprendido de lo que constituye la forma humana, detectará un intruso con alta confiabilidad y una baja tasa de falsas alertas incluso en condiciones adversas. [7] Su aprendizaje se basa en aproximadamente un cuarto de millón de imágenes de humanos en diversas posiciones, ángulos, posturas, etc.
Una cámara de un megapíxel con análisis de vídeo integrado fue capaz de detectar a un humano a una distancia de unos 350 pies y un ángulo de visión de unos 30 grados en condiciones no ideales. Se podrían establecer reglas para una "valla virtual" o la intrusión en un área predefinida. Se podrían establecer reglas para viajes direccionales, objetos dejados atrás, formación de multitudes y algunas otras condiciones. La inteligencia artificial para la videovigilancia se utiliza ampliamente en China. Véase Vigilancia masiva en China .
Una de las características más poderosas del sistema es que un agente u operador humano, al recibir una alerta de la IA, podría hablar inmediatamente a través de altavoces de megafonía al intruso. Esto tenía un alto valor disuasorio, ya que la mayoría de los delitos son oportunistas y el riesgo de captura para el intruso se vuelve tan pronunciado cuando una persona real le habla que es muy probable que desista de la intrusión y se retire. El agente de seguridad describiría las acciones del intruso para que este no tuviera ninguna duda de que una persona real lo estaba observando. El agente anunciaría que el intruso estaba infringiendo la ley y que se estaba contactando a las fuerzas del orden y que lo estaban grabando en video. [8]
La policía recibe una enorme cantidad de falsas alarmas por robo . De hecho, la industria de la seguridad informa que más del 98% de estas alarmas son falsas. En consecuencia, la policía da una respuesta de muy baja prioridad a las alarmas antirrobo y puede tardar entre veinte minutos y dos horas en responder al lugar. Por el contrario, el delito detectado mediante análisis de vídeo se informa al oficial de monitoreo central, que verifica con sus propios ojos que se trata de un delito real en curso. Luego, envía el caso a la policía, que otorga a estas llamadas la máxima prioridad.
Si bien el análisis de video basado en reglas funcionó de manera económica y confiable para muchas aplicaciones de seguridad, hay muchas situaciones en las que no puede funcionar. [9] Para un área interior o exterior donde nadie debe estar durante ciertos momentos del día, por ejemplo durante la noche, o para áreas donde nadie debe estar en ningún momento, como una torre de telefonía celular , el análisis tradicional basado en reglas es perfectamente apropiado. En el ejemplo de una torre de telefonía celular, el momento poco frecuente en que un técnico de servicio pueda necesitar acceder al área simplemente requeriría llamar con un código de acceso para poner la respuesta de monitoreo "en prueba" o inactivarla durante el breve tiempo que la persona autorizada esté allí.
Pero existen muchas necesidades de seguridad en entornos activos en los que cientos o miles de personas están en todas partes todo el tiempo. Por ejemplo, un campus universitario, una fábrica en funcionamiento, un hospital o cualquier instalación operativa activa. No es posible establecer reglas que discriminen entre personas legítimas y delincuentes o malhechores.
Mediante el análisis de comportamiento, una IA que aprende por sí sola y no se basa en reglas toma los datos de las cámaras de vídeo y clasifica continuamente los objetos y eventos que ve. Por ejemplo, una persona que cruza una calle es una clasificación. Un grupo de personas es otra clasificación. Un vehículo es una clasificación, pero con un aprendizaje continuo se diferenciaría un autobús público de un camión pequeño y éste de una motocicleta. Con una sofisticación cada vez mayor, el sistema reconoce patrones en el comportamiento humano. Por ejemplo, podría observar que las personas pasan por una puerta de acceso controlado de a una por vez. La puerta se abre, la persona presenta su tarjeta o etiqueta de proximidad, la persona pasa y la puerta se cierra. Este patrón de actividad, observado repetidamente, forma una base para lo que es normal en la visión de la cámara que observa esa escena. Ahora bien, si una persona autorizada abre la puerta pero una segunda persona no autorizada que "se acerca demasiado" agarra la puerta antes de que se cierre y pasa, ese es el tipo de anomalía que crearía una alerta. Este tipo de análisis es mucho más complejo que el análisis basado en reglas. Mientras que el análisis basado en reglas funciona principalmente para detectar intrusos en áreas donde normalmente no hay nadie presente en momentos definidos del día, el análisis de comportamiento funciona donde las personas están activas para detectar cosas que están fuera de lo común.
Un incendio en el exterior sería un evento inusual y provocaría una alerta, al igual que una nube de humo ascendente. Los vehículos que circulan en sentido contrario por una entrada de un solo sentido también serían un ejemplo típico del tipo de evento que tiene una fuerte firma visual y se desviaría del patrón observado repetidamente de vehículos que circulan por el sentido correcto en el carril. El hecho de que un atacante arroje a alguien al suelo sería un evento inusual que probablemente provocaría una alerta. Esto depende de la situación. Por lo tanto, si la cámara visualizara un gimnasio donde se practica lucha libre, la IA aprendería que es habitual que un humano arroje a otro al suelo, en cuyo caso no alertaría sobre esta observación.
La IA no sabe ni entiende qué es un ser humano, ni qué es un fuego, ni qué es un vehículo. Simplemente encuentra características de estos objetos en función de su tamaño, forma, color, reflectividad, ángulo, orientación, movimiento, etc. Luego descubre que los objetos que ha clasificado tienen patrones típicos de comportamiento. Por ejemplo, los humanos caminan por las aceras y, a veces, por las calles, pero no suelen trepar por los costados de los edificios. Los vehículos circulan por las calles, pero no por las aceras. Por lo tanto, el comportamiento anómalo de alguien que trepa por un edificio o un vehículo que se desvía hacia una acera activaría una alerta.
Los sistemas de alarma típicos están diseñados para no pasar por alto verdaderos positivos (eventos delictivos reales) y para tener la menor tasa de falsas alarmas posible. En ese sentido, las alarmas antirrobo pasan por alto muy pocos verdaderos positivos, pero tienen una tasa de falsas alarmas muy alta incluso en el entorno interior controlado. Las cámaras de detección de movimiento pasan por alto algunos verdaderos positivos, pero están plagadas de una abrumadora cantidad de falsas alarmas en un entorno exterior. Los análisis basados en reglas detectan de manera confiable la mayoría de los verdaderos positivos y tienen una baja tasa de falsos positivos, pero no pueden funcionar en entornos activos, solo en entornos vacíos. Además, se limitan a la simple discriminación de si hay un intruso presente o no.
Algo tan complejo o sutil como el inicio de una pelea o el incumplimiento de un procedimiento de seguridad por parte de un empleado no es algo que pueda detectarse o discriminarse con un análisis basado en reglas. Con el análisis del comportamiento, sí es posible. Los lugares donde la gente se mueve y trabaja no presentan un problema. Sin embargo, la IA puede detectar muchas cosas que parecen anómalas pero que son inocentes por naturaleza. Por ejemplo, si los estudiantes de un campus caminan por una plaza, eso se aprenderá como algo normal. Si un par de estudiantes deciden llevar una sábana grande al aire libre ondeando al viento, eso sí podría activar una alerta. El oficial de vigilancia sería alertado para que mirara su monitor y viera que el evento no es una amenaza y luego lo ignorara. El grado de desviación de la norma que activa una alerta se puede configurar de modo que solo se informen las cosas más anormales. Sin embargo, esto sigue constituyendo una nueva forma de interacción entre humanos e IA que no se caracteriza por la mentalidad tradicional de la industria de las alarmas. Esto se debe a que habrá muchas falsas alarmas que, no obstante, pueden ser valiosas para enviar a un oficial humano que pueda observar rápidamente y determinar si la escena requiere una respuesta. En este sentido, es un “toque en el hombro” por parte de la IA para que el humano mire algo.
Debido a que se procesan continuamente tantas cosas complejas, el software realiza el muestreo a una resolución muy baja de solo 1 CIF para conservar la demanda computacional. La resolución de 1 CIF significa que no se detectará un objeto del tamaño de un ser humano si la cámara utilizada es de gran angular y el ser humano se encuentra a más de sesenta a ochenta pies de distancia, según las condiciones. Los objetos más grandes, como vehículos o humo, se detectarían a distancias mayores.
La utilidad de la inteligencia artificial para la seguridad no existe en el vacío, y su desarrollo no fue impulsado por un estudio puramente académico o científico. Más bien, está dirigida a necesidades del mundo real y, por lo tanto, a fuerzas económicas. Su uso para aplicaciones no relacionadas con la seguridad, como la eficiencia operativa, el mapeo térmico de las áreas de exhibición por parte de los compradores (es decir, cuántas personas hay en una determinada área en el espacio comercial) y la asistencia a clases, son usos en desarrollo. [10] Los humanos no están tan bien calificados como la IA para recopilar y reconocer patrones que consisten en conjuntos de datos muy grandes que requieren cálculos simultáneos en múltiples ubicaciones remotas vistas. No hay nada innatamente humano en esa conciencia. Se ha demostrado que esa multitarea descentra la atención y el rendimiento humanos. Las IA tienen la capacidad de manejar esos datos. Para fines de seguridad al interactuar con cámaras de video, funcionalmente tienen una agudeza visual mejor que los humanos o la aproximación de la máquina a ella. Para juzgar las sutilezas de los comportamientos o las intenciones de los sujetos o los grados de amenaza, los humanos siguen siendo muy superiores en el estado actual de la tecnología. Por lo tanto, la IA en seguridad funciona para escanear ampliamente más allá de la capacidad humana y examinar los datos hasta un primer nivel de clasificación de relevancia y alertar al oficial humano que luego se hace cargo de la función de evaluación y respuesta.
En la práctica, la seguridad está determinada económicamente, de modo que el gasto en seguridad preventiva nunca suele superar el coste percibido del riesgo que se quiere evitar. Los estudios han demostrado que las empresas normalmente sólo gastan en seguridad una veinticincoava parte de lo que les cuestan sus pérdidas reales. [11] [ predatory publisher ] Lo que según la teoría económica pura debería ser una equivalencia u homeostasis, se queda muy lejos de serlo. Una teoría que explica esto es la disonancia cognitiva , o la facilidad con la que las cosas desagradables como el riesgo pueden ser desviadas de la mente consciente. Sin embargo, la seguridad es un gasto importante, y la comparación de los costes de los diferentes medios de seguridad siempre es la principal preocupación entre los profesionales de la seguridad.
Otra razón por la que se subestiman las amenazas o pérdidas futuras en materia de seguridad es que, a menudo, solo se considera el costo directo de una pérdida potencial en lugar del espectro de pérdidas consecuentes que se experimentan concomitantemente. Por ejemplo, la destrucción por vandalismo de una máquina de producción personalizada en una fábrica o de un camión con remolque refrigerado daría lugar a un largo período de reemplazo durante el cual no se podría atender a los clientes, lo que daría lugar a la pérdida de su negocio. Un delito violento tendrá un gran daño a las relaciones públicas de un empleador, más allá de la responsabilidad directa por no proteger al empleado.
El análisis del comportamiento funciona de manera única más allá de la simple seguridad y, debido a su capacidad para observar infracciones en los patrones estándar de protocolos, puede detectar de manera efectiva actos inseguros de los empleados que pueden resultar en accidentes de compensación laboral o incidentes de responsabilidad pública. Aquí también, la evaluación de los costos de los incidentes futuros no se ajusta a la realidad. Un estudio de Liberty Mutual Insurance Company mostró que el costo para los empleadores es aproximadamente seis veces el costo asegurado directo, ya que los costos no asegurados de los daños consecuentes incluyen trabajadores de reemplazo temporales, costos de contratación para reemplazos, costos de capacitación, tiempo de los gerentes en informes o tribunales, moral adversa en otros trabajadores y efecto en los clientes y las relaciones públicas. [12] El potencial de la IA en forma de análisis del comportamiento para interceptar y prevenir proactivamente tales incidentes es significativo.