El reconocimiento de actividades tiene como objetivo reconocer las acciones y objetivos de uno o más agentes a partir de una serie de observaciones sobre las acciones de los agentes y las condiciones del entorno. Desde la década de 1980, este campo de investigación ha captado la atención de varias comunidades de informática debido a su fortaleza para brindar soporte personalizado para muchas aplicaciones diferentes y su conexión con muchos campos de estudio diferentes, como la medicina, la interacción hombre-computadora o la sociología.
Debido a su naturaleza multifacética, diferentes campos pueden referirse al reconocimiento de actividad como reconocimiento de planes, reconocimiento de objetivos, reconocimiento de intenciones, reconocimiento de comportamiento, estimación de ubicación y servicios basados en la ubicación .
El reconocimiento de actividad basado en sensores integra el área emergente de redes de sensores con nuevas técnicas de minería de datos y aprendizaje automático para modelar una amplia gama de actividades humanas. [1] [2] Los dispositivos móviles (por ejemplo, los teléfonos inteligentes) proporcionan suficientes datos de sensores y potencia de cálculo para permitir el reconocimiento de la actividad física para proporcionar una estimación del consumo de energía durante la vida cotidiana. Los investigadores de reconocimiento de actividad basado en sensores creen que al empoderar a las computadoras y sensores ubicuos para monitorear el comportamiento de los agentes (bajo consentimiento), estas computadoras serán más adecuadas para actuar en nuestro nombre. Los sensores visuales que incorporan información de color y profundidad, como Kinect , permiten un reconocimiento automático de acciones más preciso y fusionan muchas aplicaciones emergentes como la educación interactiva [3] y los entornos inteligentes. [4] Las vistas múltiples del sensor visual permiten el desarrollo del aprendizaje automático para el reconocimiento automático de acciones invariantes de la vista. [5] Los sensores más avanzados utilizados en sistemas de captura de movimiento 3D permiten un reconocimiento automático de alta precisión, a expensas de una configuración de sistema de hardware más complicada. [6]
El reconocimiento de la actividad basado en sensores es una tarea complicada debido a la naturaleza inherentemente ruidosa de la entrada. Por lo tanto, el modelado estadístico ha sido el principal impulso en esta dirección en capas, donde se lleva a cabo y se conecta el reconocimiento en varios niveles intermedios. En el nivel más bajo, donde se recopilan los datos de los sensores, el aprendizaje estadístico se ocupa de cómo encontrar las ubicaciones detalladas de los agentes a partir de los datos de la señal recibida. En un nivel intermedio, la inferencia estadística puede ocuparse de cómo reconocer las actividades de los individuos a partir de las secuencias de ubicación inferidas y las condiciones ambientales en los niveles inferiores. Además, en el nivel más alto, una preocupación principal es descubrir el objetivo general o los subobjetivos de un agente a partir de las secuencias de actividad mediante una combinación de razonamiento lógico y estadístico.
El reconocimiento de actividades para múltiples usuarios mediante sensores corporales apareció por primera vez en el trabajo de ORL utilizando sistemas de insignias activas [7] a principios de la década de 1990. Se utilizaron otras tecnologías de sensores, como sensores de aceleración, para identificar patrones de actividad grupal durante escenarios de oficina. [8] Las actividades de múltiples usuarios en entornos inteligentes se abordan en Gu et al . [9] En este trabajo, investigan el problema fundamental de reconocer actividades para múltiples usuarios a partir de lecturas de sensores en un entorno doméstico y proponen un nuevo enfoque de minería de patrones para reconocer actividades tanto de un solo usuario como de múltiples usuarios en una solución unificada.
El reconocimiento de actividades grupales es fundamentalmente diferente del reconocimiento de actividades individuales o de múltiples usuarios en que el objetivo es reconocer el comportamiento del grupo como una entidad, en lugar de las actividades de los miembros individuales dentro de él. [10] El comportamiento grupal es emergente por naturaleza, lo que significa que las propiedades del comportamiento del grupo son fundamentalmente diferentes a las propiedades del comportamiento de los individuos dentro de él, o cualquier suma de ese comportamiento. [11] Los principales desafíos están en modelar el comportamiento de los miembros individuales del grupo, así como los roles del individuo dentro de la dinámica del grupo [12] y su relación con el comportamiento emergente del grupo en paralelo. [13] Los desafíos que aún deben abordarse incluyen la cuantificación del comportamiento y los roles de los individuos que se unen al grupo, la integración de modelos explícitos para la descripción de roles en algoritmos de inferencia y evaluaciones de escalabilidad para grupos y multitudes muy grandes. El reconocimiento de actividades grupales tiene aplicaciones para la gestión y respuesta de multitudes en situaciones de emergencia, así como para las redes sociales y las aplicaciones Quantified Self . [14]
Los enfoques basados en la lógica hacen un seguimiento de todas las explicaciones lógicamente consistentes de las acciones observadas. Por lo tanto, se deben considerar todos los planes o metas posibles y consistentes. Kautz proporcionó una teoría formal del reconocimiento de planes. Describió el reconocimiento de planes como un proceso de inferencia lógica de circunscripción. Todas las acciones y planes se denominan uniformemente metas, y el conocimiento de un reconocedor se representa mediante un conjunto de declaraciones de primer orden, llamadas jerarquía de eventos. La jerarquía de eventos está codificada en la lógica de primer orden, que define la abstracción, la descomposición y las relaciones funcionales entre los tipos de eventos. [15]
El marco general de Kautz para el reconocimiento de planes tiene una complejidad temporal exponencial en el peor de los casos, medida en el tamaño de la jerarquía de entrada. Lesh y Etzioni fueron un paso más allá y presentaron métodos para ampliar el reconocimiento de objetivos con el fin de ampliar su trabajo computacionalmente. A diferencia del enfoque de Kautz, en el que la biblioteca de planes está representada explícitamente, el enfoque de Lesh y Etzioni permite la construcción automática de la biblioteca de planes a partir de primitivas de dominio. Además, introdujeron representaciones compactas y algoritmos eficientes para el reconocimiento de objetivos en bibliotecas de planes grandes. [16]
Los planes y objetivos inconsistentes se eliminan repetidamente cuando aparecen nuevas acciones. Además, también presentaron métodos para adaptar un reconocedor de objetivos para manejar el comportamiento idiosincrásico individual dada una muestra del comportamiento reciente de un individuo. Pollack et al. describieron un modelo de argumentación directa que puede conocer la fuerza relativa de varios tipos de argumentos para la descripción de creencias e intenciones.
Un problema grave de los métodos basados en la lógica es su incapacidad o inviabilidad inherente para representar la incertidumbre. No ofrecen ningún mecanismo para preferir un enfoque consistente a otro y son incapaces de decidir si un plan en particular es más probable que otro, siempre que ambos puedan ser lo suficientemente consistentes para explicar las acciones observadas. Existe también una falta de capacidad de aprendizaje asociada con los métodos basados en la lógica.
Otro enfoque para el reconocimiento de actividades basado en la lógica es utilizar el razonamiento de flujo basado en la programación de conjuntos de respuestas [17] , y se ha aplicado al reconocimiento de actividades para aplicaciones relacionadas con la salud [18] , que utiliza restricciones débiles para modelar un grado de ambigüedad/incertidumbre.
La teoría de la probabilidad y los modelos de aprendizaje estadístico se han aplicado más recientemente en el reconocimiento de actividades para razonar sobre acciones, planes y objetivos en condiciones de incertidumbre. [19] En la literatura, ha habido varios enfoques que representan explícitamente la incertidumbre en el razonamiento sobre los planes y objetivos de un agente.
Utilizando datos de sensores como entrada, Hodges y Pollack diseñaron sistemas basados en aprendizaje automático para identificar a individuos mientras realizan actividades diarias rutinarias como preparar café. [20] Intel Research (Seattle) Lab y la Universidad de Washington en Seattle han realizado algunos trabajos importantes sobre el uso de sensores para detectar planes humanos. [21] [22] [23] Algunos de estos trabajos infieren los modos de transporte de los usuarios a partir de lecturas de identificadores de radiofrecuencia (RFID) y sistemas de posicionamiento global (GPS).
Se ha demostrado que el uso de modelos probabilísticos temporales tiene un buen desempeño en el reconocimiento de actividades y, en general, supera a los modelos no temporales. [24] Los modelos generativos como el modelo oculto de Markov (HMM) y las redes bayesianas dinámicas (DBN) formuladas de manera más general son opciones populares para modelar actividades a partir de datos de sensores. [25] [26] [27] [28] Los modelos discriminantes como los campos aleatorios condicionales (CRF) también se aplican comúnmente y también brindan un buen desempeño en el reconocimiento de actividades. [29] [30]
Tanto los modelos generativos como los discriminativos tienen sus pros y sus contras, y la elección ideal depende de su área de aplicación. Aquí se puede encontrar un conjunto de datos junto con implementaciones de varios modelos populares (HMM, CRF) para el reconocimiento de actividades.
Los modelos probabilísticos temporales convencionales, como el modelo oculto de Markov (HMM) y el modelo de campos aleatorios condicionales (CRF), modelan directamente las correlaciones entre las actividades y los datos observados de los sensores. En los últimos años, cada vez hay más pruebas que respaldan el uso de modelos jerárquicos que tienen en cuenta la rica estructura jerárquica que existe en los datos de comportamiento humano. [26] [31] [32] La idea central aquí es que el modelo no correlaciona directamente las actividades con los datos de los sensores, sino que divide la actividad en subactividades (a veces denominadas acciones) y modela las correlaciones subyacentes en consecuencia. Un ejemplo podría ser la actividad de preparar un salteado, que se puede dividir en las subactividades o acciones de cortar verduras, freír las verduras en una sartén y servirlas en un plato. Ejemplos de un modelo jerárquico de este tipo son los modelos ocultos de Markov en capas (LHMM) [31] y el modelo oculto de Markov jerárquico (HHMM), que han demostrado superar significativamente a su contraparte no jerárquica en el reconocimiento de actividades. [26]
A diferencia de los enfoques tradicionales de aprendizaje automático, recientemente se ha propuesto un enfoque basado en la minería de datos. En el trabajo de Gu et al., el problema del reconocimiento de actividades se formula como un problema de clasificación basado en patrones. Propusieron un enfoque de minería de datos basado en patrones discriminativos que describen cambios significativos entre dos clases de datos de actividad para reconocer actividades secuenciales, intercaladas y concurrentes en una solución unificada. [33] Gilbert et al. utilizan esquinas 2D tanto en el espacio como en el tiempo. Estas se agrupan espacial y temporalmente utilizando un proceso jerárquico, con un área de búsqueda creciente. En cada etapa de la jerarquía, las características más distintivas y descriptivas se aprenden de manera eficiente a través de la minería de datos (regla de Apriori). [34]
El reconocimiento de actividad basado en la ubicación también puede basarse en datos GPS para reconocer actividades. [35] [36]
Es un problema muy importante y desafiante rastrear y comprender el comportamiento de los agentes a través de videos tomados por varias cámaras. La técnica principal empleada es Computer Vision . El reconocimiento de actividad basado en visión ha encontrado muchas aplicaciones, como la interacción hombre-computadora, el diseño de interfaz de usuario, el aprendizaje de robots y la vigilancia, entre otras. Las conferencias científicas donde a menudo aparecen trabajos de reconocimiento de actividad basados en visión son ICCV y CVPR .
Se ha realizado una gran cantidad de trabajo en el reconocimiento de actividades basado en la visión. Los investigadores han probado una serie de métodos, como el flujo óptico , el filtrado de Kalman , los modelos ocultos de Markov , etc., bajo diferentes modalidades, como una sola cámara, estéreo e infrarrojos. Además, los investigadores han considerado múltiples aspectos sobre este tema, incluido el seguimiento de un solo peatón, el seguimiento de grupos y la detección de objetos caídos.
Recientemente, algunos investigadores han utilizado cámaras RGBD como Microsoft Kinect para detectar actividades humanas. [37] Las cámaras de profundidad añaden una dimensión extra, es decir, una profundidad que las cámaras 2D normales no pueden proporcionar. La información sensorial de estas cámaras de profundidad se ha utilizado para generar modelos esqueléticos en tiempo real de humanos con diferentes posiciones corporales. [38] Esta información esquelética proporciona información significativa que los investigadores han utilizado para modelar actividades humanas que se entrenan y luego se utilizan para reconocer actividades desconocidas. [39] [40]
Con la reciente aparición del aprendizaje profundo, el reconocimiento de actividades basado en videos RGB ha experimentado un rápido desarrollo. Utiliza videos capturados por cámaras RGB como entrada y realiza varias tareas, entre ellas: clasificación de videos, detección del inicio y el final de la actividad en los videos y localización espacio-temporal de la actividad y de las personas que la realizan. [41] Los métodos de estimación de pose [42] permiten extraer características esqueléticas más representativas para el reconocimiento de acciones. [43] Dicho esto, se ha descubierto que el reconocimiento de acciones basado en el aprendizaje profundo puede sufrir ataques adversarios, en los que un atacante altera la entrada de manera insignificante para engañar a un sistema de reconocimiento de acciones. [44]
A pesar de los notables avances en el reconocimiento de actividades basado en la visión, su uso para la mayoría de las aplicaciones de vigilancia visual actuales sigue siendo una aspiración lejana. [45] Por el contrario, el cerebro humano parece haber perfeccionado la capacidad de reconocer acciones humanas. Esta capacidad no solo se basa en el conocimiento adquirido, sino también en la aptitud para extraer información relevante para un contexto determinado y el razonamiento lógico. Con base en esta observación, se ha propuesto mejorar los sistemas de reconocimiento de actividades basados en la visión mediante la integración del razonamiento de sentido común y el conocimiento contextual y de sentido común .
Reconocimiento jerárquico de la actividad humana (HAR)
El reconocimiento jerárquico de la actividad humana es una técnica dentro de la visión artificial y el aprendizaje automático. Su objetivo es identificar y comprender las acciones o comportamientos humanos a partir de datos visuales. Este método implica estructurar las actividades de forma jerárquica, creando un marco que represente las conexiones e interdependencias entre las distintas acciones. [46] Las técnicas HAR se pueden utilizar para comprender las correlaciones de datos y los fundamentos de los modelos para mejorar los modelos, equilibrar la precisión y las preocupaciones sobre la privacidad en áreas de aplicación sensibles, y para identificar y gestionar etiquetas triviales que no tienen relevancia en casos de uso específicos. [47]
En el reconocimiento de actividad basado en visión, el proceso computacional a menudo se divide en cuatro pasos, a saber, detección humana, seguimiento humano, reconocimiento de actividad humana y luego una evaluación de actividad de alto nivel.
En el reconocimiento de actividades basado en visión artificial , la localización de acciones de grano fino generalmente proporciona máscaras de segmentación por imagen que delimitan el objeto humano y su categoría de acción (por ejemplo, Segment-Tube [48] ). A menudo se emplean técnicas como redes dinámicas de Markov , CNN y LSTM para explotar las correlaciones semánticas entre fotogramas de video consecutivos. Las características geométricas de grano fino, como los cuadros delimitadores de objetivos y las poses humanas, facilitan el reconocimiento de actividades con redes neuronales gráficas . [41] [49]
Una forma de identificar a personas específicas es por su forma de caminar. Se puede utilizar un software de reconocimiento de la forma de andar para registrar la forma de andar de una persona o su perfil de características en una base de datos con el fin de reconocerla más tarde, incluso si lleva un disfraz.
Cuando se realiza el reconocimiento de actividades en interiores y en ciudades utilizando las señales Wi-Fi y los puntos de acceso 802.11 ampliamente disponibles , hay mucho ruido e incertidumbre. Estas incertidumbres se pueden modelar utilizando un modelo de red bayesiana dinámica . [50] En un modelo de objetivos múltiples que puede razonar sobre los objetivos de intercalación del usuario, se aplica un modelo de transición de estado determinista . [51] Otro método posible modela las actividades concurrentes e intercaladas en un enfoque probabilístico. [52] Un modelo de descubrimiento de acciones del usuario podría segmentar las señales Wi-Fi para producir posibles acciones. [53]
Una de las ideas principales del reconocimiento de la actividad de Wi-Fi es que cuando la señal pasa por el cuerpo humano durante la transmisión, lo que provoca reflexión, difracción y dispersión, los investigadores pueden obtener información de estas señales para analizar la actividad del cuerpo humano.
Como se muestra en [54] , cuando se transmiten señales inalámbricas en interiores, los obstáculos como las paredes, el suelo y el cuerpo humano provocan diversos efectos, como reflexión, dispersión, difracción y difracción. Por lo tanto, el extremo receptor recibe múltiples señales de diferentes caminos al mismo tiempo, porque las superficies reflejan la señal durante la transmisión, lo que se conoce como efecto de trayectos múltiples .
El modelo estático se basa en estos dos tipos de señales: la señal directa y la señal reflejada. Como no hay ningún obstáculo en la trayectoria directa, la transmisión de la señal directa se puede modelar mediante la ecuación de transmisión de Friis :
Si consideramos la señal reflejada, la nueva ecuación es:
Cuando aparece el ser humano, tenemos una nueva vía de transmisión. Por lo tanto, la ecuación final es:
es la diferencia aproximada del recorrido causado por el cuerpo humano.
En este modelo, consideramos el movimiento humano, que hace que la ruta de transmisión de la señal cambie continuamente. Podemos utilizar el efecto Doppler para describir este efecto, que está relacionado con la velocidad del movimiento.
Calculando el desplazamiento Doppler de la señal de recepción, podemos determinar el patrón del movimiento, lo que permite identificar mejor la actividad humana. Por ejemplo, en [55] el desplazamiento Doppler se utiliza como huella digital para lograr una identificación de alta precisión de nueve patrones de movimiento diferentes.
La zona de Fresnel se utilizó inicialmente para estudiar la interferencia y la difracción de la luz, que luego se utilizó para construir el modelo de transmisión de señales inalámbricas. La zona de Fresnel es una serie de intervalos elípticos cuyos focos son las posiciones del emisor y el receptor.
Cuando una persona se mueve a través de diferentes zonas de Fresnel, la trayectoria de la señal formada por el reflejo del cuerpo humano cambia, y si las personas se mueven verticalmente a través de las zonas de Fresnel, el cambio de señal será periódico. En un par de artículos, Wang et.al. aplicaron el modelo de Fresnel a la tarea de reconocimiento de actividad y obtuvieron un resultado más preciso. [56] [57]
En algunas tareas, deberíamos considerar modelar el cuerpo humano con precisión para lograr mejores resultados. Por ejemplo, [57] describió el cuerpo humano como cilindros concéntricos para la detección de la respiración. El exterior del cilindro denota la caja torácica cuando las personas inhalan, y el interior denota cuando las personas exhalan. Por lo tanto, la diferencia entre el radio de esos dos cilindros representa la distancia de movimiento durante la respiración. El cambio de las fases de la señal se puede expresar en la siguiente ecuación:
Existen algunos conjuntos de datos populares que se utilizan para evaluar comparativamente los algoritmos de reconocimiento de actividades o de reconocimiento de acciones.
Mediante el monitoreo automático de las actividades humanas, se puede brindar rehabilitación en el hogar a personas que sufren lesiones cerebrales traumáticas. Se pueden encontrar aplicaciones que van desde aplicaciones relacionadas con la seguridad y el apoyo logístico hasta servicios basados en la ubicación . [61] Se han desarrollado sistemas de reconocimiento de actividades para la observación de la vida silvestre [62] y la conservación de energía en los edificios. [63]