stringtranslate.com

Reconocimiento de actividad

El reconocimiento de actividades tiene como objetivo reconocer las acciones y objetivos de uno o más agentes a partir de una serie de observaciones sobre las acciones de los agentes y las condiciones del entorno. Desde la década de 1980, este campo de investigación ha captado la atención de varias comunidades de informática debido a su fortaleza para brindar soporte personalizado para muchas aplicaciones diferentes y su conexión con muchos campos de estudio diferentes, como la medicina, la interacción hombre-computadora o la sociología.

Debido a su naturaleza multifacética, diferentes campos pueden referirse al reconocimiento de actividad como reconocimiento de planes, reconocimiento de objetivos, reconocimiento de intenciones, reconocimiento de comportamiento, estimación de ubicación y servicios basados ​​en la ubicación .

Tipos

Reconocimiento de actividad de un solo usuario basado en sensores

El reconocimiento de actividad basado en sensores integra el área emergente de redes de sensores con nuevas técnicas de minería de datos y aprendizaje automático para modelar una amplia gama de actividades humanas. [1] [2] Los dispositivos móviles (por ejemplo, los teléfonos inteligentes) proporcionan suficientes datos de sensores y potencia de cálculo para permitir el reconocimiento de la actividad física para proporcionar una estimación del consumo de energía durante la vida cotidiana. Los investigadores de reconocimiento de actividad basado en sensores creen que al empoderar a las computadoras y sensores ubicuos para monitorear el comportamiento de los agentes (bajo consentimiento), estas computadoras serán más adecuadas para actuar en nuestro nombre. Los sensores visuales que incorporan información de color y profundidad, como Kinect , permiten un reconocimiento automático de acciones más preciso y fusionan muchas aplicaciones emergentes como la educación interactiva [3] y los entornos inteligentes. [4] Las vistas múltiples del sensor visual permiten el desarrollo del aprendizaje automático para el reconocimiento automático de acciones invariantes de la vista. [5] Los sensores más avanzados utilizados en sistemas de captura de movimiento 3D permiten un reconocimiento automático de alta precisión, a expensas de una configuración de sistema de hardware más complicada. [6]

Niveles de reconocimiento de actividad basados ​​en sensores

El reconocimiento de la actividad basado en sensores es una tarea complicada debido a la naturaleza inherentemente ruidosa de la entrada. Por lo tanto, el modelado estadístico ha sido el principal impulso en esta dirección en capas, donde se lleva a cabo y se conecta el reconocimiento en varios niveles intermedios. En el nivel más bajo, donde se recopilan los datos de los sensores, el aprendizaje estadístico se ocupa de cómo encontrar las ubicaciones detalladas de los agentes a partir de los datos de la señal recibida. En un nivel intermedio, la inferencia estadística puede ocuparse de cómo reconocer las actividades de los individuos a partir de las secuencias de ubicación inferidas y las condiciones ambientales en los niveles inferiores. Además, en el nivel más alto, una preocupación principal es descubrir el objetivo general o los subobjetivos de un agente a partir de las secuencias de actividad mediante una combinación de razonamiento lógico y estadístico.

Reconocimiento de actividad multiusuario basado en sensores

El reconocimiento de actividades para múltiples usuarios mediante sensores corporales apareció por primera vez en el trabajo de ORL utilizando sistemas de insignias activas [7] a principios de la década de 1990. Se utilizaron otras tecnologías de sensores, como sensores de aceleración, para identificar patrones de actividad grupal durante escenarios de oficina. [8] Las actividades de múltiples usuarios en entornos inteligentes se abordan en Gu et al . [9] En este trabajo, investigan el problema fundamental de reconocer actividades para múltiples usuarios a partir de lecturas de sensores en un entorno doméstico y proponen un nuevo enfoque de minería de patrones para reconocer actividades tanto de un solo usuario como de múltiples usuarios en una solución unificada.

Reconocimiento de actividad grupal basado en sensores

El reconocimiento de actividades grupales es fundamentalmente diferente del reconocimiento de actividades individuales o de múltiples usuarios en que el objetivo es reconocer el comportamiento del grupo como una entidad, en lugar de las actividades de los miembros individuales dentro de él. [10] El comportamiento grupal es emergente por naturaleza, lo que significa que las propiedades del comportamiento del grupo son fundamentalmente diferentes a las propiedades del comportamiento de los individuos dentro de él, o cualquier suma de ese comportamiento. [11] Los principales desafíos están en modelar el comportamiento de los miembros individuales del grupo, así como los roles del individuo dentro de la dinámica del grupo [12] y su relación con el comportamiento emergente del grupo en paralelo. [13] Los desafíos que aún deben abordarse incluyen la cuantificación del comportamiento y los roles de los individuos que se unen al grupo, la integración de modelos explícitos para la descripción de roles en algoritmos de inferencia y evaluaciones de escalabilidad para grupos y multitudes muy grandes. El reconocimiento de actividades grupales tiene aplicaciones para la gestión y respuesta de multitudes en situaciones de emergencia, así como para las redes sociales y las aplicaciones Quantified Self . [14]

Aproches

Reconocimiento de actividades a través de la lógica y el razonamiento

Los enfoques basados ​​en la lógica hacen un seguimiento de todas las explicaciones lógicamente consistentes de las acciones observadas. Por lo tanto, se deben considerar todos los planes o metas posibles y consistentes. Kautz proporcionó una teoría formal del reconocimiento de planes. Describió el reconocimiento de planes como un proceso de inferencia lógica de circunscripción. Todas las acciones y planes se denominan uniformemente metas, y el conocimiento de un reconocedor se representa mediante un conjunto de declaraciones de primer orden, llamadas jerarquía de eventos. La jerarquía de eventos está codificada en la lógica de primer orden, que define la abstracción, la descomposición y las relaciones funcionales entre los tipos de eventos. [15]

El marco general de Kautz para el reconocimiento de planes tiene una complejidad temporal exponencial en el peor de los casos, medida en el tamaño de la jerarquía de entrada. Lesh y Etzioni fueron un paso más allá y presentaron métodos para ampliar el reconocimiento de objetivos con el fin de ampliar su trabajo computacionalmente. A diferencia del enfoque de Kautz, en el que la biblioteca de planes está representada explícitamente, el enfoque de Lesh y Etzioni permite la construcción automática de la biblioteca de planes a partir de primitivas de dominio. Además, introdujeron representaciones compactas y algoritmos eficientes para el reconocimiento de objetivos en bibliotecas de planes grandes. [16]

Los planes y objetivos inconsistentes se eliminan repetidamente cuando aparecen nuevas acciones. Además, también presentaron métodos para adaptar un reconocedor de objetivos para manejar el comportamiento idiosincrásico individual dada una muestra del comportamiento reciente de un individuo. Pollack et al. describieron un modelo de argumentación directa que puede conocer la fuerza relativa de varios tipos de argumentos para la descripción de creencias e intenciones.

Un problema grave de los métodos basados ​​en la lógica es su incapacidad o inviabilidad inherente para representar la incertidumbre. No ofrecen ningún mecanismo para preferir un enfoque consistente a otro y son incapaces de decidir si un plan en particular es más probable que otro, siempre que ambos puedan ser lo suficientemente consistentes para explicar las acciones observadas. Existe también una falta de capacidad de aprendizaje asociada con los métodos basados ​​en la lógica.

Otro enfoque para el reconocimiento de actividades basado en la lógica es utilizar el razonamiento de flujo basado en la programación de conjuntos de respuestas [17] , y se ha aplicado al reconocimiento de actividades para aplicaciones relacionadas con la salud [18] , que utiliza restricciones débiles para modelar un grado de ambigüedad/incertidumbre.

Reconocimiento de actividades mediante razonamiento probabilístico

La teoría de la probabilidad y los modelos de aprendizaje estadístico se han aplicado más recientemente en el reconocimiento de actividades para razonar sobre acciones, planes y objetivos en condiciones de incertidumbre. [19] En la literatura, ha habido varios enfoques que representan explícitamente la incertidumbre en el razonamiento sobre los planes y objetivos de un agente.

Utilizando datos de sensores como entrada, Hodges y Pollack diseñaron sistemas basados ​​en aprendizaje automático para identificar a individuos mientras realizan actividades diarias rutinarias como preparar café. [20] Intel Research (Seattle) Lab y la Universidad de Washington en Seattle han realizado algunos trabajos importantes sobre el uso de sensores para detectar planes humanos. [21] [22] [23] Algunos de estos trabajos infieren los modos de transporte de los usuarios a partir de lecturas de identificadores de radiofrecuencia (RFID) y sistemas de posicionamiento global (GPS).

Se ha demostrado que el uso de modelos probabilísticos temporales tiene un buen desempeño en el reconocimiento de actividades y, en general, supera a los modelos no temporales. [24] Los modelos generativos como el modelo oculto de Markov (HMM) y las redes bayesianas dinámicas (DBN) formuladas de manera más general son opciones populares para modelar actividades a partir de datos de sensores. [25] [26] [27] [28] Los modelos discriminantes como los campos aleatorios condicionales (CRF) también se aplican comúnmente y también brindan un buen desempeño en el reconocimiento de actividades. [29] [30]

Tanto los modelos generativos como los discriminativos tienen sus pros y sus contras, y la elección ideal depende de su área de aplicación. Aquí se puede encontrar un conjunto de datos junto con implementaciones de varios modelos populares (HMM, CRF) para el reconocimiento de actividades.

Los modelos probabilísticos temporales convencionales, como el modelo oculto de Markov (HMM) y el modelo de campos aleatorios condicionales (CRF), modelan directamente las correlaciones entre las actividades y los datos observados de los sensores. En los últimos años, cada vez hay más pruebas que respaldan el uso de modelos jerárquicos que tienen en cuenta la rica estructura jerárquica que existe en los datos de comportamiento humano. [26] [31] [32] La idea central aquí es que el modelo no correlaciona directamente las actividades con los datos de los sensores, sino que divide la actividad en subactividades (a veces denominadas acciones) y modela las correlaciones subyacentes en consecuencia. Un ejemplo podría ser la actividad de preparar un salteado, que se puede dividir en las subactividades o acciones de cortar verduras, freír las verduras en una sartén y servirlas en un plato. Ejemplos de un modelo jerárquico de este tipo son los modelos ocultos de Markov en capas (LHMM) [31] y el modelo oculto de Markov jerárquico (HHMM), que han demostrado superar significativamente a su contraparte no jerárquica en el reconocimiento de actividades. [26]

Enfoque basado en minería de datos para el reconocimiento de actividades

A diferencia de los enfoques tradicionales de aprendizaje automático, recientemente se ha propuesto un enfoque basado en la minería de datos. En el trabajo de Gu et al., el problema del reconocimiento de actividades se formula como un problema de clasificación basado en patrones. Propusieron un enfoque de minería de datos basado en patrones discriminativos que describen cambios significativos entre dos clases de datos de actividad para reconocer actividades secuenciales, intercaladas y concurrentes en una solución unificada. [33] Gilbert et al. utilizan esquinas 2D tanto en el espacio como en el tiempo. Estas se agrupan espacial y temporalmente utilizando un proceso jerárquico, con un área de búsqueda creciente. En cada etapa de la jerarquía, las características más distintivas y descriptivas se aprenden de manera eficiente a través de la minería de datos (regla de Apriori). [34]

Reconocimiento de actividad basado en GPS

El reconocimiento de actividad basado en la ubicación también puede basarse en datos GPS para reconocer actividades. [35] [36]

Uso del sensor

Reconocimiento de actividad basado en la visión

Es un problema muy importante y desafiante rastrear y comprender el comportamiento de los agentes a través de videos tomados por varias cámaras. La técnica principal empleada es Computer Vision . El reconocimiento de actividad basado en visión ha encontrado muchas aplicaciones, como la interacción hombre-computadora, el diseño de interfaz de usuario, el aprendizaje de robots y la vigilancia, entre otras. Las conferencias científicas donde a menudo aparecen trabajos de reconocimiento de actividad basados ​​en visión son ICCV y CVPR .

Se ha realizado una gran cantidad de trabajo en el reconocimiento de actividades basado en la visión. Los investigadores han probado una serie de métodos, como el flujo óptico , el filtrado de Kalman , los modelos ocultos de Markov , etc., bajo diferentes modalidades, como una sola cámara, estéreo e infrarrojos. Además, los investigadores han considerado múltiples aspectos sobre este tema, incluido el seguimiento de un solo peatón, el seguimiento de grupos y la detección de objetos caídos.

Recientemente, algunos investigadores han utilizado cámaras RGBD como Microsoft Kinect para detectar actividades humanas. [37] Las cámaras de profundidad añaden una dimensión extra, es decir, una profundidad que las cámaras 2D normales no pueden proporcionar. La información sensorial de estas cámaras de profundidad se ha utilizado para generar modelos esqueléticos en tiempo real de humanos con diferentes posiciones corporales. [38] Esta información esquelética proporciona información significativa que los investigadores han utilizado para modelar actividades humanas que se entrenan y luego se utilizan para reconocer actividades desconocidas. [39] [40]

Con la reciente aparición del aprendizaje profundo, el reconocimiento de actividades basado en videos RGB ha experimentado un rápido desarrollo. Utiliza videos capturados por cámaras RGB como entrada y realiza varias tareas, entre ellas: clasificación de videos, detección del inicio y el final de la actividad en los videos y localización espacio-temporal de la actividad y de las personas que la realizan. [41] Los métodos de estimación de pose [42] permiten extraer características esqueléticas más representativas para el reconocimiento de acciones. [43] Dicho esto, se ha descubierto que el reconocimiento de acciones basado en el aprendizaje profundo puede sufrir ataques adversarios, en los que un atacante altera la entrada de manera insignificante para engañar a un sistema de reconocimiento de acciones. [44]

A pesar de los notables avances en el reconocimiento de actividades basado en la visión, su uso para la mayoría de las aplicaciones de vigilancia visual actuales sigue siendo una aspiración lejana. [45] Por el contrario, el cerebro humano parece haber perfeccionado la capacidad de reconocer acciones humanas. Esta capacidad no solo se basa en el conocimiento adquirido, sino también en la aptitud para extraer información relevante para un contexto determinado y el razonamiento lógico. Con base en esta observación, se ha propuesto mejorar los sistemas de reconocimiento de actividades basados ​​en la visión mediante la integración del razonamiento de sentido común y el conocimiento contextual y de sentido común .

Reconocimiento jerárquico de la actividad humana (HAR)

El reconocimiento jerárquico de la actividad humana es una técnica dentro de la visión artificial y el aprendizaje automático. Su objetivo es identificar y comprender las acciones o comportamientos humanos a partir de datos visuales. Este método implica estructurar las actividades de forma jerárquica, creando un marco que represente las conexiones e interdependencias entre las distintas acciones. [46] Las técnicas HAR se pueden utilizar para comprender las correlaciones de datos y los fundamentos de los modelos para mejorar los modelos, equilibrar la precisión y las preocupaciones sobre la privacidad en áreas de aplicación sensibles, y para identificar y gestionar etiquetas triviales que no tienen relevancia en casos de uso específicos. [47]

Niveles de reconocimiento de actividad basados ​​en la visión

En el reconocimiento de actividad basado en visión, el proceso computacional a menudo se divide en cuatro pasos, a saber, detección humana, seguimiento humano, reconocimiento de actividad humana y luego una evaluación de actividad de alto nivel.

Localización de acciones de grano fino

En el reconocimiento de actividades basado en visión artificial , la localización de acciones de grano fino generalmente proporciona máscaras de segmentación por imagen que delimitan el objeto humano y su categoría de acción (por ejemplo, Segment-Tube [48] ). A menudo se emplean técnicas como redes dinámicas de Markov , CNN y LSTM para explotar las correlaciones semánticas entre fotogramas de video consecutivos. Las características geométricas de grano fino, como los cuadros delimitadores de objetivos y las poses humanas, facilitan el reconocimiento de actividades con redes neuronales gráficas . [41] [49]

Reconocimiento automático de la marcha

Una forma de identificar a personas específicas es por su forma de caminar. Se puede utilizar un software de reconocimiento de la forma de andar para registrar la forma de andar de una persona o su perfil de características en una base de datos con el fin de reconocerla más tarde, incluso si lleva un disfraz.

Reconocimiento de actividad basado en Wi-Fi

Cuando se realiza el reconocimiento de actividades en interiores y en ciudades utilizando las señales Wi-Fi y los puntos de acceso 802.11 ampliamente disponibles , hay mucho ruido e incertidumbre. Estas incertidumbres se pueden modelar utilizando un modelo de red bayesiana dinámica . [50] En un modelo de objetivos múltiples que puede razonar sobre los objetivos de intercalación del usuario, se aplica un modelo de transición de estado determinista . [51] Otro método posible modela las actividades concurrentes e intercaladas en un enfoque probabilístico. [52] Un modelo de descubrimiento de acciones del usuario podría segmentar las señales Wi-Fi para producir posibles acciones. [53]

Modelos básicos de reconocimiento de Wi-Fi

Una de las ideas principales del reconocimiento de la actividad de Wi-Fi es que cuando la señal pasa por el cuerpo humano durante la transmisión, lo que provoca reflexión, difracción y dispersión, los investigadores pueden obtener información de estas señales para analizar la actividad del cuerpo humano.

Modelo de transmisión estática

Como se muestra en [54] , cuando se transmiten señales inalámbricas en interiores, los obstáculos como las paredes, el suelo y el cuerpo humano provocan diversos efectos, como reflexión, dispersión, difracción y difracción. Por lo tanto, el extremo receptor recibe múltiples señales de diferentes caminos al mismo tiempo, porque las superficies reflejan la señal durante la transmisión, lo que se conoce como efecto de trayectos múltiples .

El modelo estático se basa en estos dos tipos de señales: la señal directa y la señal reflejada. Como no hay ningún obstáculo en la trayectoria directa, la transmisión de la señal directa se puede modelar mediante la ecuación de transmisión de Friis :

es la potencia que se suministra a los terminales de entrada de la antena transmisora;
es la potencia disponible en los terminales de salida de la antena receptora;
es la distancia entre antenas;
es la ganancia de la antena de transmisión;
¿Está recibiendo ganancia de antena?
es la longitud de onda de la frecuencia de radio

Si consideramos la señal reflejada, la nueva ecuación es:

es la distancia entre los puntos de reflexión y la trayectoria directa.

Cuando aparece el ser humano, tenemos una nueva vía de transmisión. Por lo tanto, la ecuación final es:

es la diferencia aproximada del recorrido causado por el cuerpo humano.

Modelo de transmisión dinámica

En este modelo, consideramos el movimiento humano, que hace que la ruta de transmisión de la señal cambie continuamente. Podemos utilizar el efecto Doppler para describir este efecto, que está relacionado con la velocidad del movimiento.

Calculando el desplazamiento Doppler de la señal de recepción, podemos determinar el patrón del movimiento, lo que permite identificar mejor la actividad humana. Por ejemplo, en [55] el desplazamiento Doppler se utiliza como huella digital para lograr una identificación de alta precisión de nueve patrones de movimiento diferentes.

Zona de Fresnel

La zona de Fresnel se utilizó inicialmente para estudiar la interferencia y la difracción de la luz, que luego se utilizó para construir el modelo de transmisión de señales inalámbricas. La zona de Fresnel es una serie de intervalos elípticos cuyos focos son las posiciones del emisor y el receptor.

Cuando una persona se mueve a través de diferentes zonas de Fresnel, la trayectoria de la señal formada por el reflejo del cuerpo humano cambia, y si las personas se mueven verticalmente a través de las zonas de Fresnel, el cambio de señal será periódico. En un par de artículos, Wang et.al. aplicaron el modelo de Fresnel a la tarea de reconocimiento de actividad y obtuvieron un resultado más preciso. [56] [57]

Modelado del cuerpo humano

En algunas tareas, deberíamos considerar modelar el cuerpo humano con precisión para lograr mejores resultados. Por ejemplo, [57] describió el cuerpo humano como cilindros concéntricos para la detección de la respiración. El exterior del cilindro denota la caja torácica cuando las personas inhalan, y el interior denota cuando las personas exhalan. Por lo tanto, la diferencia entre el radio de esos dos cilindros representa la distancia de movimiento durante la respiración. El cambio de las fases de la señal se puede expresar en la siguiente ecuación:

es el cambio de las fases de la señal;
es la longitud de onda de la frecuencia de radio;
es la distancia de movimiento de la caja torácica;

Conjuntos de datos

Existen algunos conjuntos de datos populares que se utilizan para evaluar comparativamente los algoritmos de reconocimiento de actividades o de reconocimiento de acciones.

Aplicaciones

Mediante el monitoreo automático de las actividades humanas, se puede brindar rehabilitación en el hogar a personas que sufren lesiones cerebrales traumáticas. Se pueden encontrar aplicaciones que van desde aplicaciones relacionadas con la seguridad y el apoyo logístico hasta servicios basados ​​en la ubicación . [61] Se han desarrollado sistemas de reconocimiento de actividades para la observación de la vida silvestre [62] y la conservación de energía en los edificios. [63]

Véase también

Referencias

  1. ^ Tanzeem Choudhury, Gaetano Borriello , et al. La plataforma de detección móvil: un sistema integrado para el reconocimiento de actividades. Publicado en la revista IEEE Pervasive Magazine, número especial sobre computación basada en actividades, abril de 2008.
  2. ^ Nishkam Ravi, Nikhil Dandekar, Preetham Mysore, Michael Littman. Reconocimiento de actividad a partir de datos de acelerómetros. Actas de la Decimoséptima Conferencia sobre Aplicaciones Innovadoras de Inteligencia Artificial (IAAI/AAAI 2005).
  3. ^ Yang, Yang; Leung, Howard; Shum, Hubert PH; Li, Jiao; Zeng, Lanling; Aslam, Nauman; Pan, Zhigeng (2018). "CCESK: un sistema educativo de caracteres chinos basado en Kinect". Transacciones IEEE sobre tecnologías de aprendizaje . 11 (3): 342–347. doi :10.1109/TLT.2017.2723888. S2CID  52899136.
  4. ^ Ho, Edmond SL; Chan, Jacky CP; Chan, Donald CK; Shum, Hubert PH; Cheung, Yiu-ming; Yuen, PC (2016). "Mejora de la precisión de la clasificación de la postura para el monitoreo de la actividad humana basado en sensores de profundidad en entornos inteligentes". Visión por computadora y comprensión de imágenes . 148 : 97–110. doi : 10.1016/j.cviu.2015.12.011 . S2CID  207060860.
  5. ^ Zhang, Jingtian; Shum, Hubert PH; Han, Jungong; Shao, Ling (2018). "Reconocimiento de acciones a partir de vistas arbitrarias mediante aprendizaje de diccionario transferible". IEEE Transactions on Image Processing . 27 (10): 4709–4723. Bibcode :2018ITIP...27.4709Z. doi : 10.1109/TIP.2018.2836323 . PMID  29994770. S2CID  49536771.
  6. ^ Shen, Yijun; Yang, Longzhi; Ho, Edmond SL; Shum, Hubert PH (2020). "Comparación de la actividad humana basada en la interacción". IEEE Transactions on Visualization and Computer Graphics . 26 (8): 115673–115684. doi : 10.1109/TVCG.2019.2893247 . PMID  30703028. S2CID  73447673.
  7. ^ Want R., Hopper A., ​​Falcao V., Gibbons J.: El sistema de localización de credenciales activas, ACM Transactions on Information Systems, vol. 40, n.º 1, págs. 91-102, enero de 1992
  8. ^ Bieber G., Kirste T., Untersuchung des gruppendynamischen Aktivitaetsverhaltes im Office-Umfeld, 7. Berliner Werkstatt Mensch-Maschine-Systeme, Berlín, Alemania, 2007
  9. ^ Tao Gu, Zhanqing Wu, Liang Wang, Xianping Tao y Jian Lu. Minería de patrones emergentes para reconocer actividades de múltiples usuarios en computación generalizada. En las actas de la 6.ª Conferencia internacional sobre sistemas móviles y ubicuos: computación, redes y servicios (MobiQuitous '09), Toronto, Canadá, del 13 al 16 de julio de 2009.
  10. ^ Dawud Gordon, Jan-Hendrik Hanne, Martin Berchtold, Ali Asghar Nazari Shirehjini, Michael Beigl: Hacia el reconocimiento de actividades grupales colaborativas mediante dispositivos móviles, redes móviles y aplicaciones 18(3), 2013, págs. 326–340
  11. ^ Lewin, K. Teoría de campo en las ciencias sociales: artículos teóricos seleccionados. Libros de bolsillo sobre ciencias sociales. Harper, Nueva York, 1951.
  12. ^ Hirano, T., y Maekawa, T. Un modelo híbrido supervisado/no supervisado para el reconocimiento de actividades grupales. En Proceedings of the 2013 International Symposium on Wearable Computers, ISWC '13, ACM (Nueva York, NY, EE. UU., 2013), 21–24
  13. ^ Brdiczka, O., Maisonnasse, J., Reignier, P. y Crowley, JL Detección de actividades en grupos pequeños a partir de observaciones multimodales. Applied Intelligence 30, 1 (julio de 2007), 47–57.
  14. ^ Dawud Gordon, Reconocimiento de actividad grupal mediante dispositivos de detección portátiles, tesis doctoral, Instituto Tecnológico de Karlsruhe, 2014
  15. ^ H. Kautz. "Una teoría formal del reconocimiento de planos". Tesis doctoral, Universidad de Rochester, 1987.
  16. ^ N. Lesh y O. Etzioni. "Un reconocedor de objetivos rápido y sólido". En Actas de la Conferencia Conjunta Internacional sobre Inteligencia Artificial , 1995.
  17. ^ Do, Thang; Seng W. Loke; Fei Liu (2011). "Programación de conjuntos de respuestas para razonamiento de flujo". Avances en inteligencia artificial . Apuntes de clase en informática. Vol. 6657. págs. 104–109. CiteSeerX 10.1.1.453.2348 . doi :10.1007/978-3-642-21043-3_13. ISBN .  978-3-642-21042-6.
  18. ^ Do, Thang; Seng W. Loke; Fei Liu (2012). "HealthyLife: un sistema de reconocimiento de actividades con teléfonos inteligentes que utiliza razonamiento de flujo basado en lógica" (PDF) . Actas de la 9.ª Conferencia internacional sobre sistemas móviles y ubicuos: informática, redes y servicios (Mobiquitous 2012) .
  19. ^ E. Charniak y RP Goldman. "Un modelo bayesiano de reconocimiento de planes". Inteligencia artificial , 64:53–79, 1993.
  20. ^ MR Hodges y ME Pollack. "Una 'huella dactilar de uso de objetos': el uso de sensores electrónicos para la identificación humana". En Actas de la 9.ª Conferencia Internacional sobre Computación Ubicua , 2007.
  21. ^ Mike Perkowitz, Matthai Philipose, Donald J. Patterson y Kenneth P. Fishkin. "Extracción de modelos de actividades humanas de la web". En Actas de la Decimotercera Conferencia Internacional sobre la World Wide Web (WWW 2004), páginas 573–582, mayo de 2004.
  22. ^ Matthai Philipose, Kenneth P. Fishkin, Mike Perkowitz, Donald J. Patterson, Dieter Fox, Henry Kautz y Dirk Hähnel. "Inferir actividades a partir de interacciones con objetos". En IEEE Pervasive Computing , páginas 50–57, octubre de 2004.
  23. ^ Dieter Fox Lin Liao, Donald J. Patterson y Henry A. Kautz. "Aprendizaje e inferencia de rutinas de transporte". Artif. Intell. , 171(5–6):311–331, 2007.
  24. ^ TLM van Kasteren, Gwenn Englebienne, BJA Kröse. "Reconocimiento de la actividad humana a partir de datos de redes de sensores inalámbricos: punto de referencia y software". Reconocimiento de actividad en entornos inteligentes generalizados, 165-186, Atlantis Press
  25. ^ Piyathilaka, L.; Kodagoda, S., "HMM basado en mezcla gaussiana para el reconocimiento de la actividad diaria humana utilizando características del esqueleto 3D", Electrónica industrial y aplicaciones (ICIEA), 2013 8.ª Conferencia IEEE sobre, vol., n.º, págs. 567, 572, 19-21 de junio de 2013
  26. ^ abc TLM van Kasteren, Gwenn Englebienne, Ben Kröse "Reconocimiento de actividad jerárquica mediante acciones agrupadas automáticamente", 2011, Ambient Intelligence, 82–91, Springer Berlin/Heidelberg
  27. ^ Daniel Wilson y Chris Atkeson. Seguimiento simultáneo y reconocimiento de actividad (estrella) utilizando muchos sensores binarios anónimos. En Actas de la tercera conferencia internacional sobre computación generalizada, Pervasive, páginas 62–79, Múnich, Alemania, 2005.
  28. ^ Nuria Oliver , Barbara Rosario y Alex Pentland "Un sistema de visión artificial bayesiano para modelar interacciones humanas" aparece en el número especial de PAMI sobre vigilancia y monitoreo visual, agosto de 2000
  29. ^ TLM Van Kasteren, Athanasios Noulas, Gwenn Englebienne, Ben Kröse, "Reconocimiento preciso de la actividad en un entorno doméstico", 21/9/2008, Actas de la 10.ª conferencia internacional sobre computación ubicua, 1–9, ACM
  30. ^ Derek Hao Hu, Sinno Jialin Pan, Vincent Wenchen Zheng, Nathan NanLiu y Qiang Yang. Reconocimiento de actividades en el mundo real con múltiples objetivos Archivado el 9 de agosto de 2017 en Wayback Machine . En Actas de la 10.ª conferencia internacional sobre computación ubicua, Ubicomp, páginas 30-39, Nueva York, NY, EE. UU., 2008. ACM.
  31. ^ ab Nuria Oliver , Ashutosh Garg y Eric Horvitz. Representaciones en capas para aprender e inferir la actividad de oficina a partir de múltiples canales sensoriales. Comput. Vis. Image Underst., 96(2):163–180, 2004.
  32. ^ Amarnag Subramanya, Alvin Raj, Jeff Bilmes y Dieter Fox. Modelos jerárquicos para el reconocimiento de actividades [ enlace muerto permanente ] . En Actas de la conferencia internacional sobre procesamiento de señales multimedia, MMSP, Victoria, CA, octubre de 2006.
  33. ^ Tao Gu, Zhanqing Wu, Xianping Tao, Hung Keng Pung y Jian Lu. epSICAR: Un enfoque basado en patrones emergentes para el reconocimiento de actividades secuenciales, intercaladas y concurrentes. En las actas de la 7.ª Conferencia internacional anual IEEE sobre informática y comunicaciones generalizadas (Percom '09), Galveston, Texas, del 9 al 13 de marzo de 2009.
  34. ^ Gilbert A, Illingworth J, Bowden R. Reconocimiento de acciones mediante características compuestas jerárquicas extraídas. Análisis de patrones trans IEEE y aprendizaje automático
  35. ^ Liao, Lin, Dieter Fox y Henry Kautz. "Campos aleatorios condicionales jerárquicos para el reconocimiento de actividad basado en GPS [ vínculo inactivo permanente ] ". Robotics Research. Springer, Berlín, Heidelberg, 2007. 487–506.
  36. ^ Liao, Lin, Dieter Fox y Henry Kautz. "Reconocimiento de actividad basado en la ubicación". Avances en sistemas de procesamiento de información neuronal. 2006.
  37. ^ Ho, Edmond SL; Chan, Jacky CP; Chan, Donald CK; Shum, Hubert PH; Cheung, Yiu-ming; Yuen, PC (2016). "Mejora de la precisión de la clasificación de la postura para el monitoreo de la actividad humana basado en sensores de profundidad en entornos inteligentes". Visión por computadora y comprensión de imágenes . 148 . Elsevier: 97–110. doi : 10.1016/j.cviu.2015.12.011 . ISSN  1077-3142.
  38. ^ Shum, Hubert PH; Ho, Edmond SL; Jiang, Yang; Takagi, Shu (2013). "Reconstrucción de postura en tiempo real para Microsoft Kinect". IEEE Transactions on Cybernetics . 43 (5). IEEE: 1357–1369. doi :10.1109/TCYB.2013.2275945. ISSN  2168-2267. PMID  23981562. S2CID  14124193.
  39. ^ Piyathilaka, L.; Kodagoda, S., "HMM basado en mezcla gaussiana para el reconocimiento de la actividad diaria humana utilizando características del esqueleto 3D", Electrónica industrial y aplicaciones (ICIEA), 2013 8.ª Conferencia IEEE sobre, vol., n.º, págs. 567, 572, 19-21 de junio de 2013 URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6566433&isnumber=6566328
  40. ^ Piyathilaka, L. y Kodagoda, S., 2015. Reconocimiento de la actividad humana para robots domésticos. En Field and Service Robotics (pp. 395–408). Springer, Cham. "Reconocimiento de la actividad humana para robots domésticos"
  41. ^ ab Qiao, Tanqiu; Hombres, Qianhui; Li, Frederick WB; Kubotani, Yoshiki; Morishima, Shigeo; Shum, Hubert PH (2022). Reconocimiento de interacciones entre humanos y objetos de múltiples personas basado en características geométricas en videos . Notas de clase en informática. Vol. 13664. Springer. págs. 474–491. arXiv : 2207.09425 . doi :10.1007/978-3-031-19772-7_28. ISBN 978-3-031-19772-7.
  42. ^ Huang, Ying; Shum, Hubert PH; Ho, Edmond SL; Aslam, Nauman (2020). "Estimación de pose de múltiples personas a alta velocidad con transferencia de características profundas". Visión por computadora y comprensión de imágenes . 197–198. Elsevier: 103010. doi :10.1016/j.cviu.2020.103010. ISSN  1077-3142. S2CID  219905793.
  43. ^ Hombres, Qianhui; Ho, Edmond SL; Shum, Hubert PH; Leung, Howard (2023). "Aprendizaje invariante de vista contrastante focalizado para el reconocimiento de acciones basado en esqueletos autosupervisado". Neurocomputación . 537 . Elsevier: 198–209. arXiv : 2304.00858 . doi :10.1016/j.neucom.2023.03.070. ISSN  0925-2312.
  44. ^ Lu, Zhengzhi; Wang, He; Chang, Ziyi; Yang, Guoan; Shum, Hubert PH (2023). Ataque adversarial duro sin caja en el reconocimiento de acciones humanas basado en esqueletos con gradiente informado por el movimiento del esqueleto . IEEE/CVF. arXiv : 2308.05681 .
  45. ^ Bux, Allah; Angelov, Plamen; Habib, Zulfiqar (2017). "Una revisión exhaustiva de los enfoques de representación de acciones basados ​​en el aprendizaje y hechos a mano para el reconocimiento de la actividad humana". Applied Sciences . 7 (1): 110. doi : 10.3390/app7010110 .
  46. ^ Aggarwal, JK; Ryoo, MS (29 de abril de 2011). "Análisis de la actividad humana: una revisión". Encuestas de computación de la ACM . 43 (3): 16:1–16:43. doi :10.1145/1922649.1922653. ISSN  0360-0300. S2CID  5388357.
  47. ^ Altın, Mahsun; Gürsoy, Furkan; Xu, Lina (2021). "Estructura jerárquica generada por máquinas de las actividades humanas para revelar cómo piensan las máquinas". IEEE Access . 9 : 18307–18317. arXiv : 2101.07855 . Bibcode :2021IEEEA...918307A. doi : 10.1109/ACCESS.2021.3053084 . ISSN  2169-3536.
  48. ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (22 de mayo de 2018). "Segment-Tube: localización de acciones espacio-temporales en vídeos sin recortar con segmentación por fotograma" (PDF) . Sensors . 18 (5): 1657. Bibcode :2018Senso..18.1657W. doi : 10.3390/s18051657 . ISSN  1424-8220. PMC 5982167 . PMID  29789447.  .
  49. ^ Zhang, Xiatian; Moubayed, Noura Al; Shum, Hubert PH (2022). "Hacia la anticipación del flujo de trabajo quirúrgico basado en el aprendizaje de la representación gráfica". Conferencia internacional IEEE-EMBS 2022 sobre informática biomédica y de la salud (BHI) . IEEE. págs. 01–04. arXiv : 2208.03824 . doi :10.1109/BHI56158.2022.9926801. ISBN . 978-1-6654-8791-7.
  50. ^ Jie Yin, Xiaoyong Chai y Qiang Yang, "Reconocimiento de objetivos de alto nivel en una red LAN inalámbrica". En Actas de la Decimonovena Conferencia Nacional sobre Inteligencia Artificial (AAAI-04), San José, California, EE. UU., julio de 2004. Páginas 578–584
  51. ^ Xiaoyong Chai y Qiang Yang, "Reconocimiento de objetivos múltiples a partir de señales de bajo nivel". Actas de la Vigésima Conferencia Nacional sobre Inteligencia Artificial (AAAI 2005), Pittsburgh, PA, EE. UU., julio de 2005. Páginas 3–8.
  52. ^ Derek Hao Hu, Qiang Yang. "CIGAR: reconocimiento de objetivos y actividades concurrentes e intercalados", que aparecerá en AAAI 2008
  53. ^ Jie Yin, Dou Shen, Qiang Yang y Ze-nian Li "Reconocimiento de actividades mediante segmentación basada en objetivos". Actas de la Vigésima Conferencia Nacional sobre Inteligencia Artificial (AAAI 2005), Pittsburgh, PA, EE. UU., julio de 2005. Páginas 28–33.
  54. ^ D. Zhang, J. Ma, Q. Chen y LM Ni, «Un sistema basado en radiofrecuencia para el seguimiento de objetos sin transceptor», Actas de Pervasive Computing and Communications. White Plains, EE. UU., 2007: 135-144.
  55. ^ Q. Pu, S. Gupta, S. Gollakota y S. Patel, “Reconocimiento de gestos en toda la casa mediante señales inalámbricas”. Actas de la 19.ª Conferencia internacional anual sobre informática móvil y redes, Nueva York, EE. UU., 2013: 27–38.
  56. ^ D. Wu, D. Zhang, C. Xu, Y. Wang y H. Wang."Wider: Estimación de la dirección de la marcha utilizando señales inalámbricas", Actas de la Conferencia conjunta internacional ACM de 2016 sobre computación generalizada y ubicua, Nueva York, EE. UU., 2016:351–362.
  57. ^ ab H. Wang, D. Zhang, J. Ma, Y. Wang, Y. Wang, D. Wu, T. Gu y B. Xie, "Detección de la respiración humana con dispositivos wifi básicos: ¿Importan la ubicación del usuario y la orientación corporal?", Actas de la Conferencia conjunta internacional ACM de 2016 sobre computación generalizada y ubicua, Nueva York, EE. UU., 2016:25–36.
  58. ^ "UCF101 – Conjunto de datos de reconocimiento de acciones". 2021. Archivado desde el original el 23 de enero de 2020.
  59. ^ "Documentos con código: conjunto de datos HMDB51". paperswithcode.com . Consultado el 23 de agosto de 2021 .
  60. ^ Kay, Will; Carreira, Joao; Simonyan, Karen; Zhang, Brian; Hillier, Chloe; Vijayanarasimhan, Sudheendra; Viola, Fabio; Green, Tim; Back, Trevor; Natsev, Paul; Suleyman, Mustafa (19 de mayo de 2017). "El conjunto de datos de video de acción humana de Kinetics". arXiv : 1705.06950 [cs.CV].
  61. ^ Pollack, ME y et al., LEB 2003. "Autominder: un sistema ortopédico cognitivo inteligente para personas con deterioro de la memoria Archivado el 10 de agosto de 2017 en Wayback Machine ". Robótica y sistemas autónomos 44(3–4):273–282.
  62. ^ Gao, Lianli, et al. "Un sistema de reconocimiento de actividad y etiquetado semántico basado en la Web para datos de acelerometría de especies [ enlace roto ] ". Informática ecológica 13 (2013): 47–56.
  63. ^ Nguyen, Tuan Anh y Marco Aiello. "Edificios energéticamente inteligentes basados ​​en la actividad del usuario: una encuesta". Energía y edificios 56 (2013): 244–257.