stringtranslate.com

Selección de acción

La selección de acciones es una forma de caracterizar el problema más básico de los sistemas inteligentes: qué hacer a continuación. En la inteligencia artificial y la ciencia cognitiva computacional , "el problema de selección de acciones" se asocia típicamente con agentes y animats inteligentes : sistemas artificiales que exhiben un comportamiento complejo en un entorno de agentes . El término también se utiliza a veces en etología o comportamiento animal.

Un problema para comprender la selección de acciones es determinar el nivel de abstracción utilizado para especificar un "acto". En el nivel más básico de abstracción, un acto atómico podría ser cualquier cosa, desde contraer una célula muscular hasta provocar una guerra . Normalmente, para cualquier mecanismo de selección de acciones, el conjunto de acciones posibles está predefinido y fijo.

La mayoría de los investigadores que trabajan en este campo imponen altas exigencias a sus agentes:

Por estas razones, la selección de acciones no es trivial y atrae una gran cantidad de investigación.

Características del problema de selección de acciones.

El principal problema para la selección de acciones es la complejidad . Dado que todo cálculo requiere tiempo y espacio (en la memoria), los agentes no pueden considerar todas las opciones disponibles en cada instante. En consecuencia, deben ser parciales y limitar de alguna manera su búsqueda. Para la IA, la cuestión de la selección de acciones es ¿cuál es la mejor manera de limitar esta búsqueda ? Para la biología y la etología, la pregunta es ¿cómo limitan los distintos tipos de animales su búsqueda? ¿Todos los animales utilizan los mismos enfoques? ¿Por qué usan los que usan?

Una cuestión fundamental sobre la selección de acciones es si realmente es un problema para un agente o si es sólo una descripción de una propiedad emergente del comportamiento de un agente inteligente. Sin embargo, si consideramos cómo vamos a construir un agente inteligente, entonces resulta evidente que debe haber algún mecanismo para la selección de acciones. Este mecanismo puede estar altamente distribuido (como en el caso de organismos distribuidos como colonias de insectos sociales o moho limoso ) o puede ser un módulo de propósito especial.

El mecanismo de selección de acciones (ASM) determina no sólo las acciones del agente en términos de impacto en el mundo, sino que también dirige su atención perceptiva y actualiza su memoria . Este tipo de acciones egocéntricas pueden, a su vez, tener como resultado la modificación de las capacidades conductuales básicas del agente, particularmente porque actualizar la memoria implica que es posible alguna forma de aprendizaje automático . Idealmente, la selección de acciones en sí misma también debería poder aprender y adaptarse, pero existen muchos problemas de complejidad combinatoria y manejabilidad computacional que pueden requerir restringir el espacio de búsqueda para el aprendizaje.

En IA, a veces también se hace referencia a un ASM como arquitectura de agente o se lo considera una parte sustancial de ella.

Mecanismos de IA

Generalmente, los mecanismos de selección de acciones artificiales se pueden dividir en varias categorías: sistemas basados ​​en símbolos, a veces conocidos como planificación clásica, soluciones distribuidas y planificación reactiva o dinámica . Algunos enfoques no encajan claramente en ninguna de estas categorías. Otros en realidad tienen más que ver con proporcionar modelos científicos que con un control práctico de la IA; estos últimos se describen con más detalle en la siguiente sección.

Enfoques simbólicos

Al principio de la historia de la inteligencia artificial , se suponía que la mejor manera para que un agente eligiera qué hacer a continuación sería calcular un plan probablemente óptimo y luego ejecutarlo. Esto llevó a la hipótesis del sistema de símbolos físicos , de que un agente físico que pueda manipular símbolos es necesario y suficiente para la inteligencia. Muchos agentes de software todavía utilizan este enfoque para la selección de acciones. Normalmente requiere describir todas las lecturas de los sensores, el mundo, todas las acciones y todos los objetivos en alguna forma de lógica de predicados . Los críticos de este enfoque se quejan de que es demasiado lento para la planificación en tiempo real y que, a pesar de las pruebas, todavía es poco probable que produzca planes óptimos porque reducir las descripciones de la realidad a la lógica es un proceso propenso a errores.

Satisfacer es una estrategia de toma de decisiones que intenta cumplir criterios de adecuación, en lugar de identificar una solución óptima. De hecho, una estrategia satisfactoria a menudo puede ser (casi) óptima si en el cálculo de resultados se consideran los costos del proceso de toma de decisiones en sí, como el costo de obtener información completa.

Arquitecturas impulsadas por objetivos : en estas arquitecturas simbólicas , el comportamiento del agente normalmente se describe mediante un conjunto de objetivos. Cada objetivo se puede lograr mediante un proceso o una actividad, que se describe mediante un plan prescrito. El agente simplemente debe decidir qué proceso llevar a cabo para lograr un objetivo determinado. El plan puede ampliarse a subobjetivos, lo que hace que el proceso sea ligeramente recursivo. Técnicamente, más o menos, los planes explotan las reglas de condición. Estas arquitecturas son reactivas o híbridas. Los ejemplos clásicos de arquitecturas impulsadas por objetivos son refinamientos implementables de la arquitectura de creencia-deseo-intención como JAM o IVE.

Enfoques distribuidos

A diferencia del enfoque simbólico, los sistemas distribuidos de selección de acciones en realidad no tienen una "casilla" en el agente que decida la siguiente acción. Al menos en su forma ideal, los sistemas distribuidos tienen muchos módulos que se ejecutan en paralelo y determinan la mejor acción en función de la experiencia local. En estos sistemas idealizados, se espera que la coherencia general surja de alguna manera, posiblemente mediante un diseño cuidadoso de los componentes que interactúan. Este enfoque suele estar inspirado en la investigación de redes neuronales artificiales . En la práctica, casi siempre existe algún sistema centralizado que determina qué módulo es "el más activo" o tiene mayor relevancia. Hay evidencia de que los cerebros biológicos reales también tienen sistemas de decisión ejecutiva que evalúan cuál de los sistemas en competencia merece la mayor atención o, más propiamente, tiene desinhibidas las acciones deseadas .

Enfoques de planificación dinámica

Debido a que los sistemas puramente distribuidos son difíciles de construir, muchos investigadores han recurrido al uso de planes explícitos codificados para determinar las prioridades de su sistema.

Los métodos de planificación dinámica o reactiva calculan solo una acción siguiente en cada instante en función del contexto actual y los planes preestablecidos. A diferencia de los métodos de planificación clásicos, los enfoques reactivos o dinámicos no sufren una explosión combinatoria . Por otro lado, a veces se los considera demasiado rígidos para ser considerados IA fuertes , ya que los planes están codificados de antemano. Al mismo tiempo, la inteligencia natural puede ser rígida en algunos contextos, aunque fluida y capaz de adaptarse en otros.

Ejemplos de mecanismos de planificación dinámica incluyen:

A veces, para intentar abordar la inflexibilidad percibida de la planificación dinámica, se utilizan técnicas híbridas. En estos, un sistema de planificación de IA más convencional busca nuevos planes cuando el agente tiene tiempo libre y actualiza la biblioteca de planes dinámicos cuando encuentra buenas soluciones. El aspecto importante de cualquier sistema de este tipo es que cuando el agente necesita seleccionar una acción, existe alguna solución que se puede utilizar de inmediato (consulte el algoritmo en cualquier momento ).

Otros

Teorías de la selección de acciones en la naturaleza.

Muchos modelos dinámicos de selección de acciones artificiales se inspiraron originalmente en la investigación en etología . En particular, Konrad Lorenz y Nikolaas Tinbergen aportaron la idea de un mecanismo de liberación innato para explicar los comportamientos instintivos ( patrones de acción fijos ). Influenciado por las ideas de William McDougall , Lorenz desarrolló esto hasta convertirlo en un modelo "psicohidráulico" de la motivación del comportamiento. En etología, estas ideas fueron influyentes en la década de 1960, pero ahora se consideran obsoletas debido a su uso de una metáfora del flujo de energía ; Actualmente se considera que el sistema nervioso y el control de la conducta implican transmisión de información más que flujo de energía. Los planes dinámicos y las redes neuronales se parecen más a la transmisión de información, mientras que la activación propagada se parece más al control difuso de los sistemas emocionales/hormonales.

Stan Franklin ha propuesto que la selección de acciones es la perspectiva correcta a adoptar para comprender el papel y la evolución de la mente . Vea su página sobre el paradigma de selección de acciones. Archivado el 9 de octubre de 2006 en la Wayback Machine.

Modelos de IA de selección de acciones neuronales.

Algunos investigadores crean modelos elaborados de selección de acciones neuronales. Ver por ejemplo:

Transporte de electrones de neuronas catecolaminérgicas (CNET)

El locus coeruleus (LC) es una de las principales fuentes de noradrenalina en el cerebro y se ha asociado con la selección del procesamiento cognitivo , como la atención y las tareas conductuales. [3] [4] [5] [6] La sustancia negra pars compacta (SNc) es una de las principales fuentes de dopamina en el cerebro y se ha asociado con la selección de acciones, principalmente como parte de los ganglios basales . [7] [8] [9] [10] [11]  CNET es un mecanismo de señalización neuronal hipotético en SNc y LC (que son neuronas catecolaminérgicas), que podría ayudar con la selección de acciones al enrutar energía entre neuronas en cada grupo como parte de selección de acción, para ayudar a una o más neuronas de cada grupo a alcanzar el potencial de acción . [12] [13] Se propuso por primera vez en 2018 y se basa en una serie de parámetros físicos de esas neuronas, que se pueden dividir en tres componentes principales:

1) La ferritina y la neuromelanina están presentes en altas concentraciones en esas neuronas, pero en 2018 se desconocía si formaban estructuras que serían capaces de transmitir electrones a distancias relativamente largas en la escala de micras entre las más grandes de esas neuronas, que no lo habían hecho. sido propuesto u observado previamente. [14]  Estas estructuras también tendrían que proporcionar una función de enrutamiento o conmutación, que tampoco se había propuesto ni observado previamente. Posteriormente se obtuvo evidencia de la presencia de estructuras de ferritina y neuromelanina en esas neuronas y su capacidad para conducir electrones mediante túneles secuenciales y para enrutar/cambiar la ruta de las neuronas. [15] [16] [17]

2) ) Se sabía que los axones de las neuronas SNc grandes tenían extensos cenadores, pero se desconocía si la actividad postsináptica en las sinapsis de esos axones aumentaría el potencial de membrana de esas neuronas lo suficiente como para hacer que los electrones se dirigieran a la neurona. o neuronas con mayor actividad postsináptica con el fin de seleccionar acciones. En ese momento, las explicaciones predominantes sobre el propósito de esas neuronas era que no mediaban en la selección de acciones y eran sólo moduladoras y no específicas. [18]  El profesor Pascal Kaeser de la Facultad de Medicina de Harvard obtuvo posteriormente evidencia de que las neuronas SNc grandes pueden ser temporal y espacialmente específicas y mediar en la selección de acciones. [19]   Otra evidencia indica que los grandes axones LC tienen un comportamiento similar. [20] [21]

3) En 2018 se plantearon la hipótesis de varias fuentes de electrones o excitones para proporcionar la energía para el mecanismo, pero no se habían observado en ese momento. La escisión del dioxetano (que puede ocurrir durante el metabolismo de la dopamina somática mediante la degradación de la melanina por quinonas) fue propuesta contemporáneamente por el profesor Doug Brash de Yale para generar electrones en estado triplete de alta energía, lo que podría proporcionar una fuente de electrones para el mecanismo CNET. [22] [23] [24]

Si bien se ha obtenido evidencia de una serie de predicciones físicas de la hipótesis CNET, no se ha buscado evidencia de si la hipótesis en sí es correcta. Una forma de intentar determinar si el mecanismo CNET está presente en estas neuronas sería utilizar fluoróforos de puntos cuánticos y sondas ópticas para determinar si la tunelización de electrones asociada con la ferritina en las neuronas se produce en asociación con acciones específicas. [6] [25] [26]

Ver también

Referencias

  1. ^ Samsonovich, AV "Atención en la arquitectura cognitiva ASMO". Arquitecturas cognitivas de inspiración biológica (2010): 98. Archivado el 6 de noviembre de 2022 en Wayback Machine.
  2. ^ Karen L. Myers. "PRS-CL: Un sistema de razonamiento procesal". Centro de Inteligencia Artificial . SRI Internacional . Consultado el 13 de junio de 2013 .
  3. ^ Sara, Susan J (diciembre de 2015). "Locus Coeruleus en el tiempo con la creación de recuerdos". Opinión actual en neurobiología . 35 : 87–94. doi :10.1016/j.conb.2015.07.004. ISSN  0959-4388. PMID  26241632. S2CID  206952441.
  4. ^ Poe, Gina R.; Pie, Stephen; Eschenko, Oxana; Johansen, Josué P.; Bouret, Sébastien; Aston-Jones, Gary; Harley, Carolyn W.; Manahan-Vaughan, Denise; Weinshenker, David; Valentino, Rita; Berridge, Craig; Chandler, Daniel J.; Casa de agua, Barry; Sara, Susan J. (17 de septiembre de 2020). "Locus coeruleus: una nueva mirada a la mancha azul". Reseñas de la naturaleza Neurociencia . 21 (11): 644–659. doi :10.1038/s41583-020-0360-9. ISSN  1471-003X. PMC 8991985 . PMID  32943779. 
  5. ^ McBurney-Lin, Jim; Yang, Hongdian (4 de septiembre de 2022). "El locus coeruleus media la flexibilidad conductual". Informes celulares . 41 (4): 111534. bioRxiv 10.1101/2022.09.01.506286 . doi :10.1016/j.celrep.2022.111534. PMC 9662304 . PMID  36288712. S2CID  252187005 . Consultado el 13 de noviembre de 2022 .  
  6. ^ ab Feng, Jiesi; Zhang, Changmei; Lischinsky, Julieta; Jing, Miao; Zhou, Jingheng; Wang, Huan; Zhang, Yajun; Dong, Ao; Wu, Zhaofa (23 de octubre de 2018). "Un sensor fluorescente codificado genéticamente para la detección in vivo rápida y específica de norepinefrina". doi : 10.1101/449546 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  7. ^ Varazzani, C.; San-Galli, A.; Gilardeau, S.; Bouret, S. (20 de mayo de 2015). "Neuronas de noradrenalina y dopamina en la compensación entre recompensa y esfuerzo: una comparación electrofisiológica directa en el comportamiento de los monos". Revista de Neurociencia . 35 (20): 7866–7877. doi : 10.1523/jneurosci.0454-15.2015 . ISSN  0270-6474. PMC 6795183 . PMID  25995472. S2CID  6531661. 
  8. ^ Fan, D.; Rossi, MA; Yin, HH (18 de abril de 2012). "Mecanismos de selección y sincronización de la acción en las neuronas de la sustancia negra". Revista de Neurociencia . 32 (16): 5534–5548. doi :10.1523/jneurosci.5924-11.2012. ISSN  0270-6474. PMC 6703499 . PMID  22514315. 
  9. ^ Partanen, Juha; Achim, Kaia (6 de septiembre de 2022). "Comportamiento de activación de neuronas: características funcionales, moleculares y de desarrollo de las neuronas en la sustancia negra pars reticulata". Fronteras en Neurociencia . 16 : 976209. doi : 10.3389/fnins.2022.976209 . ISSN  1662-453X. PMC 9485944 . PMID  36148148. 
  10. ^ Stephenson-Jones, Marcus; Samuelsson, Ebba; Ericsson, Jesper; Robertson, Brita; Grillner, Sten (julio de 2011). "Conservación evolutiva de los ganglios basales como mecanismo común de selección de acción de los vertebrados". Biología actual . 21 (13): 1081–1091. Código Bib : 2011CBio...21.1081S. doi : 10.1016/j.cub.2011.05.001 . ISSN  0960-9822. PMID  21700460. S2CID  9327412.
  11. ^ Guatteo, Ezia; Cucchiaroni, María Letizia; Mercuri, Nicola B. (2009), "Control de la sustancia negra de los núcleos de los ganglios basales", Nacimiento, vida y muerte de las neuronas dopaminérgicas en la sustancia negra , no. 73, Viena: Springer Viena, págs. 91-101, doi :10.1007/978-3-211-92660-4_7, ISBN 978-3-211-92659-8, PMID  20411770 , consultado el 13 de noviembre de 2022
  12. ^ Rourk, Christopher John (septiembre de 2018). Estructuras de matriz de "puntos cuánticos" de ferritina y neuromelanina en neuronas de dopamina de la sustancia negra pars compacta y neuronas de norepinefrina del locus coeruleus. Biosistemas . 171 : 48–58. Código Bib : 2018BiSys.171...48R. doi : 10.1016/j.biosystems.2018.07.008 . ISSN  0303-2647. PMID  30048795. S2CID  51722018.
  13. ^ Rourk, Christopher J. (2020), "Transporte funcional de electrones neuronales", Límites cuánticos de la vida , Avances en química cuántica, vol. 82, Elsevier, págs. 25-111, doi :10.1016/bs.aiq.2020.08.001, ISBN 9780128226391, S2CID  229230562 , consultado el 13 de noviembre de 2022
  14. ^ Tribl, Florián; Asan, Ester; Arzberger, Thomas; Tatschner, Thomas; Langenfeld, Elmar; Meyer, Helmut E.; Bringmann, Gerhard; Riederer, Peter; Gerlach, Manfredo; Marcus, Katrin (agosto de 2009). "Identificación de L-ferritina en gránulos de neuromelanina de la sustancia negra humana". Proteómica molecular y celular . 8 (8): 1832–1838. doi : 10.1074/mcp.m900006-mcp200 . ISSN  1535-9476. PMC 2722774 . PMID  19318681. S2CID  23650245. 
  15. ^ Rourk, Christopher J. (mayo de 2019). "Indicación del transporte de electrones de la mecánica cuántica en tejido de sustancia negra humana a partir de análisis de microscopía de fuerza atómica conductiva". Biosistemas . 179 : 30–38. Código Bib : 2019BiSys.179...30R. doi :10.1016/j.biosystems.2019.02.003. ISSN  0303-2647. PMID  30826349. S2CID  73509918.
  16. ^ Rourk, Christopher; Huang, Yunbo; Chen, Minjing; Shen, Cai (16 de junio de 2021). "Indicación de transporte de electrones altamente correlacionado en estructuras desordenadas de ferritina multicapa". doi : 10.31219/osf.io/7gqmt. S2CID  241118606 . Consultado el 13 de noviembre de 2022 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  17. ^ Federico, yo; Reimann, K.; Jankuhn, S.; Kirilina, E.; Stieler, J.; Sonntag, M.; Meijer, J.; Weiskopf, N.; Reinert, T.; Arendt, T.; Morawski, M. (22 de marzo de 2021). "Mapeo de hierro cuantitativo específico de células en cortes de cerebro mediante inmuno-μPIXE en ancianos sanos y enfermedad de Parkinson". Acta de Comunicaciones Neuropatológicas . 9 (1): 47. doi : 10.1186/s40478-021-01145-2 . ISSN  2051-5960. PMC 7986300 . PMID  33752749. S2CID  232322739. 
  18. ^ Schultz, Wolfram (2 de febrero de 2016). "Funciones de recompensa de los ganglios basales". Revista de transmisión neuronal . 123 (7): 679–693. doi : 10.1007/s00702-016-1510-0 . ISSN  0300-9564. PMC 5495848 . PMID  26838982. S2CID  3894133. 
  19. ^ Liu, Changliang; Goel, Praga; Kaeser, Pascal S. (9 de abril de 2021). "Escalas espaciales y temporales de transmisión de dopamina". Reseñas de la naturaleza Neurociencia . 22 (6): 345–358. doi :10.1038/s41583-021-00455-7. ISSN  1471-003X. PMC 8220193 . PMID  33837376. 
  20. ^ Behl, Tapan; Kaur, Ishnoor; Sehgal, Aayush; Singh, Sukhbir; Makeen, Hafiz A.; Albatty, Mohammed; Alhazmi, Hassan A.; Bhatia, Saurabh; Bungau, Simona (julio de 2022). "El sistema Locus Coeruleus - noradrenalina: análisis de la terapéutica del Alzheimer con gafas de color rosa". Biomedicina y Farmacoterapia . 151 : 113179. doi : 10.1016/j.biopha.2022.113179 . ISSN  0753-3322. PMID  35676784. S2CID  249137521.
  21. ^ Bretón-Provencher, Vicente; Drummond, Gabrielle T.; Sur, Mriganka (7 de junio de 2021). "Locus Coeruleus noradrenalina en el comportamiento aprendido: modularidad anatómica e integración espaciotemporal en objetivos". Fronteras en los circuitos neuronales . 15 : 638007. doi : 10.3389/fncir.2021.638007 . ISSN  1662-5110. PMC 8215268 . PMID  34163331. 
  22. ^ Descarado, Douglas E.; Gonçalves, Leticia CP; Bechara, Etelvino JH (junio de 2018). "Quimioexcitación y sus implicaciones para la enfermedad". Tendencias en Medicina Molecular . 24 (6): 527–541. doi :10.1016/j.molmed.2018.04.004. ISSN  1471-4914. PMC 5975183 . PMID  29751974. 
  23. ^ Sulzer, David; Cassidy, Clifford; Horga, Guillermo; Kang, Un Jung; Fahn, Stanley; Casella, Luigi; Pezzoli, Gianni; Langley, Jason; Hu, Xiaoping P.; Zucca, Fabio A.; Isaías, Ioannis U.; Zecca, Luigi (10 de abril de 2018). "Detección de neuromelanina mediante resonancia magnética (MRI) y su promesa como biomarcador de la enfermedad de Parkinson". npj Enfermedad de Parkinson . 4 (1): 11. doi :10.1038/s41531-018-0047-3. ISSN  2373-8057. PMC 5893576 . PMID  29644335. 
  24. ^ Premi, S.; Wallisch, S.; Mano, CM; Weiner, AB; Bacchiocchi, A.; Wakamatsu, K.; Bechara, EJH; Halaban, R.; Douki, T.; Brash, DE (19 de febrero de 2015). "La quimioexcitación de derivados de melanina induce fotoproductos de ADN mucho después de la exposición a los rayos UV". Ciencia . 347 (6224): 842–847. Código Bib : 2015 Ciencia... 347.. 842P. doi : 10.1126/ciencia.1256022. ISSN  0036-8075. PMC 4432913 . PMID  25700512. 
  25. ^ Pisano, Filippo; Pisanello, Marco; Lee, Suk Joon; Lee, Jaeeon; Maglie, Emanuela; Baleña, Antonio; Sileo, Leonardo; Spagnolo, Bárbara; Bianco, Marco; Hyun, Minsuk; De Vittorio, Massimo; Sabatini, Bernardo L.; Pisanello, Ferruccio (noviembre de 2019). "Fotometría de fibra resuelta en profundidad con un único implante de fibra óptica cónico". Métodos de la naturaleza . 16 (11): 1185-1192. doi :10.1038/s41592-019-0581-x. ISSN  1548-7091. PMID  31591577. S2CID  203848191.
  26. ^ Garg, Mayank; Vishwakarma, Neelam; Sharma, Amit L.; Singh, Suman (8 de julio de 2021). "Puntos cuánticos de grafeno funcionalizado con amina para inmunodetección de ferritina basada en fluorescencia". Nanomateriales aplicados ACS . 4 (7): 7416–7425. doi :10.1021/acsanm.1c01398. ISSN  2574-0970. S2CID  237804893.

Otras lecturas

enlaces externos