stringtranslate.com

Selección de acciones

La selección de acciones es una forma de caracterizar el problema más básico de los sistemas inteligentes: qué hacer a continuación. En inteligencia artificial y ciencia cognitiva computacional , el "problema de selección de acciones" se asocia típicamente con agentes inteligentes y animats (sistemas artificiales que exhiben un comportamiento complejo en un entorno de agentes ). El término también se utiliza a veces en etología o comportamiento animal.

Un problema para comprender la selección de acciones es determinar el nivel de abstracción utilizado para especificar un "acto". En el nivel de abstracción más básico, un acto atómico podría ser cualquier cosa, desde contraer una célula muscular hasta provocar una guerra . Por lo general, para cualquier mecanismo de selección de acciones, el conjunto de acciones posibles está predefinido y es fijo.

La mayoría de los investigadores que trabajan en este campo imponen grandes exigencias a sus agentes:

Por estas razones, la selección de acciones no es trivial y atrae mucha investigación.

Características del problema de selección de acciones

El principal problema para la selección de acciones es la complejidad . Dado que todo cálculo requiere tiempo y espacio (en la memoria), los agentes no pueden considerar todas las opciones disponibles para ellos en cada instante del tiempo. En consecuencia, deben estar sesgados y restringir su búsqueda de alguna manera. Para la IA, la pregunta de la selección de acciones es cuál es la mejor manera de restringir esta búsqueda . Para la biología y la etología, la pregunta es ¿cómo limitan su búsqueda los distintos tipos de animales? ¿Todos los animales utilizan los mismos enfoques? ¿Por qué utilizan los que utilizan?

Una pregunta fundamental sobre la selección de acciones es si realmente es un problema para un agente o si es simplemente una descripción de una propiedad emergente del comportamiento de un agente inteligente. Sin embargo, si consideramos cómo vamos a construir un agente inteligente, entonces se hace evidente que debe haber algún mecanismo para la selección de acciones. Este mecanismo puede estar altamente distribuido (como en el caso de organismos distribuidos como colonias de insectos sociales o moho mucilaginoso ) o puede ser un módulo de propósito especial.

El mecanismo de selección de acciones (ASM) no solo determina las acciones del agente en términos de impacto en el mundo, sino que también dirige su atención perceptiva y actualiza su memoria . Estos tipos de acciones egocéntricas pueden, a su vez, resultar en la modificación de las capacidades conductuales básicas del agente, en particular porque la actualización de la memoria implica que es posible alguna forma de aprendizaje automático . Idealmente, la selección de acciones en sí también debería poder aprender y adaptarse, pero existen muchos problemas de complejidad combinatoria y manejabilidad computacional que pueden requerir restringir el espacio de búsqueda para el aprendizaje.

En IA, a veces a un ASM también se lo denomina arquitectura de agente o se lo considera una parte sustancial de una.

Mecanismos de IA

En general, los mecanismos de selección de acciones artificiales se pueden dividir en varias categorías: sistemas basados ​​en símbolos, a veces conocidos como planificación clásica, soluciones distribuidas y planificación reactiva o dinámica . Algunos enfoques no encajan perfectamente en ninguna de estas categorías. Otros se centran más en proporcionar modelos científicos que en un control práctico de IA; estos últimos se describen con más detalle en la siguiente sección.

Enfoques simbólicos

En los inicios de la historia de la inteligencia artificial , se suponía que la mejor manera de que un agente eligiera qué hacer a continuación sería calcular un plan probablemente óptimo y luego ejecutarlo. Esto condujo a la hipótesis del sistema de símbolos físicos , que sostiene que un agente físico que pueda manipular símbolos es necesario y suficiente para la inteligencia. Muchos agentes de software todavía utilizan este enfoque para la selección de acciones. Normalmente requiere describir todas las lecturas de los sensores, el mundo, todas las acciones y todos los objetivos de uno en alguna forma de lógica de predicados . Los críticos de este enfoque se quejan de que es demasiado lento para la planificación en tiempo real y que, a pesar de las pruebas, sigue siendo poco probable que produzca planes óptimos porque reducir las descripciones de la realidad a la lógica es un proceso propenso a errores.

La estrategia de satisfacción es una estrategia de toma de decisiones que intenta cumplir con los criterios de adecuación, en lugar de identificar una solución óptima. De hecho, una estrategia de satisfacción puede ser (casi) óptima si se tienen en cuenta en el cálculo de los resultados los costos del proceso de toma de decisiones en sí, como el costo de obtener información completa.

Arquitecturas basadas en objetivos : en estas arquitecturas simbólicas , el comportamiento del agente se describe normalmente mediante un conjunto de objetivos. Cada objetivo se puede lograr mediante un proceso o una actividad, que se describe mediante un plan preestablecido. El agente solo debe decidir qué proceso llevar a cabo para lograr un objetivo determinado. El plan se puede ampliar a subobjetivos, lo que hace que el proceso sea ligeramente recursivo. Técnicamente, más o menos, los planes explotan las reglas de condición. Estas arquitecturas son reactivas o híbridas. Los ejemplos clásicos de arquitecturas basadas en objetivos son los refinamientos implementables de la arquitectura de creencia-deseo-intención como JAM o IVE.

Enfoques distribuidos

A diferencia del enfoque simbólico, los sistemas distribuidos de selección de acciones en realidad no tienen una "caja" en el agente que decide la siguiente acción. Al menos en su forma idealizada, los sistemas distribuidos tienen muchos módulos que funcionan en paralelo y determinan la mejor acción en función de la experiencia local. En estos sistemas idealizados, se espera que surja de algún modo una coherencia general, posiblemente mediante un diseño cuidadoso de los componentes que interactúan. Este enfoque suele inspirarse en la investigación de redes neuronales artificiales . En la práctica, casi siempre hay algún sistema centralizado que determina qué módulo es "el más activo" o tiene más relevancia. Hay pruebas de que los cerebros biológicos reales también tienen sistemas de decisión ejecutiva que evalúan cuál de los sistemas en competencia merece más atención o, más propiamente, tiene desinhibidas sus acciones deseadas .

Enfoques de planificación dinámica

Debido a que los sistemas puramente distribuidos son difíciles de construir, muchos investigadores han recurrido al uso de planes explícitos codificados para determinar las prioridades de su sistema.

Los métodos de planificación dinámica o reactiva calculan solo una acción siguiente en cada instante en función del contexto actual y de los planes preestablecidos. A diferencia de los métodos de planificación clásicos, los enfoques reactivos o dinámicos no sufren una explosión combinatoria . Por otro lado, a veces se los considera demasiado rígidos para ser considerados IA fuerte , ya que los planes están codificados de antemano. Al mismo tiempo, la inteligencia natural puede ser rígida en algunos contextos, aunque es fluida y capaz de adaptarse en otros.

Algunos ejemplos de mecanismos de planificación dinámica incluyen:

En ocasiones, para intentar solucionar la inflexibilidad percibida de la planificación dinámica, se utilizan técnicas híbridas. En ellas, un sistema de planificación de IA más convencional busca nuevos planes cuando el agente tiene tiempo libre y actualiza la biblioteca de planes dinámicos cuando encuentra buenas soluciones. El aspecto importante de cualquier sistema de este tipo es que, cuando el agente necesita seleccionar una acción, existe alguna solución que se puede utilizar de inmediato (consulte el algoritmo Anytime ).

Otros

Teorías de selección de acciones en la naturaleza

Muchos modelos dinámicos de selección artificial de acciones se inspiraron originalmente en la investigación en etología . En particular, Konrad Lorenz y Nikolaas Tinbergen aportaron la idea de un mecanismo de liberación innato para explicar los comportamientos instintivos ( patrones de acción fijos ). Influenciado por las ideas de William McDougall , Lorenz desarrolló esto en un modelo "psicohidráulico" de la motivación del comportamiento. En etología, estas ideas fueron influyentes en la década de 1960, pero ahora se consideran obsoletas debido a su uso de una metáfora de flujo de energía ; el sistema nervioso y el control del comportamiento ahora se tratan normalmente como implicando la transmisión de información en lugar del flujo de energía. Los planes dinámicos y las redes neuronales son más similares a la transmisión de información, mientras que la activación propagada es más similar al control difuso de los sistemas emocionales / hormonales.

Stan Franklin ha propuesto que la selección de acciones es la perspectiva correcta para comprender el papel y la evolución de la mente . Véase su página sobre el paradigma de selección de acciones. Archivado el 9 de octubre de 2006 en Wayback Machine.

Modelos de IA de selección de acciones neuronales

Algunos investigadores crean modelos elaborados de selección de acciones neuronales. Véase, por ejemplo:

Transporte de electrones en neuronas catecolaminérgicas (CNET)

El locus coeruleus (LC) es una de las principales fuentes de noradrenalina en el cerebro y se ha asociado con la selección del procesamiento cognitivo , como la atención y las tareas conductuales. [3] [4] [5] [6] La pars compacta de la sustancia negra (SNc) es una de las principales fuentes de dopamina en el cerebro y se ha asociado con la selección de acciones, principalmente como parte de los ganglios basales . [7] [8] [9] [10] [11]  CNET es un mecanismo de señalización neuronal hipotético en el SNc y el LC (que son neuronas catecolaminérgicas), que podría ayudar con la selección de acciones al enrutar la energía entre las neuronas de cada grupo como parte de la selección de acciones, para ayudar a una o más neuronas de cada grupo a alcanzar el potencial de acción . [12] [13] Se propuso por primera vez en 2018 y se basa en una serie de parámetros físicos de esas neuronas, que se pueden dividir en tres componentes principales:

1) La ferritina y la neuromelanina están presentes en altas concentraciones en esas neuronas, pero en 2018 se desconocía si formaban estructuras capaces de transmitir electrones a distancias relativamente largas en la escala de micrones entre las neuronas más grandes, lo que no se había propuesto ni observado previamente. [14]  Esas estructuras también tendrían que proporcionar una función de enrutamiento o conmutación, que tampoco se había propuesto ni observado previamente. Posteriormente se obtuvo evidencia de la presencia de estructuras de ferritina y neuromelanina en esas neuronas y de su capacidad tanto para conducir electrones mediante tunelización secuencial como para enrutar/cambiar la ruta de las neuronas. [15] [16] [17]

2) ) Se sabía que los axones de las neuronas SNc grandes tenían amplios arboretos, pero se desconocía si la actividad postsináptica en las sinapsis de esos axones elevaría el potencial de membrana de esas neuronas lo suficiente como para hacer que los electrones se dirigieran a la neurona o neuronas con la mayor actividad postsináptica con el fin de seleccionar la acción. En ese momento, las explicaciones predominantes del propósito de esas neuronas eran que no mediaban la selección de la acción y solo eran moduladoras y no específicas. [18]  El profesor Pascal Kaeser de la Facultad de Medicina de Harvard obtuvo posteriormente evidencia de que las neuronas SNc grandes pueden ser temporal y espacialmente específicas y mediar la selección de la acción. [19]   Otra evidencia indica que los axones LC grandes tienen un comportamiento similar. [20] [21]

3) En 2018 se planteó la hipótesis de que existían varias fuentes de electrones o excitones para proporcionar la energía necesaria para el mecanismo, pero no se habían observado en ese momento. El profesor Doug Brash de Yale propuso al mismo tiempo que la escisión del dioxetano (que puede ocurrir durante el metabolismo somático de la dopamina por degradación de la melanina por quinonas) generaba electrones de estado triplete de alta energía, lo que podría proporcionar una fuente de electrones para el mecanismo CNET. [22] [23] [24]

Si bien se han obtenido pruebas de una serie de predicciones físicas de la hipótesis CNET, no se ha buscado evidencia de si la hipótesis en sí es correcta. Una forma de intentar determinar si el mecanismo CNET está presente en estas neuronas sería utilizar fluoróforos de puntos cuánticos y sondas ópticas para determinar si la tunelización de electrones asociada con la ferritina en las neuronas se está produciendo en asociación con acciones específicas. [6] [25] [26]

Véase también

Referencias

  1. ^ Samsonovich, AV "Atención en la arquitectura cognitiva ASMO". Arquitecturas cognitivas de inspiración biológica (2010): 98. Archivado el 6 de noviembre de 2022 en Wayback Machine.
  2. ^ Karen L. Myers. "PRS-CL: Un sistema de razonamiento procedimental". Centro de Inteligencia Artificial . SRI International . Consultado el 13 de junio de 2013 .
  3. ^ Sara, Susan J (diciembre de 2015). "Locus Coeruleus en el tiempo con la creación de recuerdos". Current Opinion in Neurobiology . 35 : 87–94. doi :10.1016/j.conb.2015.07.004. ISSN  0959-4388. PMID  26241632. S2CID  206952441.
  4. ^ Poe, Gina R.; Foote, Stephen; Eschenko, Oxana; Johansen, Joshua P.; Bouret, Sebastien; Aston-Jones, Gary; Harley, Carolyn W.; Manahan-Vaughan, Denise; Weinshenker, David; Valentino, Rita; Berridge, Craig; Chandler, Daniel J.; Waterhouse, Barry; Sara, Susan J. (17 de septiembre de 2020). "Locus coeruleus: una nueva mirada a la mancha azul". Nature Reviews Neuroscience . 21 (11): 644–659. doi :10.1038/s41583-020-0360-9. ISSN  1471-003X. PMC 8991985 . PMID  32943779. 
  5. ^ McBurney-Lin, Jim; Yang, Hongdian (4 de septiembre de 2022). "El locus coeruleus media la flexibilidad conductual". Cell Reports . 41 (4): 111534. bioRxiv 10.1101/2022.09.01.506286 . doi :10.1016/j.celrep.2022.111534. PMC 9662304 . PMID  36288712. S2CID  252187005 . Consultado el 13 de noviembre de 2022 .  
  6. ^ ab Feng, Jiesi; Zhang, Changmei; Lischinsky, Julieta; Jing, Miao; Zhou, Jingheng; Wang, Huan; Zhang, Yajun; Dong, Ao; Wu, Zhaofa (23 de octubre de 2018). "Un sensor fluorescente codificado genéticamente para la detección in vivo rápida y específica de norepinefrina". doi : 10.1101/449546 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  7. ^ Varazzani, C.; San-Galli, A.; Gilardeau, S.; Bouret, S. (20 de mayo de 2015). "Neuronas de noradrenalina y dopamina en el equilibrio entre recompensa y esfuerzo: una comparación electrofisiológica directa en monos que se comportan". Journal of Neuroscience . 35 (20): 7866–7877. doi : 10.1523/jneurosci.0454-15.2015 . ISSN  0270-6474. PMC 6795183 . PMID  25995472. S2CID  6531661. 
  8. ^ Fan, D.; Rossi, MA; Yin, HH (18 de abril de 2012). "Mecanismos de selección y sincronización de la acción en neuronas de la sustancia negra". Journal of Neuroscience . 32 (16): 5534–5548. doi :10.1523/jneurosci.5924-11.2012. ISSN  0270-6474. PMC 6703499 . PMID  22514315. 
  9. ^ Partanen, Juha; Achim, Kaia (6 de septiembre de 2022). "Comportamiento de activación neuronal: características funcionales, moleculares y de desarrollo de las neuronas en la pars reticulata de la sustancia negra". Frontiers in Neuroscience . 16 : 976209. doi : 10.3389/fnins.2022.976209 . ISSN  1662-453X. PMC 9485944 . PMID  36148148. 
  10. ^ Stephenson-Jones, Marcus; Samuelsson, Ebba; Ericsson, Jesper; Robertson, Brita; Grillner, Sten (julio de 2011). "Conservación evolutiva de los ganglios basales como mecanismo vertebrador común para la selección de acciones". Current Biology . 21 (13): 1081–1091. Bibcode :2011CBio...21.1081S. doi : 10.1016/j.cub.2011.05.001 . ISSN  0960-9822. PMID  21700460. S2CID  9327412.
  11. ^ Guatteo, Ezia; Cucchiaroni, María Letizia; Mercuri, Nicola B. (2009), "Control de la sustancia negra de los núcleos de los ganglios basales", Nacimiento, vida y muerte de las neuronas dopaminérgicas en la sustancia negra , no. 73, Viena: Springer Viena, págs. 91-101, doi :10.1007/978-3-211-92660-4_7, ISBN 978-3-211-92659-8, PMID  20411770 , consultado el 13 de noviembre de 2022
  12. ^ Rourk, Christopher John (septiembre de 2018). "Estructuras de matriz de "puntos cuánticos" de ferritina y neuromelanina en neuronas dopaminérgicas de la pars compacta de la sustancia negra y neuronas noradrenalinas del locus coeruleus". Biosystems . 171 : 48–58. Bibcode :2018BiSys.171...48R. doi : 10.1016/j.biosystems.2018.07.008 . ISSN  0303-2647. PMID  30048795. S2CID  51722018.
  13. ^ Rourk, Christopher J. (2020), "Transporte electrónico neuronal funcional", Límites cuánticos de la vida , Avances en química cuántica, vol. 82, Elsevier, págs. 25-111, doi :10.1016/bs.aiq.2020.08.001, ISBN 9780128226391, S2CID  229230562 , consultado el 13 de noviembre de 2022
  14. ^ Tribl, Florián; Asan, Ester; Arzberger, Thomas; Tatschner, Thomas; Langenfeld, Elmar; Meyer, Helmut E.; Bringmann, Gerhard; Riederer, Peter; Gerlach, Manfredo; Marcus, Katrin (agosto de 2009). "Identificación de L-ferritina en gránulos de neuromelanina de la sustancia negra humana". Proteómica molecular y celular . 8 (8): 1832–1838. doi : 10.1074/mcp.m900006-mcp200 . ISSN  1535-9476. PMC 2722774 . PMID  19318681. S2CID  23650245. 
  15. ^ Rourk, Christopher J. (mayo de 2019). "Indicación del transporte de electrones mecánico cuántico en el tejido de la sustancia negra humana a partir del análisis de microscopía de fuerza atómica conductiva". Biosystems . 179 : 30–38. Bibcode :2019BiSys.179...30R. doi :10.1016/j.biosystems.2019.02.003. ISSN  0303-2647. PMID  30826349. S2CID  73509918.
  16. ^ Rourk, Christopher; Huang, Yunbo; Chen, Minjing; Shen, Cai (16 de junio de 2021). "Indicación de transporte de electrones altamente correlacionado en estructuras de ferritina multicapa desordenadas". doi :10.31219/osf.io/7gqmt. S2CID  241118606 . Consultado el 13 de noviembre de 2022 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
  17. ^ Friedrich, I.; Reimann, K.; Jankuhn, S.; Kirilina, E.; Stieler, J.; Sonntag, M.; Meijer, J.; Weiskopf, N.; Reinert, T.; Arendt, T.; Morawski, M. (22 de marzo de 2021). "Mapeo cuantitativo de hierro específico de células en cortes cerebrales mediante inmuno-µPIXE en ancianos sanos y enfermedad de Parkinson". Acta Neuropathologica Communications . 9 (1): 47. doi : 10.1186/s40478-021-01145-2 . ISSN  2051-5960. PMC 7986300 . PMID  33752749. S2CID  232322739. 
  18. ^ Schultz, Wolfram (2 de febrero de 2016). "Funciones de recompensa de los ganglios basales". Journal of Neural Transmission . 123 (7): 679–693. doi : 10.1007/s00702-016-1510-0 . ISSN  0300-9564. PMC 5495848 . PMID  26838982. S2CID  3894133. 
  19. ^ Liu, Changliang; Goel, Pragya; Kaeser, Pascal S. (9 de abril de 2021). "Escalas espaciales y temporales de la transmisión de dopamina". Nature Reviews Neuroscience . 22 (6): 345–358. doi :10.1038/s41583-021-00455-7. ISSN  1471-003X. PMC 8220193 . PMID  33837376. 
  20. ^ Behl, Tapan; Kaur, Ishnoor; Sehgal, Aayush; Singh, Sukhbir; Makeen, Hafiz A.; Albratty, Mohammed; Alhazmi, Hassan A.; Bhatia, Saurabh; Bungau, Simona (julio de 2022). "El sistema locus coeruleus-noradrenalina: una mirada a la terapéutica del Alzheimer con lentes color de rosa". Biomedicina y farmacoterapia . 151 : 113179. doi : 10.1016/j.biopha.2022.113179 . ISSN  0753-3322. PMID  35676784. S2CID  249137521.
  21. ^ Breton-Provencher, Vincent; Drummond, Gabrielle T.; Sur, Mriganka (7 de junio de 2021). "Noradrenalina del locus coeruleus en el comportamiento aprendido: modularidad anatómica e integración espaciotemporal en objetivos". Frontiers in Neural Circuits . 15 : 638007. doi : 10.3389/fncir.2021.638007 . ISSN  1662-5110. PMC 8215268 . PMID  34163331. 
  22. ^ Brash, Douglas E.; Goncalves, Leticia CP; Bechara, Etelvino JH (junio de 2018). "Quimioexcitación y sus implicaciones para la enfermedad". Tendencias en medicina molecular . 24 (6): 527–541. doi :10.1016/j.molmed.2018.04.004. ISSN  1471-4914. PMC 5975183 . PMID  29751974. 
  23. ^ Sulzer, David; Cassidy, Clifford; Horga, Guillermo; Kang, Un Jung; Fahn, Stanley; Casella, Luigi; Pezzoli, Gianni; Langley, Jason; Hu, Xiaoping P.; Zucca, Fabio A.; Isaías, Ioannis U.; Zecca, Luigi (10 de abril de 2018). "Detección de neuromelanina mediante resonancia magnética (MRI) y su promesa como biomarcador de la enfermedad de Parkinson". npj Enfermedad de Parkinson . 4 (1): 11. doi :10.1038/s41531-018-0047-3. ISSN  2373-8057. PMC 5893576 . PMID  29644335. 
  24. ^ Premi, S.; Wallisch, S.; Mano, CM; Weiner, AB; Bacchiocchi, A.; Wakamatsu, K.; Bechara, EJH; Halaban, R.; Douki, T.; Brash, DE (19 de febrero de 2015). "La quimioexcitación de los derivados de la melanina induce fotoproductos de ADN mucho después de la exposición a rayos UV". Science . 347 (6224): 842–847. Bibcode :2015Sci...347..842P. doi :10.1126/science.1256022. ISSN  0036-8075. PMC 4432913 . PMID  25700512. 
  25. ^ Pisano, Filippo; Pisanello, Marco; Lee, Suk Joon; Lee, Jaeeon; Maglie, Emanuela; Baleña, Antonio; Sileo, Leonardo; Spagnolo, Bárbara; Bianco, Marco; Hyun, Minsuk; De Vittorio, Massimo; Sabatini, Bernardo L.; Pisanello, Ferruccio (noviembre de 2019). "Fotometría de fibra resuelta en profundidad con un único implante de fibra óptica cónico". Métodos de la naturaleza . 16 (11): 1185-1192. doi :10.1038/s41592-019-0581-x. ISSN  1548-7091. PMID  31591577. S2CID  203848191.
  26. ^ Garg, Mayank; Vishwakarma, Neelam; Sharma, Amit L.; Singh, Suman (8 de julio de 2021). "Puntos cuánticos de grafeno funcionalizados con amina para la inmunodetección de ferritina basada en fluorescencia". ACS Applied Nano Materials . 4 (7): 7416–7425. doi :10.1021/acsanm.1c01398. ISSN  2574-0970. S2CID  237804893.

Lectura adicional

Enlaces externos