stringtranslate.com

Hipótesis de saliencia V1

La hipótesis de la prominencia de V1 , o V1SH (pronunciada 'vish'), es una teoría [1] [2] sobre V1, la corteza visual primaria (V1) . Propone que la V1 en los primates crea un mapa de prominencia del campo visual para guiar la atención visual o los cambios de mirada de forma exógena.

Importancia

V1SH es la única teoría hasta el momento que no solo le otorga a V1 una función cognitiva muy importante, sino que también ha proporcionado múltiples predicciones teóricas no triviales que se han confirmado experimentalmente posteriormente. [2] [3] Según V1SH, V1 crea un mapa de saliencia a partir de las entradas de la retina para guiar la atención visual o los cambios de mirada. [1] Anatómicamente, V1 es la puerta por la que las entradas visuales de la retina ingresan al neocórtex y también es el área cortical más grande dedicada a la visión. En la década de 1960, David Hubel y Torsten Wiesel descubrieron que las neuronas V1 se activan mediante pequeños parches de imagen que son lo suficientemente grandes como para representar una barra pequeña [4] pero no un rostro discernible. Este trabajo condujo a un premio Nobel, [5] y desde entonces se ha visto que V1 simplemente cumple una función administrativa (de procesamiento de imágenes) para el procesamiento cognitivo posterior en el cerebro más allá de V1. Sin embargo, el progreso de la investigación para comprender el procesamiento posterior ha sido mucho más difícil o más lento de lo esperado (por ejemplo, Hubel y Wiesel [6] ). Fuera de los esquemas de las visiones tradicionales, V1SH está catalizando un cambio de marco [7] para permitir nuevos avances en la comprensión de la visión.

Ver

Corteza visual primaria
Corteza visual primaria

para saber dónde se encuentra la corteza visual primaria en el cerebro y en relación con los ojos.

V1SH afirma que V1 transforma las entradas visuales en un mapa de prominencia del campo visual para guiar la atención visual o la dirección de la mirada. [2] [1] Los humanos son esencialmente ciegos a las entradas visuales fuera de su ventana de atención. Por lo tanto, la atención controla la percepción y la conciencia visual , y las teorías de la atención visual son piedras angulares de las teorías de las funciones visuales en el cerebro.

Un mapa de prominencia se calcula, por definición, a partir de la información visual externa, en lugar de a partir de factores internos como las expectativas o los objetivos del animal (por ejemplo, leer un libro). Por lo tanto, se dice que un mapa de prominencia guía la atención de forma exógena, en lugar de endógena. En consecuencia, este mapa de prominencia también se denomina mapa de prominencia de abajo hacia arriba para guiar los cambios reflexivos o involuntarios de la atención. Por ejemplo, guía los cambios de nuestra mirada hacia un insecto que vuela en nuestro campo visual periférico cuando estamos leyendo un libro. Tenga en cuenta que este mapa de prominencia, que se construye mediante un cerebro biológico o natural, no es el mismo que el tipo de mapa de prominencia que se diseña en la visión artificial o por computadora, en parte porque los mapas de prominencia artificiales a menudo incluyen factores de orientación atencional que son de naturaleza endógena.

En este mapa de saliencia (biológico) del campo visual, cada ubicación visual tiene un valor de saliencia. Este valor se define como la fuerza de esta ubicación para atraer la atención de forma exógena. [2] Por lo tanto, si la ubicación A tiene un valor de saliencia más alto que la ubicación B, entonces es más probable que la ubicación A atraiga la atención visual o que la mirada se desvíe hacia ella que la ubicación B. En V1, cada neurona solo puede activarse mediante entradas visuales en una pequeña región del campo visual. Esta región se denomina campo receptivo de esta neurona y, por lo general, no cubre más que el tamaño de una moneda a la distancia de un brazo. [8] Las neuronas V1 vecinas tienen campos receptivos vecinos y superpuestos. [8] Por lo tanto, cada ubicación visual puede activar simultáneamente muchas neuronas V1. Según V1SH, la neurona más activada entre estas neuronas señala el valor de saliencia en esta ubicación mediante su actividad neuronal. [1] [2] La respuesta de una neurona V1 a las entradas visuales dentro de su campo receptivo también está influenciada por las entradas visuales fuera del campo receptivo. [9] Por lo tanto, el valor de prominencia en cada ubicación depende del contexto de entrada visual. [1] [2] Esto es como debería ser, ya que la prominencia depende del contexto. Por ejemplo, una barra vertical es prominente en una imagen en la que todos los demás elementos visuales que la rodean son barras horizontales, pero esta misma barra vertical no es prominente si estos otros elementos son todos barras verticales.

Mecanismos neuronales en V1 para generar el mapa de saliencia

Mapa de saliencia: representado por el mapa de respuestas neuronales V1 máximas a entradas visuales, una respuesta máxima por ubicación visual

La figura anterior muestra un esquema de los mecanismos neuronales en V1 para generar el mapa de prominencia. En este ejemplo, la imagen retiniana tiene muchas barras violetas, todas orientadas uniformemente (inclinadas hacia la derecha) excepto una barra que está orientada de manera única (inclinada hacia la izquierda). Esta orientación única es la más prominente en esta imagen, por lo que atrae la atención o la mirada, como se observa en experimentos psicológicos. [10] En V1, muchas neuronas tienen sus orientaciones preferidas para las entradas visuales. [8] Por ejemplo, la respuesta de una neurona a una barra en su campo receptivo es mayor cuando esta barra está orientada en su orientación preferida. Análogamente, muchas neuronas V1 tienen sus colores preferidos. [8] En este esquema, cada barra de entrada a la retina activa dos (grupos de) neuronas V1, una que prefiere su orientación y la otra que prefiere su color. Las respuestas de las neuronas activadas por sus orientaciones preferidas en sus campos receptivos se visualizan en los esquemas mediante los puntos negros en el plano que representa las respuestas neuronales V1. De manera similar, las respuestas de las neuronas activadas por sus colores preferidos en sus campos receptivos se visualizan mediante los puntos morados. Los tamaños de los puntos visualizan las intensidades de las respuestas neuronales V1. En este ejemplo, la respuesta más grande proviene de las neuronas que prefieren y responden a la barra con orientación única. Esto se debe a la supresión de isoorientación: cuando dos neuronas V1 están cerca una de la otra y tienen las mismas orientaciones preferidas o similares, tienden a suprimir las actividades de la otra. [9] [11] Por lo tanto, entre el grupo de neuronas que prefieren y responden a las barras de fondo con orientación uniforme, cada neurona recibe supresión de isoorientación de otras neuronas de este grupo. [1] [9] Mientras tanto, la neurona que responde al singleton de orientación no pertenece a este grupo y, por lo tanto, escapa a esta supresión, [1] por lo que su respuesta es mayor que las otras respuestas neuronales. La supresión de isocolor [12] es análoga a la supresión de isoorientación, por lo que todas las neuronas que prefieren y responden a los colores púrpura de las barras de entrada están bajo la supresión de isocolor. Según V1SH, la respuesta máxima en la ubicación de cada barra representa el valor de prominencia en la ubicación de cada barra. [1] [2] Este valor de prominencia es, por lo tanto, más alto en la ubicación del singleton de orientación y está representado por la respuesta de las neuronas que prefieren y responden a la orientación de este singleton. Estos valores de prominencia se envían al colículo superior , [13] un área del mesencéfalo , para ejecutar cambios de mirada al campo receptivo de la neurona más activada que responde al espacio de entrada visual. [13]Por lo tanto, para esta imagen de entrada en la figura anterior, el singleton de orientación, que evoca la respuesta V1 más alta a esta imagen, atrae la atención visual o la mirada.

V1SH explica los datos de comportamiento en la búsqueda/segmentación visual

V1SH puede explicar datos sobre la búsqueda visual , como los tiempos de respuesta cortos para encontrar un elemento rojo único entre elementos verdes, o una barra vertical única entre barras horizontales, o un elemento que se mueve únicamente hacia la derecha entre elementos que se mueven hacia la izquierda. Este tipo de búsquedas visuales se denominan búsquedas de características, cuando el objetivo de búsqueda es único en un valor de característica básica como la orientación, el color o la dirección del movimiento. [10] [14] La brevedad del tiempo de respuesta de búsqueda manifiesta un valor de saliencia más alto en la ubicación del objetivo de búsqueda para atraer la atención. V1SH también explica por qué lleva más tiempo encontrar una barra vertical roja única entre barras horizontales rojas y barras verticales verdes. Este es un ejemplo de búsquedas de conjunción cuando el objetivo de búsqueda es único solo por la conjunción de dos características, cada una de las cuales está presente en la escena visual. [10]

Enmascaramiento de un borde saliente entre dos texturas añadiendo una textura uniforme
Enmascaramiento de un borde saliente entre dos texturas añadiendo una textura uniforme

Además, V1SH explica datos que son difíciles de explicar mediante marcos alternativos. [10] [15] La figura anterior ilustra un ejemplo: dos texturas vecinas en A, una hecha de barras inclinadas uniformemente hacia la izquierda y otra de barras inclinadas uniformemente hacia la derecha, son muy fáciles de segmentar entre sí por la visión humana. Esto se debe a que las barras de textura en el borde entre las dos texturas evocan las respuestas neuronales V1 más altas (ya que son menos suprimidas por la supresión de isoorientación), por lo tanto, las barras del borde son las más salientes en la imagen para atraer la atención hacia el borde. Sin embargo, la segmentación se vuelve mucho más difícil si la textura en B se superpone a la imagen original en A (el resultado se representa en C). Esto se debe a que, en ubicaciones de textura que no son bordes, las respuestas neuronales V1 a las barras horizontales y verticales (de B) son más altas que a las barras oblicuas (de A); estas respuestas más altas dictan y aumentan los valores de saliencia en estas ubicaciones que no son bordes, lo que hace que el borde ya no sea tan competitivo para la saliencia. [16]

Impacto

Captura de la mirada por un único ojo
Captura de la mirada por un único ojo

V1SH fue propuesta a finales de los años 1990 [17] [18] por Li Zhaoping . Inicialmente no fue influyente ya que durante décadas se creyó que la guía atencional está esencialmente o solo controlada por áreas cerebrales de nivel superior. Estas áreas cerebrales de nivel superior incluyen el campo ocular frontal y las áreas corticales parietales [19] en la parte frontal y más anterior del cerebro, y se cree que son inteligentes para el control atencional y ejecutivo . Además, la corteza visual primaria, V1, ubicada en el lóbulo occipital en la parte posterior o posterior del cerebro, tradicionalmente se ha considerado como un área visual de bajo nivel que desempeña principalmente un papel de apoyo a otras áreas cerebrales para sus funciones visuales más importantes. [8] Las opiniones comenzaron a cambiar por una sorprendente pieza de datos de comportamiento: un elemento mostrado únicamente a un ojo --- un singleton ocular --- entre elementos de apariencia similar mostrados al otro ojo (por ejemplo, usando un par de anteojos para ver películas en 3D ) puede atraer la mirada o la atención automáticamente. [20] [21] En esta figura se ilustra un ejemplo. Aquí, se muestra al ojo derecho una imagen que contiene una sola letra "X", y al ojo izquierdo se le muestra otra imagen que contiene una serie de las mismas "X" y una letra "O". En tal situación, los observadores humanos normalmente perciben una imagen que se asemeja a una superposición de las dos imágenes monoculares, de modo que ven una serie de todas las "X" y la "O" única. La "X" que surge de la imagen del ojo derecho no parecerá distintiva. Sin embargo, incluso cuando están realizando una tarea para buscar (en su imagen percibida) la "O" única y perceptualmente distintiva lo más rápido posible, su mirada se desplaza automática o involuntariamente a la "X" que surge de la imagen del ojo derecho, a menudo antes de que su mirada se desplace a la "O". La atención por parte de un singleton ocular de este tipo se produce incluso cuando los observadores no logran adivinar si este singleton está presente (si estuviera ausente en esta figura de ejemplo, todas las "X" y la "O" única se mostrarían solo al ojo izquierdo). [20] Esta observación era contraintuitiva, [22] fue fácilmente reproducida por otros investigadores de la visión y fue predicha únicamente por V1SH. Dado que V1 es la única área cortical visual con neuronas sintonizadas con el ojo de origen de las entradas visuales, [4] esta observación respalda firmemente el papel de V1 en la orientación de la atención.

Se realizaron más experimentos para investigar más a fondo V1SH, [2] y surgieron datos de apoyo de imágenes cerebrales funcionales, [23] psicofísica visual, [24] [25] y de electrofisiología de monos [3] [26] [27 ] [28] (aunque vea algunos datos contradictorios [29] ). Desde entonces, V1SH se ha vuelto más popular. [30] [31] V1 ahora se considera una de las piedras angulares en la red de mecanismos de atención del cerebro, [32] [33] y su papel funcional en la guía de la atención visual está apareciendo en manuales [34] [35] y libros de texto. [36] [37] Zhaoping argumenta que si V1SH está en lo cierto, las ideas [38] [39] sobre cómo funciona el sistema visual y, en consecuencia, las preguntas que se deben hacer para la investigación futura de la visión, deberían cambiar fundamentalmente. [7]

Referencias

  1. ^ abcdefgh Li, Zhaoping (1 de enero de 2002). "Un mapa de prominencia en la corteza visual primaria". Tendencias en Ciencias Cognitivas . 6 (1): 9–16. doi :10.1016/S1364-6613(00)01817-9. ISSN  1364-6613. PMID  11849610. S2CID  13411369.
  2. ^ abcdefgh Zhaoping, Li (2014). La hipótesis V1: creación de un mapa de prominencia de abajo hacia arriba para la selección y segmentación preatentiva. Oxford University Press. ISBN 978-0-19-177250-4.
  3. ^ ab Yan, Yin; Zhaoping, Li; Li, Wu (9 de octubre de 2018). "Saliencia de abajo hacia arriba y aprendizaje de arriba hacia abajo en la corteza visual primaria de monos". Actas de la Academia Nacional de Ciencias . 115 (41): 10499–10504. Bibcode :2018PNAS..11510499Y. doi : 10.1073/pnas.1803854115 . ISSN  0027-8424. PMC 6187116 . PMID  30254154. 
  4. ^ ab Hubel, DH; Wiesel, TN (enero de 1962). "Campos receptivos, interacción binocular y arquitectura funcional en la corteza visual del gato". The Journal of Physiology . 160 (1): 106–154.2. doi :10.1113/jphysiol.1962.sp006837. ISSN  0022-3751. PMC 1359523 . PMID  14449617. 
  5. ^ "El Premio Nobel de Fisiología o Medicina 1981". NobelPrize.org . Consultado el 10 de octubre de 2021 .
  6. ^ Hubel, David; Wiesel, Torsten (26 de julio de 2012). "David Hubel y Torsten Wiesel". Neuron . 75 (2): 182–184. doi : 10.1016/j.neuron.2012.07.002 . ISSN  0896-6273. PMID  22841302. S2CID  12766897.
  7. ^ ab Zhaoping, Li (1 de octubre de 2019). "Un nuevo marco para comprender la visión desde la perspectiva de la corteza visual primaria". Current Opinion in Neurobiology . Neurociencia computacional. 58 : 1–10. doi :10.1016/j.conb.2019.06.001. ISSN  0959-4388. PMID  31271931. S2CID  195806018.
  8. ^ abcde «La corteza visual primaria por Matthew Schmolesky – Webvision» . Consultado el 5 de julio de 2020 .
  9. ^ abc Knierim, JJ; van Essen, DC (abril de 1992). "Respuestas neuronales a patrones de textura estática en el área V1 del mono macaco alerta". Journal of Neurophysiology . 67 (4): 961–980. doi :10.1152/jn.1992.67.4.961. ISSN  0022-3077. PMID  1588394.
  10. ^ abcd Treisman, Anne M.; Gelade, Garry (1980-01-01). "Una teoría de integración de características de la atención". Psicología cognitiva . 12 (1): 97–136. doi :10.1016/0010-0285(80)90005-5. ISSN  0010-0285. PMID  7351125. S2CID  353246.
  11. ^ Allman, J.; Miezin, F.; McGuinness, E. (1985). "Respuestas específicas a estímulos más allá del campo receptivo clásico: mecanismos neurofisiológicos para comparaciones locales-globales en neuronas visuales". Revisión anual de neurociencia . 8 : 407–430. doi :10.1146/annurev.ne.08.030185.002203. ISSN  0147-006X. PMID  3885829.
  12. ^ Wachtler, Thomas; Sejnowski, Terrence J.; Albright, Thomas D. (20 de febrero de 2003). "Representación de estímulos de color en la corteza visual primaria del macaco despierto". Neuron . 37 (4): 681–691. doi :10.1016/s0896-6273(03)00035-7. ISSN  0896-6273. PMC 2948212 . PMID  12597864. 
  13. ^ ab Schiller, Peter H. (1988), Held, Richard (ed.), "Colliculus, Superior", Sistema sensorial I: visión y sistemas visuales , Lecturas de la enciclopedia de neurociencia, Boston, MA: Birkhäuser, pág. 9, doi :10.1007/978-1-4899-6647-6_6, ISBN 978-1-4899-6647-6, consultado el 5 de julio de 2020
  14. ^ Wolfe, Jeremy. "Búsqueda visual". psycnet.apa.org . Consultado el 11 de julio de 2020 .
  15. ^ Itti, L.; Koch, C. (marzo de 2001). "Modelado computacional de la atención visual" (PDF) . Nature Reviews. Neurociencia . 2 (3): 194–203. doi :10.1038/35058500. ISSN  1471-003X. PMID  11256080. S2CID  2329233.
  16. ^ Zhaoping, Li; May, Keith A. (6 de abril de 2007). "Pruebas psicofísicas de la hipótesis de un mapa de prominencia de abajo a arriba en la corteza visual primaria". PLOS Computational Biology . 3 (4): e62. Bibcode :2007PLSCB...3...62Z. doi : 10.1371/journal.pcbi.0030062 . ISSN  1553-7358. PMC 1847698 . PMID  17411335. 
  17. ^ Li, Zhaoping (31 de agosto de 1999). "Influencias contextuales en V1 como base para la aparición de signos y la asimetría en la búsqueda visual". Actas de la Academia Nacional de Ciencias . 96 (18): 10530–10535. Bibcode :1999PNAS...9610530L. doi : 10.1073/pnas.96.18.10530 . ISSN  0027-8424. PMC 17923 . PMID  10468643. 
  18. ^ Li, Zhaoping (1998). "Dinámica cortical primaria para agrupamiento visual", como capítulo de libro en "Aspectos teóricos de la computación neuronal", Eds KM Wong, I. King y DY Yeung . Springer-verlag. págs. 155–164.
  19. ^ Desimone, Robert; Duncan, John (marzo de 1995). "Mecanismos neuronales de la atención visual selectiva" . Revista anual de neurociencia . 18 (1): 193–222. doi :10.1146/annurev.ne.18.030195.001205. ISSN  0147-006X. PMID  7605061.
  20. ^ ab Zhaoping, Li (1 de mayo de 2008). "Captación de atención por parte de neuronas individuales del ojo de origen incluso sin conciencia: un sello distintivo de un mapa de prominencia de abajo a arriba en la corteza visual primaria". Journal of Vision . 8 (5): 1.1–18. doi : 10.1167/8.5.1 . ISSN  1534-7362. PMID  18842072.
  21. ^ Zhaoping, Li (1 de febrero de 2012). "Captura de la mirada por singletons de origen ocular: interdependencia con la conciencia". Journal of Vision . 12 (2): 17. doi : 10.1167/12.2.17 . ISSN  1534-7362. PMID  22344346.
  22. ^ Zhaoping, Li (21 de agosto de 2014). "¿Somos demasiado "inteligentes" para entender cómo vemos?". OUPblog . Consultado el 11 de julio de 2020 .
  23. ^ Zhang, Xilin; Zhaoping, Li; Zhou, Tiangang; Fang, Fang (12 de enero de 2012). "Las actividades neuronales en V1 crean un mapa de prominencia de abajo hacia arriba". Neuron . 73 (1): 183–192. doi : 10.1016/j.neuron.2011.10.035 . ISSN  0896-6273. PMID  22243756. S2CID  9767861.
  24. ^ Koene, Ansgar R.; Zhaoping, Li (23 de mayo de 2007). "Interacciones específicas de características en la prominencia a partir de contrastes de características combinados: evidencia de un mapa de prominencia de abajo hacia arriba en V1" (PDF) . Journal of Vision . 7 (7): 6.1–14. doi : 10.1167/7.7.6 . ISSN  1534-7362. PMID  17685802.
  25. ^ Kennett, Matthew J.; Wallis, Guy (1 de julio de 2019). "El efecto de la cara en la multitud: detección de amenazas versus supresión de isocaracterísticas y facilitación colineal". Journal of Vision . 19 (7): 6. doi : 10.1167/19.7.6 . ISSN  1534-7362. PMID  31287860. S2CID  195871013.
  26. ^ Wagatsuma, Nobuhiko; Hidaka, Akinori; Tamura, Hiroshi (12 de enero de 2021). "Correspondencia entre las cortezas visuales de los monos y las capas de un modelo de mapa de saliencia basado en una red neuronal convolucional profunda para representaciones de imágenes naturales". eNeuro . 8 (1). doi :10.1523/ENEURO.0200-20.2020. ISSN  2373-2822. PMC 7890521 . PMID  33234544. 
  27. ^ Klink, P. Christiaan; Teeuwen, Rob RM; Lorteije, Jeannette AM; Roelfsema, Pieter R. (28 de febrero de 2023). "Inversión de la ventana emergente para una dimensión de característica distractora en la corteza visual de los monos". Actas de la Academia Nacional de Ciencias . 120 (9). doi :10.1073/pnas.2210839120. ISSN  0027-8424. PMC 9992771 . PMID  36812207. 
  28. ^ Westerberg, Jacob A.; Schall, Jeffrey D.; Woodman, Geoffrey F.; Maier, Alexander (26 de septiembre de 2023). "Selección atencional de retroalimentación en la corteza sensorial". Nature Communications . 14 (1): 5993. doi : 10.1038/s41467-023-41745-1 . ISSN  2041-1723. PMC 10522696 . 
  29. ^ White, Brian J.; Kan, Janis Y.; Levy, Ron; Itti, Laurent; Munoz, Douglas P. (29 de agosto de 2017). "El colículo superior codifica la prominencia visual antes que la corteza visual primaria". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 114 (35): 9451–9456. doi :10.1073/pnas.1701003114. ISSN  1091-6490. PMC 5584409 . PMID  28808026. 
  30. ^ "La percepción visual se encuentra con la neurociencia computacional | www.ecvp.uni-bremen.de". www.ecvp.uni-bremen.de . Consultado el 11 de julio de 2020 .
  31. ^ "CNS 2020". www.cnsorg.org . Consultado el 27 de junio de 2021 .
  32. ^ Bisley, James W.; Goldberg, Michael E. (junio de 2010). "Atención, intención y prioridad en el lóbulo parietal". Revista anual de neurociencia . 33 (1): 1–21. doi :10.1146/annurev-neuro-060909-152823. ISSN  0147-006X. PMC 3683564 . PMID  20192813. 
  33. ^ Shipp, Stewart (1 de mayo de 2004). "El circuito cerebral de la atención" . Tendencias en Ciencias Cognitivas . 8 (5): 223–230. doi :10.1016/j.tics.2004.03.004. ISSN  1364-6613. PMID  15120681. S2CID  459078.
  34. ^ Nobre, Anna C. (Kia); Kastner, Sabine, eds. (1 de enero de 2014). El manual de Oxford sobre la atención. Oxford University Press. doi :10.1093/oxfordhb/9780199675111.001.0001. ISBN 978-0-19-175301-5.
  35. ^ Wolfe, Jeremy M. (2018), "Búsqueda visual" , Manual de Stevens de psicología experimental y neurociencia cognitiva , Sociedad Estadounidense del Cáncer, págs. 1–55, doi :10.1002/9781119170174.epcn213, ISBN 978-1-119-17017-4, consultado el 24 de junio de 2021
  36. ^ "Atención visual y conciencia". Routledge & CRC Press . Consultado el 24 de junio de 2021 .
  37. ^ Zhaoping, Li (8 de mayo de 2014). Entender la visión: teoría, modelos y datos. Oxford, Nueva York: Oxford University Press. ISBN 978-0-19-956466-8.
  38. ^ "Webvision – La organización de la retina y el sistema visual" . Consultado el 5 de julio de 2020 .
  39. ^ Stone, James (14 de septiembre de 2012). Visión y cerebro. MIT Press. ISBN 9780262517737. Recuperado el 5 de julio de 2020 .