La hipótesis de la prominencia de V1 , o V1SH (pronunciada 'vish'), es una teoría [1] [2] sobre V1, la corteza visual primaria (V1) . Propone que la V1 en los primates crea un mapa de prominencia del campo visual para guiar la atención visual o los cambios de mirada de forma exógena.
V1SH es la única teoría hasta el momento que no solo le otorga a V1 una función cognitiva muy importante, sino que también ha proporcionado múltiples predicciones teóricas no triviales que se han confirmado experimentalmente posteriormente. [2] [3] Según V1SH, V1 crea un mapa de saliencia a partir de las entradas de la retina para guiar la atención visual o los cambios de mirada. [1] Anatómicamente, V1 es la puerta por la que las entradas visuales de la retina ingresan al neocórtex y también es el área cortical más grande dedicada a la visión. En la década de 1960, David Hubel y Torsten Wiesel descubrieron que las neuronas V1 se activan mediante pequeños parches de imagen que son lo suficientemente grandes como para representar una barra pequeña [4] pero no un rostro discernible. Este trabajo condujo a un premio Nobel, [5] y desde entonces se ha visto que V1 simplemente cumple una función administrativa (de procesamiento de imágenes) para el procesamiento cognitivo posterior en el cerebro más allá de V1. Sin embargo, el progreso de la investigación para comprender el procesamiento posterior ha sido mucho más difícil o más lento de lo esperado (por ejemplo, Hubel y Wiesel [6] ). Fuera de los esquemas de las visiones tradicionales, V1SH está catalizando un cambio de marco [7] para permitir nuevos avances en la comprensión de la visión.
Ver
para saber dónde se encuentra la corteza visual primaria en el cerebro y en relación con los ojos.
V1SH afirma que V1 transforma las entradas visuales en un mapa de prominencia del campo visual para guiar la atención visual o la dirección de la mirada. [2] [1] Los humanos son esencialmente ciegos a las entradas visuales fuera de su ventana de atención. Por lo tanto, la atención controla la percepción y la conciencia visual , y las teorías de la atención visual son piedras angulares de las teorías de las funciones visuales en el cerebro.
Un mapa de prominencia se calcula, por definición, a partir de la información visual externa, en lugar de a partir de factores internos como las expectativas o los objetivos del animal (por ejemplo, leer un libro). Por lo tanto, se dice que un mapa de prominencia guía la atención de forma exógena, en lugar de endógena. En consecuencia, este mapa de prominencia también se denomina mapa de prominencia de abajo hacia arriba para guiar los cambios reflexivos o involuntarios de la atención. Por ejemplo, guía los cambios de nuestra mirada hacia un insecto que vuela en nuestro campo visual periférico cuando estamos leyendo un libro. Tenga en cuenta que este mapa de prominencia, que se construye mediante un cerebro biológico o natural, no es el mismo que el tipo de mapa de prominencia que se diseña en la visión artificial o por computadora, en parte porque los mapas de prominencia artificiales a menudo incluyen factores de orientación atencional que son de naturaleza endógena.
En este mapa de saliencia (biológico) del campo visual, cada ubicación visual tiene un valor de saliencia. Este valor se define como la fuerza de esta ubicación para atraer la atención de forma exógena. [2] Por lo tanto, si la ubicación A tiene un valor de saliencia más alto que la ubicación B, entonces es más probable que la ubicación A atraiga la atención visual o que la mirada se desvíe hacia ella que la ubicación B. En V1, cada neurona solo puede activarse mediante entradas visuales en una pequeña región del campo visual. Esta región se denomina campo receptivo de esta neurona y, por lo general, no cubre más que el tamaño de una moneda a la distancia de un brazo. [8] Las neuronas V1 vecinas tienen campos receptivos vecinos y superpuestos. [8] Por lo tanto, cada ubicación visual puede activar simultáneamente muchas neuronas V1. Según V1SH, la neurona más activada entre estas neuronas señala el valor de saliencia en esta ubicación mediante su actividad neuronal. [1] [2] La respuesta de una neurona V1 a las entradas visuales dentro de su campo receptivo también está influenciada por las entradas visuales fuera del campo receptivo. [9] Por lo tanto, el valor de prominencia en cada ubicación depende del contexto de entrada visual. [1] [2] Esto es como debería ser, ya que la prominencia depende del contexto. Por ejemplo, una barra vertical es prominente en una imagen en la que todos los demás elementos visuales que la rodean son barras horizontales, pero esta misma barra vertical no es prominente si estos otros elementos son todos barras verticales.
La figura anterior muestra un esquema de los mecanismos neuronales en V1 para generar el mapa de prominencia. En este ejemplo, la imagen retiniana tiene muchas barras violetas, todas orientadas uniformemente (inclinadas hacia la derecha) excepto una barra que está orientada de manera única (inclinada hacia la izquierda). Esta orientación única es la más prominente en esta imagen, por lo que atrae la atención o la mirada, como se observa en experimentos psicológicos. [10] En V1, muchas neuronas tienen sus orientaciones preferidas para las entradas visuales. [8] Por ejemplo, la respuesta de una neurona a una barra en su campo receptivo es mayor cuando esta barra está orientada en su orientación preferida. Análogamente, muchas neuronas V1 tienen sus colores preferidos. [8] En este esquema, cada barra de entrada a la retina activa dos (grupos de) neuronas V1, una que prefiere su orientación y la otra que prefiere su color. Las respuestas de las neuronas activadas por sus orientaciones preferidas en sus campos receptivos se visualizan en los esquemas mediante los puntos negros en el plano que representa las respuestas neuronales V1. De manera similar, las respuestas de las neuronas activadas por sus colores preferidos en sus campos receptivos se visualizan mediante los puntos morados. Los tamaños de los puntos visualizan las intensidades de las respuestas neuronales V1. En este ejemplo, la respuesta más grande proviene de las neuronas que prefieren y responden a la barra con orientación única. Esto se debe a la supresión de isoorientación: cuando dos neuronas V1 están cerca una de la otra y tienen las mismas orientaciones preferidas o similares, tienden a suprimir las actividades de la otra. [9] [11] Por lo tanto, entre el grupo de neuronas que prefieren y responden a las barras de fondo con orientación uniforme, cada neurona recibe supresión de isoorientación de otras neuronas de este grupo. [1] [9] Mientras tanto, la neurona que responde al singleton de orientación no pertenece a este grupo y, por lo tanto, escapa a esta supresión, [1] por lo que su respuesta es mayor que las otras respuestas neuronales. La supresión de isocolor [12] es análoga a la supresión de isoorientación, por lo que todas las neuronas que prefieren y responden a los colores púrpura de las barras de entrada están bajo la supresión de isocolor. Según V1SH, la respuesta máxima en la ubicación de cada barra representa el valor de prominencia en la ubicación de cada barra. [1] [2] Este valor de prominencia es, por lo tanto, más alto en la ubicación del singleton de orientación y está representado por la respuesta de las neuronas que prefieren y responden a la orientación de este singleton. Estos valores de prominencia se envían al colículo superior , [13] un área del mesencéfalo , para ejecutar cambios de mirada al campo receptivo de la neurona más activada que responde al espacio de entrada visual. [13]Por lo tanto, para esta imagen de entrada en la figura anterior, el singleton de orientación, que evoca la respuesta V1 más alta a esta imagen, atrae la atención visual o la mirada.
V1SH puede explicar datos sobre la búsqueda visual , como los tiempos de respuesta cortos para encontrar un elemento rojo único entre elementos verdes, o una barra vertical única entre barras horizontales, o un elemento que se mueve únicamente hacia la derecha entre elementos que se mueven hacia la izquierda. Este tipo de búsquedas visuales se denominan búsquedas de características, cuando el objetivo de búsqueda es único en un valor de característica básica como la orientación, el color o la dirección del movimiento. [10] [14] La brevedad del tiempo de respuesta de búsqueda manifiesta un valor de saliencia más alto en la ubicación del objetivo de búsqueda para atraer la atención. V1SH también explica por qué lleva más tiempo encontrar una barra vertical roja única entre barras horizontales rojas y barras verticales verdes. Este es un ejemplo de búsquedas de conjunción cuando el objetivo de búsqueda es único solo por la conjunción de dos características, cada una de las cuales está presente en la escena visual. [10]
Además, V1SH explica datos que son difíciles de explicar mediante marcos alternativos. [10] [15] La figura anterior ilustra un ejemplo: dos texturas vecinas en A, una hecha de barras inclinadas uniformemente hacia la izquierda y otra de barras inclinadas uniformemente hacia la derecha, son muy fáciles de segmentar entre sí por la visión humana. Esto se debe a que las barras de textura en el borde entre las dos texturas evocan las respuestas neuronales V1 más altas (ya que son menos suprimidas por la supresión de isoorientación), por lo tanto, las barras del borde son las más salientes en la imagen para atraer la atención hacia el borde. Sin embargo, la segmentación se vuelve mucho más difícil si la textura en B se superpone a la imagen original en A (el resultado se representa en C). Esto se debe a que, en ubicaciones de textura que no son bordes, las respuestas neuronales V1 a las barras horizontales y verticales (de B) son más altas que a las barras oblicuas (de A); estas respuestas más altas dictan y aumentan los valores de saliencia en estas ubicaciones que no son bordes, lo que hace que el borde ya no sea tan competitivo para la saliencia. [16]
V1SH fue propuesta a finales de los años 1990 [17] [18] por Li Zhaoping . Inicialmente no fue influyente ya que durante décadas se creyó que la guía atencional está esencialmente o solo controlada por áreas cerebrales de nivel superior. Estas áreas cerebrales de nivel superior incluyen el campo ocular frontal y las áreas corticales parietales [19] en la parte frontal y más anterior del cerebro, y se cree que son inteligentes para el control atencional y ejecutivo . Además, la corteza visual primaria, V1, ubicada en el lóbulo occipital en la parte posterior o posterior del cerebro, tradicionalmente se ha considerado como un área visual de bajo nivel que desempeña principalmente un papel de apoyo a otras áreas cerebrales para sus funciones visuales más importantes. [8] Las opiniones comenzaron a cambiar por una sorprendente pieza de datos de comportamiento: un elemento mostrado únicamente a un ojo --- un singleton ocular --- entre elementos de apariencia similar mostrados al otro ojo (por ejemplo, usando un par de anteojos para ver películas en 3D ) puede atraer la mirada o la atención automáticamente. [20] [21] En esta figura se ilustra un ejemplo. Aquí, se muestra al ojo derecho una imagen que contiene una sola letra "X", y al ojo izquierdo se le muestra otra imagen que contiene una serie de las mismas "X" y una letra "O". En tal situación, los observadores humanos normalmente perciben una imagen que se asemeja a una superposición de las dos imágenes monoculares, de modo que ven una serie de todas las "X" y la "O" única. La "X" que surge de la imagen del ojo derecho no parecerá distintiva. Sin embargo, incluso cuando están realizando una tarea para buscar (en su imagen percibida) la "O" única y perceptualmente distintiva lo más rápido posible, su mirada se desplaza automática o involuntariamente a la "X" que surge de la imagen del ojo derecho, a menudo antes de que su mirada se desplace a la "O". La atención por parte de un singleton ocular de este tipo se produce incluso cuando los observadores no logran adivinar si este singleton está presente (si estuviera ausente en esta figura de ejemplo, todas las "X" y la "O" única se mostrarían solo al ojo izquierdo). [20] Esta observación era contraintuitiva, [22] fue fácilmente reproducida por otros investigadores de la visión y fue predicha únicamente por V1SH. Dado que V1 es la única área cortical visual con neuronas sintonizadas con el ojo de origen de las entradas visuales, [4] esta observación respalda firmemente el papel de V1 en la orientación de la atención.
Se realizaron más experimentos para investigar más a fondo V1SH, [2] y surgieron datos de apoyo de imágenes cerebrales funcionales, [23] psicofísica visual, [24] [25] y de electrofisiología de monos [3] [26] [27 ] [28] (aunque vea algunos datos contradictorios [29] ). Desde entonces, V1SH se ha vuelto más popular. [30] [31] V1 ahora se considera una de las piedras angulares en la red de mecanismos de atención del cerebro, [32] [33] y su papel funcional en la guía de la atención visual está apareciendo en manuales [34] [35] y libros de texto. [36] [37] Zhaoping argumenta que si V1SH está en lo cierto, las ideas [38] [39] sobre cómo funciona el sistema visual y, en consecuencia, las preguntas que se deben hacer para la investigación futura de la visión, deberían cambiar fundamentalmente. [7]