La percepción visual es la capacidad de interpretar el entorno circundante a través de la visión fotópica (visión diurna), la visión del color , la visión escotópica (visión nocturna) y la visión mesópica (visión crepuscular), utilizando la luz del espectro visible reflejada por los objetos del entorno. Esto es diferente de la agudeza visual , que se refiere a la claridad con la que una persona ve (por ejemplo, "visión 20/20"). Una persona puede tener problemas con el procesamiento perceptivo visual incluso si tiene una visión 20/20.
La percepción resultante también se conoce como visión , vista o vista (adjetivos visual , óptico y ocular , respectivamente). Los diversos componentes fisiológicos involucrados en la visión se conocen colectivamente como el sistema visual y son el foco de muchas investigaciones en lingüística , psicología , ciencia cognitiva , neurociencia y biología molecular , a las que colectivamente se hace referencia como ciencia de la visión .
En los seres humanos y en otros mamíferos, la luz entra en el ojo a través de la córnea y es enfocada por el cristalino sobre la retina , una membrana sensible a la luz situada en la parte posterior del ojo. La retina sirve como transductor para la conversión de la luz en señales neuronales . Esta transducción se consigue mediante células fotorreceptoras especializadas de la retina, también conocidas como bastones y conos, que detectan los fotones de luz y responden produciendo impulsos neuronales . Estas señales se transmiten por el nervio óptico , desde la retina hasta los ganglios centrales del cerebro . El núcleo geniculado lateral , que transmite la información a la corteza visual . Las señales procedentes de la retina también viajan directamente desde la retina hasta el colículo superior . [1]
El núcleo geniculado lateral envía señales a la corteza visual primaria , también llamada corteza estriada. La corteza extraestriada , también llamada corteza de asociación visual , es un conjunto de estructuras corticales que reciben información de la corteza estriada, así como entre sí. [2] Descripciones recientes de la corteza de asociación visual describen una división en dos vías funcionales, una ventral y una dorsal . Esta conjetura se conoce como la hipótesis de las dos corrientes .
En general, se cree que el sistema visual humano es sensible a la luz visible en el rango de longitudes de onda entre 370 y 730 nanómetros del espectro electromagnético . [3] Sin embargo, algunas investigaciones sugieren que los humanos pueden percibir la luz en longitudes de onda de hasta 340 nanómetros (UV-A), especialmente los jóvenes. [4] En condiciones óptimas, estos límites de la percepción humana pueden extenderse desde 310 nm ( UV ) hasta 1100 nm ( NIR ). [5] [6]
El principal problema de la percepción visual es que lo que la gente ve no es simplemente una traducción de los estímulos retinianos (es decir, la imagen en la retina), y que el cerebro altera la información básica captada. Por eso, las personas interesadas en la percepción han luchado durante mucho tiempo para explicar qué hace el procesamiento visual para crear lo que se ve realmente.
Hubo dos grandes escuelas griegas antiguas que proporcionaron una explicación primitiva de cómo funciona la visión.
La primera teoría de la visión fue la " teoría de la emisión ", que sostenía que la visión se produce cuando los rayos emanan de los ojos y son interceptados por los objetos visuales. Si un objeto se veía directamente, era por "medio de rayos" que salían de los ojos y caían de nuevo sobre el objeto. Sin embargo, una imagen refractada también se veía por "medio de rayos" que salían de los ojos, atravesaban el aire y, después de la refracción, caían sobre el objeto visible que se veía como resultado del movimiento de los rayos desde el ojo. Esta teoría fue defendida por los eruditos que eran seguidores de la Óptica de Euclides y la Óptica de Ptolomeo .
La segunda escuela defendía el enfoque denominado "intromisión", que considera que la visión proviene de algo que entra en los ojos y que representa al objeto. Con su principal propagador, Aristóteles ( De Sensu ), [7] y sus seguidores, [7] esta teoría parece tener algún contacto con las teorías modernas sobre lo que realmente es la visión, pero siguió siendo sólo una especulación carente de fundamento experimental. (En la Inglaterra del siglo XVIII, Isaac Newton , John Locke y otros, llevaron adelante la teoría de la visión por intromisión al insistir en que la visión implicaba un proceso en el que los rayos, compuestos de materia corpórea real, emanaban de los objetos vistos y entraban en la mente/sensorio del vidente a través de la abertura del ojo.) [8]
Ambas escuelas de pensamiento se basaban en el principio de que "lo similar sólo se conoce por lo similar", y, por lo tanto, en la idea de que el ojo estaba compuesto de un "fuego interno" que interactuaba con el "fuego externo" de la luz visible y hacía posible la visión. Platón hace esta afirmación en su diálogo Timeo (45b y 46b), al igual que Empédocles (como lo relata Aristóteles en su De Sensu , DK frag. B17). [7]
Alhazen (965 – c. 1040) llevó a cabo muchas investigaciones y experimentos sobre la percepción visual, amplió el trabajo de Ptolomeo sobre la visión binocular y comentó los trabajos anatómicos de Galeno. [9] [10] Fue la primera persona en explicar que la visión ocurre cuando la luz rebota en un objeto y luego se dirige a los ojos. [11]
Se cree que Leonardo da Vinci (1452-1519) fue el primero en reconocer las cualidades ópticas especiales del ojo. Escribió: "La función del ojo humano... fue descrita por un gran número de autores de una determinada manera. Pero yo descubrí que era completamente diferente". Su principal hallazgo experimental fue que sólo hay una visión clara y distinta en la línea de visión, la línea óptica que termina en la fóvea . Aunque no utilizó estas palabras literalmente, en realidad es el padre de la distinción moderna entre visión foveal y periférica . [12]
Isaac Newton (1642-1726/27) fue el primero en descubrir a través de la experimentación, al aislar colores individuales del espectro de luz que pasaba a través de un prisma , que el color percibido visualmente de los objetos aparecía debido al carácter de la luz que los objetos reflejaban, y que estos colores divididos no podían transformarse en ningún otro color, lo que era contrario a las expectativas científicas de la época. [3]
A Hermann von Helmholtz se le atribuye a menudo el primer estudio moderno de la percepción visual. Helmholtz examinó el ojo humano y concluyó que era incapaz de producir una imagen de alta calidad. La información insuficiente parecía hacer imposible la visión. Por lo tanto, concluyó que la visión solo podía ser el resultado de alguna forma de "inferencia inconsciente", término que acuñó en 1867. Propuso que el cerebro hacía suposiciones y conclusiones a partir de datos incompletos, basados en experiencias previas. [13]
La inferencia requiere experiencia previa del mundo.
Algunos ejemplos de suposiciones bien conocidas, basadas en la experiencia visual, son:
El estudio de las ilusiones visuales (casos en los que el proceso de inferencia sale mal) ha aportado mucha información sobre qué tipo de suposiciones hace el sistema visual.
Otro tipo de hipótesis de inferencia inconsciente (basada en probabilidades) ha sido recientemente revivida en los llamados estudios bayesianos de la percepción visual. [15] Los defensores de este enfoque consideran que el sistema visual realiza alguna forma de inferencia bayesiana para derivar una percepción a partir de datos sensoriales. Sin embargo, no está claro cómo los defensores de este punto de vista derivan, en principio, las probabilidades relevantes requeridas por la ecuación bayesiana. Los modelos basados en esta idea se han utilizado para describir varias funciones perceptivas visuales, como la percepción del movimiento , la percepción de la profundidad y la percepción de la figura y el fondo . [16] [17] La "teoría completamente empírica de la percepción" es un enfoque relacionado y más nuevo que racionaliza la percepción visual sin invocar explícitamente formalismos bayesianos. [ cita requerida ]
Los psicólogos de la Gestalt que trabajaron principalmente en las décadas de 1930 y 1940 plantearon muchas de las preguntas de investigación que estudian los científicos de la visión hoy en día. [18]
Las leyes de organización de la Gestalt han guiado el estudio de cómo las personas perciben los componentes visuales como patrones organizados o conjuntos, en lugar de muchas partes diferentes. "Gestalt" es una palabra alemana que se traduce parcialmente como "configuración o patrón" junto con "estructura total o emergente". Según esta teoría, hay ocho factores principales que determinan cómo el sistema visual agrupa automáticamente los elementos en patrones: proximidad, similitud, cierre, simetría, destino común (es decir, movimiento común), continuidad, así como buena gestalt (patrón que es regular, simple y ordenado) y experiencia pasada. [ cita requerida ]
Durante la década de 1960, el desarrollo técnico permitió el registro continuo del movimiento ocular durante la lectura, [19] al ver imágenes, [20] y, más tarde, en la resolución de problemas visuales, [21] y, cuando se pusieron a disposición las cámaras con auriculares, también durante la conducción. [22]
La imagen de la derecha muestra lo que puede ocurrir durante los dos primeros segundos de inspección visual. Mientras el fondo está desenfocado, lo que representa la visión periférica , el primer movimiento ocular se dirige a las botas del hombre (justo porque están muy cerca de la fijación inicial y tienen un contraste razonable). Los movimientos oculares cumplen la función de selección atencional , es decir, seleccionar una fracción de todas las entradas visuales para un procesamiento más profundo por parte del cerebro. [ cita requerida ]
Las siguientes fijaciones saltan de un rostro a otro. Incluso podrían permitir comparaciones entre rostros. [ cita requerida ]
Se puede concluir que el rostro icono es un icono de búsqueda muy atractivo dentro del campo de visión periférico. La visión foveal añade información detallada a la primera impresión periférica .
También se puede observar que existen diferentes tipos de movimientos oculares: movimientos oculares de fijación ( microsacadas , deriva ocular y temblor), movimientos de vergencia, movimientos sacádicos y movimientos de seguimiento. Las fijaciones son puntos comparativamente estáticos donde el ojo descansa. Sin embargo, el ojo nunca está completamente quieto y la posición de la mirada se desviará. Estas desviaciones se corrigen a su vez mediante microsacadas, movimientos oculares de fijación muy pequeños. Los movimientos de vergencia implican la cooperación de ambos ojos para permitir que una imagen caiga en la misma área de ambas retinas. Esto da como resultado una única imagen enfocada. Los movimientos sacádicos son el tipo de movimiento ocular que realiza saltos de una posición a otra y se utiliza para escanear rápidamente una escena/imagen en particular. Por último, el movimiento de seguimiento es un movimiento ocular suave y se utiliza para seguir objetos en movimiento. [23]
Hay evidencia considerable de que el reconocimiento de rostros y objetos se logra mediante sistemas distintos. Por ejemplo, los pacientes prosopagnosicos muestran déficits en el procesamiento de rostros, pero no de objetos, mientras que los pacientes agnósicos de objetos (más notablemente, el paciente CK ) muestran déficits en el procesamiento de objetos con un procesamiento de rostros respetado. [24] Conductualmente, se ha demostrado que los rostros, pero no los objetos, están sujetos a efectos de inversión, lo que lleva a la afirmación de que los rostros son "especiales". [24] [25] Además, el procesamiento de rostros y objetos recluta sistemas neuronales distintos. [26] Cabe destacar que algunos han argumentado que la aparente especialización del cerebro humano para el procesamiento de rostros no refleja una verdadera especificidad de dominio, sino más bien un proceso más general de discriminación a nivel experto dentro de una clase dada de estímulo, [27] aunque esta última afirmación es objeto de un debate sustancial . Utilizando fMRI y electrofisiología, Doris Tsao y colegas describieron regiones cerebrales y un mecanismo para el reconocimiento de rostros en monos macacos. [28]
La corteza inferotemporal tiene un papel clave en la tarea de reconocimiento y diferenciación de diferentes objetos. Un estudio del MIT muestra que subconjuntos de regiones de la corteza IT se encargan de diferentes objetos. [29] Al apagar selectivamente la actividad neuronal de muchas áreas pequeñas de la corteza, el animal se vuelve alternativamente incapaz de distinguir entre ciertos pares particulares de objetos. Esto muestra que la corteza IT está dividida en regiones que responden a diferentes y particulares características visuales. De manera similar, ciertas áreas y regiones particulares de la corteza están más involucradas en el reconocimiento de rostros que en el reconocimiento de otros objetos.
Algunos estudios tienden a mostrar que más que la imagen global uniforme, algunas características particulares y regiones de interés de los objetos son elementos clave cuando el cerebro necesita reconocer un objeto en una imagen. [30] [31] De esta manera, la visión humana es vulnerable a pequeños cambios particulares en la imagen, como la alteración de los bordes del objeto, la modificación de la textura o cualquier pequeño cambio en una región crucial de la imagen. [32]
Los estudios realizados a personas que han recuperado la vista tras una larga ceguera revelan que no necesariamente pueden reconocer objetos y rostros (a diferencia de los colores, el movimiento y las formas geométricas simples). Algunos plantean la hipótesis de que la ceguera durante la infancia impide que una parte del sistema visual necesaria para estas tareas de nivel superior se desarrolle adecuadamente. [33] La creencia general de que un período crítico dura hasta los 5 o 6 años fue cuestionada por un estudio de 2007 que descubrió que los pacientes mayores podrían mejorar estas habilidades con años de exposición. [34]
En la década de 1970, David Marr desarrolló una teoría de la visión de múltiples niveles, que analizaba el proceso de visión en diferentes niveles de abstracción. Para centrarse en la comprensión de problemas específicos en la visión, identificó tres niveles de análisis: el computacional , el algorítmico y el de implementación . Muchos científicos de la visión, incluido Tomaso Poggio , han adoptado estos niveles de análisis y los han empleado para caracterizar aún más la visión desde una perspectiva computacional. [35]
El nivel computacional aborda, con un alto nivel de abstracción, los problemas que el sistema visual debe resolver. El nivel algorítmico intenta identificar la estrategia que se puede utilizar para resolver estos problemas. Finalmente, el nivel de implementación intenta explicar cómo se materializan las soluciones a estos problemas en los circuitos neuronales.
Marr sugirió que es posible investigar la visión en cualquiera de estos niveles de forma independiente. Marr describió la visión como el proceso que va desde una matriz visual bidimensional (en la retina) hasta una descripción tridimensional del mundo como resultado. Sus etapas de la visión incluyen:
El boceto en 2 1 ⁄ 2 D de Marr supone que se construye un mapa de profundidad y que este mapa es la base de la percepción de la forma 3D . Sin embargo, tanto la percepción estereoscópica como la pictórica, así como la visión monocular, dejan en claro que la percepción de la forma 3D precede a la percepción de la profundidad de los puntos y no depende de ella. No está claro cómo se podría construir, en principio, un mapa de profundidad preliminar, ni cómo esto abordaría la cuestión de la organización o agrupación de la figura y el fondo. El papel de las restricciones de organización perceptual, pasadas por alto por Marr, en la producción de percepciones de forma 3D a partir de objetos 3D vistos con binoculares se ha demostrado empíricamente para el caso de objetos 3D de alambre, por ejemplo [37] [38] Para una discusión más detallada, véase Pizlo (2008). [39]
Un marco alternativo más reciente propone que la visión se compone en lugar de las siguientes tres etapas: codificación, selección y decodificación. [40] La codificación es muestrear y representar entradas visuales (p. ej., representar entradas visuales como actividades neuronales en la retina). La selección, o selección atencional , es seleccionar una fracción minúscula de la información de entrada para su posterior procesamiento, p. ej., desplazando la mirada hacia un objeto o una ubicación visual para procesar mejor las señales visuales en esa ubicación. La decodificación es inferir o reconocer las señales de entrada seleccionadas, p. ej., reconocer el objeto en el centro de la mirada como la cara de alguien. En este marco, [41] la selección atencional comienza en la corteza visual primaria a lo largo de la vía visual, y las restricciones atencionales imponen una dicotomía entre los campos visuales central y periférico para el reconocimiento o la decodificación visual.
La transducción es el proceso mediante el cual la energía de los estímulos ambientales se convierte en actividad neuronal. La retina contiene tres capas celulares diferentes: capa de fotorreceptores, capa de células bipolares y capa de células ganglionares. La capa de fotorreceptores donde ocurre la transducción es la más alejada del cristalino. Contiene fotorreceptores con diferentes sensibilidades llamados bastones y conos. Los conos son responsables de la percepción del color y son de tres tipos distintos etiquetados como rojo, verde y azul. Los bastones son responsables de la percepción de objetos con poca luz. [42] Los fotorreceptores contienen en su interior una sustancia química especial llamada fotopigmento, que está incrustada en la membrana de las láminas; un solo bastón humano contiene aproximadamente 10 millones de ellos. Las moléculas de fotopigmento constan de dos partes: una opsina (una proteína) y retinal (un lípido). [43] Hay 3 fotopigmentos específicos (cada uno con su propia sensibilidad de longitud de onda) que responden a lo largo del espectro de la luz visible. Cuando las longitudes de onda adecuadas (aquellas a las que es sensible el fotopigmento específico) llegan al fotorreceptor, el fotopigmento se divide en dos, lo que envía una señal a la capa de células bipolares, que a su vez envía una señal a las células ganglionares, cuyos axones forman el nervio óptico y transmiten la información al cerebro. Si falta un tipo particular de cono o es anormal, debido a una anomalía genética, se producirá una deficiencia en la visión del color , a veces llamada daltonismo. [44]
La transducción implica mensajes químicos enviados desde los fotorreceptores a las células bipolares y luego a las células ganglionares. Varios fotorreceptores pueden enviar su información a una célula ganglionar. Hay dos tipos de células ganglionares: rojas/verdes y amarillas/azules. Estas neuronas se activan constantemente, incluso cuando no están estimuladas. El cerebro interpreta diferentes colores (y con mucha información, una imagen) cuando se altera la velocidad de activación de estas neuronas. La luz roja estimula el cono rojo, que a su vez estimula la célula ganglionar roja/verde. Del mismo modo, la luz verde estimula el cono verde, que estimula la célula ganglionar verde/roja y la luz azul estimula el cono azul, que estimula la célula ganglionar azul/amarilla. La velocidad de activación de las células ganglionares aumenta cuando la señala un cono y disminuye (inhibe) cuando la señala el otro cono. El primer color en el nombre de la célula ganglionar es el color que la excita y el segundo es el color que la inhibe. es decir: un cono rojo excitaría la célula ganglionar roja/verde y el cono verde inhibiría la célula ganglionar roja/verde. Este es un proceso oponente . Si se aumenta la tasa de activación de una célula ganglionar roja/verde, el cerebro sabría que la luz es roja; si se disminuye la tasa, el cerebro sabría que el color de la luz es verde. [44]
Las teorías y observaciones de la percepción visual han sido la principal fuente de inspiración para la visión artificial (también llamada visión de máquina o visión computacional). Estructuras especiales de hardware y algoritmos de software proporcionan a las máquinas la capacidad de interpretar las imágenes que provienen de una cámara o un sensor.
Por ejemplo, el Toyota 86 2022 utiliza el sistema Subaru EyeSight para la tecnología de asistencia al conductor . [45]