La agudeza de nuestros sentidos se define por el detalle más fino que podemos discriminar. La agudeza visual se mide por las letras más pequeñas que se pueden distinguir en un gráfico y está regida por el espaciamiento anatómico del mosaico de elementos sensoriales en la retina. Sin embargo, las distinciones espaciales se pueden hacer a una escala aún más fina: la desalineación de los bordes se puede detectar con una precisión hasta diez veces mejor que la agudeza visual, como ya demostró Ewald Hering en 1899. [1] Esta hiperagudeza, que trasciende con creces los límites de tamaño establecidos por los "píxeles" de la retina, depende de un sofisticado procesamiento de la información en el cerebro.
El mejor ejemplo de la distinción entre agudeza e hiperagudeza proviene de la visión, por ejemplo, cuando se observan estrellas en el cielo nocturno. La primera etapa es la imagen óptica del mundo exterior en la retina. La luz incide en el mosaico de células sensoriales receptoras, bastones y conos, que cubre la superficie de la retina sin espacios ni superposiciones, al igual que los píxeles de detección en el plano de la película de las cámaras digitales. Cada receptor acepta toda la luz que le llega, pero actúa como una unidad, representando una única ubicación en el espacio visual. Esta compartimentación establece un límite a la decisión de si una imagen proviene de una estrella simple o doble (resolución). Para que surja una percepción de estrellas articuladas por separado, las imágenes de las dos deben estar lo suficientemente separadas como para dejar al menos un píxel intermedio relativamente sin estimular entre ellas. Esto define el límite de resolución y la base de la agudeza visual.
Un mecanismo muy diferente opera en la hiperagudeza, cuyo ejemplo por excelencia y para el cual se acuñó inicialmente la palabra, [2] [3] es la agudeza vernier : la alineación de dos bordes o líneas se puede juzgar con una precisión cinco o diez veces mejor que la agudeza. En gráficos de computadora, la frase " resolución de subpíxel " se usa a veces en discusiones sobre anti-aliasing y superresolución geométrica . Aunque lo que está en juego de hecho no es la resolución (¿es uno o dos? - una distinción cualitativa ) sino la localización (¿exactamente dónde? - un juicio cuantitativo ) captura el proceso. Cuando una imagen se extiende a lo largo de varios píxeles, cada uno con una respuesta de intensidad graduada pero solo un valor espacial único, la posición del centro de la imagen se puede ubicar con mayor exactitud que el ancho del píxel, de manera muy similar a como la media de un histograma se puede calcular con una fracción del ancho del bin.
En la figura de la derecha, el mosaico retiniano tiene superpuestas, en la parte superior, las imágenes de dos estrellas en el límite de resolución, cuando el espacio intermedio asegura la determinación de que hay dos estrellas y no una única estrella alargada. A continuación se muestran las imágenes de dos líneas cortas separadas; la precisión de la lectura de la diferencia de ubicación entre ellas trasciende la dimensión de los elementos del mosaico.
Aún quedan por descubrir los detalles del aparato neural que permite alcanzar la hiperagudeza. El hecho de que el aparato de hiperagudeza involucre señales de una variedad de células receptoras individuales, generalmente en más de una ubicación del espacio de estímulo, tiene implicaciones en relación con el desempeño en estas tareas. El bajo contraste, la proximidad de estímulos vecinos (amontonamiento) y la asincronía temporal de los componentes del patrón son ejemplos de factores que causan un desempeño reducido. [4] De cierto interés conceptual son los cambios relacionados con la edad [5] y la susceptibilidad al aprendizaje perceptivo [6], que pueden ayudar a comprender la canalización neural subyacente.
Se han propuesto dos algoritmos básicos para explicar la hiperagudeza visual de los mamíferos: el espacial, basado en las tasas de disparo de la población, y el temporal, basado en los retrasos temporales en la respuesta a los movimientos oculares en miniatura. Si bien ninguno de ellos obtuvo apoyo empírico hasta ahora, la plausibilidad del primero había sido cuestionada críticamente por la naturaleza discreta de la activación neuronal [7].
La óptica del ojo humano es extremadamente simple, el componente principal de la imagen es una lente de un solo elemento que puede cambiar su intensidad mediante control muscular. Solo hay una capacidad limitada para corregir muchas de las aberraciones que normalmente se corrigen en sistemas ópticos instrumentales de buena calidad. [8] Una lente tan simple debe tener inevitablemente una cantidad significativa de aberración esférica, que produce lóbulos secundarios en la función de dispersión. Sin embargo, se ha descubierto mediante experimentos que la luz que entra en la pupila fuera del eje es menos eficiente en la creación de una imagen (el efecto Stiles-Crawford ), que tiene el efecto de reducir sustancialmente estos lóbulos laterales no deseados. Además, los efectos de los límites de difracción pueden usarse, con cuidado, para compensar parcialmente las aberraciones.
Los receptores retinianos están situados físicamente detrás de una capa neuronal que lleva los elementos de procesamiento posretiniano. La luz no puede atravesar esta capa sin distorsionarse. De hecho, las mediciones de la función de transferencia de modulación (MTF) sugieren que las degradaciones de la MTF debidas a la difusión a través de esa capa neuronal son de un orden similar a las debidas a la óptica. Mediante la interacción de estos diferentes componentes se ha descubierto que la calidad óptica general, aunque deficiente en comparación con la óptica fotográfica, puede permanecer tolerablemente casi constante a través de un rango considerable de diámetros de pupila y niveles de luz.
En el caso de la información en color, las imperfecciones ópticas son especialmente grandes. La óptica presenta una aberración cromática residual no corregida de casi 2 dioptrías desde el extremo rojo hasta el extremo azul/violeta, principalmente en la región del verde al azul/violeta. Los oftalmólogos llevan muchas décadas utilizando este gran cambio de enfoque a través del espectro en el proceso de proporcionar gafas correctoras. Esto significa que dichas correcciones pueden ser tan sencillas como el propio cristalino.
Además, esta gran aberración cromática también se ha utilizado para obtener ventajas en la propia constitución del ojo. En lugar de tener los tres colores primarios (rojo, verde y azul) para manipular, la naturaleza ha utilizado este gran cambio cromático para proporcionar una función visual cortical que se basa en tres conjuntos de oponencia de color en lugar de tres colores primarios básicos. [9] Estos son rojo / verde, amarillo / azul y negro / blanco, siendo este negro / blanco sinónimo de brillo. Luego, al utilizar solo una oponencia de muy alta resolución entre los primarios rojo y verde, la naturaleza utiliza inteligentemente una media de estos dos colores (es decir, amarillo), junto con azul de muy baja resolución para crear una capacidad de lavado de color de fondo. A su vez (al utilizar la capacidad de hiperagudeza en la oponencia de baja resolución), esto también puede servir como fuente de percepción de profundidad 3D.
El ojo humano tiene una matriz de fotodetectores aproximadamente hexagonal. [10] Actualmente hay evidencia considerable de que este tipo de disposición matricial proporciona una eficiencia óptima de transferencia de información. Varios otros investigadores han considerado el uso de matrices hexagonales, pero luego parecen suscribirse a un enfoque matemático y ejes con una orientación diferencial de 60 grados. A su vez, esto debe hacer uso de números complejos. Overington y su equipo buscaron (y encontraron), en cambio, una forma de aproximarse a una matriz hexagonal, manteniendo al mismo tiempo una disposición cartesiana convencional para el procesamiento.
Aunque existen muchas y variadas interacciones espaciales evidentes en las redes neuronales tempranas del sistema visual humano, sólo unas pocas son de gran importancia en la detección de información de alta fidelidad. El resto se asocia predominantemente con procesos como la adaptación local. Por lo tanto, se ha descubierto que las interacciones más importantes son de alcance muy local, pero son las sutilezas del uso de estas interacciones las que parecen más importantes. Para las matrices hexagonales, un solo anillo de seis receptores que rodea un píxel direccionado es la disposición simétrica más simple. El hallazgo general de los estudios de campo receptivo de primates es que cualquier grupo local de este tipo no produce salida para una iluminación de entrada uniforme. Por lo tanto, esto es esencialmente similar a uno de los campos receptivos laplacianos clásicos para matrices cuadradas, con ponderaciones de -1 en cada lado y -0,5 en cada esquina. La única diferencia es una relación de aspecto de 8:7,07 (o aproximadamente 8:7 con un margen de error del 1%). Otra evidencia muy útil de los procesos que ocurren en su área proviene de los estudios de microscopía electrónica de Kolb [11]. Estos muestran claramente las estructuras neuronales que conducen a que las señales diferenciales se transmitan más lejos. Si se combina una función de dispersión de puntos que tiene una forma gaussiana y una desviación estándar de 1,3 "píxeles" con un solo operador de tipo laplaciano de anillo, el resultado es una función con propiedades muy similares a una función DOG como la que analiza Marr. [12]
En el procesamiento de imágenes por ordenador y en la ciencia visual se suele suponer que un proceso local de excitación/inhibición es en realidad un segundo proceso de diferenciación. Sin embargo, parece haber una sólida evidencia psicofísica de que las primeras diferencias son las que controlan el rendimiento visual humano. Es necesario que las partes positivas y negativas de todas las señales de salida de las neuronas de tipo laplaciano estén separadas para enviarlas a la corteza, ya que es imposible transmitir señales negativas. Esto significa que cada neurona de este tipo debe considerarse un conjunto de seis dipolos, de modo que cada inhibición circundante sólo puede cancelar su propia parte de la estimulación central. Esta separación de los componentes positivos y negativos es totalmente compatible con la fisiología de la retina y es una posible función del par conocido de canales bipolares enanos para cada receptor. [13]
La evidencia básica de la detección de orientación en la visión humana es que parece ser realizada (en el Área 17 de la corteza estriada) por bancos de neuronas en orientaciones bastante espaciadas. [14] Las neuronas medidas tienen campos receptivos elípticos característicos. [15] Sin embargo, tanto el intervalo real entre las orientaciones como la forma exacta y la relación de aspecto de los campos elípticos son cuestionables, pero al mismo tiempo dichos campos receptivos tienen que haberse combinado con los campos receptivos enanos de la retina. Una vez más, para las mediciones de sonda del rendimiento de "una sola neurona", el campo receptivo medido incluye los efectos de todas las etapas de procesamiento óptico y neuronal que se han realizado anteriormente.
En el caso de las unidades de orientación específica que operan sobre una matriz hexagonal, lo más lógico es que sus ejes primario y secundario se encuentren cada 30 grados de orientación. Esta separación de 30 grados de las orientaciones concuerda con el espaciamiento angular de dichas unidades que John Canny dedujo como deseable a partir de un enfoque matemático. [16] En ausencia de detalles específicos, parecía que un compromiso aproximado óptimo entre la eficiencia computacional y la simplicidad por un lado y un ajuste de orientación adecuado por el otro debería ser de una extensión de 5 x 1 píxeles. Esto nuevamente concuerda con lo sugerido independientemente por Canny y también observado en estudios de visión de primates por otros investigadores. Las unidades de campo receptivo tienen funciones de ajuste de orientación que guardan una semejanza satisfactoria con las funciones de ajuste de orientación establecidas para la visión mediante pruebas psicofísicas.
Existe la posibilidad de recombinar las funciones de diferencia parcial que llegan a la corteza de dos maneras. [17] Es posible considerar el análisis de un segundo mapa de diferencias, mediante la búsqueda de cruces por cero, que fue lo más popular hasta mediados de la década de 1980. Alternativamente, se pueden detectar picos locales en el primer mapa de diferencias, que se ha vuelto cada vez más popular desde entonces. Esto último depende entonces de encontrar la posición del pico de la imagen del borde mediante un análisis 3 x 1 y un ajuste de curva cuadrática. En cualquier caso, se ha demostrado que la posición del borde se puede ubicar con algo mejor que 0,1 píxeles debido a la amplia dispersión del borde debido a la mala imagen óptica, mientras que también se ha demostrado que, mediante una aritmética igualmente simple, la orientación local del borde se puede derivar con una precisión mejor que 1 grado. Además, la interacción de los datos de primera y segunda diferencia proporciona medios muy poderosos para analizar el movimiento, el estéreo, el color, la textura y otras propiedades de la escena.
La distinción entre el poder de resolución o agudeza, literalmente la nitidez, que depende del espaciamiento de los receptores individuales a través de los cuales se muestrea el mundo exterior, y la capacidad de identificar ubicaciones individuales en el espacio sensorial es universal entre las modalidades. Hay muchos otros ejemplos en los que el rendimiento del organismo supera sustancialmente el espaciamiento de la población de células receptoras en cuestión. El ser humano normal tiene solo tres tipos de receptores de color en la retina, pero en la visión del color , al sopesar y comparar sutilmente su salida relativa, se pueden detectar miles de tonos. La lectura en braille implica hiperagudeza entre los receptores táctiles en las yemas de los dedos. [18] Podemos escuchar muchos más tonos diferentes que células ciliadas hay en la cóclea ; la discriminación de tonos, sin la cual no se podría tocar un violín afinado, es una hiperagudeza. [19] La hiperagudeza se ha identificado en muchas especies animales, por ejemplo en la detección de presas por el pez eléctrico , [20] la ecolocalización en el murciélago, [21] y en la capacidad de los roedores para localizar objetos basándose en deformaciones mecánicas de sus bigotes. [22]
En las pruebas de visión clínica, [23] la hiperagudeza ocupa un lugar especial porque su procesamiento se produce en las interfaces de la óptica del ojo, las funciones retinianas, la activación de la corteza visual primaria y el aparato perceptivo. En particular, la determinación de la estereopsis normal es una tarea de hiperagudeza. La perimetría de hiperagudeza se utiliza en ensayos clínicos que evalúan terapias para cambios degenerativos de la retina. [24]